-
- 우사이먼 교수 (DASH) 교수 연구실, 인공지능 그랜드 챌린지 4차 대회 우승
- 데이터 기반 융합 보안 연구실(DASH LAB, 지도교수: 우사이먼성일, 인공지능학과 이한빈, 김정호, 김진범 석사과정, 소프트웨어학과 안재주 석사과정)은 과학기술정보통신부가 주최하고 정보통신기획평가원이 주관하는 2021 인공지능 그랜드 챌린지 4차 3단계 대회 Track 1(행동인지) 부문 1위를 수상하였다. 선발된 팀에게는 내년에 있을 최종 단계를 준비하기 위한 4억 7500만원 규모의 연구비가 지원된다. 인공지능 그랜드 챌린지’대회는 제시된 문제를 해결하기 위해 참가자들이 개발한 알고리즘을 가지고 실력을 겨루는 도전·경쟁형 연구개발(R&D) 경진대회이다. 이번 4차 3단계 대회는 ‘인공지능 기술을 활용하여 빠르고 정확하게 도움이 필요한 사람을 탐지하라’는 주제로 11월 12일부터 동월 14일까지 온라인으로 진행되었다. 특히, 본 대회에서는 제한된 컴퓨팅 파워에서 빠르고 정확하게 이상 행동을 보이는 사람을 탐지하는 것을 목표로 한다. 속도와 성능의 트레이드-오프를 극복하기 위해 본 연구실에서는 강력한 후처리 알고리즘을 사용하여 큰 모델로도 실시간 처리를 가능하도록 하였다. 더불어 최근 본 연구실에서 NeurIPS 2021 Datasets & Benchmarks Track에 발표한 VFP290K 데이터셋을 활용하여(VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection | OpenReview) 훈련된 모델은 챌린지에서도 뛰어난 성능을 보였다. 지난 해 개최된 1단계 및 2단계 대회에서도 각각 1위, 3위의 성적을 거둔 데 이어 금번 대회에서도 1위의 성적을 거둬 과학기술정보통신부 장관상을 수상하였다. 내년 11월에 개최될 최종 단계에서는 모든 트랙의 과제를 융합하여 더욱 난이도 높은 과제가 제시된다. 각 트랙 별 1위 수상 팀 간의 경쟁을 통해 인공지능 그랜드 챌린지의 최종 우승팀을 선발한다. 관련 기사: 'AI 그랜드 챌린지 시상식…장관상 10개팀에 총 47.5억 지원 :: 공감언론 뉴시스통신사 :: (newsis.com)
-
- 작성일 2021-12-14
- 조회수 2025
-
- 우사이먼 교수(DASH)연구실 AAAI2022 논문 게재 승인
- Data-driven AI Security HCI(DASH Lab) 연구실 학생 Binh M. L(석박과정연구원)과 우사이먼성일(교신저자)의 논문이 인공지능 최우수학회인 36th AAAI 2022(Acceptance Rate = 15%, BK IF= 4)에 최종 논문 게재가 승인되었고, 2022년 2월 캐나다 밴쿠버에서 발표될 예정입니다. "ADD: Frequency Attention and Multi-View based Knowledge Distillation to Detect Low-Quality Compressed Deepfake Images," Binh M. Le and Simon S. Woo, Thirty-Sixth AAAI Conference on Artificial Intelligence, Canada, 2022 본 연구에서는 저화질(Low Quality)로 압축된 딥페이크 영상을 탐지하는 새로운 방법을 제안하였습니다. Optimal Transportation, Frequency Domain learning, Knowledge Distillation 이론을 활용하여 고화질 이미지에 대해 사전 훈련된 교사 (Teacher) 모델을 활용하여 저화질로 압축된 이미지를 감지하도록 학생 모델을 학습합니다. 세부적으로, 본 논문에서는 저화질의 딥페이크 탐지 모델에 두 가지 새로운 방법을 제안하였습니다. 첫 번째로 고주파 정보의 손실과 압축된 이미지의 상관관계 손실 정보를 활용합니다. 고도로 압축된 딥페이크를 탐지하기 위한 지식 증류(Knowledge Distillation) 프레임워크에서 주파수 어텐션 증류 (Frequency attention distillation) 및 다양한 데이터 뷰(view) 에서의 증류를 탐구하는 새로운 어텐션 기반 딥페이크 탐지 증류 방법을 제안했습니다. 주파수 어텐션은 학생 모델이 교사 모델로부터 고주파수 구성 요소를 검색하고 더 집중할 수 있도록 도와주는 역할을 하며 학습을 더욱 효율적으로 진행할 수 있습니다. 두 번째로 Sliced Wasserstein Distance을 활용한 멀티 뷰 어텐션은 학생 모델의 출력과 텐서 분포를 교사 모델에 활용하며, 이는 멀티 뷰의 텐서 요소 간 관련된 픽셀 특징들을 유지하는 역할을 합니다. 개발한 모델의 효율성을 검증하기 위해 본 논문에서는 다양한 벤치마크 데이터셋을 사용하고, 이전의 많은 최신 탐지 모델과 비교하였으며, 그중 가장 높은 성능을 확보할 수 있었습니다.
-
- 작성일 2021-12-08
- 조회수 1480
-
- 2021년 인공지능 그랜드 챌린지 5차 대회 입상
- 소프트웨어학과 데이터 지능 및 학습 연구실(Data Intelligence and Learning Lab, 지도 교수: 이종욱)이 “2021년 인공지능 그랜드 챌린지 5차 2단계 대회”에 참가하여 최종 선발되었습니다. 대회는 정보통신기획평가원(IITP) 주최로 진행되었으며, 총 34개 팀(228명)이 참가하여 최종 3개의 팀이 선발되었습니다. 선발된 팀에게는 3단계 대회 준비를 위한 4억7500만 원(총 14억2500억 원) 규모의 연구비가 지원됩니다. “인공지능 그랜드 챌린지” 대회는 제시된 문제를 해결하기 위해 참가자들이 개발한 학습 모델을 활용하여 실력을 겨루는 도전·경쟁형 연구개발(연구·개발 R&D) 경진대회입니다. 이번 5차 2단계 대회는 ‘인공지능 기술을 활용하여 텍스트로 구성된 서술형 수학 문제의 풀이 과정과 해답을 제시하라’는 주제로 10월 27일부터 29일까지 진행되었습니다. 수학 문장형 문제(Math Word Problem, MWP)는 자연어로 구성된 서술형 수학 문제에 대해서 수식 또는 프로그래밍 형태의 풀이 과정과 해답을 제시하는 학습 모델을 개발하는 것을 목표로 합니다. 이를 위해 학습 모델이 자연어 문장을 잘 이해할 수 있어야 함과 동시에 수학 문제를 효과적으로 풀기 위한 수식을 효과적으로 생성 및 추론할 수 있어야 합니다. 나아가, 학습한 모델이 인간처럼 여러 도메인의 지식을 받아들이고 이를 기반으로 서술형 문제의 맥락을 파악하여 수식의 답을 도출해내야 하므로 고도화된 인공지능 기술의 집약체라고 할 수 있습니다. 본 연구실은 지난 6월에 진행되었던 1단계 대회에서도 효과적으로 자연어 형태의 수학 문제를 이해할 수 있는 학습 모델을 개발하여 우수한 성적으로 입상하였습니다. 2단계 대회에서는 좀 더 복잡한 수학 문제를 풀 수 있도록 1단계의 모델을 고도화 및 추가적인 데이터를 수집을 통해 성능을 개선하였습니다. 관련 기사: https://www.inews24.com/view/1418957
-
- 작성일 2021-11-23
- 조회수 1739
-
- 성균관대학교- 한국철도기술연구원, 철도 인공지능 융합연구 협력 추진
- 성균관대학교-한국철도기술연구원 철도 인공지능 융합연구 협력 추진 - 학·연간 철도/물류/대중교통 인공지능 융합연구에 대한 협력연구 환경 조성 성균관대학교(총장 신동렬)와 한국철도기술연구원(원장 한석윤)이 K-명품철도 기술을 위한 인공지능(AI) 기술 교류 업무협약을 11.17(수) 체결했다. 한국철도기술연구원(경기도 의왕시 소재)에서 열린 이번 협약식에는 신동렬 성균관대 총장과 한석윤 한국철도기술연구원 원장 등 주요 관계자들이 참석했다. 양 기관은 이번 협약을 바탕으로 철도‧물류‧대중교통 인공지능 융합연구에 대한 체계적이고 지속 가능한 협력연구 환경 조성하여, 4차 산업혁명에 따른 패러다임 전환에 능동적으로 대처하고 철도‧물류‧대중교통 기술경쟁력을 높이는 것은 물론, 지자체 및 기업 문제를 공동으로 해결하는 등 사회 및 산업 발전에 기여할 계획이다. 나아가 철도‧물류‧대중교통 인공지능 연구 활성화를 위한 융합연구 뿐만 아니라, 이를 위한 맞춤형 교육 프로그램 운영, 인공지능 플랫폼 공동 구축‧활용, 산학연 협업을 통한 미래 인재 양성에도 힘쓸 예정이다. 성균관대는 2019년 국내 대학 최초로 ‘AI 비전전략 선포식’을 개최하고 과학기술정보통신부 지원 국책 인공지능대학원 1차로 선정된 바 있으며, 인공지능대학원, 인공지능연구소, 인공지능교육원, S센터(AI 컴퓨팅 인프라) 등 4개 기관 신설과 더불어 인공지능 교육 및 연구 비전을 제시하는 등 세계 최고 수준의 글로벌 인공지능 R&E 선도대학으로 발돋움하고 있다. 한편, 한국철도기술연구원은 지능형 철도‧교통기술 개발을 위하여 전통 철도기술과 인공지능 기술의 융합을 쉽고 빠르고 편리하게 지원 가능한 철도 인공지능 지원 표준 플랫폼을 개발하고 있으며, 더불어 과학기술정보통신부의 교통분야 빅데이터 센터 운영 및 충북 오송에 위치한 철도종합시험선로의 디지털화를 추진하는 등 세계 최고 수준의 철도전문연구기관으로 나아가기 위한 인공지능 철도 통합 플랫폼 구축에 전력을 다하고 있다.
-
- 작성일 2021-11-18
- 조회수 1092
-
- 김유성 교수 연구실 2021 스펙트럼 챌린지 대회 1등 수상
- 한국전자통신연구원(ETRI) 은 다양한 신규 무선 서비스가 상호 공존할 수 있게 하는 전파이용 핵심기술 연구·개발을 목표로 스펙트럼 챌린지 대회를 개최하였다. 전파이용률 향상 기술 분야로 '다중 주파수 채널 공유 네트워크 환경에서 강화학습을 활용한 효율적인 통신 방식 찾기'라는 주제로 8 대학 팀이 경연을 펼쳤으며, 성균관대학교 정신기 박사과정 , 박정인 학석 연계과정, 김유성 교수로 구성된 CSI Lab. (Computer Systems and Intelligence Lab) 팀이 1등을 수상하였다. CSI Lab. 은 2020년 스펙트럼 챌린지에서도 1등을 수상하여, 2년 연속 1등이라는 쾌거를 달성하였다. 스펙트럼 챌린지 대회는 4차 산업혁명과 초연결사회 구성의 핵심 자원인 주파수의 세계적 이용 패러다임 변화에 적극적으로 대응하고, 전파자원 이용 한계를 극복할 수 있는 핵심 기술 개발의 선봉 임무를 수행할 수 있는 기반이 될 것이며, 스펙트럼 챌린지를 통해 발굴된 기술과 연구개발 지원은 미래 수요가 급증할 것으로 예상하는 6㎓ 대역의 신규 공급과 6㎓대역 이용촉진에도 크게 기여할 수 있을 것으로 예상된다. 1등 수상 팀에는 연구비 1억원이 주어진다. 기사 본문 https://www.news1.kr/articles/?4493568
-
- 작성일 2021-11-16
- 조회수 1109
-
- 우사이먼 교수(DASH) 연구실, CIKM 2021 국제학술대회 논문 1편 게재 승인 및 다수 인공지능 경진대회 수상(이광한 석박사통합과정 등)
- 1. Data-driven AI Security HCI 연구실(지도교수: 우사이먼성일)의 논문 1편이 인공지능 및 정보검색 분야의 최우수 국제 학술대회인 CIKM (Conference on Information and Knowledge Management) 2021에 최종 논문 게재가 승인되어 11월에 발표되었습니다. (Gwanghan Lee, Minha Kim, Minha Kim and Simon S. Woo, "EMGNet: Efficient Multi-Scale Feature Generation Adaptive Network.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021.) 본 연구에서는 효율적인 이미지 분류를 위한 새로운 Multi-Scale Feature Generation Adaptive Network를 제안합니다. 제안 모델은 auxiliary classifier의 위치에 따라 필요한 만큼의 multi-scale feature를 생성합니다. 이 과정에서 가중치를 공유하는 컨볼루션 필터를 사용하여 효율성을 개선시켰을 뿐만 아니라 shallow classifier의 성능을 개선시켜 더욱 많은 이미지를 효율적으로 예측할 수 있음을 보였습니다. 2. DASH Lab 소속 이광한 인공지능학과 석박통합과정이 SK그룹에서 주관하는 ‘SK와 함께하는 AI Challenge for Our Society’ 대회에서 1위를 차지했습니다. 본 대회는 CCTV영상 이미지 데이터를 준지도학습 기반으로 학습하는 객체탐지 (Semi-supervised Object Detection) 모델 구현을 통해 성능을 겨루는 대회로, 10월 12~27일까지 온라인으로 진행되었습니다. 3. DASH Lab 소속 이광한 인공지능학과 석박통합과정이 ㈜마인즈앤컴퍼니가 주관하는 ‘판교 AI Challenge’ 대회에서 1위를 차지했습니다. 본 대회는 CCTV영상을 입력으로 하여, 해당 영상의 위험행동을 분류하는 인공지능 모델 개발을 통해 성능을 겨루는 대회로, 10월 11~22일까지 온라인으로 진행되었습니다. 4. DASH Lab 소속 우사이먼성일 교수 연구실팀 (이광한 인공지능학과 석박통합과정)과 (이한빈 인공지능학과 석사과정 / 안재주 소프트웨어학과 석사과정 / 김정호 인공지능학과 석사과정)이 LG AI Research에서 주최하고 ㈜데이콘에서 주관하는 ‘카메라 이미지 품질을 향상시키는 AI 모델 개발’ 대회에서 각각 1위, 2위를 차지했습니다. 본 대회는 카메라로 사진을 찍을 때 생기는 빛 번짐 문제를 AI 기술로 해결하고자 하는 대회입니다. 5. DASH Lab 소속 우사이먼성일 교수 연구실팀 (이광한 인공지능학과 석박통합과정 / 김정호 인공지능학과 석사과정 / 김민하 소프트웨어학과 석사과정)이 한국지능정보사회진흥원(NIA)에서 주최하고 ㈜데이콘에서 운영하는 ‘2021 Ego-Vision 손동작 인식 AI 경진대회’ 대회에서 2위를 차지했습니다. 본 대회는 영상에서 추출한 이미지 학습데이터를 활용한 인공지능 기반의 손동작 인식 및 분류 모델 개발을 겨루는 대회입니다.
-
- 작성일 2021-11-10
- 조회수 2013
-
- 고영중 교수 자연어처리연구실, CIKM 2021 국제 학술대회 논문 4편 게재 승인
- 고영중 교수 자연어처리연구실, CIKM 2021 국제 학술대회 논문 4편 게재 승인 자연어처리연구실 김보성 연구원, 최혜원 석사과정, 손동철 석사과정, 유하은 석사과정(이상 소프트웨어학과), 김명준 석사과정(인공지능학과)의 논문 4편이 인공지능 및 정보검색 분야의 top-tier 국제 학술대회인 CIKM (Conference on Information and Knowledge Management) 2021에 최종 논문 게재가 승인되어 11월에 발표될 예정입니다. 1. Bosung Kim, Hyewon Choi, Haeun Yu and Youngjoong Ko, "Query Reformulation for Descriptive Queries of Jargon Words Using a Knowledge Graph based on a Dictionary.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 본 연구에서는 전문 용어 검색을 위해 사전을 활용한 그래프 기반 질의 변형 시스템을 제안합니다. 서술형 질의가 주어졌을 때, 제안 시스템은 표제어와 사전 설명의 쌍으로 구성된 그래프를 통해 이에 해당하는 전문 용어를 예측합니다. 이 과정에서 그래프 신경망과 고속 그래프 검색 모델을 활용하여 검색의 정확성과 효율성을 개선했습니다. 두 개의 데이터셋을 이용한 실험 결과, 제안 방법이 서술형 질의를 전문 용어로 효과적으로 재구성할 수 있을 뿐만 아니라 여러 프레임워크에서 검색 성능을 향상시킬 수 있음을 보였습니다. 2. Meoungjun Kim and Youngjoong Ko, "Self-supervised Fine-tuning for Efficient Passage Re-ranking.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 본 연구에서는 마스킹 언어 모델(MLM) 학습을 이용한 새로운 미세 조정 기법으로 문서 랭킹 성능을 개선했습니다. 제안 모델은 랭킹 성능을 올리는 동시에 적은 데이터를 효율적으로 활용하는 데이터 증강 효과를 보였습니다. 이러한 접근 방식은 고비용의 레이블 데이터에 의존하지 않는 자기주도 학습을 정보검색에 적용했다는 의의가 있습니다. 또한, BM25 알고리즘을 활용하여 문서를 구성하는 단어의 중요도를 계산, 학습에 반영했습니다. MS MARCO Re-ranking 리더보드 데이터셋으로 실험한 결과, 우리 모델은 단일 모델로서는 가장 높은 MRR@10 성능을 얻었습니다. 3. Dongcheol Son and Youngjoong Ko, "Self-Supervised Learning based on Sentiment Analysis with Word Weight Calculation.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 감정 분석 성능을 개선하기 위해서는 도메인 정보를 학습하는 것이 중요합니다. 하지만 이를 위해서는 고비용인 대규모 학습 데이터를 확보해야 합니다. 본 연구에서는 적은 양의 데이터를 이용해 도메인 정보를 효율적으로 학습하고 감정 분석 성능을 개선할 수 있는 새로운 학습 기법을 제안합니다. 우리는 감정 분석 과제에서 단어의 중요도를 계산하고 미세 조정 성능을 개선하기 위해 마스킹 언어 모델(MLM) 학습을 사용했습니다. 감정 분석 분야의 데이터셋 네 종류를 이용한 실험 결과, 제안 모델은 이전 결과를 모두 앞서는 성능을 보였습니다. 4. Hyewon Choi and Youngjoong Ko, "Using Topic Modeling and Adversarial Neural Networks for Fake News Video Detection.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 본 연구에서는 적대적 학습과 토픽 모델을 활용하여 유튜브의 가짜 뉴스 영상을 구별할 수 있는 탐지 시스템을 제안합니다. 제안 모델에서는 영상의 제목, 설명, 댓글을 이용하여 토픽 분포를 추론하고, 제목/설명과 댓글 간 분포가 어떻게 차이 나는지를 식별합니다. 또한, 영상의 주제를 판단하는데 도움이 되는 자질을 추출하기 위해 적대적 신경망을 학습시킵니다. 우리 모델은 자세 분석에서 주제의 변화를 효율적으로 탐지할 수 있으며, 다양한 주제에서 적용이 가능합니다. 연구 결과, 가짜 뉴스 영상 탐지 분야의 기존 연구보다 더 높은 F1 스코어 성능을 얻었습니다. 고영중 교수: yjko@skku.edu, 자연어처리연구실: nlp.skku.edu; nlplab.skku.edu
-
- 작성일 2021-10-26
- 조회수 1389
-
- 우사이먼 교수(DASH) 연구실 NeurIPS 2021 국제학술대회 논문 2편 게재 승인
- Data-driven AI Security HCI 연구실(지도교수: 우사이먼성일)의 논문 2편이 인공지능 및 기계학습 분야 최우수 학회인 Neural Information Processing System (NeurIPS) 2021 (BK CS IF=4)의 Datasets and Benchmarks Track 에 게재 승인되었습니다. 논문 #1: “VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection” (공동 1저자:인공지능학과 석사과정 김정호, 소프트웨어학과 석사과정 안재주, 그리고 인공지능학과 석사과정(이한빈, 김진범, 강준형), 소프트웨어학과 석사과정 김민하, 소프트웨어학과 학부과정(김민하, 홍동희, 신새별), 교신저자 우사이먼교수가 참여하였습니다. “VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection”에서는 쓰러진 사람을 이상 행동으로 정의하며, 이상 행동 탐지 모델 훈련에 필요한 대규모 데이터셋을 제안하였습니다. 기존 데이터셋의 문제점(특정 상황에 국한된 촬영, 단일 연기자 구성, 환경적 요소 제외, 적은 데이터 수량 등)을 해결하기 위해, 연구팀은 학교 근교를 포함한 길거리, 공원 및 건물 내부 등 49개의 장소에서 131장면을 실제 CCTV 환경을 재현하여 촬영하였습니다. 총 294,714장의 프레임으로 구성된 VFP290K 데이터셋은 광범위한 실험을 통해 기존 데이터셋 보다 데이터의 다양성과 일반화의 우수성을 증명하였으며, 2020년 진행된 인공지능 그랜드 챌린지 대회에서 1단계 1위 및 2단계 3위의 우수한 성적을 보임으로써, VFP290K 데이터셋의 유효성을 입증하였습니다. 논문 #1 요약 및 링크 VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection Jaeju An*, Jeongho Kim*, Hanbeen Lee, Jinbeom Kim, Junhyung Kang, Minha Kim, Saebyeol Shin, Minha Kim, Donghee Hong, Simon S. Woo Neural Information Processing System (NeurIPS) 2021 Datasets and Benchmarks Track 요약: Detection of fallen persons due to, for example, health problems, violence, or accidents, is a critical challenge. Accordingly, detection of these anomalous events is of paramount importance for a number of applications, including but not limited to CCTV surveillance, security, and health care. Given that many detection systems rely on a comprehensive dataset comprising fallen person images collected under diverse environments and in various situations is crucial. However, existing datasets are limited to only specific environmental conditions and lack diversity. To address the above challenges and help researchers develop more robust detection systems, we create a novel, large-scale dataset for the detection of fallen persons composed of fallen person images collected in various real-world scenarios, with the support of the South Korean government. Our Vision-based Fallen Person (VFP290K) dataset consists of 294,714 frames of fallen persons extracted from 178 videos, including 131 scenes in 49 locations. We empirically demonstrate the effectiveness of the features through extensive experiments analyzing the performance shift based on object detection models. In addition, we evaluate our VFP290K dataset with properly divided versions of our dataset by measuring the performance of fallen person detecting systems. We ranked first in the first round of the anomalous behavior recognition track of AI Grand Challenge 2020, South Korea, using our VFP290K dataset, which can be found here. Our achievement implies the usefulness of our dataset for research on fallen person detection, which can further extend to other applications, such as intelligent CCTV or monitoring systems. The data and more up-to-date information have been provided at our VFP290K site. 논문 #2: “FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset” (제1저자 Hasam Khalid, 박사과정 Shahroz Tariq, 석사과정 김민하, 교신저자 우사이먼 (이상 소프트웨어학과)) “FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset”에서는 딥페이크 비디오뿐만 아니라 립싱크 된 오디오를 포함하는 새로운 딥페이크 데이터셋을 제안하였습니다. 기존 딥페이크 데이터셋이 유니모달(Unimodal)에 근거한 단일 딥페이크 데이터셋이라는 한계를 해결하기 위해, 연구팀은 최근 가장 인기 있는 딥페이크 생성 방법과 오디오 생성 방법을 사용해 거의 완벽하게 립싱크 된 멀티모달(Multimodal) 딥페이크 데이터셋을 제작하였습니다. FakeAVCeleb은 인종적 편향성을 제거하기 위해 네 인종(백인, 흑인, 동부 아시아, 남부 아시아)의 비디오를 사용했습니다. 유니모달, 앙상블 추론 및 멀티모달 환경에서 다양한 최신 방법을 사용해 광범위한 실험을 진행했으며, 멀티모달 오디오-비디오 딥페이크 데이터셋의 유용성을 입증하였습니다. 논문 #2 링크 및 요약 FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo Neural Information Processing System (NeurIPS) 2021 Datasets and Benchmarks Track 요약: While significant advancements have been made in the generation of deepfakes using deep learning technologies, its misuse is a well-known issue now. Deepfakes can cause severe security and privacy issues as they can be used to impersonate a person's identity in a video by replacing his/her face with another person's face. Recently, a new problem of generating synthesized human voice of a person is emerging, where AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake audios and videos, a new generation of deepfake detectors is needed to focus on both video and audio collectively. A large amount of good quality datasets is typically required to capture the real-world scenarios to develop a competent deepfake detector. Existing deepfake datasets either contain deepfake videos or audios, which are racially biased as well. Hence, there is a crucial need for creating a good video as well as an audio deepfake dataset, which can be used to detect audio and video deepfake simultaneously. To fill this gap, we propose a novel Audio-Video Deepfake dataset (FakeAVCeleb) that contains not only deepfake videos but also respective synthesized lip-synced fake audios. We generate this dataset using the current most popular deepfake generation methods. We selected real YouTube videos of celebrities with four racial backgrounds (Caucasian, Black, East Asian, and South Asian) to develop a more realistic multimodal dataset that addresses racial bias, and further help develop multimodal deepfake detectors. We performed several experiments using state-of-the-art detection methods to evaluate our deepfake dataset and demonstrate the challenges and usefulness of our multimodal Audio-Video deepfake dataset. 위 논문들은 성균관대학교 인공지능학과와 소프트웨어학과 학생들의 협업과 노력으로 완성되었으며, 성균관대학 대학교에서 독자적으로 추진한 연구로 본교 인공지능학과/소프트웨어학과의 우수성을 입증하였습니다.
-
- 작성일 2021-10-21
- 조회수 1617
-
-
- 허재필 교수 연구실, ICCV 2021 국제학술대회 논문 2편 게재 승인 (노해찬 박사과정, 김태호 석박통합과정, 주원영 석사과정)
- 비주얼컴퓨팅연구실(지도교수: 허재필)의 논문 2편이 컴퓨터 비전 및 인공지능 분야의 Top-tier 학술대회인 IEEE/CVF International Conference on Computer Vision (ICCV) 2021 에 게재 승인되었습니다 논문 #1: “Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search” (인공지능학과 박사과정 노해찬 학우, 인공지능학과 석박통합과정 김태호 학우) 논문 #2: “Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation” (인공지능학과 석사과정 주원영 학우) “Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search” 에서는 대용량 데이터 베이스에 대한 최근접 이웃 근사(Nearest Neighbor Approximation) 기술에 사용되는 역색인 (Inverted Indexing) 구조의 새로운 학습 방법을 제시하였습니다. 기존의 기술들은 탐색 속도의 복잡도를 줄이기 위한 역색인 구조와 속도 및 메모리 사용량을 줄이기 위한 손실 압축 기법을 동시에 사용하지만 각각의 기법은 독립적으로 학습되었습니다. 본 연구에서는 이 두 가지 기법을 공동 최적화 (Joint Optimization)를 통해 압축 기법의 왜곡 (Distortion) 을 줄이는 학습 방법을 제안하여 대용량 데이터 베이스에 대한 최근접 이웃 근사 기술 분야에서 가장 높은 성능을 달성하였습니다. “Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation” 연구에서는 전이학습의 한 분야인 Zero-shot Domain Adaptation (ZSDA) 을 위한 새로운 프레임워크를 제시하였습니다. ZSDA는 타겟 도메인의 특정 클래스에 대한 데이터가 존재하지 않을 때, 다른 클래스들의 도메인 변화 (Domain Shift) 를 포착하여 도메인 적응을 시도하는 기술입니다. 제안하는 모델에서는 이미지에서 도메인 특징점과 의미론적 (Semantic) 특징점을 추출한 뒤, 두 특징점간의 협력적 학습과정 (Collaborative Learning) 을 통해 클래스를 예측하도록 설계하였습니다. 제안된 모델은 현재 ZSDA 분야에서 가장 높은 성능을 달성하였으며, 추후 Zero-shot Learning 및 도메인 적응 연구에 큰 도움이 될 것입니다. [논문 #1 정보] Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search Haechan Noh, Taeho Kim, and Jae-Pil Heo IEEE/CVF International Conference on Computer Vision (ICCV), 2021 Abstract: The inverted index is one of the most commonly used structures for non-exhaustive nearest neighbor search on large-scale datasets. It allows a significant factor of acceleration by a reduced number of distance computations with only a small fraction of the database. In particular, the inverted index enables the product quantization (PQ) to learn their codewords in the residual vector space. The quantization error of the PQ can be substantially improved in such combination since the residual vector space is much more quantization-friendly thanks to their compact distribution compared to the original data. In this paper, we first raise an unremarked but crucial question; why the inverted index and the product quantizer are optimized separately even though they are closely related? For instance, changes on the inverted index distort the whole residual vector space. To address the raised question, we suggest a joint optimization of the coarse and fine quantizers by substituting the original objective of the coarse quantizer to end-to-end quantization distortion. Moreover, our method is generic and applicable to different combinations of coarse and fine quantizers such as inverted multi-index and optimized PQ. [논문 #2 정보] Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation Won Young Jhoo, and Jae-Pil Heo IEEE/CVF International Conference on Computer Vision (ICCV), 2021 Abstract: Typical domain adaptation techniques aim to transfer the knowledge learned from a label-rich source domain to a label-scarce target domain in the same label space. However, it is often hard to get even the unlabeled target domain data of a task of interest. In such a case, we can capture the domain shift between the source domain and target domain from an unseen task and transfer it to the task of interest, which is known as zero-shot domain adaptation (ZSDA). Most of existing state-of-the-art methods for ZSDA attempted to generate target domain data. However, training such generative models causes significant computational overhead and is hardly optimized. In this paper, we propose a novel ZSDA method that learns a task-agnostic domain shift by collaborative training of domain-invariant semantic features and task-invariant domain features via adversarial learning. Meanwhile, the spatial attention map is learned from disentangled feature representations to selectively emphasize the domain-specific salient parts of the domain-invariant features. Experimental results show that our ZSDA method achieves state-of-the-art performance on several benchmarks.
-
- 작성일 2021-08-30
- 조회수 2573