-
- 고영중 교수 자연어처리연구실, CIKM 2021 국제 학술대회 논문 4편 게재 승인
- 고영중 교수 자연어처리연구실, CIKM 2021 국제 학술대회 논문 4편 게재 승인 자연어처리연구실 김보성 연구원, 최혜원 석사과정, 손동철 석사과정, 유하은 석사과정(이상 소프트웨어학과), 김명준 석사과정(인공지능학과)의 논문 4편이 인공지능 및 정보검색 분야의 top-tier 국제 학술대회인 CIKM (Conference on Information and Knowledge Management) 2021에 최종 논문 게재가 승인되어 11월에 발표될 예정입니다. 1. Bosung Kim, Hyewon Choi, Haeun Yu and Youngjoong Ko, "Query Reformulation for Descriptive Queries of Jargon Words Using a Knowledge Graph based on a Dictionary.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 본 연구에서는 전문 용어 검색을 위해 사전을 활용한 그래프 기반 질의 변형 시스템을 제안합니다. 서술형 질의가 주어졌을 때, 제안 시스템은 표제어와 사전 설명의 쌍으로 구성된 그래프를 통해 이에 해당하는 전문 용어를 예측합니다. 이 과정에서 그래프 신경망과 고속 그래프 검색 모델을 활용하여 검색의 정확성과 효율성을 개선했습니다. 두 개의 데이터셋을 이용한 실험 결과, 제안 방법이 서술형 질의를 전문 용어로 효과적으로 재구성할 수 있을 뿐만 아니라 여러 프레임워크에서 검색 성능을 향상시킬 수 있음을 보였습니다. 2. Meoungjun Kim and Youngjoong Ko, "Self-supervised Fine-tuning for Efficient Passage Re-ranking.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 본 연구에서는 마스킹 언어 모델(MLM) 학습을 이용한 새로운 미세 조정 기법으로 문서 랭킹 성능을 개선했습니다. 제안 모델은 랭킹 성능을 올리는 동시에 적은 데이터를 효율적으로 활용하는 데이터 증강 효과를 보였습니다. 이러한 접근 방식은 고비용의 레이블 데이터에 의존하지 않는 자기주도 학습을 정보검색에 적용했다는 의의가 있습니다. 또한, BM25 알고리즘을 활용하여 문서를 구성하는 단어의 중요도를 계산, 학습에 반영했습니다. MS MARCO Re-ranking 리더보드 데이터셋으로 실험한 결과, 우리 모델은 단일 모델로서는 가장 높은 MRR@10 성능을 얻었습니다. 3. Dongcheol Son and Youngjoong Ko, "Self-Supervised Learning based on Sentiment Analysis with Word Weight Calculation.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 감정 분석 성능을 개선하기 위해서는 도메인 정보를 학습하는 것이 중요합니다. 하지만 이를 위해서는 고비용인 대규모 학습 데이터를 확보해야 합니다. 본 연구에서는 적은 양의 데이터를 이용해 도메인 정보를 효율적으로 학습하고 감정 분석 성능을 개선할 수 있는 새로운 학습 기법을 제안합니다. 우리는 감정 분석 과제에서 단어의 중요도를 계산하고 미세 조정 성능을 개선하기 위해 마스킹 언어 모델(MLM) 학습을 사용했습니다. 감정 분석 분야의 데이터셋 네 종류를 이용한 실험 결과, 제안 모델은 이전 결과를 모두 앞서는 성능을 보였습니다. 4. Hyewon Choi and Youngjoong Ko, "Using Topic Modeling and Adversarial Neural Networks for Fake News Video Detection.", Proceedings of the 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), November 2021. 본 연구에서는 적대적 학습과 토픽 모델을 활용하여 유튜브의 가짜 뉴스 영상을 구별할 수 있는 탐지 시스템을 제안합니다. 제안 모델에서는 영상의 제목, 설명, 댓글을 이용하여 토픽 분포를 추론하고, 제목/설명과 댓글 간 분포가 어떻게 차이 나는지를 식별합니다. 또한, 영상의 주제를 판단하는데 도움이 되는 자질을 추출하기 위해 적대적 신경망을 학습시킵니다. 우리 모델은 자세 분석에서 주제의 변화를 효율적으로 탐지할 수 있으며, 다양한 주제에서 적용이 가능합니다. 연구 결과, 가짜 뉴스 영상 탐지 분야의 기존 연구보다 더 높은 F1 스코어 성능을 얻었습니다. 고영중 교수: yjko@skku.edu, 자연어처리연구실: nlp.skku.edu; nlplab.skku.edu
-
- 작성일 2021-10-26
- 조회수 1319
-
- 우사이먼 교수(DASH) 연구실 NeurIPS 2021 국제학술대회 논문 2편 게재 승인
- Data-driven AI Security HCI 연구실(지도교수: 우사이먼성일)의 논문 2편이 인공지능 및 기계학습 분야 최우수 학회인 Neural Information Processing System (NeurIPS) 2021 (BK CS IF=4)의 Datasets and Benchmarks Track 에 게재 승인되었습니다. 논문 #1: “VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection” (공동 1저자:인공지능학과 석사과정 김정호, 소프트웨어학과 석사과정 안재주, 그리고 인공지능학과 석사과정(이한빈, 김진범, 강준형), 소프트웨어학과 석사과정 김민하, 소프트웨어학과 학부과정(김민하, 홍동희, 신새별), 교신저자 우사이먼교수가 참여하였습니다. “VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection”에서는 쓰러진 사람을 이상 행동으로 정의하며, 이상 행동 탐지 모델 훈련에 필요한 대규모 데이터셋을 제안하였습니다. 기존 데이터셋의 문제점(특정 상황에 국한된 촬영, 단일 연기자 구성, 환경적 요소 제외, 적은 데이터 수량 등)을 해결하기 위해, 연구팀은 학교 근교를 포함한 길거리, 공원 및 건물 내부 등 49개의 장소에서 131장면을 실제 CCTV 환경을 재현하여 촬영하였습니다. 총 294,714장의 프레임으로 구성된 VFP290K 데이터셋은 광범위한 실험을 통해 기존 데이터셋 보다 데이터의 다양성과 일반화의 우수성을 증명하였으며, 2020년 진행된 인공지능 그랜드 챌린지 대회에서 1단계 1위 및 2단계 3위의 우수한 성적을 보임으로써, VFP290K 데이터셋의 유효성을 입증하였습니다. 논문 #1 요약 및 링크 VFP290K: A Large-Scale Benchmark Dataset for Vision-based Fallen Person Detection Jaeju An*, Jeongho Kim*, Hanbeen Lee, Jinbeom Kim, Junhyung Kang, Minha Kim, Saebyeol Shin, Minha Kim, Donghee Hong, Simon S. Woo Neural Information Processing System (NeurIPS) 2021 Datasets and Benchmarks Track 요약: Detection of fallen persons due to, for example, health problems, violence, or accidents, is a critical challenge. Accordingly, detection of these anomalous events is of paramount importance for a number of applications, including but not limited to CCTV surveillance, security, and health care. Given that many detection systems rely on a comprehensive dataset comprising fallen person images collected under diverse environments and in various situations is crucial. However, existing datasets are limited to only specific environmental conditions and lack diversity. To address the above challenges and help researchers develop more robust detection systems, we create a novel, large-scale dataset for the detection of fallen persons composed of fallen person images collected in various real-world scenarios, with the support of the South Korean government. Our Vision-based Fallen Person (VFP290K) dataset consists of 294,714 frames of fallen persons extracted from 178 videos, including 131 scenes in 49 locations. We empirically demonstrate the effectiveness of the features through extensive experiments analyzing the performance shift based on object detection models. In addition, we evaluate our VFP290K dataset with properly divided versions of our dataset by measuring the performance of fallen person detecting systems. We ranked first in the first round of the anomalous behavior recognition track of AI Grand Challenge 2020, South Korea, using our VFP290K dataset, which can be found here. Our achievement implies the usefulness of our dataset for research on fallen person detection, which can further extend to other applications, such as intelligent CCTV or monitoring systems. The data and more up-to-date information have been provided at our VFP290K site. 논문 #2: “FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset” (제1저자 Hasam Khalid, 박사과정 Shahroz Tariq, 석사과정 김민하, 교신저자 우사이먼 (이상 소프트웨어학과)) “FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset”에서는 딥페이크 비디오뿐만 아니라 립싱크 된 오디오를 포함하는 새로운 딥페이크 데이터셋을 제안하였습니다. 기존 딥페이크 데이터셋이 유니모달(Unimodal)에 근거한 단일 딥페이크 데이터셋이라는 한계를 해결하기 위해, 연구팀은 최근 가장 인기 있는 딥페이크 생성 방법과 오디오 생성 방법을 사용해 거의 완벽하게 립싱크 된 멀티모달(Multimodal) 딥페이크 데이터셋을 제작하였습니다. FakeAVCeleb은 인종적 편향성을 제거하기 위해 네 인종(백인, 흑인, 동부 아시아, 남부 아시아)의 비디오를 사용했습니다. 유니모달, 앙상블 추론 및 멀티모달 환경에서 다양한 최신 방법을 사용해 광범위한 실험을 진행했으며, 멀티모달 오디오-비디오 딥페이크 데이터셋의 유용성을 입증하였습니다. 논문 #2 링크 및 요약 FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset Hasam Khalid, Shahroz Tariq, Minha Kim, Simon S. Woo Neural Information Processing System (NeurIPS) 2021 Datasets and Benchmarks Track 요약: While significant advancements have been made in the generation of deepfakes using deep learning technologies, its misuse is a well-known issue now. Deepfakes can cause severe security and privacy issues as they can be used to impersonate a person's identity in a video by replacing his/her face with another person's face. Recently, a new problem of generating synthesized human voice of a person is emerging, where AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake audios and videos, a new generation of deepfake detectors is needed to focus on both video and audio collectively. A large amount of good quality datasets is typically required to capture the real-world scenarios to develop a competent deepfake detector. Existing deepfake datasets either contain deepfake videos or audios, which are racially biased as well. Hence, there is a crucial need for creating a good video as well as an audio deepfake dataset, which can be used to detect audio and video deepfake simultaneously. To fill this gap, we propose a novel Audio-Video Deepfake dataset (FakeAVCeleb) that contains not only deepfake videos but also respective synthesized lip-synced fake audios. We generate this dataset using the current most popular deepfake generation methods. We selected real YouTube videos of celebrities with four racial backgrounds (Caucasian, Black, East Asian, and South Asian) to develop a more realistic multimodal dataset that addresses racial bias, and further help develop multimodal deepfake detectors. We performed several experiments using state-of-the-art detection methods to evaluate our deepfake dataset and demonstrate the challenges and usefulness of our multimodal Audio-Video deepfake dataset. 위 논문들은 성균관대학교 인공지능학과와 소프트웨어학과 학생들의 협업과 노력으로 완성되었으며, 성균관대학 대학교에서 독자적으로 추진한 연구로 본교 인공지능학과/소프트웨어학과의 우수성을 입증하였습니다.
-
- 작성일 2021-10-21
- 조회수 1527
-
- 허재필 교수 연구실, ICCV 2021 국제학술대회 논문 2편 게재 승인 (노해찬 박사과정, 김태호 석박통합과정, 주원영 석사과정)
- 비주얼컴퓨팅연구실(지도교수: 허재필)의 논문 2편이 컴퓨터 비전 및 인공지능 분야의 Top-tier 학술대회인 IEEE/CVF International Conference on Computer Vision (ICCV) 2021 에 게재 승인되었습니다 논문 #1: “Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search” (인공지능학과 박사과정 노해찬 학우, 인공지능학과 석박통합과정 김태호 학우) 논문 #2: “Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation” (인공지능학과 석사과정 주원영 학우) “Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search” 에서는 대용량 데이터 베이스에 대한 최근접 이웃 근사(Nearest Neighbor Approximation) 기술에 사용되는 역색인 (Inverted Indexing) 구조의 새로운 학습 방법을 제시하였습니다. 기존의 기술들은 탐색 속도의 복잡도를 줄이기 위한 역색인 구조와 속도 및 메모리 사용량을 줄이기 위한 손실 압축 기법을 동시에 사용하지만 각각의 기법은 독립적으로 학습되었습니다. 본 연구에서는 이 두 가지 기법을 공동 최적화 (Joint Optimization)를 통해 압축 기법의 왜곡 (Distortion) 을 줄이는 학습 방법을 제안하여 대용량 데이터 베이스에 대한 최근접 이웃 근사 기술 분야에서 가장 높은 성능을 달성하였습니다. “Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation” 연구에서는 전이학습의 한 분야인 Zero-shot Domain Adaptation (ZSDA) 을 위한 새로운 프레임워크를 제시하였습니다. ZSDA는 타겟 도메인의 특정 클래스에 대한 데이터가 존재하지 않을 때, 다른 클래스들의 도메인 변화 (Domain Shift) 를 포착하여 도메인 적응을 시도하는 기술입니다. 제안하는 모델에서는 이미지에서 도메인 특징점과 의미론적 (Semantic) 특징점을 추출한 뒤, 두 특징점간의 협력적 학습과정 (Collaborative Learning) 을 통해 클래스를 예측하도록 설계하였습니다. 제안된 모델은 현재 ZSDA 분야에서 가장 높은 성능을 달성하였으며, 추후 Zero-shot Learning 및 도메인 적응 연구에 큰 도움이 될 것입니다. [논문 #1 정보] Product Quantizer Aware Inverted Index for Scalable Nearest Neighbor Search Haechan Noh, Taeho Kim, and Jae-Pil Heo IEEE/CVF International Conference on Computer Vision (ICCV), 2021 Abstract: The inverted index is one of the most commonly used structures for non-exhaustive nearest neighbor search on large-scale datasets. It allows a significant factor of acceleration by a reduced number of distance computations with only a small fraction of the database. In particular, the inverted index enables the product quantization (PQ) to learn their codewords in the residual vector space. The quantization error of the PQ can be substantially improved in such combination since the residual vector space is much more quantization-friendly thanks to their compact distribution compared to the original data. In this paper, we first raise an unremarked but crucial question; why the inverted index and the product quantizer are optimized separately even though they are closely related? For instance, changes on the inverted index distort the whole residual vector space. To address the raised question, we suggest a joint optimization of the coarse and fine quantizers by substituting the original objective of the coarse quantizer to end-to-end quantization distortion. Moreover, our method is generic and applicable to different combinations of coarse and fine quantizers such as inverted multi-index and optimized PQ. [논문 #2 정보] Collaborative Learning with Disentangled Features for Zero-shot Domain Adaptation Won Young Jhoo, and Jae-Pil Heo IEEE/CVF International Conference on Computer Vision (ICCV), 2021 Abstract: Typical domain adaptation techniques aim to transfer the knowledge learned from a label-rich source domain to a label-scarce target domain in the same label space. However, it is often hard to get even the unlabeled target domain data of a task of interest. In such a case, we can capture the domain shift between the source domain and target domain from an unseen task and transfer it to the task of interest, which is known as zero-shot domain adaptation (ZSDA). Most of existing state-of-the-art methods for ZSDA attempted to generate target domain data. However, training such generative models causes significant computational overhead and is hardly optimized. In this paper, we propose a novel ZSDA method that learns a task-agnostic domain shift by collaborative training of domain-invariant semantic features and task-invariant domain features via adversarial learning. Meanwhile, the spatial attention map is learned from disentangled feature representations to selectively emphasize the domain-specific salient parts of the domain-invariant features. Experimental results show that our ZSDA method achieves state-of-the-art performance on several benchmarks.
-
- 작성일 2021-08-30
- 조회수 2489
-
- 인공지능 그랜드 챌린지 5차대회 1단계 개최 결과 발표 (성균관대학교 3개 팀 최다 선정)
- 과학기술정보통신부는 '인공지능 그랜드 도전잇기(챌린지)' 5차 대회 1단계 결과를 6/30(수) 19시, 인공지능 그랜드 도전잇기 누리집을 통해 발표하였다. '인공지능 그랜드 도전잇기' 대회는 제시된 문제를 해결하기 위해 참가자들이 자발적으로 진행한 사전 연구를 바탕으로 실력을 겨루는 도전, 경쟁형 연구개발 R&D 경진대회이다. '인공지능 기술을 활용하여 주어진 수학 문제를 해결하라'는 주제로 진행되고 있는 인공지능 그랜드 도전잇기 5차대회는 문제의 이해와 수리적 사고에 기반 한 복합지능 기술 확보를 목표로 '22년까지 2년간 총 3단께로 진행되며, 1단계 대회는 '문자(텍스트)로 구성된 서술형 수학문제의 풀이과정과 해답을 제시하라!'라는 주제로 9개 유형, 7개 난이도에 걸쳐 총 1,047개의 수학문제가 출제되었다. 대회에는 총 75개팀 343명이 참가신청서를 제출하였으며, 그 결과 산업계 8개 팀, 학계 9개 팀, 연구계 1팀, 개인 2개 팀 등 20개 팀이 선발되었다. 선발된 20개 팀 중 성균관대학교의 3개 팀이 최다 선정되었다. 선발팀들에게는 보다 고난이도의 문제 해결을 위한 후속연구비가 팀별로 2억 3,750만원 이내로 지원되고, 참가팀 대상 기술워크숍을 통해 대회 선발팀들 간 문제 해결방안을 공유하고 논의할 수 있는 기회를 제공할 예정이다.
-
- 작성일 2021-07-08
- 조회수 2487
-
- 인공지능학과 이주상 교수 연구팀, 유전자 네트워크 활용한 암환자 맞춤의료 플랫폼 개발
- 인공지능학과 이주상 교수 연구팀, 유전자 네트워크 활용한 암환자 맞춤의료 플랫폼 개발 - 유전자 빅데이터를 합성치사 네트워크 관점에서 분석하여 환자에게 가장 적합한 치료법 제시 - 미국 국립암센터와 공동으로 임상시험 진행중 □ 암은 개개인의 편차가 심한 질병 중에 하나다. 그동안은 비슷한 종류의 암 환자에게는 유사한 치료법이 사용되었으나, 최근 유전자 및 임상 의료 데이터의 축적에 따라 환자의 빅데이터를 바탕으로 가장 적합한 치료법을 선택해 치료하는 암 환자 개인 맞춤형 의료가 대두되고 있다. □ 암은 돌연변이의 축적으로 발생하는 질병이기 때문에, 현재 개인 맞춤형 항암 치료는 유전체의 돌연변이에 집중되어 있다. 그러나 암 환자에게 일어나는 모든 돌연변이에 대해 항암제가 개발된 것이 아니기 때문에, 기존의 개인 맞춤형 항암 치료를 통해서 유익을 얻는 환자의 숫자는 기대에 못 미치는 편이다. □ 이에 성균관대학교(총장 신동렬) 의과대학/인공지능학과 이주상 교수 연구팀 (다음세대 의학연구실, 홈페이지: https://leejoosang.wixsite.com/ngml, 트위터: https://twitter.com/joo_sang_lee)은 미국 National Cancer Institute의 Eytan Ruppin 교수 연구팀과 함께 기존의 개인 맞춤형 의료를 획기적으로 개선할 수 있는 새로운 의료 플랫폼 셀렉트(SELECT)를 개발하였다. □ 이 플랫폼은 기존의 방식과 두 가지 면에서 차별된다. 첫째, 암세포에서는 유전체의 돌연변이뿐만 아니라 다양한 유전적인 변이가 나타나는데, 연구진은 최근의 임상 시험 결과들을 바탕으로 유전자 발현 패턴(transcriptomics)의 변화에 초점을 맞췄다. □ 둘째, 하나의 유전자는 세포 내에서 많은 다른 유전자들과 네트워크를 이루며 긴밀한 상호작용을 한다. 연구진은 이러한 유전자 상호작용 중에 암 치료와 직접적으로 연결되는, 암세포의 생존에 치명적인 영향을 끼치는 합성치사 상호작용(synthetic lethal interaction)을 선별하여 항암 맞춤 치료에 이용하고자 하였다. □ 현재 실험적인 방법으로 암 환자의 치료에 직접적인 도움을 줄 수 있는 유전자 네트워크를 밝혀내기는 쉽지 않다. 이 난제를 극복하고자 연구진은 빅데이터의 힘을 활용하였다. 대량의 암환자 유전자 및 임상 데이터를 분석하여 암치료에 유익한 합성치사 관계를 예측하는 알고리즘을 개발하였다. 이 알고리즘을 이용하면 개별 항암 치료제의 치료 효과를 예측할 수 있는 유전자 생체지표를 밝혀낼 수 있다. □ 이렇게 밝혀진 합성치사 유전자 생체지표는 기존의 맞춤 치료를 획기적으로 발전시킬 잠재력을 가진다. 먼저 항암제가 효과가 있을지를 치료하기 전에 환자의 유전자 데이터만 가지고 예측함으로써 불필요한 치료를 막을 수가 있고, 환자에게 가장 효율적인 치료를 제공할 수 있다. □ 이를 검증하기 위해 연구진은 세계 각국의 암센터에서 실시된 다양한 암종과 표적 치료제 및 면역 치료제를 아우르는 약 4,000 명 이상의 환자가 참여한 48개의 임상 시험 데이터를 분석하였다. 연구진이 발견한 유전자 네트워크는 80% 의 표적 및 면역 항암제에 대하여 환자의 반응률 및 생존율을 기존의 다른 어떤 생체지표보다 정확하게 예측할 수 있었다. □ 더 나아가 이 합성치사 생체지표는 암 환자에게 가장 적합한 치료법을 예측할 수 있는 가능성을 제시하고 있다. 유전자 발현 데이터를 바탕으로 최근 시행된 국제 공동 임상시험 데이터와 비교 분석한 결과, 기존의 접근법이 제공하는 것보다 2배가 넘는 환자에게 가장 효과적인 치료법을 제시할 수 있는 것으로 나타났다. □ 이 연구의 결과는 매우 고무적이며, 독립적인 임상 시험을 통해서 검증하는 단계가 남아있다. 연구진은 현재 미국 국립암센터(National Cancer Institute), 삼성서울병원(Samsung Medical Center) 등과 함께 이 연구에서 밝혀진 유전자 네트워크가 암 환자에게 개인 맞춤 치료를 제공함으로써 실질적으로 암 환자의 생존율을 높일 수 있는지를 확인하기 위한 임상 시험을 계획하고 있다. 이 임상 시험이 성공한다면 새로운 치료법을 기다리는 많은 암 환자와 의료진에게 희망을 제시할 수 있을 것으로 보인다. □ 이주상 교수는 “다양한 암종과 치료제에 대하여 단일 플랫폼을 바탕으로 상당한 예측력을 보이는 것이 SELECT의 힘입니다. 앞으로 대용량의 유전체 데이터와 발전된 인공지능 모델을 이용하여 암 정밀의학을 혁신해 나가는 것이 다음세대 의학연구실의 목표입니다.”라며 앞으로의 연구를 내다보고 있다. □ 이 연구는 일부 한국연구재단 의약학분야 기초연구사업의 중견연구 지원사업으로 수행되었으며, 연구 성과는 세계적인 학술지 ‘셀 (Cell)’에 2021년 4월 13일 온라인 게재되었다(https://www.cell.com/cell/fulltext/S0092-8674(21)00361-5). □ 논문명: Synthetic lethality mediated precision oncology via the tumor transcriptome □ 저자: 이주상 교수 (제1저자, 교신저자, 성균관대), 정영민 (공동저자, 성균관대), 김다솔 (공동저자, 성균관대), Eytan Ruppin (교신저자, 미국국립암센터). 연구자 이력사항 <이주상 교수, 제1저자, 교신저자> 1. 인적사항 ○ 소 속 : 성균관대학교 의과대학/인공지능학과 ○ 전 화 : 031-299-6107 (유선번호) ○ 이메일 : joosang.lee@skku.edu 2. 학력 ○ 2005 KAIST 물리학 학사 ○ 2012 Northwestern University 물리학 박사 3. 경력사항 ○ 2012 ~ 2014 Northwestern Physical-Sciences Oncology Center, Post Doc. ○ 2014 ~ 2018 University of Maryland, Research Associate ○ 2018 ~ 2019 National Cancer Institute, Staff Scientist 4. 전문분야 정보 : Artificial Intelligence and Data Science 5. 연구지원 정보 ○ 2019 ~ 2021 SMC-SKKU Future Research Fund ○ 2020 ~ 2021 Medical Research Center ○ 2020 ~ 2023 National Research Fund of Korea, Senior Research Project
-
- 작성일 2021-04-14
- 조회수 1987
-
- 허재필 교수 연구실, 현상익 석사과정, 김지환 박사과정 CVPR 2021 국제학술대회 논문 게재
- 비주얼컴퓨팅연구실(지도교수: 허재필)의 현상익 (인공지능학과 석사과정)와 김지환 (인공지능학과 박사과정)가 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2021에 “Self-Supervised Video GANs: Learning for Appearance Consistency and Motion Coherency” 논문을 게재하였습니다. CVPR는 컴퓨터 비전 및 인공지능 분야의 Top-tier 학술대회이며, 2021년에는 온라인으로 개최됩니다. 본 연구에서는 비디오를 생성하는 적대적신경망(Generative Adversarial Networks, GANs)의 성능 향상을 위한 자가학습(Self-Supervised Learning) 기술을 제시하였습니다. 비디오 컨텐츠를 영상의 모습(Appearance)과 움직임(Motion)의 조합으로 정의하고, 모습 및 움직임의 일관성을 가진 자연스러운 비디오 생성을 위해 각각의 성분에 대한 자가학습목표(Self-supervision Objective)를 모델링 하였습니다. 제안된 모델(SVGAN)은 현재 비디오 생성 분야에서 가장 높은 성능을 달성하였으며, 현재 이미지 생성에 집중되어 있는 GAN 연구가 비디오 도메인으로 확장될 수 있도록 하는 밑거름이 될 것입니다. [논문 정보] Self-Supervised Video GANs: Learning for Appearance Consistency and Motion Coherency Sangeek Hyun, Jihwan Kim, and Jae-Pil Heo IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021 Abstract: A video can be represented by the composition of appearance and motion. Appearance (or content) expresses the information invariant throughout time, and motion describes the time-variant movement. Here, we propose selfsupervised approaches for video Generative Adversarial Networks (GANs) to achieve the appearance consistency and motion coherency in videos. Specifically, the dual discriminators for image and video individually learn to solve their own pretext tasks; appearance contrastive learning and temporal structure puzzle. The proposed tasks enable the discriminators to learn representations of appearance and temporal context, and force the generator to synthesize videos with consistent appearance and natural flow of motions. Extensive experiments in facial expression and human action public benchmarks show that our method outperforms the state-of-the-art video GANs. Moreover, consistent improvements regardless of the architecture of video GANs confirm that our framework is generic.
-
- 작성일 2021-04-06
- 조회수 1762