우사이먼성일 교수 DASH 연구실, CIKM 2023 국제 학술대회 논문 3편 게재 승인 및 이상탐지관련 워크셥 개최
- 인공지능학과
- 조회수2039
- 2023-09-19
DASH 연구실 박은주 박사과정, Binh M. Le 박사과정, 조범상 석사과정, 이상용 인공지능학과 석사과정, 백승연 인공지능학과 석사과정, 김지원 인공지능학과 석사과정의 논문 3편이 인공지능 및 정보검색 분야의 top-tier 국제학술대회인 CIKM (Conference on Information and Knowledge Management) 2023에 최종 논문 게재가 승인되어 10월에 발표될 예정입니다.
- 1. 호주 CSIRO Data61과 Deepfake 관련 연구
- 2. 신분증 진위 분류를 위한 데이터셋 관련 연구
- 3. Machine Unlearning 연구
또한, DASH 연구실 우사이먼성일 교수님이 주축이 되어 제 1회 위성 및 무인비행체의 이상탐지에 관한 워크샵이 CIKM 2023에서 개최됩니다.
1. Beomsang Cho, Binh M. Le, Jiwon Kim, Simon S. Woo , Shahroz Tariq, Alsharif Abuadbba, and Kristen Moore , “Toward Understanding of Deepfake Videos in the Wild”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구는 최근 증가하는 Deepfake 문제를 다루며, 기존 Dataset이 최신 기술을 충분히 반영하지 못하는 한계를 극복하기 위한 목적으로 시작되었습니다. 우리는 RWDF-23이라는 최신 Deepfake Dataset을 제안합니다. RWDF-23은 Reddit, Youtube, TikTok, Bilibili등에서 수집한 2,000개의 Deepfake 비디오로 구성되며, 4가지의 다른 언어를 대상으로 수집하였습니다. 이를 통하여 이전 Dataset의 범위를 확장하고, 현재 온라인 플랫폼에서 얼마나 많은 최신 Deepfake 기술들이 사용되고 있는지 분석하며 Deepfake를 제작하는 사람들의 분석뿐만 아니라 시청자들의 의견과 상호 작용 데이터를 수집하여 Deepfake를 시청하는 사람들의 상호작용 방식을 조사합니다. 이러한 풍부한 정보를 고려하여 계속해서 진화하는 Deepfake와 현실 온라인 플랫폼에 미치는 영향에 대한 포괄적인 이해를 제공합니다. Deepfakes have become a growing concern in recent years, prompting researchers to develop benchmark datasets and detection algorithms to tackle the issue. However, existing datasets suffer from significant drawbacks that hamper their effectiveness. Notably, these datasets fail to encompass the latest deepfake videos produced by state-of-the-art methods that are being shared across various platforms. This limitation impedes the ability to keep pace with the rapid evolution of generative AI techniques employed in real-world deepfake production. Our contributions in this IRB-approved study are to bridge this knowledge gap from current real-world deepfakes by providing in-depth analysis. We first present the largest and most diverse and recent deepfake dataset (RWDF-23) collected from the wild to date, consisting of 2,000 deepfake videos collected from 4 platforms targeting 4 different languages span created from 21 countries: Reddit, YouTube, TikTok, and Bilibili. By expanding the dataset’s scope beyond the previous research, we capture a broader range of real-world deepfake content, reflecting the ever-evolving landscape of online platforms. Also, we conduct a comprehensive analysis encompassing various aspects of deepfakes, including creators, manipulation strategies, purposes, and real-world content production methods. This allows us to gain valuable insights into the nuances and characteristics of deepfakes in different contexts. Lastly, in addition to the video content, we also collect viewer comments and interactions, enabling us to explore the engagements of internet users with deepfake content. By considering this rich contextual information, we aim to provide a holistic understanding of the evolving deepfake phenomenon and its impact on online platforms.
2. Eun-Ju Park, Seung-Yeon Back, Jeongho Kim, and Simon S. Woo, ”KID34K: A Dataset for Online Identity Card Fraud Detection”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023.
본 연구에서는 모바일 신분증 검증 시스템의 보안 강화를 위한 데이터셋을 제공합니다. 최근 모바일 플랫폼에서의 본인인증절차는 신분증을 기반으로 진행되고 있는데, 비대면 금융거래가 증가함에 따라 금융거래의 당사자가 신분증 명의자임을 증명하는 절차도 중요해지고 있습니다. 그러나, 현재의 시스템은 금융거래 이용자가 제출하는 사진이 본인의 신분증을 직접 찍는 것인지, 아니면 모니터나 종이에 출력한 다른 사람의 신분증 사진을 찍은 것인지 구별하지 않습니다. 본 연구는 이러한 신분증 검증 시스템의 안정성 강화라는 측면과, 또한 신분증의 개인정보 유출을 막기위한 측면 두 가지를 고려한 신분증 이미지 데이터셋을 제공합니다.
Though digital financial systems have provided users with convenient and accessible services, such as supporting banking or payment services anywhere, it is necessary to have robust security to protect against identity misuse. Thus, online digital identity (ID) verification plays a crucial role in securing financial services on mobile platforms. One of the most widely employed techniques for
digital ID verification is that mobile applications request users to take and upload a picture of their own ID cards. However, this approach has vulnerabilities where someone takes pictures of the ID cards belonging to another person displayed on a screen, or printed on paper to be verified as the ID card owner. To mitigate the risks associated with fraudulent ID card verification, we present a novel dataset for classifying cases where the ID card images that users upload to the verification system are genuine or digitally represented. Our dataset is replicas designed to resemble real ID cards, making it available while avoiding privacy issues. Through extensive experiments, we demonstrate that our dataset is effective for detecting digitally represented ID card images, not only in our replica dataset but also in the dataset consisting of real ID cards.
3. Sanyong Lee and Simon Woo, “UNDO: Effective and Accurate Unlearning Method for Deep Neural Networks”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023.
본 연구에서는 간단하면서 효과적인 machine unlearning 기법 UNDO를 제안합니다. 이 기법은 학습된 모델에서 한 클래스의 정보를 지우기 위해 두 스텝으로 이뤄져있습니다. 먼저 coarse-grained level로서, 잊으려고 하는 데이터에 다른 레이블을 부여하여 한 에폭(epoch)만 짧게 학습하므로서 결정 경계를 허뭅니다. 그런 다음 fine-grained level로서, 앞선 단계에서 차마 잊지 못한 데이터를 잊으면서, 남길 데이터에 대한 부작용을 개선하기 위한 학습을 합니다. 이때 남길 데이터는 학습에 사용하지 않은 소량만 사용하여 학습 속도를 빠르게 합니다. 다양한 실험을 통하여 본 논문에서 제안하는 UNDO는 기존 machine unlearning 기법들 보다 빠르고 효과적임을 보여줍니다.
Machine learning has evolved through extensive data usage, including personal and private information. Regulations like GDPR highlight the "Right to be forgotten" for user and data privacy. Research in machine unlearning aims to remove specific data from pre-trained models. We introduce a novel two-step unlearning method, UNDO. First, we selectively disrupt the decision boundary of forgetting data at the coarse-grained level. However, this can also inadvertently affect the decision boundary of other remaining data, lowering the overall performance of the classification task. Hence, we subsequently repair and refine the decision boundary for each class at the fine-grained level by introducing a loss to maintain the overall performance while completely removing the class. Our approach is validated through experiments on two datasets, outperforming other methods in effectiveness and efficiency.
4. The 1st International Workshop on Anomaly and Novelty detection in Satellite and Drones systems (ANSD '23)
제 1회 위성 및 무인비행체의 이상탐지에 관한 워크샵이 CIKM 2023에서 개최됩니다. 본 워크샵은 우사이먼성일 성균관대 교수, Shahroz Tariq CSIRO’s Data61 소속, 신유진 가톨릭대 교수, 정대원 한국항공우주연구원 소속이 주축이 되어 무인비행체의 시계열 및 이미지 데이터에 대한 이상을 탐지하는 것과 관련된 내용을 주제로 합니다.
The workshop on Anomaly and Novelty Detection in Drones and Satellite data at CIKM 2023 aims to bring together researchers, practitioners, and industry experts to discuss the latest advancements and challenges in detecting anomalies and novelties in drone and satellite data. With the increasing availability of such data, the workshop seeks to explore the potential of machine learning and data mining techniques to enable the timely and accurate detection of unexpected events or changes. The workshop will include presentations of research papers, keynote talks, panel discussions, and poster sessions, with a focus on promoting interdisciplinary collaboration and fostering new ideas for tackling real-world problems.
문의사항이나 질문은 DASH Lab(https://dash.skku.edu)의 우사이먼교수(swoo@g.skku.edu)에게 연락부탁드립니다.