-
- 우사이먼성일 교수 DASH 연구실, CIKM 2023 국제 학술대회 논문 3편 게재 승인 및 이상탐지관련 워크셥 개최
- DASH 연구실 박은주 박사과정, Binh M. L e 박사과정, 조범상 석사과정, 이상용 인공지능학과 석사과정, 백승연 인공지능학과 석사과정, 김지원 인공지능학과 석사과정 의 논문 3편이 인공지능 및 정보검색 분야의 top-tier 국제학술대회인 CIKM (Conference on Information and Knowledge Management) 2023에 최종 논문 게재가 승인되어 10월에 발표될 예정입니다. 1. 호주 CSIRO Data61과 Deepfake 관련 연구 2. 신분증 진위 분류를 위한 데이터셋 관련 연구 3. Machine Unlearning 연구 또한, DASH 연구실 우사이먼성일 교수님이 주축이 되어 제 1회 위성 및 무인비행체의 이상탐지에 관한 워크샵이 CIKM 2023에서 개최됩니다. 1. Beomsang Cho, Binh M. Le, Jiwon Kim, Simon S. Woo , Shahroz Tariq, Alsharif Abuadbba, and Kristen Moore , “Toward Understanding of Deepfake Videos in the Wild”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구는 최근 증가하는 Deepfake 문제를 다루며, 기존 Dataset이 최신 기술을 충분히 반영하지 못하는 한계를 극복하기 위한 목적으로 시작되었습니다. 우리는 RWDF-23이라는 최신 Deepfake Dataset을 제안합니다. RWDF-23은 Reddit, Youtube, TikTok, Bilibili등에서 수집한 2,000개의 Deepfake 비디오로 구성되며, 4가지의 다른 언어를 대상으로 수집하였습니다. 이를 통하여 이전 Dataset의 범위를 확장하고, 현재 온라인 플랫폼에서 얼마나 많은 최신 Deepfake 기술들이 사용되고 있는지 분석하며 Deepfake를 제작하는 사람들의 분석뿐만 아니라 시청자들의 의견과 상호 작용 데이터를 수집하여 Deepfake를 시청하는 사람들의 상호작용 방식을 조사합니다. 이러한 풍부한 정보를 고려하여 계속해서 진화하는 Deepfake와 현실 온라인 플랫폼에 미치는 영향에 대한 포괄적인 이해를 제공합니다. Deepfakes have become a growing concern in recent years, prompting researchers to develop benchmark datasets and detection algorithms to tackle the issue. However, existing datasets suffer from significant drawbacks that hamper their effectiveness. Notably, these datasets fail to encompass the latest deepfake videos produced by state-of-the-art methods that are being shared across various platforms. This limitation impedes the ability to keep pace with the rapid evolution of generative AI techniques employed in real-world deepfake production. Our contributions in this IRB-approved study are to bridge this knowledge gap from current real-world deepfakes by providing in-depth analysis. We first present the largest and most diverse and recent deepfake dataset (RWDF-23) collected from the wild to date, consisting of 2,000 deepfake videos collected from 4 platforms targeting 4 different languages span created from 21 countries: Reddit, YouTube, TikTok, and Bilibili. By expanding the dataset’s scope beyond the previous research, we capture a broader range of real-world deepfake content, reflecting the ever-evolving landscape of online platforms. Also, we conduct a comprehensive analysis encompassing various aspects of deepfakes, including creators, manipulation strategies, purposes, and real-world content production methods. This allows us to gain valuable insights into the nuances and characteristics of deepfakes in different contexts. Lastly, in addition to the video content, we also collect viewer comments and interactions, enabling us to explore the engagements of internet users with deepfake content. By considering this rich contextual information, we aim to provide a holistic understanding of the evolving deepfake phenomenon and its impact on online platforms. 2. Eun-Ju Park, Seung-Yeon Back, Jeongho Kim, and Simon S. Woo, ”KID34K: A Dataset for Online Identity Card Fraud Detection”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구에서는 모바일 신분증 검증 시스템의 보안 강화를 위한 데이터셋을 제공합니다. 최근 모바일 플랫폼에서의 본인인증절차는 신분증을 기반으로 진행되고 있는데, 비대면 금융거래가 증가함에 따라 금융거래의 당사자가 신분증 명의자임을 증명하는 절차도 중요해지고 있습니다. 그러나, 현재의 시스템은 금융거래 이용자가 제출하는 사진이 본인의 신분증을 직접 찍는 것인지, 아니면 모니터나 종이에 출력한 다른 사람의 신분증 사진을 찍은 것인지 구별하지 않습니다. 본 연구는 이러한 신분증 검증 시스템의 안정성 강화라는 측면과, 또한 신분증의 개인정보 유출을 막기위한 측면 두 가지를 고려한 신분증 이미지 데이터셋을 제공합니다. Though digital financial systems have provided users with convenient and accessible services, such as supporting banking or payment services anywhere, it is necessary to have robust security to protect against identity misuse. Thus, online digital identity (ID) verification plays a crucial role in securing financial services on mobile platforms. One of the most widely employed techniques for digital ID verification is that mobile applications request users to take and upload a picture of their own ID cards. However, this approach has vulnerabilities where someone takes pictures of the ID cards belonging to another person displayed on a screen, or printed on paper to be verified as the ID card owner. To mitigate the risks associated with fraudulent ID card verification, we present a novel dataset for classifying cases where the ID card images that users upload to the verification system are genuine or digitally represented. Our dataset is replicas designed to resemble real ID cards, making it available while avoiding privacy issues. Through extensive experiments, we demonstrate that our dataset is effective for detecting digitally represented ID card images, not only in our replica dataset but also in the dataset consisting of real ID cards. 3. Sanyong Lee and Simon Woo, “UNDO: Effective and Accurate Unlearning Method for Deep Neural Networks”, Proceedings of the 32nd ACM International Conference on Information & Knowledge Management. 2023. 본 연구에서는 간단하면서 효과적인 machine unlearning 기법 UNDO를 제안합니다. 이 기법은 학습된 모델에서 한 클래스의 정보를 지우기 위해 두 스텝으로 이뤄져있습니다. 먼저 coarse-grained level로서, 잊으려고 하는 데이터에 다른 레이블을 부여하여 한 에폭(epoch)만 짧게 학습하므로서 결정 경계를 허뭅니다. 그런 다음 fine-grained level로서, 앞선 단계에서 차마 잊지 못한 데이터를 잊으면서, 남길 데이터에 대한 부작용을 개선하기 위한 학습을 합니다. 이때 남길 데이터는 학습에 사용하지 않은 소량만 사용하여 학습 속도를 빠르게 합니다. 다양한 실험을 통하여 본 논문에서 제안하는 UNDO는 기존 machine unlearning 기법들 보다 빠르고 효과적임을 보여줍니다. Machine learning has evolved through extensive data usage, including personal and private information. Regulations like GDPR highlight the "Right to be forgotten" for user and data privacy. Research in machine unlearning aims to remove specific data from pre-trained models. We introduce a novel two-step unlearning method, UNDO. First, we selectively disrupt the decision boundary of forgetting data at the coarse-grained level. However, this can also inadvertently affect the decision boundary of other remaining data, lowering the overall performance of the classification task. Hence, we subsequently repair and refine the decision boundary for each class at the fine-grained level by introducing a loss to maintain the overall performance while completely removing the class. Our approach is validated through experiments on two datasets, outperforming other methods in effectiveness and efficiency. 4. The 1st International Workshop on Anomaly and Novelty detection in Satellite and Drones systems (ANSD '23) 제 1회 위성 및 무인비행체의 이상탐지에 관한 워크샵이 CIKM 2023에서 개최됩니다. 본 워크샵은 우사이먼성일 성균관대 교수, Shahroz Tariq CSIRO’s Data61 소속, 신유진 가톨릭대 교수, 정대원 한국항공우주연구원 소속이 주축이 되어 무인비행체의 시계열 및 이미지 데이터에 대한 이상을 탐지하는 것과 관련된 내용을 주제로 합니다. The workshop on Anomaly and Novelty Detection in Drones and Satellite data at CIKM 2023 aims to bring together researchers, practitioners, and industry experts to discuss the latest advancements and challenges in detecting anomalies and novelties in drone and satellite data. With the increasing availability of such data, the workshop seeks to explore the potential of machine learning and data mining techniques to enable the timely and accurate detection of unexpected events or changes. The workshop will include presentations of research papers, keynote talks, panel discussions, and poster sessions, with a focus on promoting interdisciplinary collaboration and fostering new ideas for tackling real-world problems. 문의사항이나 질문은 DASH Lab(https://dash.skku.edu)의 우사이먼교수(swoo@g.skku.edu)에게 연락부탁드립니다.
-
- 작성일 2023-09-19
- 조회수 2524
-
- 인공지능학과 이지형 교수 연구실(IIS Lab.) 2023 AI 대학원 챌린지 with KT 믿음 대회 수상
- 인공지능학과 IIS Lab. 나철원(석박통합과정 8기), 안지민(석사과정 3기), 김한별(석사과정 1기) 팀(팀명 ‘해 치원나’)과 김효준(석사과정 4기), 양정안(석사과정 2기), 이지형(석사과정 1기) 팀(팀명 ‘차별없는사회’)이 KT와 과학기술정보통신부가 공동 주최하는 '2023 AI 대학원 챌린지 with KT 믿음’ 최종결선에서 각각 KT CTO상(2위)과 우수상(4위)을 수상하였다. AI 대학원 챌린지는 KT 초거대 AI '믿음(Mi:dm)'을 이용해 해결할 수 있는 신규 과제 아이디어를 제안하고 이를 적용할 AI 모델을 개발하는 챌린지로, 실무형 AI 핵심 인재 발굴을 위해 개최되었다. 대회는 예선과 본선으로 이루어졌으며, 예선 주제는 초거대 AI 믿:음을 활용한 새로운 task를 제안하는 하는 것이다. 이후 예선을 통과한 10개 팀은 제안한 task를 적용할 AI 모델을 튜닝하고 개발하는 본선을 가졌다. ‘해 치원나’ 팀은 새로운 유형의 보이스 피싱에 대응 가능한 Few-shot 보이스 피싱 탐지 모델을 개발하였으며, ‘차별없는사회’ 팀은 차별 문장 탐지를 통한 차별 완화 모델을 개발하여 각각 KT CTO상(2등)과 KT초거대 AI믿:음 우수상(4등)을 수상하였다.
-
- 작성일 2023-09-13
- 조회수 3149
-
- 소프트웨어학과 김유성 교수 연구실 (CSI Lab.) 2023 스펙트럼 챌린지 대회 1등
- 소프트웨어학과 김유성 교수 연구실 (CSI Lab.) 2023 스펙트럼 챌린지 대회 1등 - CSI Lab 팀, 2020년부터 4년 연속 1등 - 차세대 와이파이 환경에서 효율적인 주파수 공동 사용 방안 마련 소프트웨어학과 CSI Lab. 박태건(석사과정), 나인호(학부연구원), 허찬용(인턴), 김유성 교수 팀이 한국전자통신연구원(ETRI)에서 주최하는 2023 스펙트럼 챌린지 최종결선 대회에서 1등을 거머쥐었다. 스펙트럼 챌린지는 정부 주도형 연구·개발 체계를 개방된 도전 경쟁형 연구·개발 체계로 발전시키려는 목적으로 국가연구개발계획에 의거하여 2019년도부터 매년 실시되었다. 올해 스펙트럼 챌린지는 그동안 대회에 참가한 40개 팀에서 승자전으로 진출한 우수 팀 간의 최종결선 대회로 5주간 치러졌다. 도전 문제는 2가지 유형으로 유형1은 주어진 전파 환경에서 이용 중인 전파 특성을 AI 기술을 통해 식별하는 문제이며 유형2는 동적 환경변화에 강인한 자원 할당 및 스케줄링을 위한 강화학습 알고리즘을 개발하는 문제이다. 이번 대회에서는 우리 대학을 포함하여 한양대, 한동대, 고려대가 우수 팀으로 선발되었다. 성균관대학교 CSI Lab(Computer Systems and Intelligence Lab) 팀은 인공지능 기법을 이용해 비면허 대역의 통신환경 속에서 무선 서비스 기기가 전파 이용효율을 최적화하여 통신할 수 있는 전파자원 할당 기법을 찾는 알고리즘 개발 유형2 에서 1등을 수상하였다. 특히 CSI Lab 팀은 4년 연속 1등이라는 쾌거를 이룩했다. 기사 본문 전자신문 https://www.etnews.com/20230825000155 뉴스1 https://www.news1.kr/articles/?5151113
-
- 작성일 2023-09-05
- 조회수 2094
-
- 고종환 교수 연구실, ICCV 2023 논문 2편 게재 승인
- IRIS 연구실의 고종환 교수와 인공지능학과 박사과정 정문찬의 논문 2편이 인공지능 및 컴퓨터 비전 분야의 최우수 국제 학술대회(BK21 CS IF=4)인 International Conference on Computer Vision (ICCV 2023)에 게재 승인되었습니다. 논문 #1: "Multi-Scale Bidirectional Recurrent Network with Hybrid Correlation for Point Cloud-Based Scene Flow Estimation", 정문찬, 고종환 논문 #2: "HandR2N2: Iterative 3D Hand Pose Estimation Using a Residual Recurrent Neural Network", 정문찬, 고종환 논문 "Multi-Scale Bidirectional Recurrent Network with Hybrid Correlation for Point Cloud-Based Scene Flow Estimation"은 자율주행 환경에서 3차원 움직임을 정확하고 효율적으로 예측하기 위한 양방향 순환 기법을 제안합니다. 지난 해 ECCV 2022 학회에서 선보인 연구를 더욱 발전시켜 자연어처리의 양방향 순환 구조(Bidirectional Recurrent Network)를 도입하여 예측 에러를 2배 이상 감소시켰으며, 기존 SOTA 순환 기법들보다 3배 이상 빠른 속도를 보였습니다. 논문 "HandR2N2: Iterative 3D Hand Pose Estimation Using a Residual Recurrent Neural Network"은 AR 글래스를 위한 정확한 3차원 손 자세 추정 기법을 제안합니다. 제안된 기법은 새로운 순환 모듈(Residual Recurrent Unit)을 활용하여 각 관절의 추정 위치를 반복적으로 최적화시키며, 다양한 디바이스의 계산 자원에 따라 동적으로 최적화 횟수와 연산량을 조절할 수 있는 유연한 방법을 제시합니다. 이는 다양한 벤치마크 데이터셋에서 최고의 성능을 보여주며, 연산 효율성과 유연성을 동시에 보여주었습니다.
-
- 작성일 2023-08-14
- 조회수 2365
-
- 우사이먼 교수 연구실 (DASH Lab) ICCV 2023 논문 게재 승인
- DASH Lab의 우사이먼 교수와 소프트웨어학과 박사과정 Binh M. Le의 논문이 컴퓨터 비전 분야의 최우수 국제 학술대회인 IEEE/CVF International Conference on computer Vision (ICCV)에 게재 승인되었습니다. 논문은 2023년 10월 프랑스 파리에서 발표될 예정입니다. 현재 딥페이크(Deep + Fake)를 활용한 사회적 악용사례 및 범죄는 점차 늘고 있는 추세이며, 딥페이크 탐지 관련 많은 연구가 진행되고 있지만, 저화질 딥페이크 이미지는 정보량이 적어 고화질 이미지에 비해 탐지가 훨씬 더 어렵고, 성능이 높은 일반화된 탐지모델을 만드는 것은 challenging합니다. 이 연구에서 다양한 화질의 딥페이크 이미지를 동시에 효율적으로 탐지할 수 있는 Quality Agonistic Deepfake 탐지 모델을 제안합니다. 이는 고화질과 저화질 딥페이크를 Hilbert-Schmidt Independence Criterion (HSIC)를 이용한 intermediate representations간 기하학적 유사성을 극대화함으로서 다양한 input corruption하의 강건함을 증가시켜 모델의 일반성을 높여 좋은 다양한 벤치마크 데이터셋에 최고의 성능을 보여 주었습니다. [Abstract] Deepfake has recently raised a plethora of societal concerns over its possible security threats and dissemination of fake information. Much research on deepfake detection has been undertaken. However, detecting low quality as well as simultaneously detecting different qualities of deepfakes still remains a grave challenge. Most SOTA approaches are limited by using a single specific model for detecting certain deepfake video quality type. When constructing multiple models with prior information about video quality, this kind of strategy incurs significant computational cost, as well as model and training data overhead. Further, it cannot be scalable and practical to deploy in real-world settings. In this work, we propose a universal intra-model collaborative learning framework to enable the effective and simultaneous detection of different quality of deepfakes. That is, our approach is the quality-agnostic deepfake detection method, dubbed QAD. In particular, by observing the upper bound of general error expectation, we maximize the dependency between intermediate representations of images from different quality levels via Hilbert-Schmidt Independence Criterion. In addition, an Adversarial Weight Perturbation module is carefully devised to enable the model to be more robust against image corruption while boosting the overall model's performance. Extensive experiments over seven popular deepfake datasets demonstrate the superiority of our QAD model over prior SOTA benchmarks. Contact for Questions: swoo@g.skku.edu
-
- 작성일 2023-07-28
- 조회수 2322
-
- 이지형 교수 연구실, ICCV 2023 논문 게재 승인
- 정보 및 지능 시스템 연구실(지도교수:이지형) 노순철 (2022년 인공지능학과 석사 졸업)의 논문 " Simple and Effective Out-of-Distribution Detection via Cosine-based Softmax Loss "가 인공지능 및 컴퓨터 비전 분야의 최우수 국제 학술대회(BK21 CS IF=4)인 International Conference on Computer Vision (ICCV 2023)에 게재 승인되었습니다. " Simple and Effective Out-of-Distribution Detection via Cosine-based Softmax Loss " 논문에서는 out-of-distribution(OOD) 감지를 위한 간단하고 효과적인 방법을 제안합니다. 기존 OOD 감지에서는 추가적인 데이터, Input processing 혹은 높은 연산 비용을 요구하는 경우가 많으며, 사용자가 직접 설정해줘야하는 hypher-parameter가 존재하는 점을 문제로 제기하였습니다. 이는 Cosine- based Softmax Loss로 훈련된 분류 모델에서 feature norm과 Mahalanobis 거리를 결합한 간단하면서도 효과적인 OOD 감지 방법을 제안합니다. 이는 추가 데이터를 사용하지 않아 실용적이며, Input processing을 사용하는 것보다 3배 빠른 속도를 보여줍니다. [Abstract] Deep learning models need to detect out-of-distribution (OOD) data in the inference stage because they are trained to estimate the train distribution and infer the data sampled from the distribution. Many methods have been proposed, but they have some limitations, such as requiring additional data, input processing, or high computational cost. Moreover, most methods have hyperparameters to be set by users, which have a significant impact on the detection rate. We propose a simple and effective OOD detection method by combining the feature norm and the Mahalanobis distance obtained from classification models trained with the cosine- based softmax loss. Our method is practical because it does not use additional data for training, is about three times faster when inferencing than the methods using the input processing, and is easy to apply because it does not have any hyperparameters for OOD detection. We confirm that our method is superior to or at least comparable to state- of-the-art OOD detection methods through the experiments.
-
- 작성일 2023-07-21
- 조회수 2485
-
-
- 이지형 교수 연구실, ACL 2023 논문 3편 게재 승인
- 정보 및 지능 시스템 연구실(지도교수: 이지형)의 논문 3편이 세계 최고 권위의 자연어처리 학술대회 (BK IF=4) “The 61st Annual Meeting of the Association for Computational Linguistics (ACL’23)”에 게재 승인되었습니다. 논문 #1: “DIP: Dead code Insertion based Black-box Attack for Programming Language Model”, ACL 2023 (인공지능학과 석박통합과정 나철원, 소프트웨어학과 박사과정 최윤석) 논문 #2: “BLOCSUM: Block Scope-based Source Code Summarization via Shared Block Representation”, Findings of ACL 2023 (소프트웨어학과 박사과정 최윤석, 인공지능학과 석사과정 김효준) 논문 #3: “CodePrompt: Task-Agnostic Prefix Tuning for Program and Language Generation”, Findings of ACL 2023 (소프트웨어학과 박사과정 최윤석) (논문 #1) “DIP: Dead code Insertion based Black-box Attack for Programming Language Model” 논문에서는 소스코드를 처리하는 매우 큰 사전학습모델(Large-scale pre-trained models)에 대한 적대적 공격(Adversarial Attack) 방법을 제안합니다. 기존 공격방법인 변수명을 변경하는 Sampling 기반의 방법론은 매우 많은 시도와 낮은 공격 성공률로 비효율적이며, 특히 소스코드의 특징인 컴파일 가능성을 완전히 보존하지 못하는 문제를 제기하였습니다. 이를 해결하기 위해, 소스코드에 영향을 미치지 않는 Dead code를 삽입하는 방법론을 채택하였습니다. 언어를 처리하는 대부분의 사전학습 모델은 Attention mechanism을 갖는 트랜스포머 기반 구조이기 때문에, 적대적 공격의 효율성을 높이기 위하여 어텐션 점수(Attention score)를 활용합니다. 제안된 방법은 3가지 사전학습 모델에 각 3가지 데이터를 미세조정(fine-tuning)한 총 9가지 타겟 모델에 대하여 매우 우수한 공격 성능을 보입니다. [Abstract] Automatic processing of source code, such as code clone detection and software vulnerability detection, is very helpful to software engineers. Large pre-trained Programming Language (PL) models (such as CodeBERT, GraphCodeBERT, CodeT5, etc.), show very powerful performance on these tasks. However, these PL models are vulnerable to adversarial examples that are generated with slight perturbation. Unlike natural language, an adversarial example of code must be semantic-preserving and compilable. Due to the requirements, it is hard to directly apply the existing attack methods for natural language models. In this paper, we propose DIP (Dead code Insertion based Black-box Attack for Programming Language Model), a high-performance and efficient black-box attack method to generate adversarial examples using dead code insertion. We evaluate our proposed method on 9 victim downstream-task large code models. Our method outperforms the state-of-the-art black-box attack in both attack efficiency and attack quality, while generated adversarial examples are compiled preserving semantic functionality. (논문 #2) “BLOCSUM: Block Scope-based Source Code Summarization via Shared Block Representation” 논문에서는 소스코드를 개발자가 한눈에 이해할 수 있는 주석 형태의 자연어로 요약해주는 방법을 제안합니다. 양질의 요약문을 생성하기 위하여, 소스코드 블록의 다양한 구조를 표현함으로써 블록 범위 정보를 활용하는 공유 블록 표현(shared block representation)을 사용합니다. 소스 코드의 기본 구조 요소인 코드 블록을 활용하여 두 가지 방법을 설계했습니다. 첫 번째 방법인 공유 블록 위치 임베딩(position embedding)은 코드 블록의 구조를 효과적으로 나타내고 코드와 AST 인코더 간의 상관관계를 합치는 데 사용됩니다. 또한, 소스 코드의 블록 및 전역 종속성과 같은 풍부한 정보를 학습하기 위해 간단하면서도 효과적인 AST 변형을 재구성했습니다. 실험 결과, 제안방안의 우수성을 입증하고 코드에서 블록 범위 정보의 중요성을 확인했습니다. [Abstract] Code summarization, which aims to automatically generate natural language descriptions from source code, has become an essential task in software development for better program understanding. Abstract Syntax Tree (AST), which represents the syntax structure of the source code, is helpful when utilized together with the sequence of code tokens to improve the quality of code summaries. Recent works on code summarization attempted to capture the sequential and structural information of the source code, but they considered less the property that source code consists of multiple code blocks. In this paper, we propose BLOCSUM, BLOck scope-based source Code SUMmarization via shared block representation that utilizes block-scope information by representing various structures of the code block. We propose a shared block position embedding to effectively represent the structure of code blocks and merge both code and AST. Furthermore, we develop variant ASTs to learn rich information such as block and global dependencies of the source code. To prove our approach, we perform experiments on two real-world datasets, the Java dataset and the Python dataset. We demonstrate the effectiveness of BLOCSUM through various experiments, including ablation studies and a human evaluation. (논문 #3) “CodePrompt: Task-Agnostic Prefix Tuning for Program and Language Generation” 연구에서는 프로그램 및 언어 생성 작업을 위한 작업에 구애받지 않는(Task-agnostic) 프롬프트 튜닝 방법인 CodePrompt를 제안합니다. CodePrompt는 프로그램 및 언어를 위한 사전학습모델(Pre-train Models)의 사전 훈련 및 미세 조정 사이의 간극을 메우기 위해 입력 종속 프롬프트 템플릿을 결합하고, 사전학습모델의 매개 변수(parameters)를 효율적으로 업데이트하기 위해 말뭉치 특정 접두사 튜닝을 사용합니다. 또한, 제한된 접두사 길이에 대한 보다 풍부한 접두사 단어 정보를 제공하기 위한 다중 단어 접두사 초기화 방법을 제안했습니다. 제안 방법은 전체 데이터와 저자원 환경 뿐만 아니라 cross-domain 환경에서도 3가지 프로그램 및 언어 생성 작업(Program and Language Generation)에서 효과적임을 입증했습니다. [Abstract] In order to solve the inefficient parameter update and storage issues of fine-tuning in Natural Language Generation (NLG) tasks, prompt-tuning methods have emerged as lightweight alternatives. Furthermore, efforts to reduce the gap between pre-training and fine-tuning have shown successful results in low resource settings. As large Pre-trained Language Models (PLMs) for Program and Language Generation (PLG) tasks are constantly being developed, prompt tuning methods are necessary for the tasks. However, due to the gap between pre-train and fine-tuning different from PLMs for natural language, a prompt tuning method that reflects the traits of PLM for program language is needed. In this paper, we propose a Task-Agnostic prompt tuning method for the PLG tasks, CodePrompt, that combines Input-Dependent Prompt Template (to bridge the gap between pre-training and fine-tuning of PLMs for program and language) and Corpus-Specific Prefix Tuning (to efficiently update the parameters of PLMs for program and language). Also, we propose a method to provide more rich prefix word information for limited prefix lengths. We prove that our method is effective in three PLG tasks, not only in the full-data setting, but also in the low-resource setting and cross domain setting.
-
- 작성일 2023-05-08
- 조회수 2977
-
- 우사이먼 교수 연구실 IJCAI 2023 논문 게재 승인
- DASH 연구실 (지도교수: 우사이먼) 김정호 (2023년 인공지능학과 석사 졸업), 이한빈 (2022년 인공지능학과 석사 졸업)의 “IMF: Integrating Matched Features using Attentive Logit in Knowledge Distillation” 논문이 인공지능 분야 최우수 학회 (BK IF=4) International Joint Conferences on Artificial Intelligence (IJCAI) 2023 에 게재 승인되어 8월에 발표될 예정입니다. 지식 증류(Knowledge distillation, KD)는 교사 모델의 지식을 학생 모델에 전달하여, 학생 모델의 성능을 향상시키는 방법이다. 소프트맥스 분포 및 네트워크 중간 특징 매칭 기반 지식 증류 방법은 다양한 작업에서 성능 향상을 보였지만, 학생 모델의 제한된 모델 용량으로 인해 일부분의 성능 개선만 가능하다. 본 연구에서는 학생 모델의 한계를 해결하기 위해 새로운 유연한 지식 증류 프레임워크, Attentive logit을 사용한 Integrating Matched Feature (IMF)를 제안한다. 본 방법은 중간 특징 증류기(IFD)를 도입하여 교사 모델의 지식을 직접 학생 모델의 가지 네트워크로 증류함으로써 학생 모델의 전반적인 성능을 향상시킨다. 여러 가지 네트워크는 Attentive Logit에 의해 선생 모델의 직접적인 증류하에 효과적으로 결합된다. 본 방법은 학생 모델의 일부 블록과 IFD를 사용하여 본래의 학생 네트워크와 동일하거나 적은 수의 파라미터로 추론하며, 다양한 데이터셋에서 다른 최신 방법론들보다 동일한 파라미터 및 연산량 하에 높은 성능 향상을 보인다. Knowledge distillation (KD) is an effective method for transferring the knowledge of a teacher model to a student model, that aims to improve the latter's performance efficiently. Although generic knowledge distillation methods such as softmax representation distillation and intermediate feature matching have demonstrated improvements with various tasks, only marginal improvements are shown in student networks due to their limited model capacity. In this work, to address the student model's limitation, we propose a novel flexible KD framework, Integrating Matched Features using Attentive Logit in Knowledge Distillation (IMF). Our approach introduces an intermediate feature distiller (IFD) to improve the overall performance of the student model by directly distilling the teacher's knowledge into branches of student models. The generated output of IFD, which is trained by the teacher model, is effectively combined by attentive logit. We use only a few blocks of the student and the trained IFD during inference, requiring an equal or less number of parameters. Through extensive experiments, we demonstrate that IMF consistently outperforms other state-of-the-art methods with a large margin over the various datasets in different tasks without extra computation.
-
- 작성일 2023-05-03
- 조회수 2264
-
- 김유성 교수 연구실 (신원철 석사과정) IJCAI 2023 논문 게재 승인
- Computer Systems & Intelligence 연구실 (지도교수: 김유성) 신원철 석사과정 “Guide to Control: Offline Hierarchical Reinforcement Learning using Subgoal Generation for Long-Horizon and Complex Tasks” 논문이 인공지능 분야 최우수 학회 (BK IF=4) International Joint Conferences on Artificial Intelligence (IJCAI) 2023 에 게재 승인되었습니다. 강화학습은 주어진 환경과 상호작용하며 보상을 최대화하는 행동 정책을 스스로 배울 수 있는 만큼 자율주행, 공정 최적화, 로봇 모션 제어 등 많은 분야에서 활용될 수 있습니다. 그러나 비용 및 안전성 이슈가 발생할 수 있는 만큼 실제 환경에 바로 적용하기에는 어려움이 있습니다. 최근 환경과 상호작용 없이 기존의 운용되었던 로그 데이터만으로 학습이 가능한 '오프라인 강화학습' 기법이 큰 주목을 받고 있습니다. 초기 연구 단계인만큼 임무 과정이 길고 보상이 성공/실패로만 주어지는 환경에서는 학습이 어려운 한계가 있습니다. 본 연구에서는 길고 보상이 드문 임무를 보다 효과적으로 배울 수 있게 단계별 목표 (sub-goal) 를 생성하고 각 sub-goal 로 도달하는 계층적 오프라인 강화학습 기법을 제안합니다. 온라인 검증이 불가한 학습 조건에서 생성한 sub-goal 이 도달 가능함을 보장할 수 있어야 합니다. 이를 위해 비지도 방식으로 latent sub-goal prior 모델을 사전 학습 후 해당 prior 모델을 기반으로 도달 가능한 sub-goal 생성 모델을 설계하였습니다. 제안한 기법은 '4족 로봇 네비게이션', '로봇 팔 움직임 제어', 및 '키친 로봇 환경' 에서 기존 관련 연구들을 크게 상회하는 성능을 보여주었습니다. 김유성 | yskim525@skku.edu | CSI Lab. | https://csi-skku.github.io
-
- 작성일 2023-04-20
- 조회수 2245



