-
- 데이터 지능 및 학습 연구실(지도교수: 이종욱) SIGIR 2025 논문 3편 게재 NEW
- 데이터 지능 및 학습(Data Intelligence and Learning, DIAL, 지도교수: 이종욱) 연구실은 세계 최고 권위의 정보검색 학회인 SIGIR 2025에 3편의 논문이 최종 게재 승인되었으며, 7월에 이탈리아 파도바에서 논문을 발표할 예정입니다. [논문 목록] 1. Why is Normalization Necessary for Linear Recommenders? (SIGIR'25) 2. Linear Item-Item Models with Neural Knowledge for Session-based Recommendation (SIGIR'25) 3. DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation (SIGIR'25) 연구 1: Seongmin Park, Mincheol Yoon, Hye-young Kim, Jongwuk Lee, “Why is Normalization Necessary for Linear Recommenders?”, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 본 연구는 선형 오토인코더 (linear autoencoder, LAE) 기반 추천 시스템이 간단한 구조에도 불구하고 신경망 기반 모델과 비교할 만한 추천 성능과 빠른 추론 속도를 보인다는 점에 착안하였습니다. 그러나 LAE는 인기 있는 아이템을 과도하게 추천하는 인기도 편향 (popularity bias)와 지역적인 아이템 간 상관관계에 지나치게 의존하는 이웃 편향 (neighborhood bias)라는 두 가지 구조적 한계에 직면해 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 LAE 모델에 적용할 수 있는 새로운 정규화 방법인 Data-Adaptive Normalization (DAN)을 제안합니다. DAN은 데이터의 특성에 따라 두 가지 bias를 유연하게 제어할 수 있도록 설계된 정규화 기법으로, (i) item-adaptive normalization과 (ii) user-adaptive normalization이라는 두 가지 핵심 컴포넌트로 구성됩니다. 첫 번째로, item-adaptive normalization은 정규화 파라미터 α를 통해 인기 아이템의 영향력을 조절하고 LAE에 denoising 효과를 부여합니다. 이를 통해 기존 LAE가 주로 추천하던 인기 아이템 (head items) 중심의 성능에서 벗어나 (즉, 인기도 편향), 비인기 아이템 (tail items)에 대한 추천 성능을 크게 향상시킬 수 있습니다. 두 번째로, user-adaptive normalization은 파라미터 β를 사용하여 이웃 편향을 제어합니다. 이 기법은 고주파수 성분 (high-frequency components)을 억제하고 중요한 저주파수 성분을 보존함으로써, 지역적인 상관관계보다 전체적인 글로벌 패턴을 더 잘 반영하도록 도와줍니다. DAN의 효과는 여섯 개의 대표적인 추천 데이터셋 (ML-20M, Netflix, MSD, Gowalla, Yelp2018, Amazon-book)에서 실험적으로 검증되었습니다. DAN을 적용한 LAE 모델들 (LAE_DAN, EASE_DAN, RLAE_DAN)은 모든 데이터셋에서 기존 LAE 모델 대비 일관된 성능 향상을 보였으며, tail 아이템과 unbiased 평가에서 최대 각각 128.57%와 12.36%의 성능 향상을 기록하였습니다. 또한 DAN은 최신 협업 필터링 모델들과 비교했을 때도 우수한 성능을 나타냈습니다. 또한, 그림 1 (Case study)은 정규화 방법에 따른 특정 사용자의 추천 결과를 보여주며, 다음과 같은 관찰을 했습니다. (1) 정규화 없는 LAE (W/O)는 사용자가 로맨틱 영화 3편을 시청했음에도 5개 모두 높은 인기도의 액션 영화만 추천합니다. 반면, 세 가지 정규화 방법 (RW, Sym, DAN)은 사용자가 본 "Step Up 1"과 관련된 "Step Up 2"를 최상위로 추천하여 사용자 선호도를 효과적으로 반영합니다. (2) DAN은 인기도 편향을 적절히 완화하면서도 사용자 선호도를 유지하는 가장 균형 잡힌 추천을 제공합니다. RW 정규화는 5개 중 4개가 인기 아이템으로, 여전히 인기도 편향이 강합니다. Sym 정규화는 5개 중 4개가 인기 없는 아이템으로, 인기도 편향을 과도하게 완화합니다. DAN은 인기 및 비인기 아이템의 균형을 맞추면서 사용자 선호도에 가장 관련성 높은 아이템을 추천합니다. 그림 1: ML-20M 데이터셋에서 사용자 #91935의 상호작용 이력과 네 가지 정규화 방법의 Top-5 추천 목록. 빨간 테두리는 head (상위 20%) 항목이고, 파란 테두리는 tail (하위 80%) 항목 나아가 본 연구는 데이터셋의 Gini index와 homophily 특성에 따라 정규화 파라미터 (α, β)의 효과가 어떻게 달라지는지 분석하고, 각 데이터셋에 적합한 파라미터 설정 가이드라인도 함께 제시합니다. 이를 통해 제안된 DAN 기법은 데이터 특성에 따라 정교하게 bias를 제어할 수 있는 일반적이고 실용적인 솔루션으로 자리매김할 수 있음을 보여줍니다. 본 논문에 관한 자세한 내용은 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2025_dan 연구 2: Minjin Choi, Sunkyung Lee, Seongmin Park, Jongwuk Lee, “Linear Item-Item Models with Neural Knowledge for Session-based Recommendation”, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 본 연구는 사용자의 현재 세션 내 상호작용을 기반으로 다음 행동을 예측하는 세션 기반 추천(Session-based Recommendation, SBR) 문제에 주목합니다. SBR 분야는 크게 두 가지 패러다임으로 나뉩니다. 하나는 복잡한 순차적 전이 패턴을 포착하는 데 강점을 보이는 신경망 기반 모델이며, 다른 하나는 아이템 간의 동시 등장 패턴을 효과적으로 학습하고 빠른 추론 속도를 제공하는 선형 아이템-아이템 모델입니다. 그러나 각 패러다임은 서로 다른 종류의 아이템 관계를 포착하는 데 특화되어 있으며, 신경망 모델의 높은 정확성과 선형 모델의 효율성을 동시에 달성하기 위한 효과적인 통합 방안은 아직 부족한 실정입니다. 이러한 배경 하에, 본 논문에서는 선형 모델과 신경망 모델의 지식을 효과적으로 통합하는 새로운 SBR 모델인 LINK (Linear Item-Item model with Neural Knowledge)를 제안합니다. LINK는 두 가지 유형의 지식을 하나의 통합된 선형 프레임워크 내에서 결합하여, 높은 정확도와 빠른 추론 속도라는 두 마리 토끼를 잡는 것을 목표로 합니다. 이를 위해 LINK는 두 가지 핵심 구성 요소를 포함합니다. (i) LIS (Linear knowledge-enhanced Item-item Similarity model)는 자기 증류(self-distillation) 기법을 통해 선형 모델 자체의 아이템 유사성(동시 등장) 포착 능력을 강화하고 세션 간의 고차원적 관계까지 학습합니다. (ii) NIT (Neural knowledge-enhanced Item-item Transition model)는 사전 학습된 임의의 신경망 모델로부터 복잡한 순차적 전이 지식을 증류하여, 이를 선형 모델 학습 시 정규화 항으로 활용하는 독창적인 방식을 통해 신경망의 지식을 선형 모델에 효과적으로 주입합니다. 그림 2에서 보이는 바와 같이, LINK 모델의 효과는 Diginetica, Retailrocket, Yoochoose 등 여섯 개의 실제 SBR 데이터셋을 사용한 광범위한 실험을 통해 검증되었습니다. 실험 결과, LINK는 모든 데이터셋에서 기존의 최첨단 선형 SBR 모델들(SLIST, SWalk 등) 대비 일관되고 큰 폭의 성능 향상(Recall@20 기준 최대 14.78%, MRR@20 기준 최대 11.04%)을 달성했습니다. 이는 선형 모델의 한계를 신경망 지식 통합을 통해 성공적으로 극복했음을 보여줍니다. 더불어 LINK는 복잡한 최신 신경망 모델들과 비교했을 때도 경쟁력 있는, 혹은 더 우수한 예측 정확도를 보이면서도, 선형 모델의 핵심 장점인 높은 추론 효율성(최대 813배 적은 FLOPs)을 그대로 유지하였습니다. 추가 분석을 통해 선형 모델이 비인기 아이템 간의 관계에 강점을 보이고 신경망 모델이 인기 아이템의 복잡한 패턴에 강점을 보이는데, LINK가 이 두 가지 강점을 효과적으로 결합하여 균형 잡힌 성능을 달성함을 확인했습니다. 그림 2: 정확도(Recall@20)와 추론 연산량(FLOPs) 비교 결론적으로, LINK는 SBR 분야에서 정확성과 효율성 사이의 실질적인 균형점을 제공하는 새로운 하이브리드 접근 방식을 제시합니다. 특히 NIT 컴포넌트는 특정 신경망 아키텍처에 구애받지 않고 다양한 모델의 지식을 활용할 수 있는 유연성을 제공하여, 향후 신경망 모델의 발전에 따라 지속적으로 성능 개선이 가능한 실용적인 솔루션입니다. 본 논문에 관한 자세한 내용은 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2025_link 연구 3: Hye-young Kim, Minjin Choi, Sunkyung Lee, Ilwoong Baek, Jongwuk Lee, “DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation”, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 본 연구는 사용자의 과거 소비 이력을 바탕으로 다음에 선호할만한 항목을 예측하는 순차적 추천(Sequential Recommendation)에서 카테고리, 브랜드 등 아이템 부가 정보를 함께 활용하는 부가 정보 통합 순차적 추천(Side-information Integrated Sequential Recommendation, SISR)모델을 제안합니다. 제안 모델인 Dual Side-Information Filtering and Fusion (DIFF)는 사용자 시퀀스 내 노이즈를 제거하고, 다양한 속성 정보를 효과적으로 융합함으로써 더욱 정밀하고 표현력 있는 사용자 선호 모델링을 달성합니다. DIFF는 다음과 같은 세 가지 핵심 기법을 포함합니다: 그림 3: 부가 정보 통합 순차적 추천 시스템의 주파수 신호와 융합 기법 (1) 주파수 기반 노이즈 필터링 (Frequency-based Noise Filtering): DIFF는 우발적 클릭 또는 단기적 관심과 같이 실제 사용자 선호와 관련없는 신호를 제거하기 위해 주파수 영역으로의 변환을 수행합니다. 아이템 ID와 각 속성 시퀀스를 각각 주파수 영역으로 변환한 뒤, 불규칙적이거나 중요도가 낮은 주파수 성분을 제거합니다. 이를 통해 실제 사용자 선호를 반영하는 핵심 신호만을 강화할 수 있으며, 다중 시퀀스에 대해 필터링을 적용함으로써 보다 정교한 노이즈 제거를 가능하게 합니다. (2) 이중 멀티시퀀스 융합 (Dual Multi-sequence Fusion): 노이즈가 제거된 시퀀스들을 효과적으로 통합하기 위해, DIFF는 서로 다른 장점을 지니는 중간 융합과 초기 융합 방식을 함께 활용합니다. 저희는 기존 연구들이 정보 침식(information invasion) 문제를 우려하여 초기 융합 방식의 활용은 제한하거나 배제하는 경향이 있었으며, 이로 인해 다양한 속성 간 상관관계 모델링 능력을 간과하고 있다는 점에 주목하였습니다. DIFF는 초기 융합을 통해 다차원 속성 정보를 통합하고, 중간 융합을 통해 ID 중심의 선호 학습을 보완함으로써, ID와 속성 모두를 아우르는 정교한 사용자 표현을 학습합니다. 두 융합 방식의 상호보완적 조합을 통해 DIFF는 사용자 취향의 전반적인 구조뿐만 아니라 세부적인 속성 선호까지도 효과적으로 포착할 수 있습니다. (3) 정보 침식(information invasion) 방지를 위한 표현 정렬(representation alignment): 아이템 ID와 각 속성 임베딩은 서로 다른 표현 공간에 위치합니다. 따라서 이를 단순한 융합 함수(e.g. summation, concatenation, gating)로 합치는 초기 융합에서는 특정 정보가 과도하게 강조되거나 왜곡되는 정보 침식(information invasion) 문제가 발생할 수 있습니다. 이를 방지하기 위해 DIFF에서는 정렬 손실(Alignment Loss)을 설계하여, 아이템 ID와 속성 임베딩의 벡터 공간을 가깝게 만들어, 의미를 공유하면서도 적절한 차이를 유지할 수 있도록 유도합니다. DIFF는 네 개의 대표적인 공개 벤치마크 데이터셋(Yelp, Beauty, Toys, Sports)에서 검증되었으며, 기존 최신 순차 추천 모델들과 비교해 모든 지표에서 우수한 성능을 달성하였습니다. 특히, Recall@20과 NDCG@20 기준으로 각각 최대 14.1%, 12.5%의 성능 향상을 기록하며 새로운 state-of-the-art 성능을 입증하였습니다. 또한, DIFF의 노이즈에 대한 강건성(robustness)은 매우 두드러졌습니다. 사용자 시퀀스에 우발적인 클릭, 일시적인 관심 변화 등 현실적인 사용 환경에서의 노이즈를 고려해 테스트 시퀀스에 무작위로 아이템을 교체하는 방식으로 노이즈 시뮬레이션 실험을 진행하였습니다. 그 결과, DIFF는 5%의 낮은 노이즈 조건에서도 타 모델 대비 가장 적은 성능 저하를 보였으며, 25%의 높은 노이즈 조건에서도 안정적으로 높은 성능을 유지했습니다. 본 논문에 관한 자세한 내용은 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2025_diff
-
- 작성일 2025-04-22
- 조회수 200
-
-
- 우사이먼 교수 연구실(DASH Lab), Euro S&P 2025 논문 1편 게재 승인
- [연구] 우사이먼 교수 연구실(DASH Lab), Euro S&P 2025 논문 1편 게재 승인 Data-driven AI & Security HCI Lab (DASH Lab, 지도교수: 우사이먼 성일)의 논문 1편이 컴퓨터 보안 및 프라이버시 분야의 세계적인 우수 국제 학회인 IEEE European Symposium on Security and Privacy (EuroS&P)에 게재 승인되었습니다. 논문은 올해 6월 이탈리아 베니스에서 발표될 예정입니다. Acceptance rate = 8% (24 paper accepted / 300 submissions) SoK: Systematization and Benchmarking of Deepfake Detectors in a Unified Framework, EuroS&P 2025 저자: 김지원 (2저자, 인공지능대학원 석사졸업), 우사이먼성일 (교신저자, 성균관대 인공지능대학원 교수) 논문 링크: https://arxiv.org/abs/2401.04364 이 연구는 호주 연방과학산업연구기구(CSIRO Data61)와 국제공동연구로 진행되었습니다. 최근 딥페이크 기술이 발전하면서 이에 대한 탐지 연구가 활발히 진행되고 있습니다. 하지만 많은 딥페이크 탐지기들은 한계가 명확했었습니다. 본 연구는 최신 딥페이크 탐지 연구를 종합적으로 검토하고, 체계적인 탐지기 평가를 위한 엔드 투 엔드 개념적 프fgfsdfg레임워크를 제안하여 딥페이크 탐지 기법을 세부적으로 분류하고 평가할 수 있는 명확한 기준을 제공합니다. 또한, 체계적인 평가 프레임워크를 통한 분석 및 실험과 함께 다양한 유의미한 결론을 도출하며, 보다 효과적인 미래의 딥페이크 탐지 기술 개발을 위한 새로운 관점을 제시합니다. [Research] One paper accepted at EuroS&P 2025 from Professor Simon S Woo's (DASH Lab) The Data-driven AI & Security HCI Lab (DASH Lab, Advisor: Simon S. Woo) has had one System of Knowledge (SoK) paper accepted for publication at the 10th IEEE European Symposium on Security and Privacy (Euro S&P), a prestigious international conference covers Machine Learning Security, System & Network Security, Cryptographic Protocols, Data Privacy. The papers will be presented in July in Venice, Italy. SoK: Systematization and Benchmarking of Deepfake Detectors in a Unified Framework, EuroS&P 2025 Authors: Binh Le, Jiwon Kim, Simon S. Woo This work is jointly performed with CSIRO Data61 as an international collaboration. Paper Link: https://arxiv.org/abs/2401.04364 Deepfakes are becoming a huge problem, and they're easier than ever to create and spread. This has led to a race to develop technologies that can detect them. However, many of these detection tools are trained on lab-generated datasets, which may not prepare them for the deepfakes we actually see in the real world. Our latest study takes a deep dive into the current state of deepfake detection. We categorize detectors into 4 major groups and 13 sub-groups, creating a clear framework to understand what makes them effective (or not). We also put 16 of the top detectors to the test against various real-world attack scenarios, including black-box, white-box, and gray-box settings. Our systematized analysis and experiments provide a deeper understanding of deepfake detectors and their generalizability, paving the way for future research and the development of more proactive defenses against deepfakes.
-
- 작성일 2025-02-28
- 조회수 636
-
- 우사이먼성일 교수(DASH 연구실), 2024 한국정보보호학회 동계학술대회 최우수 논문상
- 경기도 광주 곤지암 리조트에서 2024년 11월 28일부터 29일까지 열린 한국정보보호학회 동계학술대회에서 DASH 연구실(지도교수: 우사이먼성일)의 허민지(인공지능대학원 석사과정), Razaib Tariq(소프트웨어학과 석사과정)의 "모아레 패턴이 딥페이크 탐지 성능에 미치는 영향" 논문이 학회 최우수논문상(4th Place)을 수상하였습니다. 수상을 축하드립니다. 링크: https://cisc.or.kr/bestPaper
-
- 작성일 2025-02-28
- 조회수 581
-
- [대학원 플립러닝 수업 우수사례] 자연어처리개론 정윤경 교수님
- 2024학년도 대학원 플립러닝 수업 우수사례 AIM4003 자연어처리개론_ 정윤경 교수님
-
- 작성일 2025-02-05
- 조회수 0
-
- 이지형 교수 연구실(IIS Lab), NAACL 2025 논문 4편 게재 승인
- 정보 및 지능 시스템 연구실(IIS Lab, 지도교수: 이지형)의 논문 4편이 자연어처리 분야의 최우수 국제학술대회인 NAACL 2025 (“2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 4월 미국 뉴 멕시코에서 발표될 예정입니다. 1. DeCAP: Context-Aware Prompt Generation for Debiased Zero-shot Question Answering in Large Language Models, NAACL 2025 저자: 배수영 (인공지능학과 박사과정), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) 대규모 언어 모델(LLMs)은 제로샷 질문 응답(QA) 과제에서 뛰어난 성능을 보이지만, 기존 방법들은 모호한 질문과 명확한 질문 유형 간의 성능 격차가 크며, 주어진 지침이나 내부 지식에 강하게 의존하여 편향 제거 성능(debiasing performance)이 낮다는 한계를 가지고 있습니다. 이를 해결하기 위해, 우리는 DeCAP (Context-Aware Prompt Generation)을 제안합니다. DeCAP은 질문 유형의 차이로 인한 성능 격차를 줄이기 위해 질문 모호성 탐지기(Question Ambiguity Detector)를 활용하고, 중립적인 문맥을 제공하기 위해 중립적 다음 문장 생성기(Neutral Next Sentence Generator)를 사용하여 내부 편향 지식에 대한 의존도를 감소시킵니다. BBQ와 UNQOVER 데이터셋을 사용해 여섯 개의 LLM에 대한 실험 결과, DeCAP이 state-of-the-arts 편향 제거 QA 성능을 달성했으며, 다양한 QA 환경에서 LLM의 공정성과 정확성을 크게 향상시키는 데 효과적임을 입증했습니다. 2. SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data, NAACL 2025 저자: 배수영 (인공지능학과 박사과정), 김효준 (SKT/인공지능학과 석사졸업), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) 이 논문에서는 SALAD (Structure-Aware and LLM-driven Augmented Data)라는 새로운 접근법을 제안합니다. SALAD는 대조 학습(Contrastive Learning)을 위해 구조를 인지하고 반사실적(counterfactual)으로 증강된 데이터를 생성함으로써 모델의 강건성(robustness)과 일반화(generalization)**를 향상시키는 것을 목표로 합니다. 태깅 기반 방식을 사용하여 구조를 인지한 긍정 샘플을 생성하고, 대규모 언어 모델(LLM)을 활용해 다양한 문장 패턴을 가진 반사실적 부정 샘플을 생성합니다. 이를 통해 모델이 주요 문장 구성 요소 간의 구조적 관계를 학습하도록 하며, 부적절한 상관관계(spurious correlations)에 대한 의존을 최소화합니다. 감정 분류(Sentiment Classification), 성차별 탐지(Sexism Detection), 자연어 추론(Natural Language Inference) 세 가지 과제에서 실험을 통해 SALAD의 효과를 검증했으며, 그 결과 SALAD가 다양한 환경에서 모델의 강건성과 성능을 향상시킬 뿐 아니라, 분포 외(out-of-distribution) 데이터셋과 교차 도메인 시나리오에서도 일반화 성능을 강화함을 보였습니다. 3. CoRAC: Integrating Selective API Document Retrieval with Question Semantic Intent for Code Question Answering, NAACL 2025 저자: 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업), 나철원 (인공지능학과 석박통합과정) 자동 코드 질문 응답(AQA)은 코드 스니펫을 분석하여 코드 관련 질문에 대해 정확한 답변을 생성하는 것을 목표로 합니다. 적절한 답변을 제공하려면 코드의 관련 부분을 정확히 이해하고, 질문의 의도를 올바르게 해석해야 합니다. 그러나 실제 환경에서는 질문자가 코드의 일부만 제공하는 경우가 많아 답변을 찾는 데 어려움이 발생합니다. 응답자는 이러한 제한된 정보를 기반으로 적절한 답변을 제공할 수 있어야 합니다. 이를 해결하기 위해 우리는 CoRAC이라는 지식 기반 프레임워크를 제안합니다. CoRAC은 선택적 API 문서 검색과 질문 의미 의도 클러스터링을 통해 이해력을 향상시켜 자동 코드 질문 응답을 지원합니다. 세 가지 실제 벤치마크 데이터셋에서 CoRAC의 성능을 평가했으며, 다양한 실험을 통해 그 효과를 입증했습니다. 또한, CoRAC이 ChatGPT와 같은 대규모 언어 모델에 비해 고품질의 답변을 생성할 수 있음을 보여주었습니다. 4. Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation, NAACL Findings 2025 저자: 나철원 (인공지능학과 석박통합과정), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) 언어 모델의 취약성을 검증하기 위해 많은 적대적 공격(adversarial attack) 방법들이 제안되었으나, 대부분 다수의 쿼리와 타겟 모델에 대한 정보를 필요로 합니다. 심지어 블랙박스 공격(black-box attack)조차도 타겟 모델의 출력 정보를 요구하며, 이는 타겟 모델이 닫혀있고 접근이 불가능한 하드 블랙박스(hard black-box) 환경에서는 현실적으로 적용이 어렵습니다. 최근 제안된 하드 블랙박스 공격 방법들도 여전히 많은 쿼리를 요구하며, 적대적 생성기를 훈련하는 데 매우 높은 비용이 소요됩니다. 이러한 문제를 해결하기 위해, 우리는 타겟 모델에 접근하지 않고 적대적 예제를 생성하는 효율적인 방법인 Q-faker(Query-free Hard Black-box Attacker)를 제안합니다. Q-faker는 타겟 모델에 접근하지 않기 위해 대리 모델(surrogate model)을 사용하며, 이 대리 모델은 타겟 모델을 속일 수 있는 적대적 문장을 생성합니다. 이 과정에서 제어된 생성 기법(controlled generation techniques)을 활용합니다. 우리는 8개의 데이터셋에서 Q-faker를 평가했으며, 실험 결과, Qf-aker가 높은 전이성(transferability)과 높은 품질의 적대적 예제를 생성할 수 있음을 보여주었고, 하드 블랙박스 환경에서의 실용성을 입증했습니다. 이지형 교수: john@skku.edu | 정보 및 지능 시스템 연구실: https://iislab.skku.edu/
-
- 작성일 2025-01-23
- 조회수 1355
-
- 박호건 교수 연구실 (LearnData Lab)의 그래프 신경망 연구 WSDM 2025 논문 게재 승인 (석사졸업: 박종원, 박사과정: 정희수)
- 박호건 교수 연구실 (LearnData Lab)의 그래프 신경망 연구 WSDM 2025 논문 게재 승인 (석사졸업: 박종원, 박사과정: 정희수) LearnData연구실 (지도교수: 박호건)의 논문이 인공지능 분야 최우수학회인 The 18th ACM International Conference on Web Search and Data Mining에 게재 승인(Accept) 되었습니다. 1. 논문 “CIMAGE: Exploiting the Conditional Independence in Masked Graph Auto- encoders” 은 인공지능학과 박종원 (석사졸업생)이 제1저자로 게재하였으며, 소프트웨어학과 정희수 (박사과정)이 공동 1저자로 참여했습니다. 성균관대학교의 박호건 교수 연구진은 자기 지도 학습(Self-Supervised Learning)을 기반으로 하는 그래프 신경망(GNN) 학습 기술 연구에서 높은 수준의 성과를 달성했습니다. 이번 연구는 CIMAGE (Conditional Independence Aware Masked Graph Auto-Encoder) 라는 모델을 개발하여, 기존의 무작위 마스킹 방식이 가진 한계를 극복하고 그래프 신경망의 표현력을 한층 더 강화하였습니다. CIMAGE 모델은 조건부 독립성(Conditional Independence)을 활용해 마스킹 전략을 설계하며, 이를 통해 그래프 표현 학습의 효율성과 정확도를 크게 높였습니다. 특히, 이번 연구에서는 높은 신뢰도의 가짜 레이블을 사용하여 두 가지 독립된 맥락을 생성하고, 이를 통해 마스킹과 재구성 작업을 수행하는 새로운 사전 학습(pretext task) 방법을 제안하였습니다. CIMAGE의 성능은 다양한 그래프 벤치마크 데이터셋에서 우수함을 입증했으며, 노드 분류 및 링크 예측과 같은 다운스트림 작업에서 높은 정확도를 기록하며, 그래프 표현 학습 분야의 새로운 기준을 제시하고 있습니다. 이 연구는 성균관대학교의 혁신적이고 선도적인 연구 방향을 보여주는 중요한 성과로, 그래프 신경망 연구 및 자율 학습 분야에서 널리 활용될 가능성이 높습니다. LearnData 연구실은 그래프, 자연어, 센서, 이미지 등 다양한 모달리티를 활용한 기계학습 및 데이터마이닝 기술 개발, 설명 가능 AI 기술 연구 등을 수행하고 있습니다. 이번 WDSM 2025 논문의 연구는 인공지능대학원, 정보통신기획평가원, 한국콘텐츠진흥원 등의 지원으로 진행되었습니다. 박호건 | hogunpark@skku.edu | LearnData Lab | https://learndatalab.github.io/
-
- 작성일 2024-12-02
- 조회수 1299
-
-
- 고영중 교수 연구실(NLP lab.), EMNLP2024 논문 2편 게재 승인
- 자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 2편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 EMNLP 2024(The 2024 Conference on Empirical Methods in Natural Language Processing)의 Industry Track에 게재 승인되었습니다. 각 연구는 NAVER, NC Soft와 산학 협력을 통해 이루어졌습니다. 논문#1: Hyper-QKSG: Framework for Automating Query Generation and Knowledge-Snippet Extraction from Tables and Lists (인공지능학과 박사과정 김두영, 인공지능학과 석사과정 장윤진, NAVER 산학) 논문 요약: 본 연구에서는 지식스니펫의 커버리지를 자동으로 확장하는 프레임워크를 제안합니다. 지식스니펫이란 검색엔진에서 검색 결과 상단에 위치하는 짧은 단락으로, 사용자가 쿼리에 대한 정보를 검색된 문서를 읽을 필요 없이 얻을 수 있도록 편의성을 제공하는 역할을 합니다. 테이블이나 리스트와 같이 복잡한 웹 문서구조에서 지식스니펫을 추출하기 위해서, 기존의 자연어 텍스트 기반의 언어모델을 HTML 기반의 언어모델으로 재학습하였으며, 문서로부터 쿼리와 지식스니펫을 추출하는 파이프라인 시스템을 구축하였습니다. 또한 본 연구에서 자동으로 지식스니펫의 커버리지를 확장하는 과정에서 생성되는 다양한 노이즈 지식스니펫-쿼리 쌍에 대해서 필터링 및 개선 방법을 제안하였습니다. 실제 검색 환경에서 자동 확장된 지식스니펫 데이터베이스를 기반으로 정성평가를 진행한 결과 반환된 지식스니펫이 사용자 쿼리에 대해 유용한 정보를 제공할 수 있음을 보였으며, 기존에 테이블이나 리스트에서 지식스니펫을 뽑지 못하는 한계를 극복하고 다양한 HTML 구조에서 지식스니펫을 추출하여 정보를 제공할 수 있음을 보였습니다. Abstract: These days, there is an increasing necessity to provide a user with a short knowledge-snippet for a query in commercial information retrieval services such as the featured snippet of Google. In this paper, we focus on how to automatically extract the candidates of query-knowledge snippet pairs from structured HTML documents by using a new Language Model (HTML-PLM). In particular, the proposed system is powerful on extracting them from Tables and Lists, and provides a new framework for automate query generation and knowledge-snippet extraction based on a QA-pair filtering procedure including the snippet refinement and verification processes, which enhance the quality of generated query-knowledge snippet pairs. As a result, 53.8% of the generated knowledge-snippets includes complex HTML structures such as tables and lists in our experiments of a real-world environments, and 66.5% of the knowledge-snippets are evaluated as valid. 논문#2: RAC: Retrieval-augmented Conversation Dataset for Open-domain Question Answering in Conversational Settings (인공지능학과 박사과정 최봉근, 인공지능학과 석박통합과정 박정재, NC Soft 산학) 논문 요약: “RAC: Retrieval-augmented Conversation Dataset for Open-domain Question Answering in Conversational Settings” 논문은 NC Soft와 산학 협력을 통해 구축한 데이터셋을 소개합니다. 해당 데이터셋은 검색 기반의 대화형 질의응답 문제를 다루고 있으며, 구체적으로 대화 문맥 내에서 사용자의 질문에 대한 사실 기반의 응답을 하기 위해 문맥 기반의 질의 재작성, 문서 검색, 문서 재순위화, 응답 생성의 과정을 포함하고 있습니다. 특히, 기존의 대화형 질의응답 데이터들이 검색된 문서 내의 일부 단어 혹은 문장을 추출하여 응답으로 사용하는 반면, 검색된 문서를 반영하여 사람과 같은 자연스러운 응답을 생성할 수 있는 것을 목표로 하고 있습니다. 본 논문에서는 데이터셋과 함께 BM25와 한국어 Dense Retriever을 기반으로 한 문서 검색 성능 및 Ko-BART와 LLM(GPT-4o-mini)을 기반으로 한 응답 생성 성능을 Baseline으로 제공하고 있습니다. Abstract: In recent years, significant advancements in conversational question and answering (CQA) have been driven by the exponential growth of large language models and the integration of retrieval mechanisms that leverage external knowledge to generate accurate and contextually relevant responses. Consequently, the fields of conversational search and retrieval-augmented generation (RAG) have obtained substantial attention for their capacity to address two key challenges: query rewriting within conversational histories for better retrieval performance and generating responses by employing retrieved knowledge. However, both fields are often independently studied, and comprehensive study on entire systems remains underexplored. In this work, we present a novel retrieval-augmented conversation (RAC) dataset and develop a baseline system comprising query rewriting, retrieval, reranking, and response generation stages. Experimental results demonstrate the competitiveness of the system and extensive analyses are conducted to apprehend the impact of retrieval results to response generation. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu
-
- 작성일 2024-10-04
- 조회수 1885
-