자연어처리연구실(NLP lab, 지도교수: 고영중), ACL 2025에 논문 1편 게재
- 인공지능학과
- 조회수1112
- 2025-08-19
자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 1편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 ACL 2025(The 63rd Annual Meeting of the Association for Computational Linguistics)의 Findings에 게재되었습니다.

논문: DAPI: Domain Adaptive Toxicity Probe Vector Intervention, for Fine-Grained Detoxification
(지능형소프트웨어학과 석사과정 조현수, 인공지능학과 박사과정 김두영)

논문 요약: 본 연구에서는 기존의 단일 독성 탐지 벡터 기반의 제어 방식이 세부적인 독성 유형을 효과적으로 제거하지 못하는 한계를 극복하기 위해, 범주 특화(category-specific) 독성 탐지 벡터 기반의 독성 완화 기법을 제안합니다. 독성 표현은 다양한 하위 범주로 세분화될 수 있으므로, 단일 벡터로는 특정 범주의 독성을 효과적으로 완화하기 어렵습니다. 이에 따라, 본 연구에서는 다양한 독성 범주에 대해 개별적인 탐지 벡터를 학습하고, 생성 과정에서 문맥에 따라 가장 적절한 독성 탐지 벡터를 동적으로 선택한 후, 선택된 벡터를 적절한 크기로 조정하여 모델 출력에서 감산하는 방식을 도입하였습니다. 제안한 방법은 단일 벡터 방식으로는 제거하기 어렵던 독성 범주에 대해서도 효과적으로 독성을 완화함을 보였으며, 실험 결과 평가 데이터셋 기준 최대 78.52%의 독성 감소 효과를 달성하였습니다. 독성이 완화된 모델의 유창성은 기존 모델 대비 0.052% 감소에 그쳐 거의 동일한 수준의 유창성을 유지하면서도 독성을 완화할 수 있음을 확인하였습니다.
Abstract: There have been attempts to utilize linear probe for detoxification, with existing studies relying on a single toxicity probe vector to reduce toxicity. However, toxicity can be fine-grained into various subcategories, making it difficult to remove certain types of toxicity by using a single toxicity probe vector. To address this limitation, we propose a category-specific toxicity probe vector approach. First, we train multiple toxicity probe vectors for different toxicity categories. During generation, we dynamically select the most relevant toxicity probe vector based on the current context. Finally, the selected vector is dynamically scaled and subtracted from model. Our method successfully mitigated toxicity from categories that the single probe vector approach failed to detoxify. Experiments demonstrate that our approach achieves up to a 78.52% reduction in toxicity on the evaluation dataset, while fluency remains nearly unchanged, with only a 0.052% drop compared to the unsteered model.
고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu



