최수영(석사), 이재혁(박사과정) 공동 1저자 논문 ACL 2025 Panel 발표 초대
- 인공지능학과
- 조회수1272
- 2025-07-14
인공지능학과 박진영 교수님의 HLILab 소속 최수영(석사), 이재혁(박사과정)이 작성한 논문 1편이 자연어처리 분야의 최우수 국제학술대회인 ACL 2025 (“The 63rd Annual Meeting of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 7월 30일 오스트리아 빈에서 Oral & Panel 세션으로 발표할 예정입니다. 특히 Panel 발표는 전체 게재 논문 중 0.8%, 전체 제출 논문 중 0.3%만이 선정되어 초대된 발표 형태로 높은 퀄리티의 논문임을 인정 받았습니다.
제목 : “Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights”
저자: 최수영*(인공지능학과 석사), 이재혁*(인공지능학과 박사과정), Xiaoyuan Yi(Microsoft Research Asia), Jing Yao(Microsoft Research Asia), Xing Xie(Microsoft Research Asia), 박진영(인공지능학과 부교수) (*공동 1저자)
이 연구는 거대언어모델(LLMs)에 인간의 가치관을 정렬시키는 과정에서 발생할 수 있는 의도하지 않은 위험성을 발견하고, 이에 대한 심리학적 이론 기반의 분석을 수행하였습니다. 특히, 지나치게 정렬된 가치관이 오히려 부작용을 초래할 수 있음을 실증적으로 보여주며, 이러한 위험을 완화할 수 있는 가치 정렬의 유연화 전략을 제안합니다. 본 연구는 LLMs의 가치 정렬 문제가 단순한 기술적 과제를 넘어, 심리학적/사회적 관점에서도 깊이 있는 논의가 필요함을 강조하며, 인공지능의 책임 있는 개발과 활용에 중요한 시사점을 제공합니다.
Abstract: The application scope of Large Language Models (LLMs) continues to expand, leading to increasing interest in personalized LLMs that align with human values. However, aligning these models with individual values raises significant safety concerns, as certain values may correlate with harmful information. In this paper, we identify specific safety risks associated with value-aligned LLMs and investigate the psychological principles behind these challenges. Our findings reveal two key insights. (1) Value-aligned LLMs are more prone to harmful behavior compared to non-fine-tuned models and exhibit slightly higher risks in traditional safety evaluations than other fine-tuned models. (2) These safety issues arise because value-aligned LLMs genuinely generate text according to the aligned values, which can amplify harmful outcomes. Using a dataset with detailed safety categories, we find significant correlations between value alignment and safety risks, supported by psychological hypotheses. This study offers insights into the "black box" of value alignment and proposes in-context alignment methods to enhance the safety of value-aligned LLMs.





