-
-
-
- 자연어처리연구실(NLP lab, 지도교수: 고영중), ACL 2025에 논문 1편 게재
- 자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 1편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 ACL 2025(The 63rd Annual Meeting of the Association for Computational Linguistics)의 Findings에 게재되었습니다. 논문: DAPI: Domain Adaptive Toxicity Probe Vector Intervention, for Fine-Grained Detoxification (지능형소프트웨어학과 석사과정 조현수, 인공지능학과 박사과정 김두영) 논문 요약: 본 연구에서는 기존의 단일 독성 탐지 벡터 기반의 제어 방식이 세부적인 독성 유형을 효과적으로 제거하지 못하는 한계를 극복하기 위해, 범주 특화(category-specific) 독성 탐지 벡터 기반의 독성 완화 기법을 제안합니다. 독성 표현은 다양한 하위 범주로 세분화될 수 있으므로, 단일 벡터로는 특정 범주의 독성을 효과적으로 완화하기 어렵습니다. 이에 따라, 본 연구에서는 다양한 독성 범주에 대해 개별적인 탐지 벡터를 학습하고, 생성 과정에서 문맥에 따라 가장 적절한 독성 탐지 벡터를 동적으로 선택한 후, 선택된 벡터를 적절한 크기로 조정하여 모델 출력에서 감산하는 방식을 도입하였습니다. 제안한 방법은 단일 벡터 방식으로는 제거하기 어렵던 독성 범주에 대해서도 효과적으로 독성을 완화함을 보였으며, 실험 결과 평가 데이터셋 기준 최대 78.52%의 독성 감소 효과를 달성하였습니다. 독성이 완화된 모델의 유창성은 기존 모델 대비 0.052% 감소에 그쳐 거의 동일한 수준의 유창성을 유지하면서도 독성을 완화할 수 있음을 확인하였습니다. Abstract: There have been attempts to utilize linear probe for detoxification, with existing studies relying on a single toxicity probe vector to reduce toxicity. However, toxicity can be fine-grained into various subcategories, making it difficult to remove certain types of toxicity by using a single toxicity probe vector. To address this limitation, we propose a category-specific toxicity probe vector approach. First, we train multiple toxicity probe vectors for different toxicity categories. During generation, we dynamically select the most relevant toxicity probe vector based on the current context. Finally, the selected vector is dynamically scaled and subtracted from model. Our method successfully mitigated toxicity from categories that the single probe vector approach failed to detoxify. Experiments demonstrate that our approach achieves up to a 78.52% reduction in toxicity on the evaluation dataset, while fluency remains nearly unchanged, with only a 0.052% drop compared to the unsteered model. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu
-
- 작성일 2025-08-19
- 조회수 1043
-
-
- 김유성 교수 연구실 (CSI Lab.) CIKM 2025 논문 게재 승인
- CSI 연구실 (지도교수: 김유성) 논문이 인공지능 분야의 Top-tier 국제학술대회 CIKM (Conference on Information and Knowledge Management) 2025에 게재 승인되었습니다. "Temporal Distance-aware Subgoal Generation for Offline Hierarchical Reinforcement Learning" 논문은 박태건 (석사졸업), 백승호 (석사과정), 박종찬 (박사과정), 오승준 (박사과정) 군이 저자로 참여했습니다. AI 로봇이 길고 보상 정보가 희소한 작업을 잘 수행하려면 전체 목표를 세부 단계(subgoal)로 나누는 계층적 강화학습(HRL) 이 효과적입니다. 하지만 기존 HRL 연구들은 수집된 데이터의 모든 상태에 대해 일정 간격 단위로 서브골 후보로 삼아 비효율적이고 생성되는 서브골 품질 역시 낮은 한계가 있습니다. 본 논문에서는 자기지도 학습으로 시간 거리(temporal distance) 기반 표현을 사전 학습하여, 시간적으로 효율적인 움직임을 보여준 상태들을 구분할 수 있습니다. 전체 데이터 중 1% 미만의 '앵커 상태(anchor states)' 를 서버골 후보로 선별하여 고수준 정책을 학습합니다. 저수준 정책은 현재 상태가 서브골 방향으로 얼마나 잘 이동는지 기반으로 내재적 보상(intrinsic reward) 을 부여하여 효율적으로 학습할 수 있습니다. 다양한 로봇 제어 환경에서 (either numeric state or visual state) 실험 결과, 기존 최신 기법들보다 약 13.5% 높은 성능을 기록하며 특히 장기 작업에서 우수한 효과를 보였습니다. | CSI Lab. | https://csi-skku.github.io
-
- 작성일 2025-08-06
- 조회수 923
-
- 김지우(석사과정), ACL 2025 워크샵 Outstanding Paper Award 수상
- 인공지능학과 박진영 교수님의 연구실 HLILab 소속 김지우 석사과정이 1저자로 연구한 논문이 자연어처리 분야 최고 권위의 국제학술대회 ACL 2025의 워크샵 Social Influence in Conversations에서 Outstanding Paper Award를 수상하였습니다. 해당 논문은 2025년 7월 31일, 오스트리아 빈에서 Oral 발표로 소개되었으며, 인간과 인공지능 간의 대화 방식에 새로운 가능성을 제시한 점에서 높은 평가를 받았습니다. 제목 : “Text Overlap: An LLM with Human-like Conversational Behaviors” 저자: 김지우(인공지능학과 석사과정), 장민석(Google Deepmind), 박진영(인공지능학과 부교수) 이 연구는 기존의 엄격한 턴 기반 대화 방식에서 벗어나, 사람처럼 자연스럽게 끼어들거나 반응할 수 있는 LLM 학습 방법을 제안합니다. 사용자는 긴 답변을 기다릴 필요 없이 중간에 말을 끊거나 새로운 질문을 던질 수 있으며, 모델은 이에 능동적으로 반응합니다. 이러한 방식은 사람-사람 대화처럼 유연하고 몰입감 있는 Human-AI 상호작용을 가능하게 합니다. 유저 스터디 결과, 사용자들은 이러한 인터페이스에 대해 높은 만족도를 보였으며, 대화의 효율성과 몰입도가 크게 향상된 것으로 나타났습니다. 이번 수상은 앞으로의 Human-AI 커뮤니케이션 연구에 중요한 이정표가 될 것으로 기대됩니다. 김지우 석사과정의 수상을 진심으로 축하드립니다! Abstract: Traditional text-based human-AI interactions typically follow a strict turn-taking approach. This rigid structure limits conversational flow, unlike natural human conversations, which can freely incorporate overlapping speech. However, our pilot study suggests that even in text-based interfaces, overlapping behaviors such as backchanneling and proactive responses lead to more natural and functional exchanges. Motivated by these findings, we introduce text-based overlapping interactions as a new challenge in human-AI communication, characterized by real-time typing, diverse response types, and interruptions. To enable AI systems to handle such interactions, we define three core tasks: deciding when to overlap, selecting the response type, and generating utterances. We construct a synthetic dataset for these tasks and train OverlapBot, an LLM-driven chatbot designed to engage in text-based overlapping interactions. Quantitative and qualitative evaluations show that OverlapBot increases turn exchanges compared to traditional turn-taking systems, with users making 72% more turns and the chatbot 130% more turns, which is perceived as efficient by end-users. This finding supports overlapping interactions and enhances communicative efficiency and engagement.
-
- 작성일 2025-08-04
- 조회수 1089
-
-
- 인공지능학과 이지형 교수팀, ‘AI 스타 펠로우십 지원' 사업 선정
- 인공지능학과 이지형 교수팀, ‘AI 스타 펠로우십 지원' 사업 선정
-
- 작성일 2025-07-31
- 조회수 0
-
- 인공지능학과 우사이먼성일 교수 연구실 Dash Lab 2025 Space Challenger 전국 우주동아리 공모전 최종 선정
- 인공지능학과 우사이먼성일 교수 연구실 Dash Lab 2025 Space Challenger 전국 우주동아리 공모전 최종 선정 인공지능학과 Dash Lab. 정상준(인공지능학과), 강승준(인공지능학과), 조범상(소프트웨어학과 융합보안트랙), 황현수(소프트웨어학과), 우사이먼성일 교수팀이 한화에어로스페이스와 한화시스템에서 공동 주최한 ‘2025 Space Challenger 우주동아리 지원 공모전’ 위성 분야에서 최종 선정되었다. 성균관대학교 인공지능학과 우사이먼성일 교수 연구실 Dash Lab 소속 연구팀 ‘Space Aero-K’는, 한화에어로스페이스와 한화시스템이 공동 주최한 ‘2025 Space Challenger 우주동아리 지원 공모전’에서 위성 분야 최종 선정팀으로 이름을 올렸다. 이번 공모전은 전국 대학생 및 대학원생 우주 동아리를 대상으로 진행되었으며, 발사체 분야는 한화에어로스페이스가, 위성 분야는 한화시스템이 각각 담당하였다. 총 14개 팀(발사체 8팀, 위성 6팀)이 최종 선정된 가운데, Space Aero-K는 위성 분야 6개 우수 팀 중 하나로 발탁되며 우주 영상 기반 인공지능 분야에서의 기획력과 기술 가능성을 인정받았다. Space Aero-K는 성균관대학교 석사과정생인 정상준(인공지능학과), 강승준(인공지능학과),조범상(소프트웨어학과 융합보안트랙), 황현수(소프트웨어학과)으로 구성된 연구팀으로, 위성 영상 기반 객체 탐지 및 AI 응용 기술을 중심으로 한 분석 기획안을 제시해 높은 평가를 받았다.
-
- 작성일 2025-07-14
- 조회수 957
-
- 최수영(석사), 이재혁(박사과정) 공동 1저자 논문 ACL 2025 Panel 발표 초대
- 인공지능학과 박진영 교수님의 HLILab 소속 최수영(석사), 이재혁(박사과정)이 작성한 논문 1편이 자연어처리 분야의 최우수 국제학술대회인 ACL 2025 (“The 63rd Annual Meeting of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 7월 30일 오스트리아 빈에서 Oral & Panel 세션으로 발표할 예정입니다. 특히 Panel 발표는 전체 게재 논문 중 0.8%, 전체 제출 논문 중 0.3%만이 선정되어 초대된 발표 형태로 높은 퀄리티의 논문임을 인정 받았습니다. 제목 : “Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights” 저자: 최수영*(인공지능학과 석사), 이재혁*(인공지능학과 박사과정), Xiaoyuan Yi(Microsoft Research Asia), Jing Yao(Microsoft Research Asia), Xing Xie(Microsoft Research Asia), 박진영(인공지능학과 부교수) (*공동 1저자) 이 연구는 거대언어모델(LLMs)에 인간의 가치관을 정렬시키는 과정에서 발생할 수 있는 의도하지 않은 위험성을 발견하고, 이에 대한 심리학적 이론 기반의 분석을 수행하였습니다. 특히, 지나치게 정렬된 가치관이 오히려 부작용을 초래할 수 있음을 실증적으로 보여주며, 이러한 위험을 완화할 수 있는 가치 정렬의 유연화 전략을 제안합니다. 본 연구는 LLMs의 가치 정렬 문제가 단순한 기술적 과제를 넘어, 심리학적/사회적 관점에서도 깊이 있는 논의가 필요함을 강조하며, 인공지능의 책임 있는 개발과 활용에 중요한 시사점을 제공합니다. Abstract: The application scope of Large Language Models (LLMs) continues to expand, leading to increasing interest in personalized LLMs that align with human values. However, aligning these models with individual values raises significant safety concerns, as certain values may correlate with harmful information. In this paper, we identify specific safety risks associated with value-aligned LLMs and investigate the psychological principles behind these challenges. Our findings reveal two key insights. (1) Value-aligned LLMs are more prone to harmful behavior compared to non-fine-tuned models and exhibit slightly higher risks in traditional safety evaluations than other fine-tuned models. (2) These safety issues arise because value-aligned LLMs genuinely generate text according to the aligned values, which can amplify harmful outcomes. Using a dataset with detailed safety categories, we find significant correlations between value alignment and safety risks, supported by psychological hypotheses. This study offers insights into the "black box" of value alignment and proposes in-context alignment methods to enhance the safety of value-aligned LLMs.
-
- 작성일 2025-07-14
- 조회수 1272



