고영중 교수 자연어처리연구실, WSDM 2023 국제 학술대회 논문 게재 승인
- 인공지능학과
- 조회수520
- 2023-03-02
자연어처리연구실 박선영 석사과정(인공지능학과), 최규리, 유하은 석사과정(소프트웨어학과)의 “Never Too Late to Learn: Regularizing Gender Bias in Coreference Resolution” 논문이 웹 정보 검색 및 데이터 마이닝 분야의 top-tier 국제 학술대회(BK21 CS IF=3)인 WSDM (The 16th ACM International Conference on Web Search and Data Mining) 2023에 최종 논문 게재가 승인되어 2월에 발표될 예정입니다.
본 연구에서는 자연어 이해 태스크 중 하나인 상호 참조 해결로 언어 모델이 학습한 성 고정관념(stereotype)과 편향성(skew)을 완화하고 분석합니다. 사전학습 언어모델은 사전학습 과정에서 언어 이해 능력을 학습할 뿐만 아니라 대용량 코퍼스에 내재된 고정관념과 편향성 역시 학습합니다. 언어모델의 성 편견을 완화하고자 하는 기존 방법들은 편향성 문제 해결에 초점을 맞추고, 고정관념 학습 문제를 해결하지 못하거나 기존 사전학습 언어모델의 언어 이해 능력을 저하시키는 문제 등이 있었습니다. 본 논문에서는 이를 해결하기 위해 고정관념 중화(stereotype neutralization) 기법과 탄력적 변수 강화(elastic weight consolidation) 기법을 제시합니다. 대명사 참조 데이터셋을 이용한 실험 결과, 제안 기법이 사전학습 언어 모델의 성 고정관념과 편향성 문제를 효과적으로 해결한 것을 확인할 수 있었습니다.
[논문] Sunyoung Park, Kyuri Choi, Haeun Yu, Youngjoong Ko, “Never Too Late to Learn: Regularizing Gender Bias in Coreference Resolution.”, Proceedings of the 16th ACM International Conference on Web Search and Data Mining (WSDM 2022), February 2023.
Abstract:
Leveraging pre-trained language models (PLMs) as initializers for efficient transfer learning has become a universal approach for text-related tasks. However, the models not only learn the language understanding abilities but also reproduce prejudices for certain groups in the datasets used for pre-training. Recent studies show that the biased knowledge acquired from the datasets affects the model predictions on downstream tasks. In this paper, we mitigate and analyze the gender biases in PLMs with coreference resolution, which is one of the natural language understanding (NLU) tasks. PLMs exhibit two types of gender biases: stereotype and skew. The primary causes for the biases are the imbalanced datasets with more male examples and the stereotypical examples on gender roles. While previous studies mainly focused on the skew problem, we aim to mitigate both gender biases in PLMs while maintaining the model's original linguistic capabilities. Our method employs two regularization terms, Stereotype Neutralization (SN) and Elastic Weight Consolidation (EWC). The models trained with the methods show to be neutralized and reduce the biases significantly on the WinoBias dataset compared to the public BERT. We also invented a new gender bias quantification metric called the Stereotype Quantification (SQ) score. In addition to the metrics, embedding visualizations were used to interpret how our methods have successfully debiased the models.