Large Language Model에서의 인종 및 성별 편향 측정 연구

Research on Measuring Racial and Gender Bias in Large Language Model

  • 이주은 (이화여자대학교 인공지능융합전공) ;
  • 배호 (이화여자대학교 사이버보안학과)
  • Jueun Lee (Dept. of Artificial Intelligence Convergence, Ewha Womans University) ;
  • Ho Bae (Dept. of Cyber Security, Ewha Womans University)
  • 발행 : 2024.10.31

초록

Large Language Model(LLM) 사용이 증가하면서, LLM의 성별 및 인종에 대한 편향성은 사회적 불평등을 심화시킬 수 있는 중요한 문제로 대두되고 있다. 이에 LLM의 편향을 정확하고 신뢰성 있게 측정하는 도구가 필요하다. 본 논문은 LLM의 편향을 평가하는 방법론을 워드 임베딩 분석과 텍스트 생성 편향 분석으로 나누어 검토한다. 워드 임베딩 분석 방법은 단어 벡터 간 거리를 측정해 편향을 정량적으로 평가하는 방식으로, 간호사나 군인과 같은 단어들이 성별이나 인종과 같은 특정 집단과 얼마나 가깝게 매핑되는지를 분석하는 방식이다. 그러나 이 방법은 단어의 문맥적 의미 변화를 충분히 반영하지 못하는 한계가 있다. 반면, 텍스트 생성 편향 분석 방법은 LLM이 실제로 생성한 텍스트에서 나타나는 편향을 직접 평가하는 방식이다. 이를 위해 연구자는 성별이나 인종과 관련된 편향이 드러날 수 있는 문장들로 데이터셋을 구성하고, LLM이 이를 어떻게 처리하는지 분석한다. 이방법은 문맥을 반영해 모델이 생성한 텍스트에서 편향을 평가할 수 있다는 장점이 있지만, 연구자가 데이터셋을 구축하는 과정에서 주관적 판단이나 편향이 개입될 가능성이 있으며, 평가할 수 있는 시나리오가 제한적이라는 한계가 있다. 본 논문은 이러한 한계를 극복하기 위한 향후 연구로, 합성 데이터를 활용하여 데이터셋을 구축하고, 이를 통해 텍스트 생성 편향을 분석하는 방법을 제안한다. 합성 데이터는 다양한 시나리오를 기반으로 무한히 생성할 수 있어, 특정 시나리오에 제한되지 않고 LLM의 편향을 폭넓게 평가할 수 있다. 또한 연구자의 개입을 줄여 데이터셋 구축 시 발생할 수 있는 편향을 최소화하고, 더 공정하고 신뢰성 있는 평가를 가능하게 한다. 이에 따라 합성 데이터를 이용한 텍스트 생성 편향 분석 방법은 LLM의 성별 및 인종 편향을 보다 객관적으로 평가하는 도구로서 중요한 역할을 할 것으로 기대한다.

키워드

과제정보

이 논문은 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2021-0-02068, 인공지능 혁신 허브 연구 개발)

참고문헌

  1. Brown, Tom B. "Language models are few-shot learners."arXiv preprintar Xiv:2005.14165(2020).
  2. Bommasani, Rishi, et al. "On the opportunities and risks of foundation models."arXiv preprintar Xiv:2108.07258(2021).
  3. Bender, Emily M., et al. "On the dangers of stochastic parrots: Can language models be toobig?."Proceedings of the 2021 ACM conference on fairness, accountability, and transparency. 2021.
  4. Blodgett, Su Lin, et al. "Language(technology) is power: A critical survey of" bias" in nlp."arXiv preprint arXiv:2005.14050(2020).
  5. Zhao, Jieyu, et al. "Men also like shopping: Reducing gender bias amplification using corpus-level constraints."arXiv preprintar Xiv:1707.09457(2017).
  6. Mehrabi, Ninareh, et al. "A survey on bias and fairness in machine learning."ACM computing surveys (CSUR)54.6 (2021): 1-35.
  7. Sun, Tony, et al. "Mitigating gender bias in natural language processing: Literature review."arXiv preprint arXiv:1906.08976(2019).
  8. Caliskan, Aylin, Joanna J. Bryson, and Arvind Narayanan. "Semantics derived automatically from language corpora contain human-like biases."Science356.6334 (201 ): 183-186.
  9. Bolukbasi, Tolga, et al. "Man is to computer programmer as woman is to homemaker? debiasing word embeddings."Advances in neural information processing systems29 (2016).
  10. May, Chandler, et al. "On measuring social biases in sentence encoders."arXiv preprint arXiv:1903.10561(2019).
  11. Ethayarajh, Kawin, David Duvenaud, and Graeme Hirst. "Understanding undesirable word embedding associations."arXiv preprint arXiv:1908.06361(2019).
  12. Rakivnenko, Vasyl, et al. "Bias in Text Embedding Models."arXiv preprint arXiv:2406.12138(2024).
  13. Dobrzeniecka, Alicja, and Rafal Urbaniak. "A Bayesian approach to uncertainty in word embedding bias estimation."Computational Linguistics(2024): 1-55.
  14. Rai, Rohit Raj, and Amit Awekar. "Effect of dimensionality change on the bias of word embeddings."Proceedings of the 7th Joint International Conference on Data Science & Management of Data (11th ACM IKDD CODS and 29th COMAD). 2024.
  15. Freestone, Matthew, and Shubhra Kanti Karmaker Santu. "Word Embeddings Revisited: Do LLMs Offer Something New?."arXiv preprint arXiv:2402.11094(2024).
  16. Zhao, Jieyu, et al. "Gender bias in coreference resolution: Evaluation and debiasing methods."arXiv preprint arXiv:1804.06876(2018).
  17. Kiritchenko, Svetlana, and Saif M. Mohammad. "Examining gender and race bias in two hundred sentiment analysis systems."arXivpreprint arXiv:1805.04508(2018).
  18. Nadeem, Moin, Anna Bethke, and Siva Reddy. "StereoSet: Measuring stereotypical bias in pretrained language models."arXiv preprint arXiv:2004.09456(2020).
  19. Nangia, Nikita, et al. "CrowS-pairs: A challenge dataset for measuring social biases in masked language models."arXiv preprintarXiv:2010.00133(2020).
  20. Gehman, Samuel, et al. "Realtoxicityprompts: Evaluating neural toxic degeneration in language models." arXiv preprint arXiv:2009.11462(2020).
  21. Dhamala, Jwala, et al. "Bold: Dataset and metrics for measuring biases in open-ended language generation." Proceedings of the 2021 ACM conference on fairness, accountability, and transparency. 2021.
  22. Wan, Yixin, et al. ""kelly is a warm person, joseph is a role model": Gender biases in llm-generated reference letters."arXiv preprint arXiv:2310.09219(2023).
  23. Kotek, Hadas, Rikker Dockum, and David Sun. "Gender bias and stereotypes in large language models." Proceedings of the ACM collective intelligence conference. 2023.
  24. Zhao, Jinman, et al. "Gender Bias in Large Language Models across Multiple Languages." arXiv preprint arXiv:2403.00277(2024).
  25. Rhue, Lauren, Sofie Goethals, and Arun Sundararajan. "Evaluating LLMs for Gender Disparities in Notable Persons." arXiv preprint arXiv:2403.09148(2024).
  26. Wang, Ze, et al. "JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models." arXiv preprint arXiv:2406.15484(2024).
  27. Wan, Yixin, and Kai-Wei Chang. "White Men Lead, Black Women Help: Uncovering Gender, Racial, and Intersectional Bias in Language Agency." arXiv preprint arXiv:2404.10508(2024).