DOI QR코드

DOI QR Code

Multi-Label Classification for Corporate Review Text: A Local Grammar Approach

머신러닝 기반의 기업 리뷰 다중 분류: 부분 문법 적용을 중심으로

  • 백혜연 (서강대학교 경영대학 인사조직전략) ;
  • 장영균 (서강대학교 경영대학 인사조직전략)
  • Received : 2023.03.07
  • Accepted : 2023.05.15
  • Published : 2023.08.31

Abstract

Unlike the previous works focusing on the state-of-the-art methodologies to improve the performance of machine learning models, this study improves the 'quality' of training data used in machine learning. We propose a method to enhance the quality of training data through the processing of 'local grammar,' frequently used in corpus analysis. We collected a vast amount of unstructured corporate review text data posted by employees working in the top 100 companies in Korea. After improving the data quality using the local grammar process, we confirmed that the classification model with local grammar outperformed the model without it in terms of classification performance. We defined five factors of work engagement as classification categories, and analyzed how the pattern of reviews changed before and after the COVID-19 pandemic. Through this study, we provide evidence that shows the value of the local grammar-based automatic identification and classification of employee experiences, and offer some clues for significant organizational cultural phenomena.

최근 많은 분야에서 기계학습에 대한 연구가 활발히 진행되고 있는데, 상당수의 연구들이 학습 모델의 성능을 개선하는 최신 방법론을 제시하고 있다. 본 연구에서는 방법론의 개발 못지않게 기계학습에 투입되는 훈련용 데이터의 '품질'을 개선하는 것 역시 중요하다는 점에 착안하여, 코퍼스 분석에서 자주 사용되는 '부분 문법' 처리 프로세스를 통해 훈련 데이터의 품질을 향상시키는 방법을 제시한다. 우리나라 100대 기업에 근무하는 재직자들이 채용플랫폼에 게시하는 방대한 양의 비정형 기업 리뷰 텍스트 데이터를 수집하고, 데이터 품질을 부분 문법 프로세스로 개선한 후, 부분 문법이 적용된 분류 모델이 적용되지 않은 모델보다 분류 성능이 우수함을 확인하였다. 분류 카테고리는 직원 몰입의 5가지 요인으로 상정하였는데, 국내 직장인들이 기업 리뷰가 각 유형별로 빈도에 차이가 있는지를 분석하였다. 추가로 리뷰 양상이 코로나 팬데믹 전후로 어떠한 변화가 있었는지도 분석하였다. 본 연구를 통해 국내 직장인들의 생생한 일터 경험들을 자동적으로 식별하고 분류하여, 이직을 포함한 주요한 조직문화 현상의 행태와 유발 원인 등을 유추해 볼 수 있는 근거를 제공한다.

Keywords

Acknowledgement

본 연구는 2022년도 서강대학교 교내연구비 지원을 받아 수행되었음(과제번호 : 202212019.01).

References

  1. 김기현, (김기현의) 자연어 처리 딥러닝 캠프: 파이토치 편, 한빛미디어, 서울, 2019.
  2. 김명관, 이영우, "웹 문서 정보추출과 자연어 처리를 통한 온톨로지 자동구축에 관한 연구", 한국인터넷방송통신학회 논문지, 제9권, 제3호, 2009, pp. 61-67.
  3. 김무성, 김남규, "다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론", 지능정보연구, 제27권, 제3호, 2021, pp. 175-197. https://doi.org/10.13088/JIIS.2021.27.3.175
  4. 김학준, 보통 일베들의 시대 : '혐오의 자유'는 어디서 시작되는가, 오월의봄, 파주, 2022.
  5. 남지순, "자연언어 검색 질의문 인식을 위한 유한 그래프 문법의 구축", 언어과학, 제15권, 제1호, 2008, pp. 39-69.
  6. 박상언, 강주영, 정석찬, 파이썬 텍스트 마이닝 완벽 가이드 : 자연어 처리 기초부터 딥러닝 기반 BERT 모델까지, 위키북스, 파주, 2022.
  7. 박선호, Embeddings for Multi-class and Multilabel Learning (박사학위논문), 포항공과대학교 일반대학원, 2013.
  8. 백혜연, 박용석, "기업 리뷰 웹 사이트 텍스트 분석을 통한 직원 불만 표현 추출과 불만 원인 도출 및 해소 방안", 한국정보통신학회논문지, 제23권 제4호, 2019, pp. 357-364. https://doi.org/10.6109/JKIICE.2019.23.4.357
  9. 백혜연, 장영균, 양동훈, "공유리더십의 정성적 측정 도구에 관한 연구: 국내 프로야구 감독의 언론 기사 코퍼스 분석을 중심으로", 리더십연구, 제12권, 제1호, 2021, pp. 135-162.
  10. 정세민, 이세영, 안유나, 김보경, "품사에 따른 영화 리뷰 감성분석 연구", KIIT Conference 2021.11, 2021, pp. 651-654.
  11. 최성용, 남지순, "소셜 미디어 텍스트의 의존명사 내포 비정규토큰의 부분문법그래프 패턴 사전 구축", 한국사전학, 제32호, 2018, pp. 114-150. https://doi.org/10.33641/KOLEX.2018..32.114
  12. Bakker, A. B. and M. P. Leiter, "Where to go from here: Integration and future research on work engagement", in A. B. Bakker and M. P. Leiter (Eds.), Work engagement: A handbook of essential theory and research, Psychology Press, New York, 2010, pp. 181-196.
  13. BBC News, "US job openings hit record high, with more Americans quitting", 2021, Available at https://www.bbc.com/news/business-58170391.
  14. Delip, R., Brian, M. (박해선 역), 파이토치로 배우는 자연어 처리, 한빛미디어, 서울, 2021.
  15. Demerouti, E. and R. Cropanzano, "From thought to action: Employee work engagement and job performance", in A. B. Bakker, and M. P. Leiter (Eds.), Work Engagement: A Handbook of Essential Theory and Research, Psychology Press, New York, 2010, pp. 147-163
  16. Ducci J., "The Great Resignation: Why Employees Are Quitting in Droves", Forbes, 2021, Available at https://www.forbes.com/sites/jackieducci/2021/06/23/the-great-resignation-why-employees-are-quitting-in-droves/?sh=22f8200a2eb9.
  17. EBS News, "<뉴스브릿지> 대퇴사 시대...회사 떠나는 MZ세대", 2022, Available at https://news.ebs.co.kr/ebsnews/allView/60247678/N.
  18. Erickson, K. and B. Erickson, "The new voice of our employees: What you need to know from employees aroudn the world", Annual Virtual Conference of Society for Human Resource Management(SHRM), 2021, Concurrent Session
  19. Gross M., "The construction of local grammars", in E. Roche and Y. Schabes(eds.) Finite-State Language Processing, MIT Press, 1997, pp. 329-354.
  20. Harter J., "Is Quiet Quitting Real?", GALLUP, 2022, Available at https://www.gallup.com/workplace/398306/quiet-quitting-real.aspx.
  21. Jens, A., R. Sidharth, and W. Christian (심상진역), 파이썬 라이브러리를 활용한 텍스트 분석: 텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략, 한빛미디어, 서울, 2022
  22. Kahn, W. A., "Psychological conditions of personal engagement and disengagement at work", The Academy of Management Journal, Vol.33, No.4, 1990, pp. 692-724. https://doi.org/10.5465/256287
  23. Keras, "The sequential model", 2020, Available at https://keras.io/guides/sequential_model/.
  24. Komoran, "품사표(PoS Table)", 2019, Available at https://komorandocs.readthedocs.io/ko/latest/firststep/postypes.html.
  25. Read, J., "A pruned problem transformation method for multi-label classification", New Zealand Computer Science Research Student Conference, 2008, pp. 143-150.
  26. Scikit learn, "1.12 Multiclass and multioutput algorithms", 2023, Available at https://scikitlearn.org/stable/modules/multiclass.html.
  27. Sohom, G. and G. Dwight, (김창엽, 최민환 역), 예제로 배우는 자연어 처리 기초 : NLP 알고리즘, 텍스트 분류와 요약, 감성 분석, 에이콘, 서울, 2020.
  28. Spolaor, N., E. A. Cherman, M. C. Monard, and H. D. Lee, "A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach", Electronic Notes in Theoretical Computer Science, Vol 292, 2013, pp. 135-151. https://doi.org/10.1016/j.entcs.2013.02.010
  29. Tsoumakas, G. and I. Katakis, "Multi-label classification: An overview", International Journal of Data Warehousing and Mining 3, 2007, pp. 1-13. https://doi.org/10.4018/jdwm.2007070101
  30. Tsoumakas, G., I. Katakis, and I. Vlahavas, "Mining multi-label data", in Maimon, O., Rokach, L. (eds.), Data Mining and Knowledge Discovery Handbook, Springer, Boston, MA, 2009, pp. 667-685.