워드 임베딩 모델을 이용한 문서 이해 및 유사문서 추천

Document Understanding and Similar Document Recommendation Through Word Embedding Model

  • 조정민 (국민대학교 소프트웨어학부) ;
  • 강승식 (국민대학교 인공지능학부)
  • Jeongmin Cho (Dept. of Computer Science, Kookmin University) ;
  • Seungshik Kang (Dept. of Artificial Intelligence, Kookmin University)
  • 발행 : 2024.10.31

초록

문서의 내용을 쉽게 이해하기 위해서는 문서의 핵심 단어, 또는 핵심 문장을 빠르게 파악하는 것이 중요하다. 또한 유사한 문서를 참고하여 같이 읽는다면 해당 문서 내용을 파악하는 시간을 단축시켜주거나 해당 문서에 대한 이해도를 증가시킬 수 있다. 이를 위해서 wordcloud, textrank, Doc2Vec, softmax regression, cosine similarity과 같은 기법을 활용한다. 최종적으로 어떠한 문서를 입력받으면 문서의 명사를 기반으로 한 워드클라우드 시각화 및 핵심 문장 추출, 같은 카테고리를 가지는 유사한 문서를 추천해 주는 연구를 수행하였다.

키워드

과제정보

본 연구는 2024년 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학사업의 연구결과로 수행되었음 (No. 2022-0-00964)

참고문헌

  1. 진찬용, 신성윤, 남수태, "파이썬을 이용한 비정형 데이터 워드 클라우드 시각화", 한국정보통신학회 종합학술대회 논문집, pp.239-240, 2023.
  2. 홍진표, 차정원, "TextRank 알고리즘을 이용한 한국어 중요 문장 추출", 한국정보과학회 2009 한국컴퓨터종합학술대회 논문집, pp.311-314, 2009.
  3. 고동우, 양정진, "KoNLPy와 Word2Vec을 활용한 한국어 자연어 처리 및 분석", 2018 한국컴퓨터종합학술대회 논문집, pp.2140-2142, 2018.
  4. Jamie J. Seol, textrankr, GitHub repository, https://github.com/theeluwin/textrankr
  5. 박은정, 조성준, "KoNLPy: 쉽고 간결한 한국어 정보처리 파이썬 패키지", 제26회 한글 및 한국어 정보처리 학술대회 학술발표논문집, pp.133-136, 2014.