한국정보처리학회:학술대회논문집 (Proceedings of the Korea Information Processing Society Conference)
- 한국정보처리학회 2016년도 춘계학술발표대회
- /
- Pages.394-395
- /
- 2016
- /
- 2005-0011(pISSN)
- /
- 2671-7298(eISSN)
DOI QR Code
생의학 문헌에 대한 워드 임베딩 적용 및 분석
Word Embedding Analysis for Biomedical Articles
- Choi, Yunsoo (Korea Institute of Science and Technology Information) ;
- Jeon, Sunhee (Korea Institute of Science and Technology Information)
- 발행 : 2016.04.29
초록
워드 임베딩(word embedding)은 정보검색이나 기계학습에서 단어를 표현하기 위하여 사용되던 기존의 one-hot 벡터 방식의 희소공간 및 단어들 간의 관계정보를 유지할 수 없는 문제를 해결하기 위한 방법이다. 워드 임베딩의 한 방법으로 word2vec은 최근 빠른 학습시간과 높은 효과를 얻을 수 있는 모델로 주목을 받고 있다. word2vec은 수행 시 주어지는 옵션인 벡터차원과 문맥크기에 의해 그 결과 품질이 상이하다. Mikolov는 구글 뉴스 문헌 집합에 대하여 word2vec을 실험하고, 적합한 옵션을 제시하였다. 본 논문에서는 구글 뉴스 문헌 같은 일반 문서가 아닌 생의학 분야에 특화된 문헌에 대하여 word2vec에 대한 다양한 옵션을 실험하고, 생의학 문헌에 적합한 최적의 조건을 분석한다.
키워드