DOI QR코드

DOI QR Code

Research on Identifying Mutation-Drug Relationship in Biomedical Literature Using Biomedical Context based pre-trained word embedding

의생명과학 기반 기학습된 워드 임베딩을 이용한 의생명과학 논문 속의 돌연변이-약물 관계 추출 연구

  • 김호준 (고려대학교 생명공학부) ;
  • 원성연 (고려대학교 생명공학부) ;
  • 강승우 (고려대학교 컴퓨터공학과) ;
  • 이규범 (고려대학교 컴퓨터공학과) ;
  • 김병건 (고려대학교 컴퓨터공학과) ;
  • 김선규 (고려대학교 컴퓨터공학과) ;
  • 강재우 (고려대학교 컴퓨터공학과)
  • Published : 2017.04.27

Abstract

의생명과학분야가 계속 발전됨에 따라 매일 평균 3천여 편에 달하는 방대한 양의 의생명과학분야 문헌들이 나오고 있다. 많은 연구가 진행될수록, 새로이 규명된 관계를 습득하고 체계화하는 일이 연구자와 의료계 종사자들에게 더 중요해지고 있다. 하지만 현재로서는 의생명과학분야에 어느 정도의 지식이 있는 사람이 직접 논문을 읽고 해당 논문에서 밝히고 있는 정보를 정리해야만 하는 상황이며, 이로는 기하급수적으로 쌓이는 정보의 양을 대처하기 어렵다. 이를 해결하기 위해 본 논문에서는 기계 학습을 통한 생명의료 객체관계 자동추출 연구를 이용하여 의생명과학분야의 정보를 체계화 하고자 한다. 본 논문에서는 돌연변이와 약물이 함께 등장하는 논문을 뽑아내어 글을 자연어 문장 단위로 나누었다. 추출한 돌연변이와 약물 간의 관계를 직접 사람에 의해 참거짓을 판명하였고, 해당 데이터셋을 기계학습에 이용하여 돌연변이와 약물 간의 관계를 학습시켰다. 최종적으로 GoogleNews의 기사들로 기학습된 워드임베딩, 의생명과학분야 문헌들을 이용하여 기학습된 워드임베딩을 이용하여 학습의 성능을 비교하였고, 의생명과학-문맥 특이적인 워드임베딩이 갖는 강점을 보고한다. 해당 연구를 통해 실제로 논문을 읽지 않고도 의생명과학분야 논문의 핵심적인 내용을 뽑아내는 자동화 시스템을 구축하는 데에 이바지하고, 의생명공학 연구자들의 연구에 핵심적인 도움이 되는 디딤돌이 되고자 한다.

Keywords