• 제목/요약/키워드: 한국어 화합물 개체명 인식

검색결과 1건 처리시간 0.014초

특허문서의 한국어 화합물 개체명 인식 (Korean Chemical Named Entity Recognition in Patent Documents)

  • 신진섭;김경민;김성찬;이문용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.522-524
    • /
    • 2023
  • 화합물 관련 한국어 문서는 화합물 정보를 추출하여 그 용도를 발견할 수 있는 중요한 문서임에도 불구하고 자연어 처리를 위한 말뭉치의 구축이 되지 않아서 활용이 어려웠다. 이 연구에서는 최초로 한국 특허 문서에서 한국어 화합물 개체명 인식(Chemical Named Entity Recognition, CNER)을 위한 말뭉치를 구축하였다. 또한 구축된 CNER 말뭉치를 기본 모델인 Bi-LSTM과 KorBERT 사전학습 모델을 미세 조정하여 개체명 인식을 수행하였다. 한국어 CNER F1 성능은 Bi-LSTM 기반 모델이 83.71%, KoCNER 말뭉치를 활용하는 자연어 처리 기술들은 한국어 논문에 대한 화합물 개체명 인식으로 그 외연을 확대하고, 한국어로 작성된 화합물 관련 문서에서 화합물 명칭뿐만 아니라 물성, 반응 등의 개체를 추출하고 관계를 규명하는데 활용 될 수 있을 것이다.

  • PDF