Features for Author Disambiguation

저자 식별을 위한 자질 비교

  • Kang, In-Su (Korea Institute of Science and Technology Information) ;
  • Lee, Seungwoo (Korea Institute of Science and Technology Information) ;
  • Jung, Hanmin (Korea Institute of Science and Technology Information) ;
  • Kim, Pyung (Korea Institute of Science and Technology Information) ;
  • Goo, HeeKwan (Korea Institute of Science and Technology Information) ;
  • Lee, MiKyung (Korea Institute of Science and Technology Information) ;
  • Sung, Won-Kyung (Korea Institute of Science and Technology Information) ;
  • Park, DongIn (Korea Institute of Science and Technology Information)
  • 강인수 (한국과학기술정보연구원, 정보기술개발단) ;
  • 이승우 (한국과학기술정보연구원, 정보기술개발단) ;
  • 정한민 (한국과학기술정보연구원, 정보기술개발단) ;
  • 김평 (한국과학기술정보연구원, 정보기술개발단) ;
  • 구희관 (한국과학기술정보연구원, 정보기술개발단) ;
  • 이미경 (한국과학기술정보연구원, 정보기술개발단) ;
  • 성원경 (한국과학기술정보연구원, 정보기술개발단) ;
  • 박동인 (한국과학기술정보연구원, 정보기술개발단)
  • Published : 2007.11.16

Abstract

There exists a many-to-many mapping relationship between persons and their names. A person may have multiple names, and different persons may share the same name. These synonymous and homonymous names may severely deteriorate the recall and precision of the person search, respectively. This study addresses the characteristics of features for resolving homonymous author names appearing in citation data. As disambiguation features, previous works have employed citation-internal features such as co-authorship, titles of articles, titles of publications as well as citation-external features such as emails, affiliations, Web evidences. To the best of our knowledge, however, there has been no literature to deal with the influences of features on author disambiguation. This study analyzes the effect of individual features on author resolution using a large-scale test set for Korean.

학술 정보에서 저자는, 실세계의 한 저자가 형태적으로 둘 이상의 저자명으로 출현할 수 있으며, 서로 다른 저자들이 동일한 저자명을 공유하기도 한다. 이는 각각 학술정보에 대한 검색 및 탐색에 있어, 재현율과 정확률을 저하시키는 요인이다. 이 연구에서는 후자에 해당하는 저자의 동명이인 문제에 있어, 그 중의성 해소를 위한 자질의 특성에 집중하고자 한다. 최근까지, 저자 식별을 위한 자질로, 공저자, 논문 제목, 게재지명과 같은 서지 내적 자질과, 논문 원문 텍스트로부터 획득되는 전자메일주소, 소속기관, 논문의 토픽 등과 같은 서지 외적 자질이 사용되어 왔다. 그러나, 이러한 자질들이 저자 식별에 미치는 영향에 대한 비교 분석 연구는 찾아보기 힘들다. 이 연구에서는, 한글 저자명에 대해 원문과 연계된 대용량 저자 식별 평가 셋을 구축하여, 동명 저자 중의성 해소에 있어 다양한 자질들의 특성을 비교한다.

Keywords