• 제목/요약/키워드: 저자명 식별

검색결과 36건 처리시간 0.018초

저자 식별을 위한 대용량 평가셋 구축 (A Large-scale Test Set for Author Disambiguation)

  • 강인수;김평;이승우;정한민;류범종
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.455-464
    • /
    • 2009
  • 현재의 논문 중심적 학술정보 탐색의 한계에서 벗어나 저자 중심적 검색을 제공하기 위해서는 저자명이 갖는 동명이인의 문제가 해결되어야 한다. 그 해법으로 제시된 저자식별은 논문에 출현한 저자명 개체에 실세계 연구자에 대응하는 식별자를 부여하는 작업이다. 최근의 선도적 저자식별 연구들은 90%를 상회하는 식별 성능을 보고하고 있으나 실질적인 학술정보서비스에서 저자식별 기능이 탑재된 예는 거의 없다. 본 논문에서는 학술정보서비스에 보다 직접적으로 기여할 수 있는 광범위한 저자식별 연구를 위해 한국과학기술정보연구원에서 새롭게 구축한 대용량 저자식별 평가셋에 대해 기술한다. 평가셋은 DBLP 데이터에 출현한 고빈도 저자명들에 대해 웹 검색을 통한 수작업 식별 과정을 거쳐 만들어졌다. 현재 881개 저자명에 대해 수집된 41,673개의 저자명개체레코드로 구성되어 있으며 총 6,921명의 실세계 저자 식별자가 존재한다.

토픽모델링을 통한 저자명 식별 성능 비교 (A Comparison of Author Name Disambiguation Performance through Topic Modeling)

  • 김하진;정효정;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2014년도 제21회 학술대회 논문집
    • /
    • pp.149-152
    • /
    • 2014
  • 본 연구에서는 저자명 모호성 해소를 위해 토픽모델링 기법을 사용하여 저자명을 식별 하였다. 기존의 토픽모델링은 용어 자질만을 고려하였지만 본 연구에서는 제 3의 메타데이터 자질을 활용하여 ACT(Author-Conference Topic Model) 모델과 DMR(Dirichlet-multinomial Regression) 토픽모델링을 대상으로 저자명 식별 성능을 평가, 비교하였다. 또한 수작업으로 저자 식별 작업을 한 데이터셋을 기반으로 저자 당 논문 수와 토픽 수에 차이를 두고 연구를 진행하였다. 그 결과 저자명 식별에 있어 ACT 모델보다 DMR 토픽모델링의 성능이 더 우수한 것을 알 수 있었다.

  • PDF

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

저자 식별을 위한 전자메일의 추출 및 활용 (Email Extraction and Utilization for Author Disambiguation)

  • 강인수
    • 한국콘텐츠학회논문지
    • /
    • 제8권6호
    • /
    • pp.261-268
    • /
    • 2008
  • 논문의 저자는 일반적으로 저자명으로 표현되며, 저자명을 통한 저자의 표현 및 관련 논문의 검색은 해당 시스템의 정확률과 재현율을 저하시키게 된다. 이는 같은 저자명을 적는 여러 다른 형태가 존재할 뿐만 아니라, 같은 저자명으로 논문에 기술되었으나 실제 서로 다른 사람일 수 있기 때문이다. 이 문제의 해결을 위해서는, 논문의 저자로 출현하는 동일한 인명 표현을 실세계의 서로 다른 개체로 구분하는 저자 식별처리가 필요하다. 기존 저자 식별의 자질로, 논문의 기본 서지 항목들인 저자, 논문제목, 출처 등이 사용되었으나, 저자 식별 성능 개선을 위해서는 새로운 자질의 도입이 요구된다. 이 연구에서는 한 개인의 고유 식별자로 기능할 수 있는 저자의 전자메일주소 자질을 저자 식별 문제에 적용하고자 한다. 이를 위해 논문원문으로부터의 저자 메일주소의 추출 문제를 다루고, 추출된 메일주소 자질이 저자 식별에 미치는 영향을 대용량 테스트셋을 통해 평가하고 분석한다.

국내 학술논문의 동명이인 저자명 식별을 위한 방법 (A Method for Same Author Name Disambiguation in Domestic Academic Papers)

  • 신다예;양기덕
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.301-319
    • /
    • 2017
  • 저자명 식별이란 다른 이름으로 표기된 한 명의 개인을 식별하는 것과 같은 이름을 가진 서로 다른 저자들을 각기 구별된 개인으로 분류하는 것으로, 저자의 연구 목록 및 연구 업적 평가, 특정 분야의 전문가를 검색하거나, 인용색인과 같은 학술 정보 서비스의 원활한 운영을 위해 반드시 해결해야 할 문제이다. 본 연구는 단순 머신러닝만을 사용한 실험 결과와 휴리스틱 방식으로 데이터 셋의 오류 수정 및 정규화 작업을 이후 머신러닝의 처리 과정에 룰 베이스 기반의 규칙을 부여한 저자명 식별 실험의 결과의 비교를 통하여, 인간의 개입이 머신러닝의 단점을 보완하고 저자명 식별 성능을 향상시킬 수 있는지 알아보았다. 그 결과 F-measure 0.1 이상 향상시킨 정규화 된 email기반의 룰 베이스 저자식별 결과로 정규화 과정과 휴리스틱 설정에 필요한 인간의 패턴인식과 추론능력이 머신러닝의 단점을 보완해줄 수 있음에 대한 가능성을 나타내었다.

국내 학술논문 저자명 전거데이터 구축 방안에 관한 연구 (A Study on the Construction for Name Authority Data of the Korean Academic Papers)

  • 이석형;곽승진
    • 한국비블리아학회지
    • /
    • 제21권1호
    • /
    • pp.105-118
    • /
    • 2010
  • 본 연구의 목적은 국내 학술지, 회의자료 등 학술논문에 나타나는 저자명을 중심으로 저자명 전거데이터를 구축하기 위한 방안과 이를 적용한 전거데이터 구축시스템을 제시하는데 있다. 학술논문 저자명 전거데이터를 구축하기 위해 저자명 식별 요소를 분석하고 이를 토대로 저자 식별방법을 제안하였으며, 국내 학술논문의 저자명을 대상으로 실제 저자명 전거레코드를 구성하였다. 또한, 학술논문의 입수주기 및 규모를 고려하여 학술정보 데이터베이스구축과 동시에 전거데이터가 구축, 관리되고 학술정보 서비스와 연계될 수 있도록 학술논문 관리시스템과 서비스시스템과 본 연구의 제안 시스템이 상호 연계성을 가질 수 있도록 설계되었다.

저자 식별에 기반한 저자 그래프 생성 (Author Graph Generation based on Author Disambiguation)

  • 강인수
    • 정보관리연구
    • /
    • 제42권1호
    • /
    • pp.47-62
    • /
    • 2011
  • 이상적 저자-망은 그 노드가 저자를 표현하도록 정의된다. 그러나 실제 자동 생성되는 대부분 저자망의 노드는 저자명을 저자 식별자로 사상시키는 어려움으로 인해 단순히 저자명으로 표현된다. 실 세계 저자를 표현하기 위해 이처럼 저자명을 사용하여 저자망을 구성하는 것은 서로 다른 동명 저자들이 하나의 저자명 노드로 병합됨으로 인해 저자망의 특성을 왜곡하는 문제가 발생한다. 이 연구는 공저 관계에 의존하여 저자명이 갖는 중의성을 해소하고 저자 노드로 구성된 저자망을 자동 생성하는 알고리즘을 제시한다. 공저자 자질의 특성상 이 알고리즘은 과소군집오류를 희생하면서 과다군집오류를 최소화하는 군집 결과를 만든다. 실험에서는 한글 동명 저자명이 출현한 실제 서지레코드 집합을 대상으로 알고리즘의 적용 결과를 제시한다.

인용분석에서의 모호한 저자명 식별을 위한 방법들에 관한 고찰 (Review of Author Name Disambiguation Techniques for Citation Analysis)

  • 김현정
    • 한국비블리아학회지
    • /
    • 제23권3호
    • /
    • pp.5-17
    • /
    • 2012
  • 서지 데이터베이스를 이용한 인용분석연구를 진행하기 이전에 이루어져야 할 과정 중 하나가 모호한 저자명의 식별이라고 할 수 있다. 대부분 서지 데이터베이스에는 저자의 성(姓)과 이름의 이니셜만을 표기하는 경우가 많은데, 중국이나 한국 등 아시아 국가 출신의 연구자들은 같은 성을 가진 사람이 매우 많고, 이름의 이니셜까지 같은 경우도 상당히 많아서 이름검색만으로 찾고자 하는 저자를 식별해내기가 쉽지 않기 때문이다. 아시아 국가 출신의 학자들이 유난히 많은 연구분야들에서는 이러한 문제들이 더더욱 큰 문제가 되며, 인용분석 뿐만 아니라 일반적인 정보검색에서도 매우 중요한 요인이 될 수 있다. 모호한 저자명을 식별해내는 방법에는 자동화된 알고리듬을 이용하여 각각의 저자를 식별해내는 방법과 저자 클러스터링을 얻어내기 위해 일일이 수작업으로 데이터셋을 구축하는 방법, 그리고 두 가지 방법을 혼용한 반자동화된 방법 등이 있다. 본 연구는 "모호한 저자명 식별"을 위해 개발된 여러 가지 방법들을 고찰해보기로 한다.

ORCID 기반의 학술 연구 결과물 저자명 식별 시스템 구축 방안에 관한 연구 (A Study on the Construction Methods for Author Identification System of Research Outcome based on ORCID)

  • 조재인
    • 한국비블리아학회지
    • /
    • 제24권1호
    • /
    • pp.45-62
    • /
    • 2013
  • 전통적인 전거 통제는 단위 시스템에 한정될 뿐 아니라, 그 대상도 도서관 소장 자원으로 국한되어 있다. 그러나 학술 논문은 인터넷 환경에서 상업 출판사, 기관 레포지토리 등으로 자유롭게 유통되고 있어, 시스템을 넘어선 글로벌한 개념의 이름 식별 체계가 필요하다. 최근 연구자 이름 식별 체계가 도서관계, 출판계를 망라한 글로벌 링크를 지향하게 되면서 ORCID가 출범하였다. ORCID는 학술지 출판사들이 그동안 기계적 클러스터를 통해 운영해 왔던 각종 ID 시스템, 대학의 연구 업적 시스템, 학술지 논문 투고 시스템 등을 파트너로 기존의 ID를 투명하게 링크할 뿐 아니라, 저자가 셀프 클레임을 통해 자신의 실적물을 식별할 수 있도록 하는 방식이다. 그러나 해외 출판물을 중심으로 운영되고 있는 ORCID를 국내 저자 이름 식별에 바로 적용하기는 어렵다. 따라서 본 연구에서는 저자명 식별의 글로벌한 동향을 밝히고, ORCID를 심층 분석한 후, 이를 응용한 국내 학술 연구 결과물 저자명 식별 시스템 구축 방향을 제안하였다.

저자 식별을 위한 자질 비교 (Features for Author Disambiguation)

  • 강인수;이승우;정한민;김평;구희관;이미경;성원경;박동인
    • 한국콘텐츠학회논문지
    • /
    • 제8권2호
    • /
    • pp.41-47
    • /
    • 2008
  • 학술 정보에서 저자는, 실세계의 한 저자가 형태적으로 둘 이상의 저자명으로 출현할 수 있으며, 서로 다른 저자들이 동일한 저자명을 공유하기도 한다. 이는 각각 학술 정보에 대한 검색 및 탐색에 있어, 재현율과 정확률을 저하시키는 요인이다. 이 연구에서는 후자에 해당하는 저자의 동명이인 문제에 있어, 그 중의성 해소를 위한 자질의 특성에 집중하고자 한다. 최근까지, 저자 식별을 위한 자질로, 공저자, 논문 제목, 게재지명과 같은 서지 내적 자질과, 논문 원문 텍스트로부터 획득되는 전자메일주소, 소속기관, 논문의 토픽 등과 같은 서지 외적 자질이 사용되어 왔다. 그러나, 이러한 자질들이 저자 식별에 미치는 영향에 대한 비교 분석 연구는 찾아 보기 힘들다. 이 연구에서는, 한글 저자명에 대해 원문과 연계된 대용량 저자 식별 평가 셋을 구축하여, 동명 저자 중의성 해소에 있어 다양한 자질들의 특성을 비교한다.