• 제목/요약/키워드: 저자 식별

검색결과 95건 처리시간 0.023초

저자 식별을 위한 대용량 평가셋 구축 (A Large-scale Test Set for Author Disambiguation)

  • 강인수;김평;이승우;정한민;류범종
    • 한국콘텐츠학회논문지
    • /
    • 제9권11호
    • /
    • pp.455-464
    • /
    • 2009
  • 현재의 논문 중심적 학술정보 탐색의 한계에서 벗어나 저자 중심적 검색을 제공하기 위해서는 저자명이 갖는 동명이인의 문제가 해결되어야 한다. 그 해법으로 제시된 저자식별은 논문에 출현한 저자명 개체에 실세계 연구자에 대응하는 식별자를 부여하는 작업이다. 최근의 선도적 저자식별 연구들은 90%를 상회하는 식별 성능을 보고하고 있으나 실질적인 학술정보서비스에서 저자식별 기능이 탑재된 예는 거의 없다. 본 논문에서는 학술정보서비스에 보다 직접적으로 기여할 수 있는 광범위한 저자식별 연구를 위해 한국과학기술정보연구원에서 새롭게 구축한 대용량 저자식별 평가셋에 대해 기술한다. 평가셋은 DBLP 데이터에 출현한 고빈도 저자명들에 대해 웹 검색을 통한 수작업 식별 과정을 거쳐 만들어졌다. 현재 881개 저자명에 대해 수집된 41,673개의 저자명개체레코드로 구성되어 있으며 총 6,921명의 실세계 저자 식별자가 존재한다.

동시인용정보를 이용한 동명이인 저자의 중의성 해소 (Disambiguation of Author Names Using Co-citation)

  • 강인수
    • 정보관리연구
    • /
    • 제42권3호
    • /
    • pp.167-186
    • /
    • 2011
  • 동시인용은 서로 다른 두 연구가 이후의 새로운 연구에서 동시 인용되는 것이다. 이 연구는 동시인용과 저자식별의 관계를 다룬다. 저자식별은 문헌에 출현한 동명의 저자명들을 실 세계 저자로 식별하는 것이다. 동시인용은, 한 사람의 관련된 연구들이 이후 또 다른 연구들에서 타인 혹은 자신에 의해 동시 인용되는 증거를 수집함으로써, 저자식별의 절차와 성능에 영향을 미칠 수 있다. 이 연구는 구글 스칼라로부터 동시인용을 자동 수집하는 절차를 제시하고 동시인용 정보를 저자식별의 기존 자질들과 효율적으로 결합하는 새로운 군집알고리즘을 제안한다. 실험을 통해 동시인용이 저자식별에 미치는 긍정적 효과를 확인하였다.

한글 저자명 중의성 해소를 위한 기계학습기법의 적용 (Application of Machine Learning Techniques for Resolving Korean Author Names)

  • 강인수
    • 정보관리학회지
    • /
    • 제25권3호
    • /
    • pp.27-39
    • /
    • 2008
  • 동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자진들을 결합하는 최저의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

저자 식별을 위한 전자메일의 추출 및 활용 (Email Extraction and Utilization for Author Disambiguation)

  • 강인수
    • 한국콘텐츠학회논문지
    • /
    • 제8권6호
    • /
    • pp.261-268
    • /
    • 2008
  • 논문의 저자는 일반적으로 저자명으로 표현되며, 저자명을 통한 저자의 표현 및 관련 논문의 검색은 해당 시스템의 정확률과 재현율을 저하시키게 된다. 이는 같은 저자명을 적는 여러 다른 형태가 존재할 뿐만 아니라, 같은 저자명으로 논문에 기술되었으나 실제 서로 다른 사람일 수 있기 때문이다. 이 문제의 해결을 위해서는, 논문의 저자로 출현하는 동일한 인명 표현을 실세계의 서로 다른 개체로 구분하는 저자 식별처리가 필요하다. 기존 저자 식별의 자질로, 논문의 기본 서지 항목들인 저자, 논문제목, 출처 등이 사용되었으나, 저자 식별 성능 개선을 위해서는 새로운 자질의 도입이 요구된다. 이 연구에서는 한 개인의 고유 식별자로 기능할 수 있는 저자의 전자메일주소 자질을 저자 식별 문제에 적용하고자 한다. 이를 위해 논문원문으로부터의 저자 메일주소의 추출 문제를 다루고, 추출된 메일주소 자질이 저자 식별에 미치는 영향을 대용량 테스트셋을 통해 평가하고 분석한다.

토픽모델링을 통한 저자명 식별 성능 비교 (A Comparison of Author Name Disambiguation Performance through Topic Modeling)

  • 김하진;정효정;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2014년도 제21회 학술대회 논문집
    • /
    • pp.149-152
    • /
    • 2014
  • 본 연구에서는 저자명 모호성 해소를 위해 토픽모델링 기법을 사용하여 저자명을 식별 하였다. 기존의 토픽모델링은 용어 자질만을 고려하였지만 본 연구에서는 제 3의 메타데이터 자질을 활용하여 ACT(Author-Conference Topic Model) 모델과 DMR(Dirichlet-multinomial Regression) 토픽모델링을 대상으로 저자명 식별 성능을 평가, 비교하였다. 또한 수작업으로 저자 식별 작업을 한 데이터셋을 기반으로 저자 당 논문 수와 토픽 수에 차이를 두고 연구를 진행하였다. 그 결과 저자명 식별에 있어 ACT 모델보다 DMR 토픽모델링의 성능이 더 우수한 것을 알 수 있었다.

  • PDF

ISNI 기반 데이터 융합을 위한 저자식별체계 운용에 관한 연구 (A Study on the Management of Name Identifier System for ISNI-based Data Integration)

  • 이승민;곽승진;오상희;박진호
    • 한국비블리아학회지
    • /
    • 제30권1호
    • /
    • pp.29-51
    • /
    • 2019
  • 현재 사회 각 분야에서는 개별 저작자 및 기관을 고유하게 식별하고 이를 다양한 저작물 관련 데이터와 연계하기 위해서 International Standard Name Identifier(ISNI), Open Researcher and Contributor ID(ORCID), Interested Parties Information System(IPI) 등과 같은 여러 가지 저자식별체계들을 구축, 적용해 왔다. 분야별 데이터 연계와 융합이 점차적으로 가속화되고 있는 현재의 데이터 환경에서 저자식별체계의 적용은 필연적인 것이라 볼 수 있지만, 저자식별체계를 활용하는데 있어서의 한계들도 여러 가지 측면에서 대두되고 있다. 이러한 한계를 극복하고, 저자식별체계를 중심으로 다양한 분야의 데이터를 융합하여 보다 나은 정보생태계를 구축하기 위해, 본 연구에서는 ISNI 중심의 데이터 융합 선진사례를 분석하고, 이를 기반으로 데이터 융합에서 ISNI 저자식별 체계를 효율적으로 운용하기 위한 개선사항을 제안하였다.

국가 차원의 ORCID 기반 저자 식별자 활용에 관한 연구 (A Study on Utilization of ORCID based Author Identifier at National Level)

  • 김은정;노경란
    • 한국비블리아학회지
    • /
    • 제28권3호
    • /
    • pp.151-174
    • /
    • 2017
  • 인터넷의 보급, ICT 기술 발전, 디지털 확산으로 학술 커뮤니케이션의 효율화와 고속화, 연구방법의 간소화와 가속화가 진행되고 있으며, 학술정보 유통 패러다임이 변하고 있다. 본 연구는 고유 저자식별자인 ORCID에 대한 내용을 소개하고, ORCID 조직의 활동과 연구자, 연구기관에 주는 장점, 회원현황을 살펴보고자 한다. 또한 미국, 영국, 이탈리아, 중국 등 해외 주요 국가들의 ORCID 도입 및 활용 사례를 소개하고자 한다. 이를 바탕으로 국가 차원에서 저자 식별을 위한 노력으로 ORCID 활용에 필요한 고려사항들을 거버넌스, 시스템 요소, 정책적 제도적 측면에서 제안하였다.

인용분석에서의 모호한 저자명 식별을 위한 방법들에 관한 고찰 (Review of Author Name Disambiguation Techniques for Citation Analysis)

  • 김현정
    • 한국비블리아학회지
    • /
    • 제23권3호
    • /
    • pp.5-17
    • /
    • 2012
  • 서지 데이터베이스를 이용한 인용분석연구를 진행하기 이전에 이루어져야 할 과정 중 하나가 모호한 저자명의 식별이라고 할 수 있다. 대부분 서지 데이터베이스에는 저자의 성(姓)과 이름의 이니셜만을 표기하는 경우가 많은데, 중국이나 한국 등 아시아 국가 출신의 연구자들은 같은 성을 가진 사람이 매우 많고, 이름의 이니셜까지 같은 경우도 상당히 많아서 이름검색만으로 찾고자 하는 저자를 식별해내기가 쉽지 않기 때문이다. 아시아 국가 출신의 학자들이 유난히 많은 연구분야들에서는 이러한 문제들이 더더욱 큰 문제가 되며, 인용분석 뿐만 아니라 일반적인 정보검색에서도 매우 중요한 요인이 될 수 있다. 모호한 저자명을 식별해내는 방법에는 자동화된 알고리듬을 이용하여 각각의 저자를 식별해내는 방법과 저자 클러스터링을 얻어내기 위해 일일이 수작업으로 데이터셋을 구축하는 방법, 그리고 두 가지 방법을 혼용한 반자동화된 방법 등이 있다. 본 연구는 "모호한 저자명 식별"을 위해 개발된 여러 가지 방법들을 고찰해보기로 한다.

국내 학술논문의 동명이인 저자명 식별을 위한 방법 (A Method for Same Author Name Disambiguation in Domestic Academic Papers)

  • 신다예;양기덕
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.301-319
    • /
    • 2017
  • 저자명 식별이란 다른 이름으로 표기된 한 명의 개인을 식별하는 것과 같은 이름을 가진 서로 다른 저자들을 각기 구별된 개인으로 분류하는 것으로, 저자의 연구 목록 및 연구 업적 평가, 특정 분야의 전문가를 검색하거나, 인용색인과 같은 학술 정보 서비스의 원활한 운영을 위해 반드시 해결해야 할 문제이다. 본 연구는 단순 머신러닝만을 사용한 실험 결과와 휴리스틱 방식으로 데이터 셋의 오류 수정 및 정규화 작업을 이후 머신러닝의 처리 과정에 룰 베이스 기반의 규칙을 부여한 저자명 식별 실험의 결과의 비교를 통하여, 인간의 개입이 머신러닝의 단점을 보완하고 저자명 식별 성능을 향상시킬 수 있는지 알아보았다. 그 결과 F-measure 0.1 이상 향상시킨 정규화 된 email기반의 룰 베이스 저자식별 결과로 정규화 과정과 휴리스틱 설정에 필요한 인간의 패턴인식과 추론능력이 머신러닝의 단점을 보완해줄 수 있음에 대한 가능성을 나타내었다.

저자 식별을 위한 자질 비교 (Features for Author Disambiguation)

  • 강인수;이승우;정한민;김평;구희관;이미경;성원경;박동인
    • 한국콘텐츠학회논문지
    • /
    • 제8권2호
    • /
    • pp.41-47
    • /
    • 2008
  • 학술 정보에서 저자는, 실세계의 한 저자가 형태적으로 둘 이상의 저자명으로 출현할 수 있으며, 서로 다른 저자들이 동일한 저자명을 공유하기도 한다. 이는 각각 학술 정보에 대한 검색 및 탐색에 있어, 재현율과 정확률을 저하시키는 요인이다. 이 연구에서는 후자에 해당하는 저자의 동명이인 문제에 있어, 그 중의성 해소를 위한 자질의 특성에 집중하고자 한다. 최근까지, 저자 식별을 위한 자질로, 공저자, 논문 제목, 게재지명과 같은 서지 내적 자질과, 논문 원문 텍스트로부터 획득되는 전자메일주소, 소속기관, 논문의 토픽 등과 같은 서지 외적 자질이 사용되어 왔다. 그러나, 이러한 자질들이 저자 식별에 미치는 영향에 대한 비교 분석 연구는 찾아 보기 힘들다. 이 연구에서는, 한글 저자명에 대해 원문과 연계된 대용량 저자 식별 평가 셋을 구축하여, 동명 저자 중의성 해소에 있어 다양한 자질들의 특성을 비교한다.