• 제목/요약/키워드: 저자 식별

검색결과 95건 처리시간 0.021초

저자 식별에 기반한 저자 그래프 생성 (Author Graph Generation based on Author Disambiguation)

  • 강인수
    • 정보관리연구
    • /
    • 제42권1호
    • /
    • pp.47-62
    • /
    • 2011
  • 이상적 저자-망은 그 노드가 저자를 표현하도록 정의된다. 그러나 실제 자동 생성되는 대부분 저자망의 노드는 저자명을 저자 식별자로 사상시키는 어려움으로 인해 단순히 저자명으로 표현된다. 실 세계 저자를 표현하기 위해 이처럼 저자명을 사용하여 저자망을 구성하는 것은 서로 다른 동명 저자들이 하나의 저자명 노드로 병합됨으로 인해 저자망의 특성을 왜곡하는 문제가 발생한다. 이 연구는 공저 관계에 의존하여 저자명이 갖는 중의성을 해소하고 저자 노드로 구성된 저자망을 자동 생성하는 알고리즘을 제시한다. 공저자 자질의 특성상 이 알고리즘은 과소군집오류를 희생하면서 과다군집오류를 최소화하는 군집 결과를 만든다. 실험에서는 한글 동명 저자명이 출현한 실제 서지레코드 집합을 대상으로 알고리즘의 적용 결과를 제시한다.

머신 러닝 기반 코드 작성자 식별 기술에 대한 조망 (A Survey on Machine Learning-Based Code Authorship Identification)

  • 김현준;안선우;안성관;남기빈;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.128-131
    • /
    • 2021
  • 본 논문에서는 특정 코드를 분석하여 해당 코드를 작성한 저자가 누구인지 식별할 수 있는 머신 러닝 기반 코드 저자 식별 기술에 대해 소개한다. 먼저 소스 코드를 분석하여 저자를 확인하는 기법들에 알아볼 것이다. 또한 저자를 식별할 수 있는 정보가 다소 소실된 바이너리 코드를 분석하여 저자를 확인하는 기법을 살펴본 다음, 저자 식별 기법의 향후 연구 방향에 대해 탐색하고자 한다.

ORCID 기반의 학술 연구 결과물 저자명 식별 시스템 구축 방안에 관한 연구 (A Study on the Construction Methods for Author Identification System of Research Outcome based on ORCID)

  • 조재인
    • 한국비블리아학회지
    • /
    • 제24권1호
    • /
    • pp.45-62
    • /
    • 2013
  • 전통적인 전거 통제는 단위 시스템에 한정될 뿐 아니라, 그 대상도 도서관 소장 자원으로 국한되어 있다. 그러나 학술 논문은 인터넷 환경에서 상업 출판사, 기관 레포지토리 등으로 자유롭게 유통되고 있어, 시스템을 넘어선 글로벌한 개념의 이름 식별 체계가 필요하다. 최근 연구자 이름 식별 체계가 도서관계, 출판계를 망라한 글로벌 링크를 지향하게 되면서 ORCID가 출범하였다. ORCID는 학술지 출판사들이 그동안 기계적 클러스터를 통해 운영해 왔던 각종 ID 시스템, 대학의 연구 업적 시스템, 학술지 논문 투고 시스템 등을 파트너로 기존의 ID를 투명하게 링크할 뿐 아니라, 저자가 셀프 클레임을 통해 자신의 실적물을 식별할 수 있도록 하는 방식이다. 그러나 해외 출판물을 중심으로 운영되고 있는 ORCID를 국내 저자 이름 식별에 바로 적용하기는 어렵다. 따라서 본 연구에서는 저자명 식별의 글로벌한 동향을 밝히고, ORCID를 심층 분석한 후, 이를 응용한 국내 학술 연구 결과물 저자명 식별 시스템 구축 방향을 제안하였다.

대표 속성을 이용한 저자 개체 식별 (Author Entity Identification using Representative Properties in Linked Data)

  • 김태홍;정한민;성원경;김평
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.17-29
    • /
    • 2012
  • 급격하게 성장하고 있는 오픈 리소스인 링크드 데이터는 최근 선진국 정부의 많은 관심 속에 데이터 공개 및 상호운용성 확보를 위한 방안으로 주목받고 있다. 그러나 신뢰할 수 있는 개체 식별 기술의 부재로 링크드 데이터의 양적 성장에 비해 개체 수 대비 링크의 수가 적은 현상과 일부 데이터 셋에 링크가 집중되는 현상을 보이고 있다. 본 연구에서는 이러한 링크드 데이터의 문제를 해결하기 위해 개체 간 관계(owl:sameAs, owl differentFrom 등)를 이용하거나 Curation 방식을 사용하는 기존 링크드 데이터 기반 개체 식별 방식의 문제를 다중 온톨로지의 개체 식별이 가능한 자동화된 개체 식별 방식을 통해 개선하고 저자 개체의 대응 속성과 개체 유형의 논리적 특성을 활용하여 개체 식별 정합성을 검증할 수 있는 다중 온톨로지 기반의 실시간 저자 식별 방법을 제안하고 평가한다. 본인의 확인을 거친 29명의 저자 정보를 이용해 개체 식별 정확성 결과를 평가하여 평균 0.8533 (K measure)의 긍정적인 성능을 보였다.

서바이벌 네트워크 개념을 이용한 저자 식별 프레임워크: 의미론적 특징과 특징 허용 범위 (Authorship Attribution Framework Using Survival Network Concept : Semantic Features and Tolerances)

  • 황철훈;신건윤;김동욱;한명묵
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1013-1021
    • /
    • 2020
  • 악성코드 저자 식별은 알려진 악성코드 저자의 특징을 이용하여 알려지지 않은 악성코드의 저자 특징과 비교를 통해 악성코드를 식별하기 위한 연구 분야이다. 바이너리를 이용한 저자 식별 방법은 실질적으로 배포된 악성코드를 대상으로 수집 및 분석이 용이하다는 장점을 갖으나, 소스코드를 이용한 방법보다 특징 활용 범위가 제한된다. 이러한 한계점으로 인해 다수의 저자를 대상으로 정확도가 저하된다는 단점을 갖는다. 본 연구는 바이너리 저자 식별에 한계점을 보완하기 위하여 '바이너리로부터 의미론적 특징 정의'와 '서바이벌 네트워크 개념을 이용한 중복 특징에 대한 허용 범위 정의' 방법을 제안한다. 제안한 방법은 바이너리 정보로부터 Opcode 기반의 그래프 특징을 정의하며, 서바이벌 네트워크 개념을 이용하여 저자별 고유 특징을 선택할 수 있는 허용범위를 정의하는 것이다. 이를 통해 저자별 특징 정의 및 특징 선택 방법을 하나의 기술로 정의할 수 있으며, 실험을 통해 선행연구보다 5.0%의 정확도 향상과 함께 소스코드 기반 분석과 동일한 수준의 정확도 도출이 가능함을 확인할 수 있었다.

저자 식별을 위한 자질 비교 (Features for Author Disambiguation)

  • 강인수;이승우;정한민;김평;구희관;이미경;성원경;박동인
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.107-111
    • /
    • 2007
  • 학술 정보에서 저자는, 실세계의 한 저자가 형태적으로 둘 이상의 저자명으로 출현할 수 있으며, 서로 다른 저자들이 동일한 저자명을 공유하기도 한다. 이는 각각 학술정보에 대한 검색 및 탐색에 있어, 재현율과 정확률을 저하시키는 요인이다. 이 연구에서는 후자에 해당하는 저자의 동명이인 문제에 있어, 그 중의성 해소를 위한 자질의 특성에 집중하고자 한다. 최근까지, 저자 식별을 위한 자질로, 공저자, 논문 제목, 게재지명과 같은 서지 내적 자질과, 논문 원문 텍스트로부터 획득되는 전자메일주소, 소속기관, 논문의 토픽 등과 같은 서지 외적 자질이 사용되어 왔다. 그러나, 이러한 자질들이 저자 식별에 미치는 영향에 대한 비교 분석 연구는 찾아보기 힘들다. 이 연구에서는, 한글 저자명에 대해 원문과 연계된 대용량 저자 식별 평가 셋을 구축하여, 동명 저자 중의성 해소에 있어 다양한 자질들의 특성을 비교한다.

  • PDF

국내 학술논문 저자명 전거데이터 구축 방안에 관한 연구 (A Study on the Construction for Name Authority Data of the Korean Academic Papers)

  • 이석형;곽승진
    • 한국비블리아학회지
    • /
    • 제21권1호
    • /
    • pp.105-118
    • /
    • 2010
  • 본 연구의 목적은 국내 학술지, 회의자료 등 학술논문에 나타나는 저자명을 중심으로 저자명 전거데이터를 구축하기 위한 방안과 이를 적용한 전거데이터 구축시스템을 제시하는데 있다. 학술논문 저자명 전거데이터를 구축하기 위해 저자명 식별 요소를 분석하고 이를 토대로 저자 식별방법을 제안하였으며, 국내 학술논문의 저자명을 대상으로 실제 저자명 전거레코드를 구성하였다. 또한, 학술논문의 입수주기 및 규모를 고려하여 학술정보 데이터베이스구축과 동시에 전거데이터가 구축, 관리되고 학술정보 서비스와 연계될 수 있도록 학술논문 관리시스템과 서비스시스템과 본 연구의 제안 시스템이 상호 연계성을 가질 수 있도록 설계되었다.

국내 과학기술콘텐츠 저자의 소속기관명 식별을 위한 소속기관명 자동 식별 알고리즘에 관한 연구 (A Study on the Identification Algorithm for Organization's Name of Author of Korean Science & Technology Contents)

  • 김진영;이석형;서동준;김광영;윤정선
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.373-382
    • /
    • 2017
  • 과학기술콘텐츠가 증가함에 따라 과학기술콘텐츠의 효율적인 검색을 지원하는 서비스가 요구되고 있다. 저자의 소속기관명을 키워드로 사용할 경우 한 기관에서 생산된 콘텐츠를 확인할 수 있을 뿐만 아니라 저자, 용어를 키워드로 사용한 검색 결과의 식별율을 향상 시킬 수 있다. 검색 키워드로 사용되는 데이터들의 중의성과 모호성으로 인해 검색 결과에 false negative, false positive가 포함될 수 있으므로 데이터의 식별을 통한 통제는 중요하다. 저자의 소속기관명의 식별을 통한 통제 역시 기관의 이명, 약어 검색을 지원가능하게 하므로 매우 중요하지만 기존의 데이터 식별을 통한 통제에 대한 연구는 저자, 용어에 대한 연구가 주를 이루었다. 본 연구에서는 기관명 식별 알고리즘을 제안하고, 한국과학기술정보연구원에서 보유하고 있는 국내 과학기술콘텐츠들에 대한 데이터를 이용한 실험 결과를 보인다.

과학기술 전거데이터 시스템에서의 해외 학술논문 저자 식별요소 추출 (Extraction of Author Identification Elements of Overseas Academic Papers on Authority Data System for Science and Technology)

  • 최현미;이석형;김광영;김환민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.711-713
    • /
    • 2013
  • 페이스북, 트위터, 등의 소셜 네트워크의 확산으로 전 세계의 다양한 인적정보를 접할 수 있다. 과학기술 분야에서도 많은 인적정보가 있지만 과학기술자 정보가 체계적으로 정리되지 않아 협력 연구 파트너, 등 업무에 적합한 연구자를 찾기 어려운 문제점이 있다. 이런 문제점을 해결하고자 학술문헌 저자를 중심으로 과학기술 전거데이터를 구축하고 있다. 이 논문에서는 1994년부터 2012년까지 수집한 해외 학술논문 저자명 전거데이터를 구축하기 위하여 수백만건의 학술논문에서 저자 식별 요소를 추출한다. 저자 식별요소는 한글, 영문, 한문(일본어 포함)을 대상으로 저자명, 소속기관명, 학술지명, 발행년도, 키워드, 공저자와 공저자 소속기관, 등이 있다. 이 언어별 식별정보를 기반으로 해외 학술논문 정보에서 저자 식별 정보를 추출하여 데이터베이스를 구축하였다. 향후, 이 추출된 정보를 기반으로 저자 식별 정보를 클러스터링하고 수정, 편집하여 연구자에 대한 학술정보 활동내역을 정리할 예정이다. 구축될 해외 학술논문 전거 데이터는 연구 협력 파트너 찾기, 과제 심사위원 추천, 등 연구자 정보의 활용도를 높여 연구자 커뮤니티를 활성화시키는데 유용하게 사용될 수 있다.

  • PDF

중복 허용 범위를 고려한 서바이벌 네트워크 기반 안드로이드 저자 식별 (Survival network based Android Authorship Attribution considering overlapping tolerance)

  • 황철훈;신건윤;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제21권6호
    • /
    • pp.13-21
    • /
    • 2020
  • 안드로이드 저자 식별 연구는 좁은 범위에서는 출처를 밝히기 위한 방법으로 해석할 수 있으나, 넓은 범위에서 본다면 알려진 저작물을 통해 유사한 저작물을 식별하는 통찰력을 얻기 위한 방법으로 해석할 수 있다. 안드로이드 저자 식별 연구에서 발견되는 문제점은 안드로이드 시스템 상 중요한 코드이지만 의미가 없는 코드들로 인하여 저자의 중요한 특징을 찾기 어렵다는 것이다. 이로 인해 합법적인 코드 또는 행동들이 악성코드로 잘못 정의되기도 한다. 이를 해결하기 위하여 서바이벌 네트워크 개념을 도입하여 여러 안드로이드 앱에서 발견되는 특징들을 제거하고 저자별로 정의되는 고유한 특징들을 생존시킴으로써 문제를 해결하고자 하였다. 제안하는 프레임워크와 선행된 연구를 비교하는 실험을 진행하였으며, 440개의 저자가 식별된 앱을 대상으로 실험한 결과에서 최대 92.10%의 분류 정확도를 도출하였고 선행된 연구와 최대 3.47%의 차이를 보였다. 이는 적은 양의 학습데이터를 이용하였으나 저자별 중복된 특징 없이 고유한 특징들을 이용하였기에 선행 연구와 차이가 나타났을 것으로 해석하였다. 또한 특징 정의 방법에 따른 선행 연구와의 비교 실험에서도 적은 수의 특징으로 동일한 정확도를 보일 수 있으며, 이는 서바이벌 네트워크 개념을 통한 지속적으로 중복된 의미 없는 특징을 관리할 수 있음을 알 수 있었다.