• 제목/요약/키워드: 통제 키워드

검색결과 36건 처리시간 0.025초

디스크립터 자동 할당을 위한 저자키워드의 재분류에 관한 실험적 연구 (A Study on the Reclassification of Author Keywords for Automatic Assignment of Descriptors)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.225-246
    • /
    • 2012
  • 본 연구는 국내 주요 학술 DB의 검색서비스에서 제공되고 있는 저자키워드(비통제키워드)의 재분류를 통하여 디스크립터(통제키워드)를 자동 할당할 수 있는 가능성을 모색하였다. 먼저 기계학습에 기반한 주요 분류기들의 특성을 비교하는 실험을 수행하여 재분류를 위한 최적 분류기와 파라미터를 선정하였다. 다음으로, 국내 독서 분야 학술지 논문들에 부여된 저자키워드를 학습한 결과에 따라 해당 논문들을 재분류함으로써 키워드를 추가로 할당하는 실험을 수행하였다. 또한 이러한 재분류 결과에 따라 새롭게 추가된 문헌들에 대하여 통제키워드인 디스크립터와 마찬가지로 동일 주제의 논문들을 모아주는 어휘통제 효과가 있는지를 살펴보았다. 그 결과, 저자키워드의 재분류를 통하여 디스크립터를 자동 할당하는 효과를 얻을 수 있음을 확인하였다.

해외 데이터베이스의 통제키워드에 기초한 국내 학술지 논문의 자동분류 성능 향상에 관한 실험적 연구 (An Experimental Study on the Performance Improvement of Automatic Classification for the Articles of Korean Journals Based on Controlled Keywords in International Database)

  • 김판준;이재윤
    • 한국문헌정보학회지
    • /
    • 제48권3호
    • /
    • pp.491-510
    • /
    • 2014
  • 학술지 논문의 효율적인 관리 및 검색을 위한 주요 요소인 키워드는 통제키워드와 비통제키워드로 구분할 수 있다. 그러나 현재 국내 데이터베이스에서 대부분의 학술지 논문에는 비통제키워드인 저자키워드만이 부여되어 있을 뿐, 망라적인 탐색을 돕는 통제키워드로서 디스크립터는 제공되지 않고 있다. 이 연구에서는 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 학습한 분류기를 사용하여, 국내 학술지 논문에 디스크립터를 자동 할당하는 실험을 수행하였다. 그 결과, 국외 데이터베이스의 디스크립터 학습을 통해 영문 초록이 있는 국내 학술지 논문에 통제키워드를 자동 할당할 수 있는 가능성을 확인하였다. 또한, 다양한 분류기 및 분류기 결합을 통하여 이러한 디스크립터 자동 할당의 성능 향상을 모색하였다.

동시출현 단어 분석을 통한 지식 구조의 파악 : 인공지능 분야를 대상으로 (Exploration of Intellectual Structure of Artificial Intelligence Field Using Co-word Analysis)

  • 이미경;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.245-251
    • /
    • 2003
  • 이 연구에서는 통제된 색인어를 이용하여 파악한 지식 구조와 통제되지 않은 키워드를 이용한 지식 구조를 비교하여 두 구조가 어떤 차이점을 보이는지를 살펴보았다. 또한 색인효과가 어떻게 나타나는지, 비통제어를 사용한 경우가 실제적으로 더 상세한 하위 영역을 표현하는지를 확인하고자 하였다. 실험 결과 통제된 색인어인 주제명표목을 사용한 영역지도와 비통제 색인어인 키워드를 사용한 영역지도 둘 다 인공지능 분야의 주요 분야들을 비슷하게 나타냈지만, 주제명표목을 사용한 경우에 색인효과가 일부 나타났다. 그리고 대체적으로 주제명표목에 기반한 영역지도보다는 키워드에 기반한 영역지도가 더 상세하게 나타났다.

  • PDF

동시출현단어 분석에 기초한 지적구조 분석에서 키워드 유형별 특성에 관한 연구 - 국외 오픈액세스 분야를 중심으로 - (A Study on the Characteristics by Keyword Types in the Intellectual Structure Analysis Based on Co-word Analysis: Focusing on Overseas Open Access Field)

  • 김판준
    • 한국문헌정보학회지
    • /
    • 제55권3호
    • /
    • pp.103-129
    • /
    • 2021
  • 본 연구는 동시출현단어 분석에 기초한 지적구조 분석에서 주제를 표현하는 두 가지 키워드 유형의 특성에 관하여 국외 오픈액세스 분야를 중심으로 살펴보았다. 구체적으로 문헌정보학 분야 LISTA 데이터베이스에서 추출한 키워드 집합을 두 가지 유형(통제키워드, 비통제키워드)으로 구분하고, 동시출현단어 분석에 기초한 지적구조 분석을 수행한 결과를 비교하였다. 그 결과, 각 키워드 유형별로 키워드 집합, 연구지도와 영향력, 그리고 시기에 따라 상당한 차이가 있는 것으로 나타났다. 따라서 동시출현단어 분석에 기초한 지적구조 분석에서는 연구 목적에 따라 키워드 유형별 특성을 고려하여야 한다. 즉 전체 학문분야 관점에서 특정분야의 전반적인 연구 동향을 살펴보는 목적으로는 통제키워드를, 해당 분야 관점에서 연구 영역별로 세부적인 동향을 파악하는 목적으로는 비통제키워드를 사용하는 것이 더 적절할 것이다. 또한 양자의 관점을 모두 반영하는 종합적인 지적구조 분석을 위해서는 통제키워드와 비통제키워드를 개별적으로 사용한 결과를 상호 비교하여 분석하는 것이 가장 바람직하다고 할 수 있다.

프로파일링에 기초한 키워드 유형별 지적구조 분석에 관한 연구 - 국외 오픈액세스 분야를 중심으로 - (A Study on the Intellectual Structure Analysis by Keyword Type Based on Profiling: Focusing on Overseas Open Access Field)

  • 김판준
    • 한국문헌정보학회지
    • /
    • 제55권4호
    • /
    • pp.115-140
    • /
    • 2021
  • 본 연구는 국외 오픈액세스 분야를 대상으로 LISTA 데이터베이스에서 추출한 키워드 집합을 두 가지 유형(통제키워드, 비통제키워드)으로 구분하고, 각 키워드 유형별로 프로파일링에 기초한 지적구조 분석을 수행한 결과를 검토하였다. 또한, 이를 동시출현단어 분석에 기초한 지적구조 분석의 결과와 비교하였다. 이를 통해 지적구조 분석의 또 다른 방법인 프로파일링에서도 이와 유사한 결과가 도출되는 지를 살펴보고, 동시출현단어 분석과 프로파일링의 차이점을 검토하고자 하였다. 그 결과, 두 가지 키워드 유형별로 프로파일링에 기초한 지적구조 분석의 결과는 동시출현단어 분석과 유사한 차이가 있었다. 또한 프로파일링과 동시출현단어 분석에 기초한 지적구조 분석의 결과 간에도 주목할 만한 차이가 있었다. 따라서 키워드를 사용하는 지적구조 분석은 연구 목적에 따라 키워드 유형별 특성을 고려하여야 하며, 특정 분야의 연구 동향을 보다 명확하게 파악하기 위해서는 동시출현단어 분석보다 프로파일링에 기초한 지적구조 분석을 사용하는 것이 더 나은 결과를 기대할 수 있다.

FPS게임의 사용자 현존감과 플레이어 경험에 대한 키워드 연구 - Steam 리뷰와 게임 이용 시간을 중심으로 (Key words research of players' experience and presence in FPS genre-focusing on game play time and Steam reviews)

  • 최영우;유승호
    • 한국게임학회 논문지
    • /
    • 제21권6호
    • /
    • pp.13-30
    • /
    • 2021
  • 본 논문은 스팀(Steam)의 리뷰 데이터를 활용하여 게임이용시간에 따른 FPS에서의 사용자 현존감 경험과 플레이어 경험을 분석했다. Python을 활용하여 크롤링을 통해 데이터를 얻었다. 분석 결과 게임 이용 시간이 적은 집단에서는 통제 가능한 물리적 현존감과 통제 불가능한 사회적 현존감에 관한 이슈가 나왔고 게임이용시간이 많은 집단에서는 이전 집단에 있던 물리적 현존감 요인이 통제 가능한 사회적 현존감으로 변화한 것을 알 수 있었다. 더 나아가 플레이어 경험 분석을 통해 게임 플레이 요인인 "반동(recoil)"이란 키워드가 중요하다는 것을 알 수 있었다.

국내 과학기술콘텐츠 저자의 소속기관명 식별을 위한 소속기관명 자동 식별 알고리즘에 관한 연구 (A Study on the Identification Algorithm for Organization's Name of Author of Korean Science & Technology Contents)

  • 김진영;이석형;서동준;김광영;윤정선
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.373-382
    • /
    • 2017
  • 과학기술콘텐츠가 증가함에 따라 과학기술콘텐츠의 효율적인 검색을 지원하는 서비스가 요구되고 있다. 저자의 소속기관명을 키워드로 사용할 경우 한 기관에서 생산된 콘텐츠를 확인할 수 있을 뿐만 아니라 저자, 용어를 키워드로 사용한 검색 결과의 식별율을 향상 시킬 수 있다. 검색 키워드로 사용되는 데이터들의 중의성과 모호성으로 인해 검색 결과에 false negative, false positive가 포함될 수 있으므로 데이터의 식별을 통한 통제는 중요하다. 저자의 소속기관명의 식별을 통한 통제 역시 기관의 이명, 약어 검색을 지원가능하게 하므로 매우 중요하지만 기존의 데이터 식별을 통한 통제에 대한 연구는 저자, 용어에 대한 연구가 주를 이루었다. 본 연구에서는 기관명 식별 알고리즘을 제안하고, 한국과학기술정보연구원에서 보유하고 있는 국내 과학기술콘텐츠들에 대한 데이터를 이용한 실험 결과를 보인다.

NLM Medical Text Indexer를 활용한 우리나라 의학문헌의 MeSH Semi Indexing 방안 (MeSH Semi Indexing of the Korean Biomedical Literature, using NLM Medical Text Indexer)

  • 정소나;이춘실
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2010년도 제17회 학술대회 논문집
    • /
    • pp.21-28
    • /
    • 2010
  • 본 연구에서는 PubMed에 등재되었으나 Medical Subject Headings(MeSH)가 부여되지 않은 국내 의학학술지의 문헌을 대상으로 미국국립의학도서관 (NLM: National Library of Medicine)의 Medical Text Indexer(MTI)를 활용하여 MeSH 용어를 추천받은 후, PubMed 레코드의 유사주제문헌 (Relation Citations, PRC)에 부여된 MeSH와의 일치여부를 분석하였다. 또한 논문의 저자가 부여한 키워드(저자키워드)와 PRC MeSH의 일치여부도 비교하였다. PRC MeSH와 MTI MeSH 추천어의 일치율은 주표목이 21.1%였고, 체크태그는 18.1%, 부표목은 16.5%로 나타났다. 우리나라 의학논문에 나타난 저자키워드의 중요한 특징은 MeSH 주표목 위주이고, 체크태그와 부표목은 거의 사용하지 않는 것이다. 따라서 저자키워드와 PRC MeSH 주표목과의 일치율은 23.4%에 이르지만, 체크태그와 부표목의 일치율은 각각 1%, 2.1%였다. 색인전문가가 통제어휘를 사용하여 색인하는 과정에서 PRC와 MTI의 MeSH 주표목과 저자키워드가 일치하는 용어를 주표목으로 부여하고, PRC와 MTI가 추천하는 체크태그와 부표목을 활용하는 등 국내 의학문헌의 MeSH 용어 부여 작업을 반자동화(semi-indexing)하면, 정확하고 신속한 MeSH 부여 작업이 가능할 것이다.

  • PDF

문서의 의미론적 분석에 기반한 키워드 추출에 관한 연구 (A Study on Keywords Extraction based on Semantic Analysis of Document)

  • 송민규;배일주;이수홍;박지형
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 추계학술대회
    • /
    • pp.586-591
    • /
    • 2007
  • 지식 관리 시스템, 정보 검색 시스템, 그리고 전자 도서관 시스템 등의 문서를 다루는 시스템에서는 문서의 구조화 및 문서의 저장이 필요하다. 문서에 담겨있는 정보를 추출하기 위해 가장 우선시되어야 하는 것은 키워드의 선별이다. 기존 연구에서 가장 널리 사용된 알고리즘은 단어의 사용 빈도를 체크하는 TF(Term Frequency)와 IDF(Inverted Document Frequency)를 활용하는 TF-IDF 방법이다. 그러나 TF-IDF 방법은 문서의 의미를 반영하지 못하는 한계가 존재한다. 이를 보완하기 위하여 본 연구에서는 세 가지 방법을 활용한다. 첫 번째는 문헌 속에서의 단어의 위치 및 서론, 결론 등의 특정 부분에 사용된 단어의 활용도를 체크하는 문헌구조적 기법이고, 두 번째는 강조 표현, 비교 표현 등의 특정 사용 문구를 통제 어휘로 지정하여 활용하는 방법이다. 마지막으로 어휘의 사전적 의미를 분석하여 이를 메타데이터로 활용하는 방법인 언어학적 기법이 해당된다. 이를 통하여 키워드 추출 과정에서 문서의 의미 분석도 수행하여 키워드 추출의 효율을 높일 수 있다.

  • PDF

사용자 의도 정보를 사용한 웹문서 분류

  • 장영철
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2008년도 추계 공동 국제학술대회
    • /
    • pp.292-297
    • /
    • 2008
  • 복잡한 시맨틱을 포함한 웹 문서를 정확히 범주화하고 이 과정을 자동화하기 위해서는 인간의 지식체계를 수용할 수 있는 표준화, 지능화, 자동화된 문서표현 및 분류기술이 필요하다. 이를 위해 키워드 빈도수, 문서내 키워드들의 관련성, 시소러스의 활용, 확률기법 적용 등에 사용자의도(intention) 정보를 활용한 범주화와 조정 프로세스를 도입하였다. 웹 문서 분류과정에서 시소러스 등을 사용하는 지식베이스 문서분류와 비 감독 학습을 하는 사전 지식체계(a priori)가 없는 유사성 문서분류 방법에 의도정보를 사용할 수 있도록 기반체계를 설계하였고 다시 이 두 방법의 차이는 Hybrid조정프로세스에서 조정하였다. 본 연구에서 설계된 HDCI(Hybrid Document Classification with Intention) 모델은 위의 웹 문서 분류과정과 이를 제어 및 보조하는 사용자 의도 분석과정으로 구성되어 있다. 의도분석과정에 키워드와 함께 제공된 사용자 의도는 도메인 지식(domain Knowledge)을 이용하여 의도간 계층트리(intention hierarchy tree)를 구성하고 이는 문서 분류시 제약(constraint) 또는 가이드의 역할로 사용자 의도 프로파일(profile) 또는 문서 특성 대표 키워드를 추출하게 된다. HDCI는 문서간 유사성에 근거한 상향식(bottom-up)의 확률적인 접근에서 통제 및 안내의 역할을 수행하고 지식베이스(시소러스) 접근 방식에서 다양성에 한계가 있는 키워들 간 관계설정의 정확도를 높인다.

  • PDF