• Title/Summary/Keyword: 색인어 특성

Search Result 45, Processing Time 0.027 seconds

Implementation of Phrase-based Indexing (구 기반 색인 시스템의 구현)

  • Lee, Chung-Hee;Kim, Hyun-Jin;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

An Information Retrieval Model based on an Ergodic Markov Model (Ergodic Markov Model을 이용한 정보 검색 모델)

  • Kang, In-Ho;Lee, Yeo-Jin;Han, Young-S.;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.57-62
    • /
    • 2001
  • 인터넷의 급속한 양적 증가로 인해 색인어 기반의 검색 방식만으로는 원하는 정보를 찾아 내기가 쉽지 않다. 색인어 기반의 검색 방식에서는 색인어로 나타나지 않는 특징을 이용할 수 없으며, 질적으로 균등한 검색 결과를 제시하지 못하기 때문이다. 따라서 사이트의 여러 가지 특성에 따라 계층적으로 분류해놓은 웹 디렉토리를 이용하거나, 관련 전문가들의 추천 리스트를 이용하여 검객하기도 한다. 본 연구에서는 기존의 색인어 기반의 검색 모델에 웹 디렉토리와 추천 문서 같은 문서간의 링크 정보를 결합할 수 있는 정보 검색 모델을 제시한다. 특정 질의어의 검색 결과로 얻어낸 문서와 그 문서와 연결된 문서 집합을 이용하여 네트워크를 구성한다. 이 네트워크에 검색기가 제시하는 순위와 유사도, 그리고 문서간의 링크 정도를 이용해서 확률값을 정해준다. 그리고 Ergodic Markov Model의 특성을 이용하여 색인어 정보와 링크 정보를 결합한다. 본 연구에서는 특정 문서가 질의어에 부합되는 정도를 사용자가 그 문서로 이동할 확률값으로 계산하는 방식을 보인다.

  • PDF

Automatic Indexing Techniques for Intelligent Information Retrieval (지능형 정보검색을 위한 자동색인 기법)

  • 강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.163-168
    • /
    • 1999
  • 한국어 자동색인은 정보자료의 유형 및 특성에 따라 그 성능에 차이가 있으며, 검색 결과에 많은 영향을 미치기도 한다. 따라서 지능형 정보검색을 위해서는 정보자료의 유형과 특성에 따라 색인 기법의 전문화 및 다양성이 요구되고 있다. 정보검색 시스템이 사용자의 요구사항에 적합한 정보자료를 제공할 수 있도록 자동색인의 관점에서 검색 성능을 향상시키기 방법으로 문서 유형에 따른 차별화된 색인 기법, 불용어 처리 기법, 색인어 관리 기법, 색인어의 유형 정보와 위치 정보를 활용하는 방법 등을 제안한다.

  • PDF

Generative Chatting Model based on Index-Term Encoding and Syllable Decoding (색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델)

  • Kim, JinTae;Kim, Sihyung;Kim, HarkSoo;Lee, Yeonsoo;Choi, Maengsic
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

Generative Chatting Model based on Index-Term Encoding and Syllable Decoding (색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델)

  • Kim, JinTae;Kim, Sihyung;Kim, HarkSoo;Lee, Yeonsoo;Choi, Maengsic
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

A Study on Resolving Word Sense Ambiguity Using Mutual Information (상호 정보를 이용한 어의 모호성 해소에 관한 연구)

  • Jeon, Mee-Sun;Park, Se-Young
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.369-373
    • /
    • 1994
  • 정보 검색 시스템의 정확성은 색인어의 정확성과 질의 해석의 정확성에 의존한다. 한국어 정보 검색분야에서는 한국어의 특성을 고려하는 것이 무엇보다 중요하다. 한국어의 문서 색인과 질의 해석시 야기되는 어의 모호성(word sense ambiguity)을 가지는 단어에 대해서는 어의 모호성을 해소한 정확한 색인과 질의 해석이 전제되어야 정확한 문서를 검색해낼 수 있다. 본 논문은 한국어 문서 색인시 동음이의어(homonym)에 의해 발생하는 어의 모호성을 해소하기 위한 방안에 대해 다루고 있으며 의미적 관련 정보를 이용할 것을 제안하고 타당성을 보이는 실험 결과를 제시한다.

  • PDF

Korean Morphological Analysis Algorithms for Automatic Indexing (자동색인을 위한 한국어 형태소 분석 알고리즘)

  • Lee, Young-Joo
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.240-246
    • /
    • 1989
  • 자동색인이라 함은 기존의 수작업에 의한 색인어 선정 대신 컴퓨터에 의해서 자동화하는 것을 말한다. 한국어는 색인어가 될 수 있는 어근에 조사 및 어미가 붙어서 한 어절을 이루는 언어학 적인 특성을 갖고 있다. 지금까지는 어근을 분리하기 위해 어근에 대한 사전을 구축하고 이를 Top-down 방법에 의해 처리하는 것이 통례였다. 그러나 이러한 방법은 외래어나 고유명사 등 새로 발생하는 어휘가 많은, 뉴스 원고와 같은 보도자료에는 쉽게 적용할 수가 없으며, 자연어를 다루는 타 분야에서도 미등록어에 대한 처리 방안이 시급한 실정이다. 본 논문은 어휘사전 없이 조사 및 어미의 생성 규칙을 이용한 Bottom-up 방식으로 처리하여 후보 색인어를 추론하고, 어절 상호간의 관계를 밝히는 구문분석을 통하여 이를 확정하는 알고리즘을 제안하였다.

  • PDF

Characteristics of Fulltext Index by Human and Automatic Indexing Systems (전문색인에 있어서 수작업 색인과 자동색인의 특성)

  • Kim, Gi-Yeong
    • Journal of the Korean Society for information Management
    • /
    • v.25 no.2
    • /
    • pp.199-221
    • /
    • 2008
  • The purpose of this study is to investigate the characteristics of indexes by human and machine, and differences between them in terms of term identification in a fulltext environment. A back-of-book index and two indexes produced by two term identifiers (LinkIt and Termer) as pseudo-indexing systems for a whole body of a monograph are examined. In the investigation, the traditional contrast between manual and automatic indexing is confirmed in fulltext environment, manual index is for browsing and human use, and automatic index is for searching and machine use. The border between them, however, becomes vague. Some considerations for the use of the term identifiers for browsing and for searching are discussed, and further research for the use of the term identifier is suggested.

Noun Extraction System in Information retrieval System of "Mirine" (미리내 검색시스템의 명사추출 시스템)

  • Kim, Young-Kwan;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.89-91
    • /
    • 1999
  • 이 논문은 한국어 정보검색 시스템 "미리내"의 내부 모듈인 색인어 추출 시스템의 성능 평가에 관한 내용이다. 성능 평가를 위해서 99년 ETRI에서 실시한 "형태소분석기 및 태거 비교 분석대회(MATEC99)"의 시험어절을 사용하였다. 정보검색 시스템 "미리내"는 한국어 정보검색을 위해 부산대학교에서 개발한 시스템이다. 한국어 형태소분석 및 태거 대회(MATEC99)를 위해 미리내 검색엔진의 색인어 추출 모듈을 일부 수정하여 명사를 추출하였다. 명사추출기이든 형태소분석기이든 응용프로그램의 특성에 맞춰져서 동작한다. 정보검색의 하위 모듈인 색인어 추출 시스템은 정보검색을 위해 변형된 결과를 출력하므로 성능 비교를 위해 일부 모듈의 수정이 불가피하였다. ETRI에서 실시한 MATEC99는 지금까지 객관적인 평가 기준이 없었던 한국어 형태소분석기, 태거, 명사추출기의 표준화에 중요한 역할을 하였다.

  • PDF

A Study on Ontology-based Keywords Structuring for Efficient Information Retrieval (연구.학술정보 효율적 검색을 위한 온톨로지 기반의 주제 색인어 구조화 방안 연구)

  • Song, In-Seok
    • Journal of Information Management
    • /
    • v.39 no.4
    • /
    • pp.121-154
    • /
    • 2008
  • In this paper, a ontology-based keyword structuring method is proposed to represent the knowledge structure of scholarly documents and to make inferences from the semantic relationships holding among them. The characteristics of thesaurus as a knowledge organization system(KOS) for subject heading is critically reviewed from the information retrieval point of view. The domain concepts are identified and classified by analysis of the information activities occurring in a general research process based on scholarly sensemaking model. The ontological structure of keyword set is defined in terms of the semantic relationship of the canonical concepts which constitute scholarly documents such as journal articles. As a result, each ontologically structured keyword set of a document represents the knowledge structure of the corresponding document as semantic index. By means of the axioms and inference rules defined for information needs, users can efficiently explore the scholarly communication network built on the semantic relationship among documents in an analytic way based on the scholarly sensemaking model in oder to efficiently retrieve the relevant information for problem solving.