• 제목/요약/키워드: 색인어 특성

검색결과 45건 처리시간 0.028초

구 기반 색인 시스템의 구현 (Implementation of Phrase-based Indexing)

  • 이충희;김현진;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

Ergodic Markov Model을 이용한 정보 검색 모델 (An Information Retrieval Model based on an Ergodic Markov Model)

  • 강인호;이여진;한영석;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.57-62
    • /
    • 2001
  • 인터넷의 급속한 양적 증가로 인해 색인어 기반의 검색 방식만으로는 원하는 정보를 찾아 내기가 쉽지 않다. 색인어 기반의 검색 방식에서는 색인어로 나타나지 않는 특징을 이용할 수 없으며, 질적으로 균등한 검색 결과를 제시하지 못하기 때문이다. 따라서 사이트의 여러 가지 특성에 따라 계층적으로 분류해놓은 웹 디렉토리를 이용하거나, 관련 전문가들의 추천 리스트를 이용하여 검객하기도 한다. 본 연구에서는 기존의 색인어 기반의 검색 모델에 웹 디렉토리와 추천 문서 같은 문서간의 링크 정보를 결합할 수 있는 정보 검색 모델을 제시한다. 특정 질의어의 검색 결과로 얻어낸 문서와 그 문서와 연결된 문서 집합을 이용하여 네트워크를 구성한다. 이 네트워크에 검색기가 제시하는 순위와 유사도, 그리고 문서간의 링크 정도를 이용해서 확률값을 정해준다. 그리고 Ergodic Markov Model의 특성을 이용하여 색인어 정보와 링크 정보를 결합한다. 본 연구에서는 특정 문서가 질의어에 부합되는 정도를 사용자가 그 문서로 이동할 확률값으로 계산하는 방식을 보인다.

  • PDF

지능형 정보검색을 위한 자동색인 기법 (Automatic Indexing Techniques for Intelligent Information Retrieval)

  • 강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.163-168
    • /
    • 1999
  • 한국어 자동색인은 정보자료의 유형 및 특성에 따라 그 성능에 차이가 있으며, 검색 결과에 많은 영향을 미치기도 한다. 따라서 지능형 정보검색을 위해서는 정보자료의 유형과 특성에 따라 색인 기법의 전문화 및 다양성이 요구되고 있다. 정보검색 시스템이 사용자의 요구사항에 적합한 정보자료를 제공할 수 있도록 자동색인의 관점에서 검색 성능을 향상시키기 방법으로 문서 유형에 따른 차별화된 색인 기법, 불용어 처리 기법, 색인어 관리 기법, 색인어의 유형 정보와 위치 정보를 활용하는 방법 등을 제안한다.

  • PDF

색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델 (Generative Chatting Model based on Index-Term Encoding and Syllable Decoding)

  • 김진태;김시형;김학수;이연수;최맹식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

색인어 인코딩과 음절 디코딩에 기반한 생성 채팅 모델 (Generative Chatting Model based on Index-Term Encoding and Syllable Decoding)

  • 김진태;김시형;김학수;이연수;최맹식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.125-129
    • /
    • 2017
  • 채팅 시스템은 사람이 사용하는 자연어를 이용해 컴퓨터와 대화를 하는 시스템이다. 한국어 특성상 대화체에서 동일한 의미를 가졌지만 다른 형태를 가진 경우가 많다. 본 논문에서는 Attention mechanism Encoder-Decoder Model을 사용해 한국어 특성에 맞는 효과적인 생성 모델을 만들 수 있는 입력, 출력 단위를 제안한다. 실험에서 정성 평가와 ROUSE, BLEU 평가를 진행한 결과 형태소 단위의 입력 보다 본 논문에서 제안한 색인어 입력 단위의 성능이 높고, 의사 형태소 단위 출력 보다 음절 단위 출력을 사용한 시스템이 더 문법적 오류가 적고 적합한 응답을 생성하는 것을 보였다.

  • PDF

상호 정보를 이용한 어의 모호성 해소에 관한 연구 (A Study on Resolving Word Sense Ambiguity Using Mutual Information)

  • 전미선;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.369-373
    • /
    • 1994
  • 정보 검색 시스템의 정확성은 색인어의 정확성과 질의 해석의 정확성에 의존한다. 한국어 정보 검색분야에서는 한국어의 특성을 고려하는 것이 무엇보다 중요하다. 한국어의 문서 색인과 질의 해석시 야기되는 어의 모호성(word sense ambiguity)을 가지는 단어에 대해서는 어의 모호성을 해소한 정확한 색인과 질의 해석이 전제되어야 정확한 문서를 검색해낼 수 있다. 본 논문은 한국어 문서 색인시 동음이의어(homonym)에 의해 발생하는 어의 모호성을 해소하기 위한 방안에 대해 다루고 있으며 의미적 관련 정보를 이용할 것을 제안하고 타당성을 보이는 실험 결과를 제시한다.

  • PDF

자동색인을 위한 한국어 형태소 분석 알고리즘 (Korean Morphological Analysis Algorithms for Automatic Indexing)

  • 이영주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.240-246
    • /
    • 1989
  • 자동색인이라 함은 기존의 수작업에 의한 색인어 선정 대신 컴퓨터에 의해서 자동화하는 것을 말한다. 한국어는 색인어가 될 수 있는 어근에 조사 및 어미가 붙어서 한 어절을 이루는 언어학 적인 특성을 갖고 있다. 지금까지는 어근을 분리하기 위해 어근에 대한 사전을 구축하고 이를 Top-down 방법에 의해 처리하는 것이 통례였다. 그러나 이러한 방법은 외래어나 고유명사 등 새로 발생하는 어휘가 많은, 뉴스 원고와 같은 보도자료에는 쉽게 적용할 수가 없으며, 자연어를 다루는 타 분야에서도 미등록어에 대한 처리 방안이 시급한 실정이다. 본 논문은 어휘사전 없이 조사 및 어미의 생성 규칙을 이용한 Bottom-up 방식으로 처리하여 후보 색인어를 추론하고, 어절 상호간의 관계를 밝히는 구문분석을 통하여 이를 확정하는 알고리즘을 제안하였다.

  • PDF

전문색인에 있어서 수작업 색인과 자동색인의 특성 (Characteristics of Fulltext Index by Human and Automatic Indexing Systems)

  • 김기영
    • 정보관리학회지
    • /
    • 제25권2호
    • /
    • pp.199-221
    • /
    • 2008
  • 본 연구는 전문(fulltext) 환경에서 수작업 색인과 자동색 인의 색 인용어의 특성과 차이점을 알아보는 것을 그 목적으로 한다. 이를 위해 영어로 작성된 단행본에 대한 권말색인과 두 개의 유사 색인 시스템(LinkIt 과 Termer)을 이용한 색인들이 이용되었다. 이러한 비교분석을 통해 수작업 색인은 이용과 브라우징에 대한 강점이 있으며 자동색인은 자동 시스템에서의 탐색에 강점이 있음을 확인하였지만, 양자간의 경계가 불분명해짐도 아울러 확인하였다. 마지막으로 브라우징과 탐색을 위한 유사 색인 시스템의 이용에 있어서 고려할 점과 이에 대한 향후 연구에 대하여 토의하였다.

미리내 검색시스템의 명사추출 시스템 (Noun Extraction System in Information retrieval System of "Mirine")

  • 김영관;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.89-91
    • /
    • 1999
  • 이 논문은 한국어 정보검색 시스템 "미리내"의 내부 모듈인 색인어 추출 시스템의 성능 평가에 관한 내용이다. 성능 평가를 위해서 99년 ETRI에서 실시한 "형태소분석기 및 태거 비교 분석대회(MATEC99)"의 시험어절을 사용하였다. 정보검색 시스템 "미리내"는 한국어 정보검색을 위해 부산대학교에서 개발한 시스템이다. 한국어 형태소분석 및 태거 대회(MATEC99)를 위해 미리내 검색엔진의 색인어 추출 모듈을 일부 수정하여 명사를 추출하였다. 명사추출기이든 형태소분석기이든 응용프로그램의 특성에 맞춰져서 동작한다. 정보검색의 하위 모듈인 색인어 추출 시스템은 정보검색을 위해 변형된 결과를 출력하므로 성능 비교를 위해 일부 모듈의 수정이 불가피하였다. ETRI에서 실시한 MATEC99는 지금까지 객관적인 평가 기준이 없었던 한국어 형태소분석기, 태거, 명사추출기의 표준화에 중요한 역할을 하였다.

  • PDF

연구.학술정보 효율적 검색을 위한 온톨로지 기반의 주제 색인어 구조화 방안 연구 (A Study on Ontology-based Keywords Structuring for Efficient Information Retrieval)

  • 송인석
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.121-154
    • /
    • 2008
  • 본 연구에서는 정보검색도구 관점에서 지식조직체계로서 기존 시소러스 구축방안의 특성과 한계점을 검토하고, 대상 정보의 지식구조의 반영 및 정보 간의 의미관계 추론을 지원하는 온톨로지 기반의 주제 색인어 구조화 방안을 제시한다. 기존의 용어 중심의 시소러스와 달리, 단계별 연구프로세스 과정에서 수행되는 연구자의 정보행위 및 수요 분석에 때라 주제색인어의 개념을 식별 범주화하고, 인문사회과학 분야 학술논문의 지식체계를 구성하는 그 개념들 간의 유기적 관계정의를 통해 주제 색인어 집합의 의미구조를 정형화하였다. 이를 기반으로 각각의 온톨로지 기반 주제 색인어 집합은 구조화된 의미 색인으로서 대상 문서의 지식체계를 표현한다. 정보수요에 따라 정의된 공리나 추론규칙을 활용하여 이용자는 문제 해결에 적합한 정보를 대상 정보의 의미관계로 구성된 주제 도메인의 학술커뮤니케이션 네트워크상에서 분석적 정보탐색을 통해 효율적으로 검색 할 수 있다.