• 제목/요약/키워드: 표제어 검색

검색결과 27건 처리시간 0.02초

BTI 사전 색인을 이용한 유사단어 검색 (A method for similar-word retrival based on BTI dictionary indexing mechanism)

  • 정연수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.291-296
    • /
    • 1994
  • 유사단어의 추정에 있어서 사전 검색에 드는 비용, 즉 사전탐색 횟수는 효율성의 문제와 직결된다. 본 논문에서는 BTI 사전 색인을 이용하여 한 글자의 변형요소가 있는 유사단어들을 효율적으로 거색하는 방법을 제안한다. BTI 방식은 정방향, 역방향 표제어를 모두 저장하는 방법이다. BTI 방식으로 사전 표제어를 색인하여 표제어에 대한 사전 탐색 도중에 사전에 존재하는 prefix와 postifix를 모두 검색할 수 있다. 이러한 정보를 이용하면 유사 단어에 대한 정확한 변형 위치를 결정할 수 있다. BTI 사전 색인은 사전 표제어에 대한 정보없이 유사단어를 추정한 후에 사전 검색을 통하여 확인하는 방법보다 사전 검색에 드는 비용이 적다. 추가적으로 유사단어 후보들에 대한 우선 순위를 정하기 위하여 corpus에서 추출한 각 표제어의 발견 빈도를 이용하였다.

  • PDF

문서 확장을 이용한 표제어 검색시스템 (Headword Finding System Using Document Expansion)

  • 김재훈;김형철
    • 정보관리연구
    • /
    • 제42권4호
    • /
    • pp.137-154
    • /
    • 2011
  • 표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.

한국어 사전의 압축 구현 (Implementation of Compressing a Korean Lexicon)

  • 임한규;박상호
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 1997년도 추계학술대회 발표논문집:21세기를 향한 정보통신 기술의 전망
    • /
    • pp.395-403
    • /
    • 1997
  • 한국어 처리의 기본이 되는 형태소 분석을 위한 사전의 효율적인 구성을 위해 각 표제어의 반복 음절수에 의한 방식으로 이를 압축하고 복원하는 알고리즘을 보였다. 사전의 크기에 있어서 25% 줄일 수 있었으며 표제어를 검색할 때 횟수를 36 % 줄일 수 있었다. 아울러 빠른 검색을 위한 이진 사전을 오프셋에 의해 구성하였다.

  • PDF

포털 사이트의 학술정보 검색 개선 방안 연구 - 사전 서비스와의 연계를 중심으로 - (Study on Improvement of Research Information Search in Portal Site)

  • 양창진
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2010년도 제17회 학술대회 논문집
    • /
    • pp.33-40
    • /
    • 2010
  • 인터넷 포털 사이트는 단순한 검색엔진을 넘어 네티즌들이 항해하는 사이버스페이스 그 자체를 의미할 정도로 영역과 개념이 확대되었다. 일반인들뿐만 아니라 전문 연구자도 필요로 하는 학술정보를 포털 사이트에서 서비스하기 때문에 포털 사이트를 많이 이용한다. 그 동안 포털의 검색은 얼마나 많은 정보를 검색 결과로 제시해 줄 것인가 하는 양적인 면에 관심을 두었다. 그러나 최근에는 검색의 질적인 측면에 보다 많은 관심이 주어지고 있다. 이 논문은 포털에서 제공하는 전문 학술정보 검색의 문제점을 제시하고, 주제어 사전 서비스와 연계하여 보다 신뢰성 높은 학술정보를 검색할 수 있게 하기 위한 시범적인 시도이다. 즉, 검증되고 압축적으로 정리된 사전의 표제어와, 해당 표제어를 키워드로 하는 권위있는 연구 성과를 같이 연계시킴으로써, 사전을 검색할 때 연구 성과까지 검색할 수 있게 하여, 검색의 효율성과 정보의 신뢰성을 높일 수 있는 방안을 제시하고자 하였다.

  • PDF

Finite State Transducer를 이용한 한국어 전자 사전의 구조 (A Structure of Korean Electronic Dictionary using the Finite State Transducer)

  • 백대호;이호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-187
    • /
    • 1995
  • 한국어 형태소 해석기와 같은 한국어 정보 치리 시스템은 많은 전자 사진 검색 작업을 요구하기 때문에 전자 사전의 성능은 전체 시스템의 성능에 많은 영향을 미친다. 이에 본 논문은 적은 기억 장소를 차지하면서 탐색 속도가 빠른 Finite State Transducer(FST)를 이용한 전자 사전 구조를 제안한다. 제안된 전자 사진은 Deterministic Finite State Automata(DFA)로 표제어를 표현하고 DFA 상태수 최소화 알고리즘으로 모든 위치에 존재하는 중복된 상태를 제거하여 필요한 기억 장소가 적으며, FST를 일차원 배열에 매핑하고 탐색시 이 배열내에서의 상태 전이만으로 탐색을 하기 때문에 탐색 속도가 매우 빠르다. 또한 TRIE 구조에서와 같이 한번의 탐색으로 입력된 단어로 가능한 모든 표제어들을 찾아 줄 수 있다. 실험 결과 표제어 수가 증가하여도 FST를 이용한 전자 사전의 크기는 표제어 수에 비례하여 커지지 않고, 전자 사전 탐색 시간은 표제어 수에 영향을 받지 않으며, 약 237만 단어를 검색하는 실험에서 TRIE나 $B^+-Tree$구조를 사용한 전자 사전보다 빠름을 알 수 있었다.

  • PDF

포털사이트의 사전과 학술정보 연계 검색 방안 연구 (A Study on Service Integration of Research Information and Dictionary in Portal Site)

  • 양창진
    • 정보관리학회지
    • /
    • 제28권1호
    • /
    • pp.7-22
    • /
    • 2011
  • 포털사이트는 검색엔진을 넘어 사이버스페이스 자체를 의미할 정도로 개념과 영역이 확대되었다. 일반인들뿐만 아니라, 필요로 하는 학술정보가 서비스되기 때문에 연구자도 포털사이트를 많이 이용한다. 그동안 포털의 검색은 얼마나 많은 정보를 검색하게 해 줄 것인가 하는 양적인 면에 관심을 두었다. 그러나 최근에는 검색의 질에 보다 관심이 많아지고 있다. 이 논문은 포털이 제공하는 학술정보검색의 문제점을 분석하고, 비교적 신뢰성을 인정받는 사전 서비스와 학술정보를 연계함으로써 학술정보검색의 질을 향상하기 위한 시범적인 시도이다. 즉, 검증되고 압축적으로 정리된 사전의 표제어와 해당 표제어를 키워드로 하는 권위 있는 연구 성과를 연계시킴으로써, 사전을 검색할 때 주제어 관련 연구 성과까지 검색할 수 있게 하는 방안을 제시하고자 한다.

남북한 언어 비교 사전 검색 시스템의 설계 및 구현 (Design and Implementation of South-North Korean Dictionary Retrieval System)

  • 최유경;황호전;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.797-800
    • /
    • 2001
  • 본 논문은 남과 북의 언어 정보를 체계적으로 정리하고, 일반인들도 남과 북의 언어 정보의 차이를 쉽게 검색할 수 있도록 '남북한 언어 비교 사전 검색 시스템'을 설계하고 구현한다. '남북한 언어 비교 사전 검색 시스템'은 검색어에 대해서 '표기', '발음', '문법', '의미'의 4가지 항목에서 남북한 언어의 차이점을 알 수 있도록 한다. '남북한 언어 비교 검색 시스템'은 표제어에 의한 단순한 검색 이외에도 '남한에만 있는 것', '북한에만 있는 것', '남북한 공통인 것', '남북한 차이가 있는 것' 등을 비교하여 검색할 수 있도록 하였다. 또한, 표제어에 대해서 '완전 일치'와 '부분 일치' 검색을 제공하였고 의미 항목에 대해서는 내용 검색이 가능하도록 하였다. '남북한 언어 비교 사전 검색 시스템'은, 장차 통일이 되었을 때에 남과 북의 언어 생활의 차이로 인한 혼란을 미연에 방지하고 통일된 언어 생활을 할 수 있도록 하는데 기여할 수 있다.

  • PDF

백과사전 데이타베이스를 위한 색인시스템 설계 (The Design of Index System for Encyclopedia Database)

  • 추윤미;최석두
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1994년도 제1회 학술대회 논문집
    • /
    • pp.37-40
    • /
    • 1994
  • 백과사전 데이타베이스의 효과적인 검색을 위한 색인시스템을 설계하였다. 여기에서는 항목에 대한 각종 속성정보와 본문정보를 모두 포함한 색인표제어파일을 작성하고, 각 항목에 대한 참조항목을 별도로 두지 않고 시소러스파일의 BT, NT, RT, UF를 사용하여 그 항목과 연관된 항목을 참조하도록 한다. 시소러스파일은 각 색인표제어에 부여한 주제분류기호(DDC, 또는 KDC)의 계층구조를 이용하여 자동생성한 후 색인자의 수작업을 거쳐 작성된다. 이 색인시스템을 통해 백과사전에 포함되어 있는 모든 정보를 이용한 다양한 접근이 가능하며 시소러스를 사용하여 관련항목을 브라우징을 할 수 있어 포괄적인 검색이 가능하다.

  • PDF

불-한 연어 데이터베이스 구축을 위한 굴절 정보의 처리 (Processing of Inflectional forms for the French-Korean Collocational Database)

  • 윤애선;정휘웅;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.267-272
    • /
    • 2001
  • 구(phrase) 단위 또는 문장(sentence) 단위의 연어(collocation) 정보는 자연언어 처리를 위한 단일어 또는 이중어 데이터베이스를 구축할 수 있는 중요한 기초 자료가 될 뿐 아니라, 외국어 학습에서도 어휘 단계를 넘어선 학습 자료를 제공할 수 있다. 불어는 굴절 언어(inflectional language)로서 기본형 대 굴절형의 비율이 약 1:9 정도로 비교적 굴절 비율이 높은 언어다. 또한 불어 표제어 중 95% 이상을 차지하는 불어의 동사, 명사, 형용사 중 상당한 비율이 암기해야 할 목록(list)이라는 특성을 갖기 때문에 검색과 학습에 있어 오류가 지속적으로 일어나는 부분이다. 표제어의 검색의 경우 불어 굴절 현상을 지원하는 전자 사전이 개발되어 있지만 아직까지 연어 정보에서 굴절형을 지원할 수 사전 또는 데이터베이스는 개발되어 있지 않다. 본 연구의 목적은 전자 사전과 형태소 분석기를 이용하여 굴절형 처리를 지원할 수 있는 불-한 연어 데이터베이스를 구축하는데 있다. 이를 위해 부산대학교 언어정보 연구실에서 개발한 불어 형태소 분석기 Infection와 불-한 전자 사전 Franco를 사용하였으며, 지금까지 구축된 불-한 연어 정보는 94,965 개이다. 본 고에서는 두 정보를 이용하여 불어 굴절형 정보를 분석 및 생성하는 방식 및 불-한 연어 데이터베이스 구조를 살펴 본다.

  • PDF

검색 문헌의 인용 분석을 통한 질의확장의 성능 평가 연구 (An Evaluation of the Performance of Query Expansion Using Citation Information of Retrieved Documents)

  • 유소영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.305-310
    • /
    • 2005
  • 이 연구에서는 주제검색을 통해 검색된 문헌들의 인용정보를 이용한 질의확장 기법을 제안하였으며 이 제안된 기법의 성능을 일반적 질의확장 기법인 지역적 질의확장 및 전역적 질의확장과 비교 평가하였다. 연구 결과 인용기반 질의확장 기법이 전역적 및 지역적 질의확장 기법에 비해 우수한 성능을 보임을 확인하였으며, 특히 피인용 표제어를 이용한 질의확장 검색의 효용성을 실험을 통해 밝혀냈다.

  • PDF