• Title/Summary/Keyword: 색인시스템

Search Result 712, Processing Time 0.029 seconds

Construction of the Authority Files Using Automatically Indexed Terms (자동색인어를 이용한 전거파일의 구축)

  • 한영균
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.93-96
    • /
    • 1994
  • 본 연구는 자동색인시스템의 색인기능을 통해서 추출된 색인어를 이용해서 검색시스템에서 요구되는 전거파일을 구축하는 작업의 효용성을 확인하기 위한 시험적 연구의 결과를 정리한 것이다. 언론연구원의 KINDS 서비스 시스템의 신문기사 데이터베이스에서 색인시스템을 통해 추출된 약 80만개의 색인어를 기본자료로 삼아 색인어를 하위분류하고, 그것을 이용한 전거파일 구축의 가능성을 타진해 본 것이다.

  • PDF

The Design of Index System for Encyclopedia Database (백과사전 데이타베이스를 위한 색인시스템 설계)

  • 추윤미;최석두
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.37-40
    • /
    • 1994
  • 백과사전 데이타베이스의 효과적인 검색을 위한 색인시스템을 설계하였다. 여기에서는 항목에 대한 각종 속성정보와 본문정보를 모두 포함한 색인표제어파일을 작성하고, 각 항목에 대한 참조항목을 별도로 두지 않고 시소러스파일의 BT, NT, RT, UF를 사용하여 그 항목과 연관된 항목을 참조하도록 한다. 시소러스파일은 각 색인표제어에 부여한 주제분류기호(DDC, 또는 KDC)의 계층구조를 이용하여 자동생성한 후 색인자의 수작업을 거쳐 작성된다. 이 색인시스템을 통해 백과사전에 포함되어 있는 모든 정보를 이용한 다양한 접근이 가능하며 시소러스를 사용하여 관련항목을 브라우징을 할 수 있어 포괄적인 검색이 가능하다.

  • PDF

Implementation of Phrase-based Indexing (구 기반 색인 시스템의 구현)

  • Lee, Chung-Hee;Kim, Hyun-Jin;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

Automatic Production of Book Indices (서적에서의 자동색인)

  • 조성래;황도삼;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF

Performance Evaluation of Indices based on Main Memory 08MS for GIS (지리정보시스템을 위한 주기억 데이터베이스의 색인 구성에 대한 성능평가)

  • 신수미;편도영;김경창;김명일
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.166-168
    • /
    • 2004
  • 지리정보시스템에 대한 응용분야가 확대되면서 지리정보시스템의 기반이 되는 데이터베이스의 성능에 대한 정확한 평가가 중요하게 인식된다. 이때 지리정보시스템의 기반이 되는 데이터베이스는 일반적인 데이터베이스와는 달리 공간 질의와 비공간 질의가 동시에 처리될 수 있어야 하므로 이를 위한 효율적인 색인 구성이 요구되며 이에 대한 성능의 명가가 특별히 중요하다. 본 논문에서는 주기억 데이터베이스 기반의 지리정보시스템에 적합하도록 비공간 색인과 공간 색인을 별도로 두는 이중 색인 구성을 제안하고 실제 색인이 지리정보시스템에 적용되었을 때 그에 이 시스템에 대한 성능을 평가하였다. 실험을 통친 색인에 따른 데이터베이스의 성능비교도 함께 측정하였다. 지리정보시스템을 위한 주기억 데이터베이스에 T-tree와 MR-tree가 비공간 및 공간색인을 위해 적용되었을 때 데이터가 증가하여도 질의에 대한 속도가 거의 변화가 없는 우수한 성능을 보여주는 것을 확인할 수 있었다.

  • PDF

The Development of an Automatic Indexing System based on a Thesaurus (시소러스를 기반으로 하는 자동색인 시스템에 관한 연구)

  • 임형묵;정상철
    • Korean Journal of Cognitive Science
    • /
    • v.4 no.1
    • /
    • pp.213-242
    • /
    • 1993
  • During the past decades,several automatic indexing systems have been developed such as single term indexing.phrase indexing and thesaurus basedidndexing systems.Among these systems,single term indexing has been known as superior to others despte its simpicity of extracting meaningful terms.On the other hand,thesaurus based one has been conceived as producing low retrival rate ,mainly because thesauri do not usually have enough index terms.so that much of text data fail to be indexed if they do not match with any of index terms in thesauri.This paper develops a thesaurus based indexing system THINS that yields higher retrieval rate than other systems.by doing syntactic analysis of text data and matching them with index terms in thesauri partially.First,the system analyzes the input text syntactically by using the machine translation suystem MATES/EK and extracts noun phrases.After deleting stop words from noun phrases and stemming the remaining ones.it tries to index these with similar index terms in the thesaurus as much as possible. We conduct an experiment with CACM data set that measures the retrieval effectiveness with CACM data set that measures the retrieval effectuvenss of THINS with single term based one under HYKIS-a thesaurus based information retrieval system.It turns out that THINS yields about 10 percent higher precision than single term based one.while shows 8to9 percent lower recall.This retrieval rate shows that THINS improves much better than privious ones that only yields 25 or 30 percent lower precision than single term based one.We also argue that the relatively lower recall is cause by that CRCS-the thesaurus included in CACM datea set is very incomplete one,having only more than one thousand terms,thus THINS is expected to produce much higher rate if it is associated with currently available large thesaurus.

Predicates Indexing for efficiency improvement in Korean Information Retrieval System (한국어 정보검색 시스템의 성능 향상을 위한 용언 색인)

  • 박진희;박대원;박민식;남현숙;김광영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.164-166
    • /
    • 2000
  • 지금까지 대부분의 정보검색 시스템은 명사만을 색인어로 추출하여 사용하였다. 명사는 문서를 대표할 수 있는 어휘 요소이다. 그러나 명사 색인어만 가지고는 문서의 주제를 정확하게 나타낼 수 없다. 본 논문은 명사 색인어와 함께 용언도 색인어로 추출하여 사용하는 한국어 정보 검색시스템을 제시한다. 또한, 용역 색인어와 명사 색인어의 상대적 가중치를 검색에 이용하여 사용자의 질의에 적합한 문서를 검색할 수 있도록 한다. 이러한 과정에서 발견된 문제점은 향후 연구 과제로 계속 향상시켜나갈 것이다.

  • PDF

An Information Retrieval System Based on Keyfact Index Term (키팩트 색인텀에 기반한 정보검색 시스템)

  • 박의규;나동열;변성찬;정경택;박세영
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.245-251
    • /
    • 2000
  • 지금까지의 정보검색 시스템은 소위 키워드 기반 정보검색 시스템으로서 색인이 단일 단어(single word) 즉 키워드의 집합으로 나타내어 진다. 그러나 이 방법은 문서의 내용을 정확히 표현하는 데 한계가 있다. 따라서 최근에는 단어 이상의 구문 단위인 구(phrase)를 이용하여 색인과 검색을 하도록 하는 시스템을 개발하고자 하는 추세에 있다. 따라서, 본 논문에서는 키워드보다는 의미를 좀더 잘 나타내고 일반적인 구보다는 정형화된 형태의 색인 단위인 키팩트를 색인어로 하는 정보검색시스템을 개발하고 이의 성능을 살펴보았다.

  • PDF

A Study on the Design of a Full-Text Indexing System for Thesis (학위논문의 전문색인시스템 설계)

  • 추윤미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.57-60
    • /
    • 1996
  • 전문데이터베이스는 원문의 접근가능성과 전문탐색의 장점으로 인해 최근 급속하게 발전하고 있다. 그러나 이제까지 대부분의 전문데이터베이스는 문헌의 구조를 고려하지 않고 본문의 문자열에서 자동추출한 색인어를 대상으로 비통제탐색방법을 사용하여 왔으므로 효율적이고 다양한 검색방법을 적용하기 어려웠다. 본 연구에서는 SGML을 이용하여 문헌을 구조화하고 이를 이용한 색인시스템을 설계함으로써, 문헌구조를 이용한 다양한 검색이 가능하도록 하였다. 이를 위해 논문을 대상으로 하여 문헌의 구조를 분석하고, 주요 문헌요소인 초록, 목차, 본문, 참고문헌의 특성을 색인에 반영하였다. 색인시스템은 문헌요소를 태그와 텍스트데이터로 분석하여 색인하는 일차색인과, 일차색인에 의해 만들어진 문헌요소테이블과 내용데이터파일을 이용하여 주요 문헌요소를 색인한 이차색인으로 구성된다.

  • PDF

An experiment in automatic indexing with korean texts : a comparison of syntactico-statistical and manual methods (구문 . 통계적 기법을 이용한 한국어 자동색인에 관한 연구)

  • 서은경
    • Journal of the Korean Society for information Management
    • /
    • v.10 no.1
    • /
    • pp.97-124
    • /
    • 1993
  • This study was undertaken in order to develop practical automatic indexing techniques suitable for Korean natural language texts. It has taken a modest step toward this goal by developing an automatic syntactico-statistical indexing method and evaluating the method by comparing the resutls with manual indexing. For this experimental study, the Korean text database was constructed manually based on 300 abstracts covering business subject. The experimental results showed that the performance of the automatic syntactico-statistical indexing system was comparable to that of other studies which have compared automatic indexing with manual indexing.

  • PDF