• 제목/요약/키워드: Indexing Language

검색결과 92건 처리시간 0.021초

국내 문자정보 데이터베이스의 색인에 관한 연구 (Development of an Indexing Model for Korean Textual Databases)

  • 정영미
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.19-43
    • /
    • 1996
  • 본 연구에서는 국내 텍스트 데이터베이스의 색인언어 및 색인기법에 관한 현황을 분석하고, 3개의 텍스트 데이터베이스를 대상으로 하여 자연언어 색인과 통제언어 색인의 검색 성능을 평가하는 실험을 수행하였다. 조사결과 국내 텍스트 데이터베이스의 대부분이 자연언어 색인 방식을 사용하고 있었으며 검색 실험에서는 적절한 탐색전략을 사용하는 경우 자연언어가 통제언어보다 검색성능이 우수한 것으로 평가되었다. 색인현황에 관한 조사와 검색 성능의 실험 결과에 근거하여 국내 텍스트 데이터베이스를 위한 효율적인 색인 모형을 제시하였다.

  • PDF

주제색인의 이론과 실제 (Theory and practice of alphabetical subject indexing)

  • 윤구호
    • 한국도서관정보학회지
    • /
    • 제10권
    • /
    • pp.95-131
    • /
    • 1983
  • Index is a systematic guide to items contained in, or concepts derived from, a collection, Thus, it is represented as a paired set of index terms (t) and documents (D) : I= {(t,D) vertical bar t .mem. V, D .mem. W), where V is index vocabulary and W is document collection. Indexing is the process of analysing the informational content of records of knowledge and expressing the informational content in the language of the indexing system. It involves: 1) Selecting indexable concepts in a document; and 2) expressing these concepts in the language of the indexing system (as index entries): and an ordered list. Indexing process involves technical, semantic and syntactic problems. Technical problems are related to the accuracy of indexing, which is primarily governed by the indexer's ability of analysing subject, identifying indexable concepts, and coding. The proper levels of indexing exhaustivity, and index language specificity are also significant factors affecting the quality of index. Semantic problems are related to the choice of index terms and the form in which they should be used. Equivalent, hierarchical and affinitive/associative relationships of index terms are involved. Syntactic problems are largely related to the coordination of index terms. This process of coordination arises from the need to be able to search for the intersection of two or more classes defined by terms denoting distinct concepts. Finally, most valuable aspects of alphabetical subject indexing theories and practices are derived from those of Cutter, Kaiser, Ranganathan, Coates, Lynch and Austin, and discussed in details.

  • PDF

문장 검색을 위한 색인시스템 구축 : 초 .중등 학생의 한국어 및 영어 문장을 중심으로 (A Construction of Indexing System for Sentence Retrieval)

  • 이태영
    • 정보관리학회지
    • /
    • 제20권1호
    • /
    • pp.145-163
    • /
    • 2003
  • 한국어 및 영어의 글쓰기를 도와주는 문장 및 문단 제공시스템을 구축하기 위하여 색인작성과 탐색시에 필요한 색인언어를 연구하였다. 색인언어로 명사어와 술어 및 부사어를 선정하였고 여러 가지 보조 색인기호들도 추가하였다. 접근점으로 주제명과 키워드를 사용하였고 키워드 검색은 1절, 2절, 3 절, 문맥첨가 탐색을 포함하였다. 검색의 만족도는 긍정적이었으며 데이터베이스의 양과 질을 충실히 보완한다면 문장이나 문단을 제공하여 주는 시스템은 효과적일 수 있다.

2차 법률정보 전문데이터베이스에 있어서 통제어 색인시스템과 자연어 색인시스템의 검색효율 평가에 관한 연구 (A Study on the Indexing System Using a Controlled Vocabulary and Natural Language in the Secondary Legal Information Full-Text Databases : an Evaluation and Comparison of Retrieval Effectiveness)

  • 노정란
    • 한국문헌정보학회지
    • /
    • 제32권4호
    • /
    • pp.69-86
    • /
    • 1998
  • 본 연구는 2차 법률정보 전문 데이터베이스 구축을 위한 기초연구(권기원, 노정란, 1998, 한국문헌정보학회지, 32(3))에서 밝혀진 법률정보의 특성을 근거로 알고리즘을 개발하고 알고리즘에 의한 모형 통제어 데이터베이스를 구축하여 통제어 색인 시스템과 자연어 색인 시스템의 검색효율을 비교 평가한 것이다. 연구 결과 2차 법률 정보 전문 데이터베이스에서 통제어 색인 시스템은 재현을, 정확률, 자연어 시스템이 검색하지 못한 고유한 적합 문헌을 검색하는 능력에 있어서 자연어 색인시스템보다 높은 효율을 나타내었다. 또한 일반적으로 가중치를 부여하거나 접근점을 추가할 경우 데이터베이스의 정확률이나 재현율의 향상을 가져올 수 있다고 보고 있으나, 2차 법률정보 전문 데이터베이스에서는 법률정보라는 특정 지식 분야의 특성으로 인하여 가중치를 부여하거나 접근점을 추가한 경우에도 재현율과 정확률의 향상을 나타내지 않는다는 사실이 맞혀졌다. 그러므로 정보시스템 설계자는 시스템을 단순히 언어학적, 통계학적 방법으로 접근하기보다는 정보전문가와 주제전문가가 인식하고 있는 각 주제분야의 고유 지식을 시스템에 내장시키는 것이 필요하다고 할 수 있다.

  • PDF

한글 문서 검색에서 n-Gram 색인방법의 성능 분석 (Performance Analysis of n-Gram Indexing Methods for Korean text Retrieval)

  • 이준규;심수정;박혁로
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.145-148
    • /
    • 2003
  • The agglutinative nature of Korean language makes the problem of automatic indexing of Korean much different from that of Indo-Eroupean languages. Especially, indexing with compound nouns in Korean is very problematic because of the exponential number of possible analysis and the existence of unknown words. To deal with this compound noun indexing problem, we propose a new indexing methods which combines the merits of the morpheme-based indexing methods and the n-gram based indexing methods. Through the experiments, we also find that the best performance of n-gram indexing methods can be achieved with 1.75-gram which is never considered in the previous researches.

  • PDF

구문 . 통계적 기법을 이용한 한국어 자동색인에 관한 연구 (An experiment in automatic indexing with korean texts : a comparison of syntactico-statistical and manual methods)

  • 서은경
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.97-124
    • /
    • 1993
  • 본 논문은 자연어 형태의 한국어 텍스트 부터 주제를 대표할 수 있는 색인어를 자동으로 추출하는 실험적인 구문 . 통계적 자동색인 시스템을 구현하였다. 구문 . 통계적 자동색인 시스템은 형태소 분석과 단어 가증 기법을 이용하여 단일어와 명사구를 동시에 선택하는 자동색인 시스템을 말한다. 시스템의 성능을 측정하기 위하여, 300개의 우리말 학술 및 학위논문 초록에서 선택된 단일 . 복합어 색인어를 수작업 색인과 비교하였다. 이와 같은 실험 결과를 가지고 아직 미흡한 연구상태인 우리말 자동색인 개발에 있어서 필요한 기초자료를 제시하였다.

  • PDF

SGML 한글문서의 논리적 구조에 근거한 색인기법에 관한 연구 (A Study of Automatic Indexing Technique based on Logical Structure of SGML Hangul Document)

  • 유석종
    • 정보관리학회지
    • /
    • 제12권2호
    • /
    • pp.85-101
    • /
    • 1995
  • 기존 색인 시스템은 전자문서에 대하여 전문색인 (full-text indexing) 방법만을 지원하며, 문서의 논리적 구조를 검색 방법으로 적절하게 활용하지 못하고 있다. 대부분의 전자문서는 특정 시스템에 의존적인 형식으로 되어 있으며, 문서의 물리적 형태만을 나타내고 논리적 구조에 대한 정보는 포함하고 있지 않다. 이에 반해 1986년에 ISO에서 문서교환에 대한 표준방식으로 제정한 SGML (Standard Generalized Markup Language)은 문서의 논리적 구조에 대한 정보를 포함하고 있다. 본 논문에서는 기존의 전문색인 시스템의 단점을 보완하고 표준문서형식을 사용하기 위해 SGML 문서에서의 색인 시스템을 설계 구현하고자 한다. 기존 색인 시스템에서는 문서 전체에 대하여 색인이 이루어지는데 비하여 본 시스템에서는 SGML 문서의 구성요소인 엘리먼트에 기반하여 색인 영역을 지정할 수 있게 하엿다. 따라서 문서의 논리적 구조를 반영한 다양한 검색기법에 응용될 수 있다. 또한 본 시스템에서는 SGML 한글문서에 대하여 자동색인이 가능하다.

  • PDF

On The Full-Text Database Retrieval and Indexing Language

  • Chang, Hye-Rhan
    • 정보관리학회지
    • /
    • 제4권1호
    • /
    • pp.24-46
    • /
    • 1987
  • 최근 원문 데이타베이스의 증가는 주제접근의 새로운 가능성을 제시하였다. 온라인 정보검색은 근본적으로 색인언어와 컴퓨터 기술의 문제이다. 본 연구의 목적은 전통적인 서지 데이타베이스 검색과 비교하여 원문 데이터 베이스 검색의 특징과 성능을 규명하는데 있다. 색인언어에 따른 검색효율, 현재 응용되고 있는 원문 데이타베이스 탐색 시스템, 통제어휘의 새로운 역할 등을 살펴보았다. 이 논문은 또한 원문 데이타베이스의 검색성능 실험에 대한 리뷰를 포함한다.

  • PDF

신문 시소러스 개발의 이론과 실제 (Newspaper Thesaurus Construction in Theory and Practice)

  • 정영미
    • 한국문헌정보학회지
    • /
    • 제25권
    • /
    • pp.51-82
    • /
    • 1993
  • Effective indexing systems are required to enhance the performance of full-text retrieval systems. The result of the analysis of index terms selected by human indexers without a newspaper thesaurus indicates that controlled indexing language is necessary for effective and consistent indexing of newspaper articles. In this paper, basic principles are established for keyword selection from Korean newspapers and significant problems identified in the process of developing a newspaper thesaurus are discussed in depth.

  • PDF

색인언어의 어의적 관계 및 구문적 관계 (Semantic and syntactic relationships of indexing languages)

  • 윤구호
    • 한국도서관정보학회지
    • /
    • 제22권
    • /
    • pp.1-26
    • /
    • 1995
  • Indexes, especially subject indexes, are major tools for information retrieval. To enhance the retrieval effectiveness of subject indexes, the semantic and syntactic relationships of indexing languages are very important elements. This paper examines the afore-mentioned relationships, based on purely the syntax and semantics of Korean language. The outlines of this study are as follows: 1. The characteristics and usages of controlled vocabularies, particularly subject headings lists and thesaury, are reviewed. 2. The semantic relationships, such as equivalence, hierarchical and associative relationships, are defined, and their categories are investigated in detail. Accordingly, the usages of 'See' and 'See also' references are suggested circumstantially. 3. The syntactic relationships are also examined. Particularly, for the syntactic relationships of multiword indexing terms, two kinds of subject entry formats are compared. Since it is more rational for subject headings organized by the principle of context-dependency, the two-fine entry format is recommended for subject indexes. 4. Computerized production techniques of 'See' and 'See also' reference for the semantic relationships of indexing terms are presented. 5. Computerized production techniques of subject indexes representing the syntactic relationships of indexing terms are also presented.

  • PDF