• Title/Summary/Keyword: 색인파일

Search Result 112, Processing Time 0.032 seconds

A Study on Special Matching Term File (특정어 파일에 대한 연구)

  • 김경주
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.25-28
    • /
    • 1994
  • 자동색인 시스템의 색인이 선정 능력을 향상시키기 위한 특정어파일 구축을 제안한다. 특정어파일을 도입함으로써 색인어 선정시 좀더 포괄적인(또는 세부적인) 주제어선정을 돕고 또한 전조합색인의 문제점으로 야기되기 쉬운 검색누수현상을 막을 수 있다. 특정어파일은 시소러스 기반 자동시스템의 성능을 강화하거나 시소러스파일의 대용으로 이용할 수 있을 것이다.

  • PDF

Construction of the Authority Files Using Automatically Indexed Terms (자동색인어를 이용한 전거파일의 구축)

  • 한영균
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.93-96
    • /
    • 1994
  • 본 연구는 자동색인시스템의 색인기능을 통해서 추출된 색인어를 이용해서 검색시스템에서 요구되는 전거파일을 구축하는 작업의 효용성을 확인하기 위한 시험적 연구의 결과를 정리한 것이다. 언론연구원의 KINDS 서비스 시스템의 신문기사 데이터베이스에서 색인시스템을 통해 추출된 약 80만개의 색인어를 기본자료로 삼아 색인어를 하위분류하고, 그것을 이용한 전거파일 구축의 가능성을 타진해 본 것이다.

  • PDF

Retrieval System Using Term Reweighting (용어 가중치 재 산정을 이용한 검색 시스템)

  • 황선욱;김혜정;손기준;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.160-162
    • /
    • 2003
  • 색인 파일은 정보 검색 시스템에서 중요한 구성 요소 중에 하나이다. 스테밍을 하여 색인 파일을 구성하게 되면 파일의 크기를 줄일 수 있고 재현율을 높이는데 효과적이다. 하지만, 과도한 스테밍으로 구성이론. 색인 파일은 원형에 대한 데이터 손실을 가지고 오기 때문에 너무 많은 문서가 검색되어 사용자가 문서를 찾는데 많은 시간이 소요되고 정확률도 떨어진다. 본 논문에서는 정보 검색 시스템에서 검색의 효율성을 높이기 위해 사용하는 색인 파일을 스테밍 한 것과 스테밍 하지 않은 파일로 구성하였다. 스테밍 한 색인 파일은 질의어와 문서 사이의 유사도를 계산하기 위하여 이용되며, 스테밍 하지 않은 파일은 스테밍 했을 때 검색된 문서들 중에서 데이터 손실로 인한 잘 못된 문서 순서를 재조정해 주기 위하여 이용된다. 본 논문에서는 높은 검색 효과를 제공하는 기존의 벡터 공간 모델을 검색 성능 평가 척도 중의 하나인 R-정확률을 이용하여 비교 평가하였다. 본 논문에서 제안하는 시스템이 문서 상위 100위까지에 대하여 일반 벡터 모델 보다 최고 21%의 좋은 성능을 보였다.

  • PDF

Indexing Method for Log Records of File System in Continuous Data Protection (연속적인 데이터 보호를 위한 파일시스템 변경 로그 레코드 색인 방법)

  • Kim, Jinsu;Song, Seokil
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2018.05a
    • /
    • pp.537-538
    • /
    • 2018
  • 이 논문에서는 CDP (Continuous Data Protection)에서 연속적인 데이터 보존 및 복원을 위한 파일시스템 변경 로그 레코드 색인 방법을 제안한다. 제안하는 파일시스템 변경 로그 레코드 색인 방법은 CDP에서 특정 시점의 파일들에 대한 복원 속도를 향상시키는 것이 목적이다. 제안하는 방법은 각 파일들을 논리적인 청크 (chunk) 단위로 나누고 각 청크에 대해서 일정 시간대별로 비트를 할당하여 파일의 변경을 추적하는 비트맵 (bitmap) 기반의 색인이다. 제안하는 비트맵 기반의 색인 방법은 멀티 레벨로 구성하여 비트맵 연산의 횟수를 줄일 수 있도록 한다. 이 논문에서는 제안하는 비트맵 기반의 색인 방법의 효율성을 입증하기 위해서 시뮬레이션을 수행한다.

  • PDF

Automatic Indexing with Controlled Vocabulary Using a Descriptor Profile (디스크립터 프로파일을 사용한 통제어휘 자동색인)

  • Kim Pan-Jun
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2006.08a
    • /
    • pp.153-160
    • /
    • 2006
  • 통제어휘를 사용하는 주제색인 작업에서 색인전문가를 효율적으로 지원할 수 있는 자동색인 방법으로 프로파일 방법의 성능과 특성을 검토해 보았다. 자동색인의 성능에 영향을 미치는 주요 요인들을 검토한 다음, 동일한 조건 하에서 프로파일 기반 방법과 다른 방법들(NB, SVM, VPT)의 성능을 비교하였다. 그 결과, 로치오 알고리즘에 기초한 프로파일을 사용하는 방법이 다른 방법들에 비해 저성능이라는 일부 평가를 일반화하기는 어렵다는 사실이 실험을 통해 드러났다. 또한, 후보 디스크립터 리스트의 생성을 통하여 색인전문가의 색인작업을 지원하는 반자동색인의 경우, F$_1$척도로는 SVM, VPT와 동등한 수준에 있으면서 재현율이 상대적으로 높은 수준인 프로파일 기반 방법을 우선적으로 고려해 볼 수 있을 것이다.

  • PDF

The Design of Index System for Encyclopedia Database (백과사전 데이타베이스를 위한 색인시스템 설계)

  • 추윤미;최석두
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.37-40
    • /
    • 1994
  • 백과사전 데이타베이스의 효과적인 검색을 위한 색인시스템을 설계하였다. 여기에서는 항목에 대한 각종 속성정보와 본문정보를 모두 포함한 색인표제어파일을 작성하고, 각 항목에 대한 참조항목을 별도로 두지 않고 시소러스파일의 BT, NT, RT, UF를 사용하여 그 항목과 연관된 항목을 참조하도록 한다. 시소러스파일은 각 색인표제어에 부여한 주제분류기호(DDC, 또는 KDC)의 계층구조를 이용하여 자동생성한 후 색인자의 수작업을 거쳐 작성된다. 이 색인시스템을 통해 백과사전에 포함되어 있는 모든 정보를 이용한 다양한 접근이 가능하며 시소러스를 사용하여 관련항목을 브라우징을 할 수 있어 포괄적인 검색이 가능하다.

  • PDF

Implementation of the Inverted File for Indexing Large-volume Data (대용량 데이터 색인에 적합한 역파일의 구현)

  • Sung Chae Lim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.909-912
    • /
    • 2008
  • 대용량 문서에 대한 키워드 검색을 위해 역파일(inverted-file) 색인 기법이 널리 쓰이고 있다. 역파일 색인 기법을 구현함에 있어 고려되어야 할 점은 키워드 검색 처리 시에 디스크 사용을 최소로 할 수 있는 방법이다. 크기가 작은 역파일이라면 디스크 I/O 사용도 작고 필요시 역파일을 메모리에 적재하여 둠으로써 디스크 사용을 크게 줄일 수 있다. 하지만, 웹 검색이나 규모가 큰 도서관 시스템에서와 같이 색인 데이터 크기가 매우 큰 경우 역파일을 읽는 디스크 비용이 급격히 증가할 수 있다. 본 논문에서는 매우 큰 크기의 역파일을 사용하는 검색 환경에서 디스크 사용을 최소로 할 수 있는 역파일 구조를 제안한다. 제안된 구조는 질의 처리 과정을 고려해 계층 구조로 설계되며 실제 상용 시스템에 적용되어 안정성 및 성능을 입증했다.

The Design of Moving Objects Index Using the Grid File (그리드 파일을 이용한 메인 메모리 이동체 색인의 설계)

  • Lee, Seoung-Il;Ahn, Kyoung-Hwan;Hong, Bong-Hee
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2003.11a
    • /
    • pp.129-134
    • /
    • 2003
  • 이동체란 시간 변화에 따라 연속적으로 위치가 변화하는 객체를 말한다. 이러한 이동체는 기존의 공간 데이터와는 달리 이동체의 위치변경 보고에 따라 지속적인 갱신연산을 발생시키는 특징을 가지고 있다. 이동체의 현재 색인에 있어 트리 기반의 색인 구조는 빈번한 갱신에 대한 색인의 변경 비용이 크므로 부적합하다. 확장 해쉬 기반의 그리드 파일 색인은 갱신연산의 비용이 적고, 그리드를 동적으로 구성하므로 공간 활용도가 높으며 영역 질의에 우수한 장점을 가지고 있다. 그러나 빈번한 갱신연산으로 인하여 해당 색인의 반복적인 분할/합병 비용을 발생시키는 문제점을 가지고 있다. 이 논문에서는 메인 메모리 기반의 그리드 파일을 구성하고, 빈번한 갱신연산에 따른 색인의 반복적인 분할/합병 비용을 제거하기 위한 합병정책을 제안한다. 특히 시간에 따라 해당 이동체의 수가 지역에 따라 변화하므로 이동체의 이동을 고려한 합병정책을 제안한다.

  • PDF

Design and Performance Evaluation of an Indexing Method for Partial String Searches (문자열 부분검색을 위한 색인기법의 설계 및 성능평가)

  • Gang, Seung-Heon;Yu, Jae-Su
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.6
    • /
    • pp.1458-1467
    • /
    • 1999
  • Existing index structures such as extendable hashing and B+-tree do not support partial string searches perfectly. The inverted file method and the signature file method that are used in the web retrieval engine also have problems that they do not provide partial string searches and suffer from serious retrieval performance degradation respectively. In this paper, we propose an efficient index method that supports partial string searches and achieves good retrieval performance. The proposed index method is based on the Inverted file structure. It constructs the index file with patterns that result from dividing terms by two syllables to support partial string searches. We analyze the characteristics of our proposed method through simulation experiments using wide range of parameter values. We analyze the derive analytic performance evaluation models of the existing inverted file method, signature file method and the proposed index method in terms of retrieval time and storage overhead. We show through performance comparison based on analytic models that the proposed method significantly improves retrieval performance over the existing method.

  • PDF

A Generation of Hangul Index Term from Hanja Term (한자용어로부터 한글색인어의 생성)

  • Choi, Suk-Doo
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.51-58
    • /
    • 1996
  • 한자(漢子)로 기술된 용어를 한글로 자동변환하여 색인어로 사용하는 경우에 한글의 음운체계나 해당 시스템의 색인정책에 맞지 않는 일이 생기게 된다. 이런 문제가 생기는 원인은 해당 한자에 대응하는 정확한 한글을 입력하지 않고 변환하였을 경우, 해당 한자의 음이 없거나 한자와의 음운체계가 달라 생기는 경우 및 별도의 색인정책이 있는 경우 등을 생각할 수 있다. 본고에서는 KS C 5601 표준코드(이하 표준코드라 한다)를 기준으로 한자(漢子)의 다음자(多音子)를 조사하였다. 다음자(多音子)가 포함되어 있는 사전용어와 다음자(多音子)파일을 이용하여 매핑파일을 구축함과 동시에 매핑파일을 보완함으로써 한자(漢子)로 기술된 용어의 바른 한글음을 자동생성하여 색인어로 사용할 수 있는 방안에 대하여 논한다.

  • PDF