• Title/Summary/Keyword: 색인

Search Result 9,878, Processing Time 0.037 seconds

Implementation of Phrase-based Indexing (구 기반 색인 시스템의 구현)

  • Lee, Chung-Hee;Kim, Hyun-Jin;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.63-69
    • /
    • 2001
  • 정보 검색 결과의 정확성을 높이기 위해서는 상위수준의 색인 정보를 이용한 검색 기법이 요구된다. 상위수준의 색인을 하기 위해서는 구문 분석을 이용할 필요가 있지만 웹 페이지를 이용하는 웹 검색에서는 웹 폐이지 자체의 오류 때문에 구문 분석을 할 때 실패할 확률이 높으므로 견고한 구문 분석이 요구된다. 본 논문은 구, 문장에 기반한 색인 기법 및 기존 색인 방법을 병행해서 사용하는 시스템에 대하여 소개한다. 본 논문에서 소개하는 시스템은 5가지 방법의 색인 기법을 사용한다. 각 색인 기법은 적용될 분야 또는 범위에 따라 선택적으로 사용될 수 있다. 색인 기법은 1)명사 색인 2)명사+용언 색인 3)명사+용언+문장정보 색인 4)명사구 색인 5)중심어-종속어(Head-Modifier) 색인으로 나누어진다. 색인 기법 중 4와 5의 경우, 구문 분석된 결과를 사용하여 특정 명사구 및 중심어-종속어 관계를 고려함으로써 문서의 특성을 잘 나타내는 색인어를 추출할 수 있고 그러므로 정보검색의 성능을 향상시키는 기반 기술로 사용될 수 있다.

  • PDF

Fixed Grid File Packing using Merge (합병 방법을 이용한 고정 격자 색인의 성능 개선)

  • 김동현;문정욱;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.25-27
    • /
    • 2002
  • 고정 격자 방식의 공간 색인 방법은 간단한 구조와 단순한 색인 과정, 구현의 용이성이라는 장점이 있으나 데이터의 분포에 영향을 많이 받아 밀집된 데이터를 처리하기에는 적합하지 못한 특성이 있다. 이에 본 논문에서는 고정 격자 색인 방법에 합병 정책을 적용하여 고정 격자 색인 방법의 성능을 향상시키는 방법을 제안한다. 본 논문의 방법에 따르면 공간 효율성이 매우 증가하고 다른 공간 색인 방법에 비해 색인 과정이 단순해지며, 공간 색인의 성능이 다른 색인 방법에 비해 증가되는 장점을 가지고 있다.

  • PDF

An Efficient Method of the Index Reorganization using Partial Index Transfer in Spatial Data Warehouses (공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 효율적인 색인 재구성 기법)

  • Jeong, Young-Cheol;You, Byeong-Seob;Park, Soon-Young;Lee, Jae-Dong;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.39-42
    • /
    • 2005
  • 공간 데이터 웨어하우스 구축기는 소스 데이터의 변경 사항을 일괄처리의 형태로 공간 데이터 웨어하우스에 적재한다. 또한, 공간 데이터 웨어하우스 서버는 사용자의 질의에 빠른 응답을 하기위해 적재된 데이터로 색인을 구축한다. 색인을 구성하는 기존 기법으로는 벌크 삽입 기법 및 색인 전송 기법이 있다. 벌크 삽입 기법은 색인을 구성하기 위한 클러스터링 비용이 필요하며 검색 성능도 떨어진다. 또한, 색인 전송 기법은 주기적인 소스 데이터의 변경을 지원하지 않는다는 문제점이 있다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 공간 데이터 웨어하우스에서 부분 색인 전송을 이용한 효율적인 색인 재구성 기법을 제안한다. 제안 기법은 구축기에서 색인의 구조에 맞게 클러스터링된 클러스터들을 부분 색인으로 구성하여 페이지 단위로 전송한다. 공간 데이터 웨어하우스 서버에서는 전송된 부분 색인의 물리적 사상 문제를 해결하기 위해 물리적으로 연속된 공간을 예약하고 예약된 공간에 부분 색인을 기록한다. 기록된 부분 색인은 공간 데이터 웨어하우스 서버에 있던 기존 색인에 삽입된다. 부분 색인이 기존 색인에 직접 삽입됨으로써 색인 재구성을 위한 검색, 분할, 재조정 비용은 최소가 된다.

  • PDF

Most Appropriate Image Selection method for Color Extraction in Immersive modeling (실감 모델링을 위한 색 추출 기법에서 적합한 이미지 선정 방법 연구)

  • Park, Joung-Wook;Lee, Kwan-H.
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.44-49
    • /
    • 2007
  • 반짝이는 특성의 물체에 대해 이미지를 기반으로 색을 추출하는 경우 반짝이는 특성을 포함하면서 내재되어 있는 색 특성을 표현하기 위해 색 곡선(color line)을 이용한다. 이 경우 추출하려는 색이 왜곡되지 않은 가장 적합한 이미지를 선정하는 방법이 필요하다. 이를 위해서 실감모델링을 위해 색 곡선을 기반으로 색을 추출하는 방법을 제시하고 제시된 방법을 위해 색을 추출하기 가장 적합한 이미지를 선정하는 기준을 색포화율(color saturation ratio)을 통해 제안한다. 색포화율이란 색을 구성하는 요소 중에서 최소한 하나 이상의 색이 포화된 픽셀들을 최대 색거리를 가진 픽셀들로 간주하여 계산된 색거리의 총합에 대해 최소한 하나 이상의 색이 포화된 픽셀들의 색거리 총합의 비율를 의미한다. 이상적으로 이 비율이 최소가 되면 하이라이트를 제외한 어떤 픽셀도 포화되지 않기 때문에 반짝이는 특성을 가진 물체의 색을 추출하기 위해 촬영된 이미지는 하이라이트를 제외한 모든 색이 왜곡되지 않은 가장 적합한 이미지가 생성된다. 또한, 이렇게 선정된 이미지에서 추출된 색의 효율성을 보이기 위해 색 공간과 이미지 상에서 다양한 형태의 응용 결과를 제시하였다.

  • PDF

An Efficient Index Transfer Method for Reducing Index Organization Cost In Distributed Database Systems (분산 데이터베이스 시스템에서의 색인 구성비용 절감을 위한 효율적인 색인 전송기법)

  • 박상근;김호석;이재동;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.223-225
    • /
    • 2003
  • 분산 데이터베이스 시스템 환경에서는 특정 노드로 집중되는 부하의 분산이나 가용성 및 안정성 제공을 위해 데이터 분할기법 (fragmentation)과 복제기법(replication)을 사용한다. 이때 전송된 데이터에 대한 기존의 색인 재활용 기법과 벌크 로딩(bulk loading) 기법은 효율적인 색인 구성을 위해 논리적인 페이지 포인터를 물리적 주소로 변환하는 물리적 사상구조를 필요로 하거나, 색인 구성시간과 검색성능 모두를 향상시키지 못하는 문제점을 지닌다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 색인 전송기법을 제안한다. 본 기법은 색인 재활용을 위해 물리적 사상구조를 추가로 유지하거나, 검색 성능을 향상시키기 위해 전체 데이터 집합을 정렬하는 것이 아니라, 데이터가 전송될 사이트에 색인구조물 저장하기 위한 물리적 공간은 예약하고 예약된 공간에 색인구조를 전송, 기록함으로써 색인 구성비용을 줄이게 된다. 또한 예약된 공간을 연속적인 페이지구조로 구성함으로써 색인 구성 시 자식노드에 대한 위치정보를 예상하여 부모노드가 지니는 자식노드에 대한 위치정보 기록 비용을 줄일 수 있다.

  • PDF

A Sequential Indexing Method for Multidimensional Range Queries (다차원 범위 질의를 위한 순차 색인 기법)

  • Cha Guang-Ho
    • Journal of KIISE:Databases
    • /
    • v.32 no.3
    • /
    • pp.254-262
    • /
    • 2005
  • This paper presents a new sequential indexing method called segment-page indexing (SP-indexing) for multidimensional range queries. The design objectives of SP-indexing are twofold:(1) improving the range query performance of multidimensional indexing methods (MIMs) and (2) providing a compromise between optimal index clustering and the full index reorganization overhead. Although more than ten years of database research has resulted in a great variety of MIMs, most efforts have focused on data-level clustering and there has been less attempt to cluster indexes. As a result, most relevant index nodes are widely scattered on a disk and many random disk accesses are required during the search. SP-indexing avoids such scattering by storing the relevant nodes contiguously in a segment that contains a sequence of contiguous disk pages and improves performance by offering sequential access within a segment. Experimental results demonstrate that SP-indexing improves query performance up to several times compared with traditional MIMs using small disk pages with respect to total elapsed time and it reduces waste of disk bandwidth due to the use of simple large pages.

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database (서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • v.36 no.2
    • /
    • pp.327-348
    • /
    • 2005
  • The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

  • PDF

The Development of an Automatic Indexing System based on a Thesaurus (시소러스를 기반으로 하는 자동색인 시스템에 관한 연구)

  • 임형묵;정상철
    • Korean Journal of Cognitive Science
    • /
    • v.4 no.1
    • /
    • pp.213-242
    • /
    • 1993
  • During the past decades,several automatic indexing systems have been developed such as single term indexing.phrase indexing and thesaurus basedidndexing systems.Among these systems,single term indexing has been known as superior to others despte its simpicity of extracting meaningful terms.On the other hand,thesaurus based one has been conceived as producing low retrival rate ,mainly because thesauri do not usually have enough index terms.so that much of text data fail to be indexed if they do not match with any of index terms in thesauri.This paper develops a thesaurus based indexing system THINS that yields higher retrieval rate than other systems.by doing syntactic analysis of text data and matching them with index terms in thesauri partially.First,the system analyzes the input text syntactically by using the machine translation suystem MATES/EK and extracts noun phrases.After deleting stop words from noun phrases and stemming the remaining ones.it tries to index these with similar index terms in the thesaurus as much as possible. We conduct an experiment with CACM data set that measures the retrieval effectiveness with CACM data set that measures the retrieval effectuvenss of THINS with single term based one under HYKIS-a thesaurus based information retrieval system.It turns out that THINS yields about 10 percent higher precision than single term based one.while shows 8to9 percent lower recall.This retrieval rate shows that THINS improves much better than privious ones that only yields 25 or 30 percent lower precision than single term based one.We also argue that the relatively lower recall is cause by that CRCS-the thesaurus included in CACM datea set is very incomplete one,having only more than one thousand terms,thus THINS is expected to produce much higher rate if it is associated with currently available large thesaurus.

An Efficient Dynamic Indexing Model for Various Structure Retrievals of XML Documents (XML 문서의 다양한 구조 검색을 위한 효율적인 동적 색인 모델)

  • 신승호;손충범;강형일;유재수
    • Journal of KIISE:Databases
    • /
    • v.31 no.1
    • /
    • pp.48-60
    • /
    • 2004
  • XML documents consist of elements that are basic units of information. When the structure of XML documents is changed dynamically, we need to update structure information efficiently without changing the information of the index structure for fast retrieval. In this paper, we propose a dynamic indexing model scheme that updates the index structure in real time as the structure of XML documents is changed by insertion and deletion of elements. Our dynamic indexing model consists of a structure information representation method and a dynamic index structure. The structure information representation method supports various types of structure retrievals. Our dynamic index structure processes various structural queries efficiently. We show through various experiments that our method outperforms existing ones in processing various types of queries such as content based queries, structural queries and hybrid queries.

Automatic Production of Book Indices (서적에서의 자동색인)

  • 조성래;황도삼;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF