• Title/Summary/Keyword: 역 색인기법

Search Result 27, Processing Time 0.027 seconds

A Study on Automatic Indexing of Korean Texts based on Statistical Criteria (통계적기법에 의한 한글자동색인의 연구)

  • Woo, Dong-Chin
    • Journal of the Korean Society for information Management
    • /
    • v.4 no.1
    • /
    • pp.47-86
    • /
    • 1987
  • The purpose of this study is to present an effective automatic indexing method of Korean texts based on statistical criteria. Titles and abstracts of the 299 documents randomly selected from ETRI's DOCUMENT data base are used as the experimental data in this study the experimental data is divided into 4 word groups and these 4 word groups are respectively analyzed and evaluated by applying 3 automatic indexing methods including Transition Phenomena of Word Occurrence, Inverse Document Frequency Weighting Technique, and Term Discrimination Weighting Technique.

  • PDF

Efficient Structural Join Technique using the Level Information of Indexed XML Documents (색인된 XML 문서에서 레벨 정보를 이용한 효과적인 구조 조인 기법)

  • Lee Yunho;Choi Ilhwan;Kim Jongik;Kim Hyoung-Joo
    • Journal of KIISE:Databases
    • /
    • v.32 no.6
    • /
    • pp.641-649
    • /
    • 2005
  • As XML is widely used with the development of internet, many researches on the XML storage and query processing have been done Several index techniques have been proposed to efficiently process XML path queries. Recently, structural join has received murk attention as a method to protest the path query. Structural join technique process a path query by identifying the containment relationship of elements. Especially, it has an advantage that we can get the result set by simply comparing related elements only instead of scanning whole document. However during the comparison process, unnecessary elements that are not included in the result set can be scanned. So we propose a new technique, the level structural join. In this technique, we use both the relationship and the level distribution of elements in the path query. Using this technique, we tao improve the performance of query processing only by comparing elements with specific level in the target inverted level.

A Fast and Powerful Question-answering System using 2-pass Indexing and Rule-based Query Processing Method (2-패스 색인 기법과 규칙 기반 질의 처리기법을 이용한 고속, 고성능 질의 응답 시스템)

  • 김학수;서정연
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.11
    • /
    • pp.795-802
    • /
    • 2002
  • We propose a fast and powerful Question-answering (QA) system in Korean, which uses a predictive answer indexer based on 2-pass scoring method. The indexing process is as follows. The predictive answer indexer first extracts all answer candidates in a document. Then, using 2-pass scoring method, it gives scores to the adjacent content words that are closely related with each answer candidate. Next, it stores the weighted content words with each candidate into a database. Using this technique, along with a complementary analysis of questions which is based on lexico-syntactic pattern matching method, the proposed QA system saves response time and enhances the precision.

PIX: Partitioned Index for Keyword Search over XML Documents (PIX: XML문서 검색을 위한 색인 분할 기법)

  • Lee Hongrae;Lee Hyungdong;Yoo Sangwon;Kim Hyoung-Joo
    • Journal of KIISE:Databases
    • /
    • v.31 no.6
    • /
    • pp.710-720
    • /
    • 2004
  • As XML documents have much richer information than plain texts, we can perform very elaborated, fine-grained search which was difficult in past years. However, as the cost of finer grained element level search is very high, the processing overhead has become a new challenge. We propose an inverted index structure called PIX, which reduces the number of elements processed by partitioning elements according to their match potentiality. We choose a base level and partition elements according to whether they have possibility of having a common ancestor higher than the level. We also propose partition merging technique by which we can get same results as unpartitioned case. Our experimental results show that the index partitioning strategy can reduce processing time considerably.

Development of an Automatic Hypertext Indexer for Dynamic Information Storage (동적 정보 저장을 위한 자동 하이퍼텍스트 색인 기법의 개발)

  • Yi, Dong-Ae;Jang, Duk-Sung
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.9
    • /
    • pp.2333-2341
    • /
    • 1997
  • The hyperlinks to related nodes should be changed when we insert, or modify an information in a hypertext database. We can find more informations by means of hyperlinks that are based upon hypertext indexes. Therefore, the management of the hypertext indexes is an important component for dynamic information storage. In this paper, we suggest a method to manage the hypertext indexes and to determine hyperlinks automatically by using a dynamic indexer. We also construct index, stopword, and postposition dictionaries, an inverted index file, and a thesaurus to help the dynamic indexer.

  • PDF

Dynamic Management of Equi-Join Results for Multi-Keyword Searches (다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법)

  • Lim, Sung-Chae
    • The KIPS Transactions:PartA
    • /
    • v.17A no.5
    • /
    • pp.229-236
    • /
    • 2010
  • With an increasing number of documents in the Internet or enterprises, it becomes crucial to efficiently support users' queries on those documents. In that situation, the full-text search technique is accepted in general, because it can answer uncontrolled ad-hoc queries by automatically indexing all the keywords found in the documents. The size of index files made for full-text searches grows with the increasing number of indexed documents, and thus the disk cost may be too large to process multi-keyword queries against those enlarged index files. To solve the problem, we propose both of the index file structure and its management scheme suitable to the processing of multi-keyword queries against a large volume of index files. For this, we adopt the structure of inverted-files, which are widely used in the multi-keyword searches, as a basic index structure and modify it to a hierarchical structure for join operations and ranking operations performed during the query processing. In order to save disk costs based on that index structure, we dynamically store in the main memory the results of join operations between two keywords, if they are highly expected to be entered in users' queries. We also do performance comparisons using a cost model of the disk to show the performance advantage of the proposed scheme.

병렬 정보 검색 시스템의 고장 포용성 향상 기법

  • 강재호;안현주;정성원;류광렬;권혁철;정상화
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2003.05a
    • /
    • pp.457-466
    • /
    • 2003
  • 인터넷과 같은 대량의 정보에 대응할 수 있는 고성능 정보검색시스템을 구축하기 위해서 지금까지는 고가의 중대형 컴퓨터를 주로 활용하여 왔으나, 최근 가격대 성능비가 높은 PC 클러스터 시스템을 활용하는 방안이 경제적인 대안으로 떠오르고 있다. PC 클러스터 시스템에서는 전체 작업을 개별 노드 즉 PC에 가능한 균등하게 분배함으로써 성능을 극대화 하고자 하는데, 하나 또는 그 이상의 노드에 문제가 발생하는 경우 전체시스템의 성능이 매우 저하되거나 정상적인 서비스를 제공하기가 어려워진다. 이러한 상황에서 고장 포용성의 달성은 1년 365일 지속적으로 운영되어야 하는 많은 응용분야에서 반드시 해결해야 하는 문제이다. 본 논문에서는 PC 클러스터를 활용한 병렬정보검색시스템에서 고장 포용성을 극대화하기 위하여 각 노드의 색인어 역파일을 이웃 노드에 효율적으로 중복하여 저장하는 방안과 이를 활용한 효과적인 병렬정보검색 방법을 제안한다. 대규모 말뭉치를 활용한 실험결과 본 논문에서 제시하는 고장 포용성 향상을 위한 색인어 역파일 중복 저장방안이 충분한 효율성과 실용성이 있음을 확인하였다.

  • PDF

An Efficient Inverted Index Technique based on RDBMS for Keyword Search (키워드 검색에 대한 RDBMS에 기반을 둔 효율적인 역색인 기법)

  • Shin, Yoonmi;Jeon, Minhyuk;Ahn, Jinhyun;Im, Dong-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.357-359
    • /
    • 2019
  • RDBMS 상에서 문서에 포함된 키워드 검색을 위한 질의 시 병합 조인 방식을 통해 키워드 검색을 시도하게 된다. 그러나 대용량의 문서를 저장하고 있는 RDBMS 내에서 병합 조인을 사용 시 검색 키워드에 대해 불필요한 비교 연산으로 인하여 질의 문에 대한 검색시간이 길어질 수 있다. 본 논문은 행 지향 관계형 역 색인을 이용하여 키워드 검색 질의 시 병합 조인의 단점을 보완한 지그재그 병합 조인 알고리즘을 사용한다. 관계형 데이터베이스인 postgreSQL 에서 프로시저로 불필요한 비교 연산을 최소화한 지그재그 병합 조인 알고리즘을 구현하여 키워드 검색에 대한 질의 속도 향상을 확인하였다.

Term Clustering and Duplicate Distribution for Efficient Parallel Information Retrieval (효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법)

  • 강재호;양재완;정성원;류광렬;권혁철;정상화
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.1_2
    • /
    • pp.129-139
    • /
    • 2003
  • The PC cluster architecture is considered as a cost-effective alternative to the existing supercomputers for realizing a high-performance information retrieval (IR) system. To implement an efficient IR system on a PC cluster, it is essential to achieve maximum parallelism by having the data appropriately distributed to the local hard disks of the PCs in such a way that the disk I/O and the subsequent computation are distributed as evenly as possible to all the PCs. If the terms in the inverted index file can be classified to closely related clusters, the parallelism can be maximized by distributing them to the PCs in an interleaved manner. One of the goals of this research is the development of methods for automatically clustering the terms based on the likelihood of the terms' co-occurrence in the same query. Also, in this paper, we propose a method for duplicate distribution of inverted index records among the PCs to achieve fault-tolerance as well as dynamic load balancing. Experiments with a large corpus revealed the efficiency and effectiveness of our method.

Retrieval of Large scaled XML Documents based on Path Query using Inverted indexes (역 색인을 이용한 경로 질의 기반 대용량 XML문서 검색)

  • Moon, Kyung-Won;Hwang, Byung-Yeon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.35-38
    • /
    • 2005
  • 1998년 XML 문서 표준이 제안된 이래, 다양한 응용 분야에서 XML은 데이터를 표현하는 표준으로 자리잡아 가고 있다. 특히, 인터넷상의 많은 데이터들이 XML 형태로 작성되고 변환됨에 따라 다량의 XML 데이터가 생성되고 있다. 따라서 현재 XML 문서의 저장 및 질의 처리 기법의 연구가 활발하게 진행되고 있다. 하지만 기존의 연구는 대용량 XML 문서를 다루기에는 미흡한 점이 있다. 본 논문에서는 인터넷상의 널리 퍼져있는 방대하고, 다양한 구조의 XML문서들을 대상으로 패스 기반 질의를 빠르게 처리할 수 있는 검색 기법을 제안한다. 제안된 기법은 인터넷상에 산재해 있는 여러 XML 문서를 관계형 데이터베이스에 효율적으로 저장하고 질의를 통해 인터넷상 XML 문서의 엘리먼트를 빠르게 검색하는데 주안점을 둔다. 먼저, XML 문서를 관계형 데이터베이스에 효율적으로 저장하는 계층형 XML 저장 기법을 제안하고, 정보 검색 시스템에서 많이 사용하는 역 인덱스를 사용하여 저장된 XML 문서에 대한 검색 성능을 향상시킨다.

  • PDF