• Title/Summary/Keyword: 대용량문서 색인

Search Result 23, Processing Time 0.029 seconds

Design and Implementation of Indexing and Query Languages for an Efficient Retrieval of SGML Documents (SGML 문서의 효율적인 검색을 위한 색인 및 질의 언어의 설계 및 구현)

  • Lee, Bong-Sin;Lee, Gyeong-Ho;Go, Seung-Gyu;Choe, Yun-Cheol
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.11
    • /
    • pp.2911-2921
    • /
    • 1999
  • We present new methods for an efficient retrieval of SGML documents. We define IDDL (index database description language) which is able to describe various information such as meta data, an indexing range, and the creation and manipulation of a database. In addition, we design IDQL (index database query language) that can deal with querying meta data as well as logical structure. Especially, the retrieval system based on IDDL and IDQL has been developed and implemented, and has been experimented on large number of documents. Experimental result shows that the proposed method provides the dynamic creation of an index database and a convenient retrieval environment.

  • PDF

Development & Operation of Integrated Technical Information System (통합기술정보시스템(ITIS)의 개발 및 운용)

  • Chung, Joon-Young;Lee, Joon-Woo;Kim, Cheon-Young;Lee, Sang-Bum
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.859-862
    • /
    • 2003
  • 지금까지의 기술자료관리는 수작업의 비효율성과 복잡한 절차로 인해 업무의 시간 손실을 발생시켜 왔다. 대용량 저장장치, 그래픽 디스플레이 및 네트워킹 같은 정보기술 진보는 효과적인 전자문서 처리를 가능하게 했다. 본 논문에서 기술하고자하는 XKO-1의 통합기술 정보시스템 모델은 방대한 문서 데이터베이스를 개발하고 XKO-1 항공기의 도면, 기술문서 및 비행시험 자료의 관리와 처리를 지원하기 위한 기술을 보여주기 위한 것이다. 또한 ITIS 프로그램은 워크플로우를 이용한 문서저장기능과 스캐너를 사용해서 문서를 디지탈화, 전자화, 색인화 및 압축화하여 데이터베이스에 저장할 뿐만 아니라, 프로세스에 따라 검색 및 분배된다.

  • PDF

An Efficient Inverted Index Technique based on RDBMS for Keyword Search (키워드 검색에 대한 RDBMS에 기반을 둔 효율적인 역색인 기법)

  • Shin, Yoonmi;Jeon, Minhyuk;Ahn, Jinhyun;Im, Dong-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.357-359
    • /
    • 2019
  • RDBMS 상에서 문서에 포함된 키워드 검색을 위한 질의 시 병합 조인 방식을 통해 키워드 검색을 시도하게 된다. 그러나 대용량의 문서를 저장하고 있는 RDBMS 내에서 병합 조인을 사용 시 검색 키워드에 대해 불필요한 비교 연산으로 인하여 질의 문에 대한 검색시간이 길어질 수 있다. 본 논문은 행 지향 관계형 역 색인을 이용하여 키워드 검색 질의 시 병합 조인의 단점을 보완한 지그재그 병합 조인 알고리즘을 사용한다. 관계형 데이터베이스인 postgreSQL 에서 프로시저로 불필요한 비교 연산을 최소화한 지그재그 병합 조인 알고리즘을 구현하여 키워드 검색에 대한 질의 속도 향상을 확인하였다.

Odysseus/Parallel-OOSQL: A Parallel Search Engine using the Odysseus DBMS Tightly-Coupled with IR Capability (오디세우스/Parallel-OOSQL: 오디세우스 정보검색용 밀결합 DBMS를 사용한 병렬 정보 검색 엔진)

  • Ryu, Jae-Joon;Whang, Kyu-Young;Lee, Jae-Gil;Kwon, Hyuk-Yoon;Kim, Yi-Reun;Heo, Jun-Suk;Lee, Ki-Hoon
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.14 no.4
    • /
    • pp.412-429
    • /
    • 2008
  • As the amount of electronic documents increases rapidly with the growth of the Internet, a parallel search engine capable of handling a large number of documents are becoming ever important. To implement a parallel search engine, we need to partition the inverted index and search through the partitioned index in parallel. There are two methods of partitioning the inverted index: 1) document-identifier based partitioning and 2) keyword-identifier based partitioning. However, each method alone has the following drawbacks. The former is convenient in inserting documents and has high throughput, but has poor performance for top h query processing. The latter has good performance for top-k query processing, but is inconvenient in inserting documents and has low throughput. In this paper, we propose a hybrid partitioning method to compensate for the drawback of each method. We design and implement a parallel search engine that supports the hybrid partitioning method using the Odysseus DBMS tightly coupled with information retrieval capability. We first introduce the architecture of the parallel search engine-Odysseus/parallel-OOSQL. We then show the effectiveness of the proposed system through systematic experiments. The experimental results show that the query processing time of the document-identifier based partitioning method is approximately inversely proportional to the number of blocks in the partition of the inverted index. The results also show that the keyword-identifier based partitioning method has good performance in top-k query processing. The proposed parallel search engine can be optimized for performance by customizing the methods of partitioning the inverted index according to the application environment. The Odysseus/parallel OOSQL parallel search engine is capable of indexing, storing, and querying 100 million web documents per node or tens of billions of web documents for the entire system.

Information Retrieval Management System KRISTAL-2001 (정보검색관리시스템 KRISTAL-2001)

  • Jin, Du-Seok;Seo, Jeong-Hyeon;Choe, Yun-Su;Choe, Seong-Pil;Kim, kwang-Yeong
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • s.7
    • /
    • pp.32-43
    • /
    • 2001
  • 정보화사회에 있어서 인간의 지적 활동에 필수적인 요소는 과학기술에 의존한 정보의 수집과 축적 및 검색과 이용이라고 할 수 있다. 이러한 요구에 따른 다양한 형태의 정보나 데이터를 효율적으로 구축, 유지, 운영할 수 있는 정보 검색시스템 개발의 중요성이 점차 증가하고있다. 특히, 웹과 컴퓨터의 보급이 확산됨에 따라 수많은 전자문서들이 생산되면서 기존의 검색시스템의 기능, 즉 정형적인 텍스트문서에 대한 단순한 불리언질의만으로는 사용자의 요구를 충족시킬 수 없게되었다. 따라서, 본 논문에서는 이러한 사용자 요구를 빠르고 정확하게 처리하기 위해 기존의 정보 검색시스템인 "KRISTAL-2001"의 특징은 저장엔진, 시스템제어기, 검색기, 색인기, 분산엔진 모듈이 각각 서버 역활을하며 통신을 통하여 상호간의 정보를 전달한다. 따라서 분산검색을 통한 빠른 질의처리가 가능하다는 장점을 가지고 있다. 그리고 문서 또는 문서그룹단위의 트랜잭션처리를 지원하기 때문에 데이터의 안정적인 저장 및 수정을 보장한다. 또한 구조문서, 멀티미디어 데이터등 다양한 형태의 데이터를 관리할 수 있기 특징을 가지고 있다. KRISTAL-2001은 순수 국내기술로 개발된 대용량 데이터를 위한 차세대 정보검색시스템으로서 국제 경쟁력 향상에 중요한 역할을 수행할 것으로 기대된다.

  • PDF

Web Search Engine based on Database Management System (데이터베이스 관리 시스템에 기반한 웹검색엔진의 구현)

  • Kang, Byung-Ju;Lee, Ji-Dong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.211-218
    • /
    • 1997
  • 웹검색엔진은 색인되는 웹문서가 많아질수록 시스템 확장성(scalability)이라든지, 데이터베이스 유지 관리의 용이성, 데이터의 안전성 문제, 등의 많은 문제가 웹검색엔진에 부담으로 주어지게 된다. 반면에 인트라넷(intranet)용 검색엔진의 경우는 확장성보다는 검색엔진 자체의 개발의 용이성이 더욱 중요하다. Oracle $ConText^{TM}$는 오라클 사(社의) RDBMS인 $Oracle7^{TM}$의 정보검색 확장 옵션으로 텍스트를 Oracle7의 기본 데이터 타입으로 사용될 수 있게 한다. Oracle7+ConText는 대용량의 문서 베이스와 개발의 용이성을 동시에 보장할 수 있는 매우 훌륭한 웹검색엔진 개발 도구이다. 우리는 이를 검증하기 위하여 Oracle7+ConText에 기반한 WEBSECT(Web Search Engine With ConText)라는 웹검색엔진을 개발하였다. 본 논문은 WEBSECT의 개발과 시험 운영을 통해 데이터베이스에 기반한 웹검색엔진의 우수한 확장성과 텍스트 애플리케이션 개발의 용이성 등을 소개한다.

  • PDF

Keyword Extraction in Korean Using Unsupervised Learning Method (비감독 학습 기법에 의한 한국어의 키워드 추출)

  • Shin, Seong-Yoon;Rhee, Yang-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.6
    • /
    • pp.1403-1408
    • /
    • 2010
  • Korean information retrieval uses noun as index terms or keywords of representing the document. and noun and keyword extraction is to find all nouns presented in the document, In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

Keyword Extraction Using Unsupervised Learning Method (비감독 학습 기법에 의한 키워드 추출)

  • Shin, Seong-Yoon;Baek, Jeong-Uk;Rhee, Yang-Won
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.165-166
    • /
    • 2010
  • Noun extraction is to find all nouns presented in the document, Korean information retrieval uses noun as index terms or keywords of representing the document. In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

  • PDF

A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources (대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구)

  • Choi, Yun-Soo;Cheong, Chang-Hoo;Choi, Sung-Pil;You, Beom-Jong;Kim, Jae-Hoon
    • Journal of Information Management
    • /
    • v.40 no.4
    • /
    • pp.1-22
    • /
    • 2009
  • Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In this study, we define scientific as a set of 10 types of named entities and technical terminologies in a biomedical domain. in order to automatically extract these entities from scientific documents at once, we develop a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer, co-reference resolver and terminology extractor. Each module of the integrated system has been evaluated with various corpus as well as KEEC 2009. The system will be utilized for various information service areas such as information retrieval, question-answering(Q&A), document indexing, dictionary construction, and so on.

Recognition and Evaluation of Efficient Language Analysis Unit for Korean (한국어에서 실용적 언어분석 단위의 인식과 평가)

  • 박인철
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.1
    • /
    • pp.65-76
    • /
    • 2004
  • In this paper, we observe the differences between linguistic and computational aspect in the automatic processing of languages which are dominant representation method for information in the Internet. For efficient information retrieval, information extraction and machine translation from the massive documents, we investigate analysis units for morphology analysis, syntactic analysis and semantic analysis. and propose the syntactic longest analysis unit rather than morphological unit based on linguistics. Also, by evaluating with massive documents, we show that the proposed analysis units can be used for the constraint which can reduce the ambiguity occurring in the language processing.

  • PDF