• 제목/요약/키워드: full-text retrieval

검색결과 50건 처리시간 0.022초

학위논문 전문데이터베이스 구축 및 서비스환경 구현 (Construction of Full-Text Database and Implementation of Service Environment for Electronic Theses and Dissertations)

  • 이기호;김진숙;윤화묵
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.41-49
    • /
    • 2000
  • 1990년대 중반부터 다양하고 강력한 문서편집기의 보편화와 더불어 국내외의 대학에서는 책자형태의 논문제출과 동시에 전자형태 학위논문의 제출을 의무화하고 있다. 그러나 제출된 방대한 야의 전자형태의 논문들은 한글, MS-Word, Latexe 등 다양한 문서편집기로 작성되었고 문서형식의 표준화가 이루어지지 않아 효율적으로 활용되지 못하고 있는 실정이다. 본 논문에서는 다양한 형태로 존재하는 학위논문들을 하나의 통일된 중간포맷으로 변혼하고, 변환된 논물들을 전문데이터베이스(Full Text Datsbase)화하여 이를 인터넷을 통해 효육적으로 검색하고 서비스하기 위한 학위논문 전문검색시스템을 구현한다.

  • PDF

이미지데이터 활용을 위한 문서인식시스템 연구 및 개발 (Research and Development of Document Recognition System for Utilizing Image Data)

  • 곽희규
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.125-138
    • /
    • 2010
  • 본 연구는 공공기관이 소장한 이미지데이터의 검색 및 열람 등의 활용성을 높이기 위한 전문검색서비스 구현 시 필수적인 문서인식시스템의 고도화를 목표로 한다. 주요한 연구방향은 공공기관이 소장하고 있는 데이터를 사전에 분석하여 문서이미지 전처리 및 문서구조분석 기술을 개발하고, 문서인식 과정에서 활용하기 위한 이미지내용DB, 문자모델DB, 용어DB로 구성되는 특화된 지식베이스를 구축하는 것이다. 또한, 지식베이스 관리도구를 개발하여 향후 다양한 형태의 문서이미지로의 확장을 가능하게 한다. 최근 본 연구는 국가기록원에서 소장하고 있는 이미지데이터에 적합한 문서구조분석 라이브러리와 특화된 지식베이스를 결합한 문서인식 프로토타입 시스템 개발을 완료했다. 향후 본 연구의 결과는 방대한 소장자료의 검색 및 활용을 극대화할 전문검색시스템 연계를 위한 성능평가 및 테스트베드 구축에 활용될 것이다.

전문(全文) DB 구축(構築)에 의한 한국통신연구정보관리(韓國通信硏究情報管理) 시스템 개발(開發) (Development of KTRIMS Using the Technology of Full Text DB Construction)

  • 이상엽;안현수;이양옥
    • 정보관리연구
    • /
    • 제24권1호
    • /
    • pp.1-20
    • /
    • 1993
  • 한국통신(韓國通信) 연구개발단(硏究開發團)에서는 사내(社內) 각 연구부서(硏究部署)에서 발생하는 각종 최신 연구정보(硏究情報)의 원문(原文)을 축적(蓄積) 공동활용(共同活用)하기 위하여 한국통신연구정보관리(韓國通信硏究情報管理) 시스템(KTRIMS)을 개발(開發)하였으며, 본(本) 고(稿)에서는 KTRIMS의 구성(構成)과 특징(特徵)을 중심(中心)으로 기술(記述)하였다.

  • PDF

On supporting full-text retrievals in XML query

  • Hong, Dong-Kweon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제7권4호
    • /
    • pp.274-278
    • /
    • 2007
  • As XML becomes the standard of digital data exchange format we need to manage a lot of XML data effectively. Unlike tables in relational model XML documents are not structural. That makes it difficult to store XML documents as tables in relational model. To solve these problems there have been significant researches in relational database systems. There are two kinds of approaches: 1) One way is to decompose XML documents so that elements of XML match fields of relational tables. 2) The other one stores a whole XML document as a field of relational table. In this paper we adopted the second approach to store XML documents because sometimes it is not easy for us to decompose XML documents and in some cases their element order in documents are very meaningful. We suggest an efficient table schema to store only inverted index as tables to retrieve required data from XML data fields of relational tables and shows SQL translations that correspond to XML full-text retrievals. The functionalities of XML retrieval are based on the W3C XQuery which includes full-text retrievals. In this paper we show the superiority of our method by comparing the performances in terms of a response time and a space to store inverted index. Experiments show our approach uses less space and shows faster response times.

특허정보 전문검색을 위한 문헌구조화 연구 (A Study on Patent Structure in Patent Full-text Retrieval)

  • 권영숙;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.29-32
    • /
    • 1999
  • 특허정보는 일반 과학기술정보와 다른 특성을 가지고 있어 정확성과 최신성이 절대적으로 필요하다. 이와 같은 특허정보의 특성을 고려하여 이용자의 정보요구를 충족시키고 효과적으로 검색할 수 있는 특허정보검색시스템 구축을 위한 기초자료로서 특허문헌구조를 고찰하였다.

  • PDF

음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색 (Retrieval of Player Event in Golf Videos Using Spoken Content Analysis)

  • 김형국
    • 한국음향학회지
    • /
    • 제28권7호
    • /
    • pp.674-679
    • /
    • 2009
  • 본 논문은 골프 동영상에 포함된 오디오 정보로부터 검출된 이벤트 사운드 구간과 골프 선수이름이 포함된 음성구간을 결합하여 선수별 이벤트 구간을 검색하는 방식을 제안한다. 전체적인 시스템은 동영상으로부터 분할된 오디오 스트림으로부터 잡음제거, 오디오 구간분할, 음성 인식 등의 과정을 통한 자동색인 모듈과 사용자가 텍스트로 입력한 선수 이름을 발음열로 변환하고, 색인된 데이터베이스에서 질의된 선수 이름과 상응하는 음성구간과 연결되는 이벤트 구간을 찾아주는 검색 모듈로 구성된다. 선수이름 검색을 위해서 본 논문에서는 음소 기반, 단어 기반, 단어와 음소를 결합한 하이브리드 방식을 적용한 선수별 이벤트 구간 검색결과를 비교하였다.

SGML 한글문서의 논리적 구조에 근거한 색인기법에 관한 연구 (A Study of Automatic Indexing Technique based on Logical Structure of SGML Hangul Document)

  • 유석종
    • 정보관리학회지
    • /
    • 제12권2호
    • /
    • pp.85-101
    • /
    • 1995
  • 기존 색인 시스템은 전자문서에 대하여 전문색인 (full-text indexing) 방법만을 지원하며, 문서의 논리적 구조를 검색 방법으로 적절하게 활용하지 못하고 있다. 대부분의 전자문서는 특정 시스템에 의존적인 형식으로 되어 있으며, 문서의 물리적 형태만을 나타내고 논리적 구조에 대한 정보는 포함하고 있지 않다. 이에 반해 1986년에 ISO에서 문서교환에 대한 표준방식으로 제정한 SGML (Standard Generalized Markup Language)은 문서의 논리적 구조에 대한 정보를 포함하고 있다. 본 논문에서는 기존의 전문색인 시스템의 단점을 보완하고 표준문서형식을 사용하기 위해 SGML 문서에서의 색인 시스템을 설계 구현하고자 한다. 기존 색인 시스템에서는 문서 전체에 대하여 색인이 이루어지는데 비하여 본 시스템에서는 SGML 문서의 구성요소인 엘리먼트에 기반하여 색인 영역을 지정할 수 있게 하엿다. 따라서 문서의 논리적 구조를 반영한 다양한 검색기법에 응용될 수 있다. 또한 본 시스템에서는 SGML 한글문서에 대하여 자동색인이 가능하다.

  • PDF

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

시맨틱 웹 환경에서 적합한 문장을 제공하는 이야기 쓰기 도우미에 관한 연구 (A Study of Retrieval Model Providing Relevant Sentences in Storytelling on Semantic Web)

  • 이태영
    • 정보관리학회지
    • /
    • 제26권4호
    • /
    • pp.7-34
    • /
    • 2009
  • 이야기 쓰기를 돕는 본문 및 문장 검색시스템의 구축을 위해서 (1) 이야기와 단락 및 문장의 구조를 분석하고 (2) 색인작성과 탐색 질문에 적용되는 언어 추론을 연구하였다. 이야기 쓰기에 필요한 이야기, 단락, 그리고 문장으로 구성된 사항 데이터베이스와 필요한 추론규칙으로 이루어진 지식베이스와 온톨로 지가 고안되었다. 추론의 기초인 실례(實例) 파일들은 시맨틱 웹 환경에서 작동될 마크업 언어 형식으로 만들어졌다. 시맨틱 웹 환경에서 실용적인 시스템이 되려면 단락과 문장을 정확히 대변하는 색인 방법론과 이를 정밀하게 지식베이스화 할 수 있는 마크업 언어의 창조가 필수적이라 사료된다.