• 제목/요약/키워드: full-text retrieval system

검색결과 30건 처리시간 0.026초

XML Repository System Using DBMS and IRS

  • Kang, Hyung-Il;Yoo, Jae-Soo;Lee, Byoung-Yup
    • International Journal of Contents
    • /
    • 제3권3호
    • /
    • pp.6-14
    • /
    • 2007
  • In this paper, we design and implement a XML Repository System(XRS) that exploits the advantages of DBMSs and IRSs. Our scheme uses BRS to support full text indexing and content-based queries efficiently, and ORACLE to store XML documents, multimedia data, DTD and structure information. We design databases to manage XML documents including audio, video, images as well as text. We employ the non-composition model when storing XML documents into ORACLE. We represent structured information as ETID(Element Type Id), SORD(Sibling ORDer) and SSORD(Same Sibling ORDer). ETID is a unique value assigned to each element of DTD. SORD and SSORD represent an order information between sibling nodes and an order information among the sibling nodes with the same element respectively. In order to show superiority of our XRS, we perform various experiments in terms of the document loading time, document extracting time and contents retrieval time. It is shown through experiments that our XRS outperforms the existing XML document management systems. We also show that it supports various types of queries through performance experiments.

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

한국 고문헌 정보시스템의 구축 및 전망 (The Project and Prospects of Old Documents Information Systems in Korea)

  • 강순애
    • 한국문헌정보학회지
    • /
    • 제31권4호
    • /
    • pp.83-112
    • /
    • 1997
  • 본 논문은 고문헌에 적합한 최선의 정보시스템을 구축하기 위해, 고문헌의 개념, 특성과 정리현황, 전산화의 범위와 제도적인 장치, 정보시스템의 구축, 시스템의 사례, 평가와 전망 등을 중심으로 고찰하였다. 고문헌시스템의 구축에 있어서는 국립중앙도서관을 중심으로 하여 정보전산망을 형성하고, 그에 따라 목록정보, 해제, 원은, 검색정보시스템의 통합시스템을 구축하는 방향으로 전개하였다. 사례분석에서는 현재 디지털시스템으로 구축하고 있는 국립중앙도서관고문헌시스템과 자체적으로 DB를 개발하여 공용정보로 활용하고 있는 성균관대학교 고문헌정보시스템을 비교 평가하였으며. 고문헌시스템을 구축하려는 도서관에는 전체적인 지침을 제시하였다.

  • PDF

해양전문정보센터의 멀티미디어 메타데이터베이스 및 디지털도서관 통합정보시스템 구현에 관한 연구 (A Study on Planning & Implementation of the Multimedia Meta Database and Digital Library's Integrated Information System for the Oceanographic Information Center)

  • 한종엽;최영준
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.5-26
    • /
    • 2004
  • 본 연구는 국내 해양전문정보센터에서 효율적인 정보서비스를 위해 필요한 멀티미디어 메타데이터베이스와 디지털도서관 통합정보시스템을 구현할 목적으로 선행연구를 조사하고 분석하였다. 연구대상자원은 해양분야의 인쇄매체, 네트워크자원, 원문화일, 동영상 등을 범위로 하였다. 본 연구에서는 인쇄매체를 포함한 각종 멀티미디어 컨텐츠 자원의 기술과 조직을 위해 LC표준으로 사용하고 있는 MODS를 기반으로 하여 통합정보검색서비스를 제공하고자 하였다. 이를 위해 본 연구에서는 해양분야 각종 정보자원 조사, 멀티미디어 정보처리, MODS 등 메타데이터 기술요소 분석, 메타데이터 분류체계, 시스템 구성 및 검색 구현방안의 연구를 수행하였다.

XSTAR: XML 질의의 SQL 변환 알고리즘 (XSTAR: XQuery to SQL Translation Algorithms on RDBMS)

  • 홍동권;정민경
    • 한국지능시스템학회논문지
    • /
    • 제17권3호
    • /
    • pp.430-433
    • /
    • 2007
  • XML이 다양한 분야에 널지 이용되면서 대용량의 XML을 효과적으로 관리하는 여러 가지 방법들이 연구되고 있다. 특히 지금가지 상업적, 기술적으로 성공적인 데이터 모델인 관계형 데이터베이스를 기반으로 한 여러 가지 방법들이 연구되고 있다. 본 논문은 관계형 DBMS를 사용하여 XML 질의어인 XQuery를 SQL로 변환하는 알고리즘인 XSTAR(XQuery to SQL Translation Algorithms on RDBMS)를 설계 및 구현한다. 본 연구의 XSTAR 알고리즘은 기본적인 XPath 뿐만 아니라 XQuery FLWOR 표현식, XQuery함수, 그리고 전문 검색(Fulltext 검색[8])과 관련된 몇몇 특수한 기능을 효율적으로 지원할 수 있으며, 질의의 결과 값을 XML 형태로 재생성하여 사용자에게 반환한다. 본 논문에서 제안하는 XSTAR 알고리즘은 현재 웹 상에서 공개적으로 시범 운용되고 있는 XML 문서의 관리 및 질의 처리 시스템인 XPERT(XML Query Processing Engine using Relational Technologies, http://dblab.kmu.ac.kr/project.jsp")의 질의 처리 엔진으로 사용되고 있다.

CD-ROM을 활용한 의학정보봉사기능의 제고방안에 관한 연구 (A Study on the Enhancement of Medical Information Service Functions by the Utilization of CD-ROM)

  • 윤희윤
    • 한국문헌정보학회지
    • /
    • 제27권
    • /
    • pp.183-214
    • /
    • 1994
  • The purpose of this study is to suggest the schemes to enhance information service functions by the utilization of CD-ROM in medical school libraries. The results of the study are summarized as follows : 1. The selection and evaluation of CD-ROM database are necessary steps in the planning of a CD-ROM. Before the CD-ROM is selected, therefore, medical libraries must make a practical evaluation criteria in important order of information services environment, characteristics of hardware/software, service requirements, price and cost, etc. 2. If possible, CD-ROM MEDLINE must be suited for the information services environment. 3. In case of the popular core journals, full-text CD-ROM should be gradually purchased. 4. In order to reduce the time required from search of bibliographic informations to receipt of original articles, CD-NET system and library holding administration program must be built up and developed. And channel of information search and order/receipt of original article should be varied. 5. Search education program for medical librarians and users should be enforced, and librarians must play an important role in CD-ROM retrieval consultant and intermediator.

  • PDF

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

CD-ROM 네트워크(LAN)에 관한 소고(小考) (A Study on the CD ROM Network(LAN))

  • 길형도
    • 정보관리연구
    • /
    • 제21권2호
    • /
    • pp.9-23
    • /
    • 1990
  • CD-ROM기술(技術)의 개발(開發)은 불과 10년이 채 안되었지만 그동안 비약적 발전을 거듭하여 여러 응용분야(應用分野)에서 활용되고 있다. 서지데이터는 물론 수치(數値), 음성(音聲), 영(映) 화상(畵像) 데이터를 초록형(抄錄型) 또는 전문형(全文型)으로 수록하여 도서관은 물론 기업체(企業體), 정보기관(情報機關) 등에 제공(提供), 활용(活用)하여 도서관(圖書館) 직원(職員), 정보전문가(情報專門家), 일반이용자(一般利用者)들에게 정보검색(情報檢索) 훈련용(訓練用)으로 쓰일 수 있게 되었다. 한 개 디스크를 액세스하기 위해 한 대의 디스크드라이브와 한 대의 컴퓨터를 필요(必要)로 했던 것에서 탈피하여 현재는 한 대의 드라이브로 여러 장의 CD-ROM을 검색(檢索)할 수 있고, 동시에 여러 명의 이용자가 다양한 정보(情報)를 액세스할 우 있는 이상적인 시스템인 CD-ROM LAN이 가능하게 되었다. 따라서, 본고(本稿)에서는 CO-ROM의 기능(機能)과 종류(種類), 특성(特性), 시스템구성(構成)과 데이터블록, 제작과정(製作過程)과 표준화(標準化) 그리고 CD-ROM LAN에 대해 살펴보았다.

  • PDF

모바일 랜드마크 가이드 : LOD와 문맥적 장치 기반의 실외 증강현실 (A Mobile Landmarks Guide : Outdoor Augmented Reality based on LOD and Contextual Device)

  • 조비성;누르지드;장철희;이기성;조근식
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.1-21
    • /
    • 2012
  • 최근 스마트폰의 등장으로 인해 사용자들은 시간과 공간의 제약 없이 스마트폰을 이용한 새로운 의사소통의 방법을 경험하고 있다. 이러한 스마트폰은 고화질의 컬러화면, 고해상도 카메라, 실시간 3D 가속그래픽과 다양한 센서(GPS와 Digital Compass) 등을 제공하고 있으며, 다양한 센서들은 사용자들(개발자, 일반 사용자)로 하여금 이전에 경험하지 못했던 서비스를 경험할 수 있도록 지원하고 있다. 그 중에서 모바일 증강현실은 스마트폰의 다양한 센서들을 이용하여 개발할 수 있는 대표적인 서비스 중 하나이며, 이러한 센서들을 이용한 다양한 방법의 모바일 증강현실 연구들이 활발하게 진행되고 있다. 모바일 증강현실은 크게 위치 정보 기반의 서비스와 내용 기반 서비스로 구분할 수 있다. 위치 정보 기반의 서비스는 구현이 쉬운 장점이 있으나, 증강되는 정보의 위치가 실제의 객체의 정확한 위치에 증강되는 정보가 제공되지 않는 경우가 발생하는 단점이 존재한다. 이와 반대로, 내용 기반 서비스는 정확한 위치에 증강되는 정보를 제공할 수 있으나, 구현 및 데이터베이스에 존재하는 이미지의 양에 따른 검색 속도가 증가하는 단점이 존재한다. 본 논문에서는 위치 정보 기반의 서비스와 내용기반의 서비스의 장점들을 이용한 방법으로, 스마트폰의 다양한 센서(GPS, Digital Compass)로 부터 수집된 정보를 이용하여 데이터베이스의 탐색 범위를 줄이고, 탐색 범위에 존재하는 이미지들의 특징 정보를 기반으로 실제의 랜드마크를 인식하고, 인식한 랜드마크의 정보를 링크드 오픈 데이터(LOD)에서 검색하여 해당 정보를 제공하는 랜드마크 가이드 시스템을 제안한다. 제안하는 시스템은 크게 2개의 모듈(랜드마크 탐색 모듈과 어노테이션 모듈)로 구성되어있다. 첫 번째로, 랜드마크 탐색 모듈은 스마트폰으로 인식한 랜드마크(건물, 조형물 등)에 해당하는 정보들을 (텍스트, 사진, 비디오 등) 링크드 오픈 데이터에서 검색하여 검색된 결과를 인식한 랜드마크의 정확한 위치에 정보를 제공하는 역할을 한다. 스마트폰으로부터 입력 받은 이미지에서 특징점 추출을 위한 방법으로는 SURF 알고리즘을 사용했다. 또한 실시간성을 보장하고 처리 속도를 향상 시키기 위한 방법으로는 입력 받은 이미지와 데이터베이스에 있는 이미지의 비교 연산을 수행할 때 GPS와 Digital Compass의 정보를 사용하여 그리드 기반의 클러스터링을 생성하여 탐색 범위를 줄임으로써, 이미지 검색 속도를 향상 시킬 수 있는 방법을 제시하였다. 두 번째로 어노테이션 모듈은 사용자들의 참여에 의해서 새로운 랜드마크의 정보를 링크드 오픈 데이터에 추가할 수 있는 기능을 제공한다. 사용자들은 키워드를 이용해서 링크드 오픈 데이터로에서 관련된 주제를 검색할 수 있으며, 검색된 정보를 수정하거나, 사용자가 지정한 랜드마크에 해당 정보를 표시할 수 있도록 지정할 수 있다. 또한, 사용자가 지정하려고 하는 랜드마크에 대한 정보가 존재하지 않는다면, 사용자는 랜드마크의 사진을 업로드하고, 새로운 랜드마크에 대한 정보를 생성하는 기능을 제공한다. 이러한 과정은 시스템이 카메라로부터 입력 받은 대상(랜드마크)에 대한 정확한 증강현실 컨텐츠를 제공하기 위해 필요한 URI를 찾는데 사용되며, 다양한 각도의 랜드마크 사진들을 사용자들에 의해 협업적으로 생성할 수 있는 환경을 제공한다. 본 연구에서 데이터베이스의 탐색 범위를 줄이기 위해서 랜드마크의 GPS 좌표와 Digital Compass의 정보를 이용하여 그리드 기반의 클러스터링 방법을 제안하여, 그 결과 탐색시간이 기존에는 70~80ms 걸리는 반면 제안하는 방법을 통해서는 18~20ms로 약 75% 정도 향상된 것을 확인할 수 있었다. 이러한 탐색시간의 감소는 전체적인 검색시간을 기존의 490~540ms에서 438~480ms로 약 10% 정도 향상된 것을 확인하였다.

라이프로그 관리 시스템에서 블루투스 장치를 이용한 효과적인 사진 검색 방법 (Effective Picture Search in Lifelog Management Systems using Bluetooth Devices)

  • 정은호;이기용;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.383-391
    • /
    • 2010
  • 라이프로그 관리 시스템이란 개인의 일상 생활에 관련된 모든 정보를 저장하고, 이에 대한 관리 및 검색 기능을 제공하는 시스템이다. 본 논문은 라이프로그를 검색하는 방법 중, 현실 세상에서 발생한 사용자와 다른 사람들과의 사회적 접촉에 대한 정보를 키워드로 하여 관련된 라이프로그를 검색할 수 있도록 하는 방법을 제안한다. 이를 위하여 휴대폰의 근거리 무선 통신 장치를 이용하여 현실 세상에서 발생한 사용자의 사회적 접촉 정보를 자동으로 수집하는 방법과, 수집된 사회적 접촉 정보를 이용하여 주어진 인물과 관계된 사진을 검색할 수 있도록 하는 방법을 제안한다. 블루투스 장치와 인물의 관계를 추론하기 위하여 인물 정보가 기록된 기존 라이프로그를 이용, 인물과 블루투스 장치가 동시에 관찰되는 빈도수를 계산하여 사람-블루투스 매트릭스를 만든다. 실험 결과, 실제 사용자의 오프라인 만남 정보 중에서, 빈도수 계산 시각에 발생한 모든 오프라인 만남 정보의 20%의 정보만으로도 블루투스 장치와 그 소유주의 관계를 90% 이상의 정확도로 알아 낼 수 있었다. 또한 매트릭스에서 인물에 해당하는 벡터와 라이프로그가 생성된 시점에 스캔된 블루투스 장치들을 벡터 정보 검색 방법으로 비교하여 주어진 인물과 관련된 라이프로그를 검색함으로써, 제안하는 검색 방법은 기존의 검색 방법에 비하여 더 많은 사진을 반환할 뿐만 아니라 기존에는 불가능했던 검색어와의 유사도에 따른 정렬을 가능하게 한다.