• 제목/요약/키워드: Text Retrieval

검색결과 344건 처리시간 0.027초

한글 유니코드 텍스트의 효율적인 탐색을 위한 컴팩트 바이너리 트라이의 재구성 (Reconstitution of Compact Binary trie for the Efficient Retrieval of Hangul UniCODE Text)

  • 정규철;이종찬;박상준;김병기
    • 디지털산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.21-28
    • /
    • 2009
  • This paper proposes RCBT(Reduced Compact Binary trie) to correct faults of CBT (Compact Binary trie). First, in the case of CBT, a compact structure was tried for the first time, but as the amount of data was increasing, that of inputted data gained and much difficulty was experienced in insertion due to the dummy nodes used in balancing trees. On the other hand, if the HCBT realized hierarchically, given certain depth to prevent the map from increasing onthe right, reached the depth, the method for making new trees and connecting to them was used. Eventually, fast progress could be made in the inputting and searching speed, but this had a disadvantage of the storage space becoming bigger because of the use of dummy nods like CBT and of many tree links. In the case of RCBT in this thesis, a capacity is increased by about 60% by completely cutting down dummy nods.

The Development of Forest Fire Statistical Management System using Web GIS Technology

  • Jo, Myung-Hee;Kim, Joon-Bum;Kim, Hyun-Sik;Jo, Yun-Won
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2002년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.183-190
    • /
    • 2002
  • In this paper forest fire statistical information management system is constructed on web environment using web based GIS(Geographic Information System) technology. Though this system, general users can easily access forest fire statistical information and obtain them in visual method such as maps, graphs, and text if they have web browsers. Moreover, officials related to forest fire can easily control and manage all information in domestic by accessing input interface, retrieval interface, and out interface. In order to implement this system, IIS 5.0 of Microsoft is used as web server and Oracle 8i and ASP(Active Server Page) are used for database construction and dynamic web page operation, respectively. Also, Arc IMS of ESRI is used to serve map data using Java and HTML as system development language. Through this system, general users can obtain the whole information related to forest fire visually in real time also recognize forest fire prevention. In addition, Forest officials can manage the domestic forest resource and control forest fire dangerous area efficiently and scientifically by analyzing and retrieving huge forest data through this system. So, they can save their manpower, time and cost to collect and manage data.

  • PDF

병렬말뭉치를 이용한 대체어 자동 추출 방법 (Automatic Extraction of Alternative Words using Parallel Corpus)

  • 백종범;이수원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권12호
    • /
    • pp.1254-1258
    • /
    • 2010
  • 정보 검색에 있어서 통일 객체를 다양한 표기로 기술하는 문제는 시스템의 성능을 저하시키는 요인이 된다. 본 연구에서는 이러한 문제를 해결하기 위하여 특허 정보의 국/영문 제목을 병렬말뭉치로 이용하여 대역어 뭉치를 추출하고, 이를 각 단어의 특징(Feature)으로 이용하여 대체어 목록을 자동 추출하는 방법을 제안한다. 또한 대체어 목록 내에 대체어가 아닌 다수의 연관단어들이 포함되는 문제점을 해결하기 위하여 국문 제목에서 추출한 연관단어 뭉치를 이용하여 대체어 목록 내 연관단어들을 필터링하는 방법을 제안한다. 평가결과에 따르면 본 연구에서 제안한 방법이 기존의 대체어 추출 방법들보다 더 우수한 것으로 나타났다.

의미적 메타데이터를 이용한 멀티미디어 주석 및 검색 (Multimedia Annotation and Retrieval using Semantic Metadata)

  • 안형근;고재진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.199-204
    • /
    • 2006
  • 최근 멀티미디어의 이용과 멀티미디어 접근을 위한 기술이 많이 증가하고 있다. 그렇지만 멀티미디어 검색엔진과 같은 실용시스템에서 멀티미디어에 대한 유용한 정보 추출과 정보의 응용은 여전히 문제로 있다. 특히, 멀티미디어 이용자는 검색의 효율성을 위하여 저장소를 직관적인 구조로 생성을 하고 있다. 그 예로 "KISS 추계학술 대회 이미지"와 같은 데이터 폴더를 만들거나, 각 멀티미디어 데이터에 Free Text 기반의 주석을 하여 관리를 하였다. 하지만 이러한 검색들에도 한계점을 가지고 있으며 또 다른 지능적인 의미 검색에 있어서도 인간이 바라는 검색의 정확도에 미치지 못하고 있다. 본 논문에서는 이러한 문제점을 해결하기 위한 새로운 접근법을 소개한다. 목적을 위하여 멀티미디어의 의미적인 작업을 위하여 컨텐츠 획득과 분류를 위한 새로운 사용자 도구를 소개하고자 한다. 도구를 이용하는 멀티미디어 사용자는 주어진 컨텐츠를 인간이 생각하고 컨텐츠가 내포하는 의미의 일정한 구조적 단위로 분해하고, 각 단위들에 MPEG-7 표준기반의 추가적인 기술 정보(Description information)를 부여하여 새로운 의미적 메타데이터를 생성할 수 있다. 이러한 의미적 메타데이터는 멀티미디어 검색을 위해 사용자들에게 효율성을 줄 것이라 본다.

  • PDF

동영상에서 모양 시퀀스를 이용한 동작 검색 방법 (Movement Search in Video Stream Using Shape Sequence)

  • 최민석
    • 한국멀티미디어학회논문지
    • /
    • 제12권4호
    • /
    • pp.492-501
    • /
    • 2009
  • 동영상에서 객체의 동작 정보는 장면의 내용을 분류하고 구분하는 중요한 정보로 이용될 수 있다. 본 논문에서는 동영상에서 객체의 동작을 효과적으로 찾기 위한 모양기반 동작 검색 방법을 제안한다. 객체의 동작 정보는 동영상 프레임에서 객체 영역을 추출하여 연속된 2차원 모양 정보로 표현되고, 각각의 2차원 모양 정보는 모양 기술자를 이용하여 1차원 모양 특정값으로 변환된다. 순서에 따라 나열된 모양 기술자 시퀀스를 이용하여 개별 동작의 분할 과정 없이 문서에서 단어를 검색하듯이 동영상에서 객체의 동작을 검색할 수 있다. MPEG-7 모양 변화 기술자와의 성능 비교 실험을 통하여 제안된 방법이 객체의 동작 정보를 보다 효과적으로 표현할 수 있으며, 동작 검색 및 분석 응용에 적용할 수 있음을 보였다.

  • PDF

복합키워드의 고속검색 알고리즘에 관한 연구 (A Study of High Speed Retrieval Algorithm of Long Component Keyword)

  • 이진관;정규철;이태헌;박기홍
    • 한국정보통신학회논문지
    • /
    • 제8권8호
    • /
    • pp.1769-1776
    • /
    • 2004
  • 효율적인 키워드 추출은 정보검색 시스템에서 중요하지만 많은 키워드 중 적당한 키워드를 결정하기 위한 방법들은 여러 가지가 있다. 그중 단일 키워드만을 검색하는 AC알고리즘을 해결하기 위한 DER구조는 복합키워드 검색이 가능하나 많은 검색시간이 걸린다는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 DER구조의 검색방법을 기반으로 한 독립적인 검색테이블을 확장하여 EDER 구조라는 알고리즘을 구축하였다. 500개의 텍스트 파일을 실험한 결과 키워드의 포스팅 결과가 AC의 DER구조보다 EDER구조가 작았으며, 검색시간 또한 K5에서 DER구조가 0.6초, EDER구조가 0.2초로 더 빠른 검색을 보며주고 있어 제안 방법이 효과적임을 알 수 있었다.

StrokeMed: an integrated literature database for stroke and the differentiation of stroke syndrome

  • Kim, Young-Uk;Kim, Jin-Ho;Park, Young-Kyu;Kim, Young-Joo
    • Interdisciplinary Bio Central
    • /
    • 제2권2호
    • /
    • pp.2.1-2.4
    • /
    • 2010
  • Complex diseases, such as stroke and cancer, have two or more genetic influences and are affected by environmental factors, which complicate them. Due to the complex characteristics of these diseases, we must search and study comprehensive literature-based article resources. Some disease-related literature databases have been developed through specialized journal issues or major websites. Most of them, however, are scattered throughout a website, and users encounter difficulties in finding accurate and comprehensive information easily and quickly. We developed StrokeMed, an integrated literature database for stroke and the differentiation of stroke syndrome. The system allows users to explore PubMed search results, categorized by MeSH (Medical Subject Headings), and the differentiation of stroke syndrome in Oriental medicine. StrokeMed collects data from important sites, such as PubMed, Scirus, and Scopus, automatically to maintain higher-quality and updated content. Currently, the system indexes more than 20,000 PubMed abstracts that are related to stroke, stroke etiology, and Oriental medicine. The system provides valuable literature information to the scientific and medical fields in stroke.

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

CD-ROM을 활용한 의학정보봉사기능의 제고방안에 관한 연구 (A Study on the Enhancement of Medical Information Service Functions by the Utilization of CD-ROM)

  • 윤희윤
    • 한국문헌정보학회지
    • /
    • 제27권
    • /
    • pp.183-214
    • /
    • 1994
  • The purpose of this study is to suggest the schemes to enhance information service functions by the utilization of CD-ROM in medical school libraries. The results of the study are summarized as follows : 1. The selection and evaluation of CD-ROM database are necessary steps in the planning of a CD-ROM. Before the CD-ROM is selected, therefore, medical libraries must make a practical evaluation criteria in important order of information services environment, characteristics of hardware/software, service requirements, price and cost, etc. 2. If possible, CD-ROM MEDLINE must be suited for the information services environment. 3. In case of the popular core journals, full-text CD-ROM should be gradually purchased. 4. In order to reduce the time required from search of bibliographic informations to receipt of original articles, CD-NET system and library holding administration program must be built up and developed. And channel of information search and order/receipt of original article should be varied. 5. Search education program for medical librarians and users should be enforced, and librarians must play an important role in CD-ROM retrieval consultant and intermediator.

  • PDF

Deep Image Annotation and Classification by Fusing Multi-Modal Semantic Topics

  • Chen, YongHeng;Zhang, Fuquan;Zuo, WanLi
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권1호
    • /
    • pp.392-412
    • /
    • 2018
  • Due to the semantic gap problem across different modalities, automatically retrieval from multimedia information still faces a main challenge. It is desirable to provide an effective joint model to bridge the gap and organize the relationships between them. In this work, we develop a deep image annotation and classification by fusing multi-modal semantic topics (DAC_mmst) model, which has the capacity for finding visual and non-visual topics by jointly modeling the image and loosely related text for deep image annotation while simultaneously learning and predicting the class label. More specifically, DAC_mmst depends on a non-parametric Bayesian model for estimating the best number of visual topics that can perfectly explain the image. To evaluate the effectiveness of our proposed algorithm, we collect a real-world dataset to conduct various experiments. The experimental results show our proposed DAC_mmst performs favorably in perplexity, image annotation and classification accuracy, comparing to several state-of-the-art methods.