• 제목/요약/키워드: Text Retrieval

검색결과 342건 처리시간 0.026초

모바일 환경에서 파일 검색 엔진을 위한 효과적인 방식 (Effective Scheme for File Search Engine in Mobile Environments)

  • 조종근;하상은
    • 한국콘텐츠학회논문지
    • /
    • 제8권11호
    • /
    • pp.41-48
    • /
    • 2008
  • 본 논문에서는 파일 검색 엔진에 대해 모델링하고, 파일 검색의 정확도와 속도 향상을 위해 파일내의 내용들을 이용한 가중치 값 기반의 파일 검색 방식을 제안한다. 대부분의 파일 검색 엔진들은 빠른 검색 속도의 한계로 KMP와 같은 스트링 매칭 알고리즘을 사용해 왔다. 그러나, 이런 종류의 알고리즘들은 사용자가 원하는 파일들을 정확하게 찾아 주지는 못한다. 따라서, 모바일 환경에서 파일내의 내용들을 이용한 가중치 값 기반의 검색 엔진을 제안하고, 기존 방법들과 비교를 통해 제안한 방법의 우수한 성능을 증명한다.

특이점 가중치 기반 PLSA를 이용한 객체 범주화 (Object Categorization Using PLSA Based on Weighting)

  • 송현철;황인택;최광남
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.45-54
    • /
    • 2009
  • 본 논문에서는 영상 내 객체들의 카테고리 분석을 위해 연구된 PLSA를 기반으로 특이점에 가중치를 부여하여 보다 유사한 카테고리 간에 인식 성능을 향상시키는 접근법에 대하여 연구하였다. PLSA는 문서기반의 정보검색 분야로부터 소개된 기법으로, 약한 수준의 비감독 방법임에도 불구하고 인상적인 인식성능을 보여준다. 그러나 비슷한 특징점 분포를 보이는 유사한 카테고리 간의 객체 카테고리 인식에 대해서는 비교적 낮은 성능을 보인다. 본 연구에서는 카테고리간의 비교실험을 통해 각 특징점에 대하여 가중치를 부여한 PLSA를 적용하여 유사한 객체 간의 카테고리 인식 가능성을 살펴보았다. 실험에서는 기존의 PLSA 기법과 제안한 가중치를 부여 PLSA 기법을 각각 적용하여 그 성능을 비교하였다. 본 연구에서는 기존 PLSA 기법에서는 비교적 낮은 인식률을 보인 유사한 카테고리 인식에 대하여 실험 결과를 통해 가중치를 부여한 PLSA 기법이 보다 향상된 성능을 보임을 확인하였다.

  • PDF

웹 문서 정보추출과 자연어처리를 통한 온톨로지 자동구축에 관한 연구 (A Study of Automatic Ontology Building by Web Information Extraction and Natural Language Processing)

  • 김명관;이영우
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.61-67
    • /
    • 2009
  • 인터넷의 발달로 전자문서가 증가함에 따라, 정보검색기술의 중요성도 함께 증가하게 되었다. 본 연구는 비정형 텍스트 웹 문서로부터 사용자가 요구하는 핵심 의미 지식을 추출하기 위하여 LGG(Local Grammar Graph) 구축에 기반 하여 보다 효율적이고 정확한 지식구축을 가능하게 한다. 주가등락이라는 특정 분야의 패턴을 추출하여 만든 패턴 문법을 사용해서 OWL(Web Ontology Language) 기반의 온톨로지를 구축하였다. 특정 분야의 온톨로지를 구축함으로써 기존 검색에서 할 수 없었던 지식의 의미 검색이 가능하며 나아가 사용자가 원하는 질의에 대한 정보의 추론이 가능할 것이다.

  • PDF

웹 뉴스의 기사 추출과 요약 (Text Extraction and Summarization from Web News)

  • 한광록;선복근;유형선
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그의 하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

  • PDF

영상 캡션 정보를 이용한 멀티미디어 데이터 검색 시스템의 설계 및 구현 (Design and Implementation of Multimedia Data Retrieval System using Image Caption Information)

  • 이현창;배상현
    • 한국정보통신학회논문지
    • /
    • 제8권3호
    • /
    • pp.630-636
    • /
    • 2004
  • 오디오 비디오 데이터의 활용이 증가함에 따라 멀티미디어 데이터의 내용에 대해 표현하려는 연구와 함께 멀티미디어 데이터의 내용이나 메타데이터를 저장하고, 검색하고, 조작하는 연구의 필요성이 증가하였다. 멀티미디어 데이터 표현은 사용자가 원하는 내용만을 쉽게 검색하고, 접근할 수 있도록 표현되고 저장되어야 한다. 본 논문은 멀티미디어 데이터가 포함된 문서를 검색하기 위해서 멀티미디어 데이터의 캡션(Caption) 정보를 이용하거나 문서 내용을 기반으로 멀티미디어 데이터를 검색 할 수 있는 시스템을 설계하고 구현하였다. 멀티미디어 데이터의 캡션 정보와 문서의 텍스트는 모두 키워드를 추출하기 위해 필터링(Filtering) 단계를 거치고, B+ 트리를 이용한 역 파일 구조를 사용하여 빠르고 대용량의 문서 검색을 할 수 있도록 하였다.

이미지 브라우징 처리를 위한 전형적인 의미 주석 결합 방법 (Clustering Representative Annotations for Image Browsing)

  • 주철화;왕령;이양구;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.62-65
    • /
    • 2010
  • Image annotations allow users to access a large image database with textual queries. But since the surrounding text of Web images is generally noisy. an efficient image annotation and retrieval system is highly desired. which requires effective image search techniques. Data mining techniques can be adopted to de-noise and figure out salient terms or phrases from the search results. Clustering algorithms make it possible to represent visual features of images with finite symbols. Annotationbased image search engines can obtains thousands of images for a given query; but their results also consist of visually noise. In this paper. we present a new algorithm Double-Circles that allows a user to remove noise results and characterize more precise representative annotations. We demonstrate our approach on images collected from Flickr image search. Experiments conducted on real Web images show the effectiveness and efficiency of the proposed model.

  • PDF

Design and Implementation of Web Crawler utilizing Unstructured data

  • Tanvir, Ahmed Md.;Chung, Mokdong
    • 한국멀티미디어학회논문지
    • /
    • 제22권3호
    • /
    • pp.374-385
    • /
    • 2019
  • A Web Crawler is a program, which is commonly used by search engines to find the new brainchild on the internet. The use of crawlers has made the web easier for users. In this paper, we have used unstructured data by structuralization to collect data from the web pages. Our system is able to choose the word near our keyword in more than one document using unstructured way. Neighbor data were collected on the keyword through word2vec. The system goal is filtered at the data acquisition level and for a large taxonomy. The main problem in text taxonomy is how to improve the classification accuracy. In order to improve the accuracy, we propose a new weighting method of TF-IDF. In this paper, we modified TF-algorithm to calculate the accuracy of unstructured data. Finally, our system proposes a competent web pages search crawling algorithm, which is derived from TF-IDF and RL Web search algorithm to enhance the searching efficiency of the relevant information. In this paper, an attempt has been made to research and examine the work nature of crawlers and crawling algorithms in search engines for efficient information retrieval.

Towards Improving Causality Mining using BERT with Multi-level Feature Networks

  • Ali, Wajid;Zuo, Wanli;Ali, Rahman;Rahman, Gohar;Zuo, Xianglin;Ullah, Inam
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권10호
    • /
    • pp.3230-3255
    • /
    • 2022
  • Causality mining in NLP is a significant area of interest, which benefits in many daily life applications, including decision making, business risk management, question answering, future event prediction, scenario generation, and information retrieval. Mining those causalities was a challenging and open problem for the prior non-statistical and statistical techniques using web sources that required hand-crafted linguistics patterns for feature engineering, which were subject to domain knowledge and required much human effort. Those studies overlooked implicit, ambiguous, and heterogeneous causality and focused on explicit causality mining. In contrast to statistical and non-statistical approaches, we present Bidirectional Encoder Representations from Transformers (BERT) integrated with Multi-level Feature Networks (MFN) for causality recognition, called BERT+MFN for causality recognition in noisy and informal web datasets without human-designed features. In our model, MFN consists of a three-column knowledge-oriented network (TC-KN), bi-LSTM, and Relation Network (RN) that mine causality information at the segment level. BERT captures semantic features at the word level. We perform experiments on Alternative Lexicalization (AltLexes) datasets. The experimental outcomes show that our model outperforms baseline causality and text mining techniques.

AdaBoost를 이용한 윈도우 영상의 하위 영상 검출 (Subimage Detection of Window Image Using AdaBoost)

  • 길종인;김만배
    • 방송공학회논문지
    • /
    • 제19권5호
    • /
    • pp.578-589
    • /
    • 2014
  • 윈도우 영상은 흔히 컴퓨터에서 응용프로그램을 실행하였을 때, 모니터를 통해 출력되는 화면을 의미하여, 웹페이지, 동영상 플레이어 및 여러 가지 응용프로그램을 모두 포함한다. 웹페이지는 다른 어플리케이션에 비해 다양한 종류의 정보를 다양한 형태로 전달한다. 이러한 웹페이지와 같은 윈도우 영상은 카메라로부터 획득할 수 있는 자연영상과 달리 텍스트, 로고, 아이콘 및 하위 영상과 같은 여러 가지 요소들을 포함하고 있고, 각 요소들은 서로 다른 형식의 정보를 사용자에게 전달한다. 그러나 텍스트와 영상은 정보가 다른 형태로 제공되기 때문에, 엄연히 다른 특성을 가지고 있는 요소들을 지역적으로 분리할 필요성이 있다. 본 논문에서는 윈도우 영상을 지역적인 특성에 따라 다수의 블록으로 분할한 후, 분할된 각 영역을 배경, 텍스트, 하위영상으로 분류하였다. 이러한 분류기법을 통해 분류된 하위 영상은 3D입체영상 변환, 영상 검색, 영상 브라우징등과 같은 응용을 가질 수 있다. 영상을 분류하는 방법에는 여러 가지가 존재할 수 있으나, 본 논문에서는 기계학습 기반의 알고리즘이 하위 영상 검출에도 좋은 접근법이 될 수 있음을 증명하기 위해 AdaBoost를 이용하였고, 실험결과로부터 93.4%의 검출률, 13%의 거짓 긍정률을 보임으로서, 이를 입증하였다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.