• Title/Summary/Keyword: 문서검색

Search Result 1,719, Processing Time 0.031 seconds

A Web Document Ranking Method Using Knowledge Information (지식 정보를 이용한 웹 문서 순위 결정 방법)

  • 이용현;변영태;구연건
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.135-137
    • /
    • 1998
  • 다양하고 방대한 양의 정보가 산재해 있는 웹의 정보 소스들 중 특정 도메인에 해당하는 문서를 판단하는 방법과 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법을 제안한다. 웹에 산재되어 있는 정보들은 특정 도메인에 적합한 문서들만을 저장하기 위해 특정 지식 베이스를 기반으로 하는 지식 정보를 이용하여 문서의 평가 작업을 한다. 또한 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법으로 두 단계의 처리를 거친다. 첫째, 사용자로부터 주어진 질의에 대해 그 질의를 이루고 있는 각 단어들에 대한 상대적인 중요도를 반영한 P-norm 모델을 적용하여 문서의 순위를 결정한다. 두 번째 단계로 관련 문서들간의 유용한 링크 정보를 이용한 재조정 작업에 의해 문서의 순위를 결정하는 방법을 제시한다. 본 논문에서 제시한 방법에 의해 적절한 문서의 판단과 더 나은 정보의 제공을 수행할 수 있는 효과적인 정보 검색 기능을 가진다. 정보 탐색자에게 정확하고 효과적인 정보를 제공할 수 있게 되었고, 일반적인 웹 검색 방법과의 비교에 의해 검색 효율이 향상됨을 보인다.

  • PDF

Effective Cross-Lingual Text Retrieval using a Fuzzy Knowledge Base (퍼지 지식베이스를 이용한 효과적인 다언어 문서 검색)

  • Choi, Myeong-Bok
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.8 no.1
    • /
    • pp.53-62
    • /
    • 2008
  • Cross-lingual text retrieval(CLTR) is the information retrieval in which a user tries to search a set of documents written in one language for a query another language. This thesis proposes a CLTR system based on fuzzy multilingual thesaurus to handle a partial matching between terms of two different languages. The proposed CLTR system uses a fuzzy term matrix defined in our thesis to perform the information retrieval effectively. In the defined fuzzy term matrix, all relation degrees between terms are inferred from using the transitive closure algorithm to reflect all implicit links between terms into processing of the information retrieval. With this framework, the CLTR system proposed in our thesis enhances the retrieval effectiveness because it is able to emulate a human expert's decision making well in CLTR.

  • PDF

Semantic Extention Search for Documents Using the Word2vec (Word2vec을 활용한 문서의 의미 확장 검색방법)

  • Kim, Woo-ju;Kim, Dong-he;Jang, Hee-won
    • The Journal of the Korea Contents Association
    • /
    • v.16 no.10
    • /
    • pp.687-692
    • /
    • 2016
  • Conventional way to search documents is keyword-based queries using vector space model, like tf-idf. Searching process of documents which is based on keywords can make some problems. it cannot recogize the difference of lexically different but semantically same words. This paper studies a scheme of document search based on document queries. In particular, it uses centrality vectors, instead of tf-idf vectors, to represent query documents, combined with the Word2vec method to capture the semantic similarity in contained words. This scheme improves the performance of document search and provides a way to find documents not only lexically, but semantically close to a query document.

A Study on Improving the Effectiveness Using Term Reweighting for Information Retreival (정보 검색에서 용어 가중치 재부여를 이용한 성능 증진에 관한 연구)

  • 김영천;이재훈;문유미;이성주;박병권
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.9
    • /
    • pp.811-816
    • /
    • 2001
  • 정보 검색 시스템의 중요한 목적중의 하나는 단순히 사용자 질의를 만족하는 문서들의 집합을 검색하는 것이 아니라, 질의를 만족하는 정도에 따라 검색된 문서들에 순위를 부여함으로써 사용자들이 필요한 정보를 얻는데 소모되는 시간을 최소화시키는 것이다. 순수한 부울 검색 시스템은 검색 전략이 이진값에 근거하여 순위 구분 없이 연관/비연관 중의 하나로 결정된다. 딸서 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 본 논문에서는 높은 검색 효과를 제공하는 백터모델에서 용어 가중치 재부여를 이용한 정보검색 모델을 제안한다. 벡터모델에서 용어 가중치 재부여를 이용한 질의 확장 모델의 연산 특성이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

  • PDF

Retrieval System Using Term Reweighting (용어 가중치 재 산정을 이용한 검색 시스템)

  • 황선욱;김혜정;손기준;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.160-162
    • /
    • 2003
  • 색인 파일은 정보 검색 시스템에서 중요한 구성 요소 중에 하나이다. 스테밍을 하여 색인 파일을 구성하게 되면 파일의 크기를 줄일 수 있고 재현율을 높이는데 효과적이다. 하지만, 과도한 스테밍으로 구성이론. 색인 파일은 원형에 대한 데이터 손실을 가지고 오기 때문에 너무 많은 문서가 검색되어 사용자가 문서를 찾는데 많은 시간이 소요되고 정확률도 떨어진다. 본 논문에서는 정보 검색 시스템에서 검색의 효율성을 높이기 위해 사용하는 색인 파일을 스테밍 한 것과 스테밍 하지 않은 파일로 구성하였다. 스테밍 한 색인 파일은 질의어와 문서 사이의 유사도를 계산하기 위하여 이용되며, 스테밍 하지 않은 파일은 스테밍 했을 때 검색된 문서들 중에서 데이터 손실로 인한 잘 못된 문서 순서를 재조정해 주기 위하여 이용된다. 본 논문에서는 높은 검색 효과를 제공하는 기존의 벡터 공간 모델을 검색 성능 평가 척도 중의 하나인 R-정확률을 이용하여 비교 평가하였다. 본 논문에서 제안하는 시스템이 문서 상위 100위까지에 대하여 일반 벡터 모델 보다 최고 21%의 좋은 성능을 보였다.

  • PDF

Design and Implementation of a Ditributed Multi-Agent Web Search System (분산 다중 에이전트 웹 검색 시스템 설계 및 구현)

  • 김기용;한현구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.107-109
    • /
    • 1999
  • 본 논문에서는 사용자를 대행할 수 있는 분산 다중 에이전트 기술을 이용한 웹 문서 검색 시스템을 설계 및 구현한다. 분산 환경에서의 에이전트 기술은 문서의 근접도를 평가할 때 기존의 웹 검색 엔진보다 복잡한 알고리즘 적용이 가능하며, 이로써 좀 더 정확한 문서들을 사용자에게 제공할 수 있다. 또한 분산환경으로 네트워크의 부하를 분산시킴으로써, 빠르게 자료검색 결과를 얻을 수 있는 장점이 있다. 분산된 시스템에서 에이전트들의 효율적인 통신을 위하여 프로토콜 레이어를 구현하였으며, 에이전트들의 상호 협동과 의사 소통 및 중재를 위한 하부구조(infrastructure)를 구축하여 웹 문서검색을 효과적으로 하고, 사용자 이동성을 가능하게 하였다.

  • PDF

Information Retrieval System for Very Large Multimedia Docuement (대용량 멀티미디어 문서를 위한 정보검색 시스템)

  • 진두석;최윤수;안성수
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.190-193
    • /
    • 2002
  • 인터넷의 급속한 보급과 함께 멀티미디어 문서의 사용에 대한 사용자의 요구가 증가하고 이에 따라 멀티미디어 문서 정보 검색에 관련된 연구들이 국내외적으로 활발하게 진행되고 있다. 멀티미디어 문서는, 데이터의 양이 방대할 뿐 아니라 데이터가 비정형화되어 있기 때문에 분석이 복잡하며 또한 효율적으로 저장, 검색하기가 매우 어렵다. 그러므로 이를 위해서는 적절한 멀티미디어 자료 저장 구조를 지닌 정보 검색 시스템이 절실히 요구된다. 따라서 본 논문에서는 대용량 멀티미디어 문서에 적합한 저장 구조를 가진 정보검색 시스템을 제안한다.

  • PDF

Evaluation of Mobile Unified Search Contents of Naver and Google Korea (네이버와 구글의 모바일 통합 검색 컨텐츠 평가)

  • Park, So-Yeon
    • Journal of Korean Library and Information Science Society
    • /
    • v.42 no.4
    • /
    • pp.263-280
    • /
    • 2011
  • This study aims to investigate current status of mobile search services of Korean search portals, and analyze mobile unified search contents of Naver and Google Korea. In particular, this study analyzed characteristics of mobile unified search such as number of retrieved documents, collection distribution, and yearly distribution. Also, documents were evaluated in terms of relevance, credibility, and currency. This study compared quality of Naver's unified Web best and unified Web, and Google's best Web documents and Web documents. The correlation between document's ranking and document's relevance was analyzed. The results of this study can be implemented to the portal's effective development of mobile search service.

Structure-based Clustering for XML Document Retrieval (XML 문서 검색을 위한 구조 기반 클러스터링)

  • Hwang Jeong Hee;Ryu Keun Ho
    • The KIPS Transactions:PartD
    • /
    • v.11D no.7 s.96
    • /
    • pp.1357-1366
    • /
    • 2004
  • As the importance or XML is increasing to manage information and exchange data efficiently in the web, there are on going works about structural integration and retrieval. The XML. document with the defined structure can retrieve the structure through the DTD or XML schema, but the existing method can't apply to XML. documents which haven't the structure information. Therefore. in this paper we propose a new clus-tering technique at a basic research which make it possible to retrieve structure fast about the XML documents that haven't the structure information. We first estract the feature of frequent structure from each XML document. And we cluster based on the similar structure by con-sidering the frequent structure as representative structure of the XML document, which makes it possible to retrieve the XML document raster than dealing with the whole documents that have different structure. And also we perform the structure retrieval about XML documents based on the clusters which is the group of similar structure. Moreover, we show efficiency of proposed method to describe how to apply the structure retrieval as well as to display the example of application result.

An Experimental Study on Enhancing the Retrieval Performance for the Web Documents Using Link-Based Clustering Technique (링크기반 클러스터링을 이용한 웹 문서 검색의 성능 향상에 관한 실험적 연구)

  • 김혜진;문성빈
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2002.08a
    • /
    • pp.247-252
    • /
    • 2002
  • 본 연구에서는 하이퍼텍스트나 웹 문서의 검색에서 링크로 연결된 문서들이 주제적으로 서로 관련되어 있다는 것을 기반으로 하여 링크정보를 참조한 웹 문서 클러스터링 기법을 제안하였고 이것을 이용하여 검색된 결과를 질의 근접 순위화함으로써 웹 문서 검색의 성능을 향상시키는 방안을 연구하였다. 본 연구에서 사용된 웹 문서 집단은 웹(WWW)을 통하여 직접 수집하였으며 웹 문서가 다른 웹 문서를 링크하고 있을 때를 OutLink, 다른 웹 문서로부터 링크를 받고 있을 때를 InLink로 구분하였다. 실험결과 OutLink를 참조하여 클러스터링을 수행하는 기법과 InLink를 참조하여 클러스터링을 수행하는 기법 모두 검색 성능을 향상시켰다.

  • PDF