• 제목/요약/키워드: Web Document Retrieval

검색결과 129건 처리시간 0.026초

혼합 방식에 기반한 의견 문서 검색 시스템 (An Opinionated Document Retrieval System based on Hybrid Method)

  • 이승욱;송영인;임해창
    • 정보관리학회지
    • /
    • 제25권4호
    • /
    • pp.115-129
    • /
    • 2008
  • 최근 웹 환경이 대중화되고 개방됨에 따라 웹은 단순한 정보 획득의 공간이 아닌, 의견 표출과 교환의 장이 되어 가고 있으며, 이에 따라 웹 상에서 표출된 특정 주제에 대한 사람들의 의견을 자동으로 검색하기 위한 기술 개발의 필요성이 점차 증대되고 있다. 이러한 의견 문서 검색 문제는 사용자 질의와 문서간의 적합성만을 고려하는 일반적인 정보검색 방법으로는 해결하기 어려우며, 문서 내 의견 포함 여부 분석을 수행할 수 있는 더욱 진보된 시스템을 필요로 한다. 본 논문에서는 기존 검색 시스템의 구조 하에서, 의견 문서 검색을 효과적으로 수행할 수 있는 시스템을 제안한다. 의견 검색을 수행하기 위해 문서내 의견 분석 방법에 대해 기존의 사전 기반 방식과 기계학습 기반 방식을 결합한 새로운 혼합 방식을 제안하고, 실험을 통하여 검색 성능을 개선하는 효과가 있음을 보였다.

엘리먼트의 중첩 문제를 해결한 Shared Inlining 저장 기법 (A Shared Inlining Method for Resolving the Overlapping Problem of Elements)

  • 홍은지;이영호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권5호
    • /
    • pp.411-420
    • /
    • 2008
  • 웹 환경에서 정보 표현과 교환을 위한 표준 방식으로 널리 사용되고 있는 XML 문서의 양은 급속히 증가하고 있으며, 대용량의 XML 문서도 많이 생산된다. 이러한 XML 문서들을 RDBMS에 효율적으로 저장하고 검색하는 연구가 활발히 진행되어 왔는데 이들 연구들 중에서 Shared Inlining 저장 방법이 높은 검색 효율을 보인다. Shared Inlining 방법은 DTD의 정보를 분석하여 XML 문서를 노드의 성분별로 분할하여 관계형 데이타베이스로 저장하는 기법이다. 본 논문은 기존의 Shared Inlining 방법에서 여러 하위 노드를 가지는 엘리먼트에서 발생되는 중첩 문제를 해결하기 위한 기법을 제안한다. 이 방법에서는 DTD 정의에 맞게 XML 문서를 Shared Inlining 구조로 저장하고 검색의 정확성을 높인다.

분산 정보 검색을 위한 신경망 에이전트의 계층적 구성 (Hierarchical Organization of Neural Agents for Distributed Information Retrieval)

  • 최용석
    • 컴퓨터교육학회논문지
    • /
    • 제8권6호
    • /
    • pp.113-121
    • /
    • 2005
  • 웹과 같은 분산 정보 검색 환경에서 문서들은 많은 문서 데이터베이스들에 자연스럽게 분할되어서 존재한다. 그러므로 이러한 문서들의 효율적인 검색을 위해서는 먼저 질의에 관련되는 문서들을 제공할 것으로 판단되는 문서 데이터베이스를 찾아내고 다음으로 그 문서 데이터베이스에 질의를 줌으로써 분산 정보 검색을 수행해야 한다. 본 논문에서는 이러한 분산 정보 검색을 위한 신경망 에이전트를 소개하고, 확장성을 가지게 하기 위하여 신경망 에이전트들이 계층적으로 구성된 다중신경망 에이전트 시스템을 제안한다. 신경망 에이전트들의 계층적 구성은 정보 검색 성능을 저하시키지 않으면서도 각 신경망 에이전트의 학습을 위한 전체 훈련 비용을 허용할 만한 범위 내에서 유지시켜 주므로 대규모 문서 데이터베이스 환경에서의 분산 정보 검색에도 신경망 에이전트를 적용할 수 있게 해준다. 제안된 신경망 에이전트를 단일 에이전트와 계층적 다중 에이전트 시스템으로 실현 환경에서 구현하여 각각의 정보 검색 성능을 기존의 통계적 분산 정보 검색 기법을 사용했을 때와 비교함으로써 신경망 에이전트의 유용성을 예증한다.

  • PDF

A Study of Main Contents Extraction from Web News Pages based on XPath Analysis

  • Sun, Bok-Keun
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권7호
    • /
    • pp.1-7
    • /
    • 2015
  • Although data on the internet can be used in various fields such as source of data of IR(Information Retrieval), Data mining and knowledge information servece, and contains a lot of unnecessary information. The removal of the unnecessary data is a problem to be solved prior to the study of the knowledge-based information service that is based on the data of the web page, in this paper, we solve the problem through the implementation of XTractor(XPath Extractor). Since XPath is used to navigate the attribute data and the data elements in the XML document, the XPath analysis to be carried out through the XTractor. XTractor Extracts main text by html parsing, XPath grouping and detecting the XPath contains the main data. The result, the recognition and precision rate are showed in 97.9%, 93.9%, except for a few cases in a large amount of experimental data and it was confirmed that it is possible to properly extract the main text of the news.

Survey of Automatic Query Expansion for Arabic Text Retrieval

  • Farhan, Yasir Hadi;Noah, Shahrul Azman Mohd;Mohd, Masnizah
    • Journal of Information Science Theory and Practice
    • /
    • 제8권4호
    • /
    • pp.67-86
    • /
    • 2020
  • Information need has been one of the main motivations for a person using a search engine. Queries can represent very different information needs. Ironically, a query can be a poor representation of the information need because the user can find it difficult to express the information need. Query Expansion (QE) is being popularly used to address this limitation. While QE can be considered as a language-independent technique, recent findings have shown that in certain cases, language plays an important role. Arabic is a language with a particularly large vocabulary rich in words with synonymous shades of meaning and has high morphological complexity. This paper, therefore, provides a review on QE for Arabic information retrieval, the intention being to identify the recent state-of-the-art of this burgeoning area. In this review, we primarily discuss statistical QE approaches that include document analysis, search, browse log analyses, and web knowledge analyses, in addition to the semantic QE approaches, which use semantic knowledge structures to extract meaningful word relationships. Finally, our conclusion is that QE regarding the Arabic language is subjected to additional investigation and research due to the intricate nature of this language.

문서분류를 위한 의미적 주제선정방법 (Semantic Topic Selection Method of Document for Classification)

  • 고광섭;김판구;이창훈;황명권
    • 한국정보통신학회논문지
    • /
    • 제11권1호
    • /
    • pp.163-172
    • /
    • 2007
  • 웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

XML을 위한 효율적인 저장구조 및 인덱싱 기법설계 (Design of Efficient Storage Structure and Indexing Mechanism for XML Documents)

  • 신판섭
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권1호
    • /
    • pp.87-100
    • /
    • 2004
  • 최근에 인터넷의 급속한 발전과 더불어 대량의 정보를 효과적으로 표현 및 교환할 수 있는 새로운 데이터 표준으로 XML (extensible Markup Language)이 제안되었으며, XML 문서에 대한 저장과 인덱싱에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 실시간 XML 문서 처리에 효율적인 주기억장치 기반의 XML 전용 저장 시스템을 설계하고, 사용자 질의에 포함된 엘리먼트 타입 정보를 이용하여 XML 문서트리에 대한 순회를 최소화시킬 수 있는 구조적 검색 기법을 설계한다 또한, 엘리먼트의 삭제 및 삽입 등 동적인 변경에 빠르고 유연하게 대처할 수 있는 인덱스 구조와, 링크 정보를 가지고 있는 XML 문서의 질의 처리를 위해 XLink 표준을 준수하여 테이블 형식의 링크 정보 인덱스 구조를 설계한다.

  • PDF

XML 문서의 구조와 내용을 고려한 유사도 측정 (Similarity Measure based on XML Document's Structure and Contents)

  • 김우생
    • 한국멀티미디어학회논문지
    • /
    • 제11권8호
    • /
    • pp.1043-1050
    • /
    • 2008
  • XML(Extensible Markup Language)은 인터넷 상에서 데이터 표현과 교환을 위한 표준으로 자리 잡고 있다. 웹의 발전과 함께 XML문서들이 정보 검색, 문서 관리, 데이터 마이닝 등의 응용에서 폭 넓게 사용되면서 구조적으로 정보가 풍부한 이러한 문서들을 자동으로 처리하고 검색하는 기술들이 요구되고 있다. 본 연구에서는 XML 문서 의 구조와 내용을 고려하여 유사한 문서들을 검색하는 새로운 방법을 제안한다. XML 문서의 구조적 유사성은 간단한 스트링 매칭 기법으로 찾고, 문서 내용의 유사성은 문서 요소(element)들의 이름과 경로를 고려한 가중치를 통해 찾는 방법으로 전체의 시간 복잡도는 비교되는 두 문서의 크기에 선형적으로 비례한다.

  • PDF

Design and Implementation of Web Crawler utilizing Unstructured data

  • Tanvir, Ahmed Md.;Chung, Mokdong
    • 한국멀티미디어학회논문지
    • /
    • 제22권3호
    • /
    • pp.374-385
    • /
    • 2019
  • A Web Crawler is a program, which is commonly used by search engines to find the new brainchild on the internet. The use of crawlers has made the web easier for users. In this paper, we have used unstructured data by structuralization to collect data from the web pages. Our system is able to choose the word near our keyword in more than one document using unstructured way. Neighbor data were collected on the keyword through word2vec. The system goal is filtered at the data acquisition level and for a large taxonomy. The main problem in text taxonomy is how to improve the classification accuracy. In order to improve the accuracy, we propose a new weighting method of TF-IDF. In this paper, we modified TF-algorithm to calculate the accuracy of unstructured data. Finally, our system proposes a competent web pages search crawling algorithm, which is derived from TF-IDF and RL Web search algorithm to enhance the searching efficiency of the relevant information. In this paper, an attempt has been made to research and examine the work nature of crawlers and crawling algorithms in search engines for efficient information retrieval.

그린 환경을 위한 웹기반 대용량 이미지 콘텐츠 검색 시스템 설계 및 구현 (Design and Implementation of Web-based Retrieval System for Massive Image Contents in Green Computing Environment)

  • 나문성;이재동
    • 한국산업정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.113-123
    • /
    • 2009
  • 환경에 대한 문제가 대두됨에 따라, 에너지와 자원의 소비를 억제하고 탄소 배출을 줄이기 위한 노력들이 진행되고 있다. 그 중 다양한 형태의 문서들을 디지털로 변환하여 컴퓨터상에 파일로 보관하고, 이를 전자 문서 또는 전자 이미지 형태로 제공하여 에너지와 자원을 줄이기 위한 노력들이 진행되고 있다. 하지만, 디지털화 된 이미지 데이터들은 인터넷상에 표준화되지 못한 채 산재해 있어 이를 활용하기 위해서는 많은 시간과 노력이 필요하게 된다. 이에 따라 전력 소비 및 자원의 소비가 다시 증가하게 된다. 본 논문에서는 인터넷 상에 존재하는 디지털화된 이미지 데이터의 효율적인 관리와 제공을 통해 에너지와 자원의 소비를 줄이기 위한 시스템을 설계하고 구현한다. 웹상에 존재하는 대용량의 이미지 콘텐츠들을 보다 정확하게 분류하고 사용자가 원하는 이미지 콘텐츠를 정확하고 빠르게 제공해 줌으로써 이미지 데이터에 대한 에너지와 자원의 소비를 줄일 수 있다.