• 제목/요약/키워드: document search

검색결과 382건 처리시간 0.023초

사용자의 이해수준에 따른 효율적인 웹문서 검색 (Efficient Web Document Search based on Users' Understanding Levels)

  • 심상희;이수정
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.38-46
    • /
    • 2009
  • 웹 문서 수가 급격히 증가함에 따라 인터넷을 검색할 때마다 발생하는 정보의 과부하 문제가 심각하게 부각되었다. 이러한 문제를 경감시키기 위해 사용자의 선호도에 부합하는 웹 환경을 조성하여 주는 등의 개인화 작업이 주목을 받고 있으나, 대부분의 검색 엔진은 사용자 질의어에만 초점을 두어 응답결과를 산출하고 있다. 이에 본 논문에서는 사용자의 이해수준에 따른 개인화된 검색 결과를 추출하는 방식에 대해 연구한다. 기존 연구와 차별화된 특징은 사용자 이해 수준을 고려하여 그에 맞는 난이도의 문서들이 우선적으로 검색되게 하는 것이다. 문서에 접근한 사용자들의 이해수준을 바탕으로 문서난이도를 변경시켜 주고, 사용자의 이해수준은 사용자가 접근한 문서 난이도를 바탕으로 주기적으로 변경시켜, 문서 난이도와 사용자 이해수준이 상호 연계되며 변경되도록 하였다. 본 논문의 결과를 적용한 웹 검색 시스템은 다양한 연령충의 웹 사용자들에게 매우 유익한 결과를 가져다 줄 것이다.

사용자 적합성 피드백과 구루 평가 점수를 고려한 블로그 검색 방법 (Blog Search Method using User Relevance Feedback and Guru Estimation)

  • 정경석;박혁로
    • 정보처리학회논문지B
    • /
    • 제15B권5호
    • /
    • pp.487-492
    • /
    • 2008
  • 대부분의 웹 검색엔진은 문서의 적합도와 중요도를 함께 고려하는 순위화 방법을 사용한다. 문서의 적합도는 문서가 사용자의 검색의도를 만족시키는 정도이고, 중요도는 인기 있거나 양질의 내용을 포함하는 등 문서의 품질을 표시하는 정도라고 할 수 있다. 지금까지 웹 문서의 중요도를 평가하는 방법으로 가장 성공적인 것은 하이퍼링크 구조를 사용한 방법이다. 하지만 블로그의 경우, 해당 블로그를 작성한 블로거와 그 블로거가 소유하는 다른 문서들을 알 수 있기 때문에 문서의 중요도를 평가하는 다른 방법을 생각할 수 있다. 본 논문에서 제안하는 방법은 사용자의 북마크와 클릭를 이용하여 문서의 중요도를 계산하고, 그러한 문서 점수를 바탕으로 블로거의 구루점수를 계산한다. 마지막으로 문서를 순위화할 때 해당 문서를 작성한 구루의 구루 점수를 반영한다. 이렇게 되면 구루점수가 높은 구루 블로거의 문서들이 상위에 검색됨에 따라서 전반적으로 검색 품질이 개선될 수 있다. 블로그 문서를 대상으로 한 실험결과 제안하는 방법이 기존의 전통적인 웹 검색 성능과 비교하여 정답집합과의 연관성이 높음을 알 수 있었다.

데이터 결합이 웹 문서 검색성능에 미치는 영향 연구 (A Study on the Effect of Data Fusion on the Retrieval Effectiveness of Web Documents)

  • 박옥화;정영미
    • 정보관리연구
    • /
    • 제38권1호
    • /
    • pp.1-19
    • /
    • 2007
  • 이 연구에서는 최근 검색성능을 향상시키기 위한 전략으로 사용되는 데이터 결합기법을 웹 문서 검색에 적용하고, 실험을 통해 문서표현 방법의 결합이 검색성능에 미치는 영향을 분석하였다. 문서 표현 방법으로는 내용기반 표현, 링크기반 표현,URL 등을 선정하고, 단일 표현 방법에 의한 검색결과와 표현방법의 결합을 통한 검색결과를 비교하였다. 분석결과 다른 문서표현 방법의 결합이 웹 문서의 검색성능을 향상시키지는 못하는 것으로 나타났다.

History Document Image Background Noise and Removal Methods

  • Ganchimeg, Ganbold
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제5권2호
    • /
    • pp.11-24
    • /
    • 2015
  • It is common for archive libraries to provide public access to historical and ancient document image collections. It is common for such document images to require specialized processing in order to remove background noise and become more legible. Document images may be contaminated with noise during transmission, scanning or conversion to digital form. We can categorize noises by identifying their features and can search for similar patterns in a document image to choose appropriate methods for their removal. In this paper, we propose a hybrid binarization approach for improving the quality of old documents using a combination of global and local thresholding. This article also reviews noises that might appear in scanned document images and discusses some noise removal methods.

Keyword Analysis Based Document Compression System

  • Cao, Kerang;Lee, Jongwon;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제16권1호
    • /
    • pp.48-51
    • /
    • 2018
  • The traditional documents analysis was centered on words based system was implemented using a morpheme analyzer. These traditional systems can classify used words in the document but, cannot help to user's document understanding or analysis. In this problem solved, System needs extract for most valuable paragraphs what can help to user understanding documents. In this paper, we propose system extracts paragraphs of normalized XML document. User insert to system what filename when wants for analyze XML document. Then, system is search for keyword of the document. And system shows results searched keyword. When user choice and inserts keyword for user wants then, extracting for paragraph including keyword. After extracting paragraph, system operating maintenance paragraph sequence and check duplication. If exist duplication then, system deletes paragraph of duplication. And system informs result to user what counting each keyword frequency and weight to user, sorted paragraphs.

AN EFFICIENT DENSITY BASED ANT COLONY APPROACH ON WEB DOCUMENT CLUSTERING

  • M. REKA
    • Journal of applied mathematics & informatics
    • /
    • 제41권6호
    • /
    • pp.1327-1339
    • /
    • 2023
  • World Wide Web (WWW) use has been increasing recently due to users needing more information. Lately, there has been a growing trend in the document information available to end users through the internet. The web's document search process is essential to find relevant documents for user queries.As the number of general web pages increases, it becomes increasingly challenging for users to find records that are appropriate to their interests. However, using existing Document Information Retrieval (DIR) approaches is time-consuming for large document collections. To alleviate the problem, this novel presents Spatial Clustering Ranking Pattern (SCRP) based Density Ant Colony Information Retrieval (DACIR) for user queries based DIR. The proposed first stage is the Term Frequency Weight (TFW) technique to identify the query weightage-based frequency. Based on the weight score, they are grouped and ranked using the proposed Spatial Clustering Ranking Pattern (SCRP) technique. Finally, based on ranking, select the most relevant information retrieves the document using DACIR algorithm.The proposed method outperforms traditional information retrieval methods regarding the quality of returned objects while performing significantly better in run time.

XML 컴포넌트 명세서 기반의 컴포넌트 검색 기법 (A Search Method for Components Based-on XML Component Specification)

  • 박서영;신영길;우치수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권2호
    • /
    • pp.180-192
    • /
    • 2000
  • 최근 들어 컴포넌트는 소프트웨어 재사용의 핵심 기술로 인식되고 있다. 컴포넌트는 인터페이스 부분만을 이용하여 개발되는 소프트웨어에 바로 바인딩시켜 재사용될 수 있는 독립적인 바이너리 코드이다. 많은 컴포넌트 사용자들이 인터넷 상에서 적합한 컴포넌트를 검색하고 사용할 수 있도록, 컴포넌트 명세서는 웹 문서 형태를 사용하는 것이 바람직하다. 기존의 HTML 웹 문서 기반의 검색 엔진을 통하여 컴포넌트를 검색할 때 정확한 의미 검색이 불가능하다는 문제점이 있다. 본 논문에서는 정확한 의미 검색을 수행할 수 있도록 컴포넌트 명세서를 HTML 문서 대신 XML 문서로 사용할 것을 제안한다. 또한, XML 컴포넌트 명세서를 통하여 사용자가 원하는 컴포넌트를 정확하게 검색할 수 있는 XML 문맥 기반 검색(context-based search)을 제안한다. 문맥 기반 검색은 컴포넌트의 특성을 나타내는 문맥(context)과 컴포넌트 특성의 실제 값인 용어(term)를 사용하여 사용자가 원하는 컴포넌트의 특성을 정확하게 질의하고 검색할 수 있는 방법이다. 이 검색 방법은 용어-문맥-컴포넌트 명세서 순으로 된 역화일 인덱싱 (Inverted File Indexing) 방법을 사용한다. 이와 함께 사용자의 편의를 위하여, 기존의 소프트웨어 재사용 라이브러리에서 사용되던 검색 방법인 키워드 검색, 퍼싯 검색, 브라우징 검색 방법 등을 지원한다. 이들 다양한 검색 방법들은 인터페이스 레이어, 질의 확장 레이어, XML 검색 엔진 레이어 등 3-레이어 검색엔진 구조를 통한 효율적인 인덱스 스킴에 의해 지원된다. 본 논문에서는 컴포넌트 사용자들이 원하는 컴포넌트를 정확하게 검색할 수 있도록 하기 위하여 컴포넌트 명세서를 대한 XML DTD(Document Type Definition)를 정의하고, HTML 기반 검색 방법과 XML 기반 검색 방법에 대한 컴포넌트 검색 성능을 비교한다.

  • PDF

XML 문서의 효율적인 검색과 재사용성을 지원하는 데이터 모델 (New Data Model for Efficient Search and Reusability of XML Documents)

  • 김은영;천세학
    • 지능정보연구
    • /
    • 제10권3호
    • /
    • pp.27-37
    • /
    • 2004
  • 인터넷상에서 데이터를 표현하고 데이터를 서로 교환하기 위한 문서 표준으로 XML이 제시되고 있다. XML은 또한 웹상에 산재되어 있는 문서에 대한 쉬운 검색 및 재사용을 지원하는 문서 표준으로도 부각되고 있다. XML 콘텐츠 관리 시스템을 구현할 때 Semi-structured 데이터를 얼마나 효율적이고 효과적으로 검색 및 관리할 수 있는 가하는 점과 XML의 특징인 재사용성을 얼마나 지원해 줄 수 있는가를 고려해서 XML 데이터를 모델링 해야한다. 또한 모델링한 데이터를 어떻게 실질적으로 저장해야 할 것인 가도 고려해야 한다. 본 논문에서는 XML 문서의 데이터를 데이터 시스템에 저장하고 검색하기 위한 새로운 데이터 모델을 제안한다. 제안하는 데이터 모델은 XML 문서의 데이터 뷰와 구조 뷰를 모두 표현하며 XML 문서를 위한 새로운 데이터 시스템이나 기존의 관계형 시스템 모두를 고려한다.

  • PDF

구조적 정보 검색을 위한 XQL 질의 처리 시스템 설계 (Design of XQL Query Processing System for Structural information retrieval)

  • 김상영;김철원;김광현;박종훈;정현철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 추계종합학술대회
    • /
    • pp.892-896
    • /
    • 2003
  • XML은 단순히 웹 브라우저에 표시하기 위한 것을 넘어서 여러 다양한 시스템간, 어플리케이션간의 데이터 교환을 위한 인터페이스 포맷 등 다양한 분야에서 활용되고 있다. 이에 따라 정보의 생성, 재사용, 처리 및 지속성, 이식성 등 XML 문서를 효과적으로 관리하고 검색할 수 있는 시스템에 관한 많은 연구들이 진행되어 지고 있다. 본 논문에서는 XQL과 문서 구조 처리기와 질의 언어 처리기에 대해 설명하고 XML 문서의 내용을 트리구조로 만들어 구조정보를 파싱하는 동안 XQL을 이용해 질의에 맞는 XML 문서 트리 구조정보를 찾는 방법을 제시한다. 이를 통해 웹 상에 분산된 XML 문서를 병합하여 파싱한 후 문서의 구조 정보를 트리 구조로 구성하고 질의 언어로 제안되어진 XQL을 이용한 효율적인 XML 문서 검색 시스템의 설계 및 구현에 대하여 기술하였다.

  • PDF

공동 작업을 위한 사용자 인터페이스로서의 멀티미디어 문서 (Multimedia documents for user interfaces of cooperative work)

  • 성미영
    • 대한인간공학회:학술대회논문집
    • /
    • 대한인간공학회 1995년도 추계학술대회논문집
    • /
    • pp.46-55
    • /
    • 1995
  • The multimedia documents becomes the most natural user interface for CSCW(Conputer Supported Cooperative Work) in distributed environment. The objective of this study is to propose a multimedia document architecture and to develop a system that can manage it well. The new architecture is for revisable documents and is the basic layer for hypermedia documents. A good document architecture for CSCW must support pointing, marking, and editing over a part of documents. The user views, version control, and full- content search are also desirable features. In this paper, we discuss the basic concept of a new document architecture for CSCW. We also present the user interfaces for spatio-temporal compositions of multimedia documents.

  • PDF