• 제목/요약/키워드: 문서 검색

검색결과 1,719건 처리시간 0.026초

웹 문서의 구조적 정보 활용 사례에 관한 고찰 (A Survey on Example using Structural Information of Web documents)

  • 김철수;김양범
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (중)
    • /
    • pp.1011-1014
    • /
    • 2003
  • 브라우저를 통해서 보는 웹 문서는 보이는 문서 내용 이외에 많은 풍부한 정보들을 원시 문서에 포함하고 있다. 웹 문서 색인 및 분류 과정에서 이런 관련 정보를 효율적으로 사용한다면 색인어에 가중치를 부여하거나 문헌 분류과정에서 밀접하게 관련된 문헌들끼리 분류가 가능하다. 잘 색인된 색이어 집합 및 잘 분류된 문헌 집합은 검색자의 질의어에 대한 검색 견과의 문헌집합들에 대한 문헌 순위화를 효율적으로 수행하여 사용자로 하여금 검색 시간을 줄여줄 수 있다. 본 논문에서는 웹 문서를 대상으로 한 검색 시스템에서 검색 효율을 향상시키기 위하여 웹 문서의 구조적인 정보들을 이용한 방법들에 대하여 고찰해 본다. 색인 과정, 문헌 분류과정 순위화 과정에서 활용한 방법들에 대하여 중점적으로 살펴본다.

  • PDF

KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템 (Korean Open Domain Question Answering System Using KorQuAD)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-325
    • /
    • 2019
  • 오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

  • PDF

MPEG-7 기반 웹 이미지 색인 및 검색 (MPEG-7 Based Web Image Indexing and Searching)

  • 임재형;김문철;김진웅;현순주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1285-1288
    • /
    • 2000
  • 인터넷의 양적 질적 성장을 통해 인터넷상에 존재하는 웹 문서의 숫자는 엄청난 속도로 증가하여 왔다. 이러한 방대한 웹 문서를 대상으로 한 검색 방법은, 지금까지 일반적으로 텍스트 기반의 방법이 주류를 이루어 왔다. 그러나 웹 문서는 멀티미디어 형태로 존재하며 텍스트, 이미지, 동영상, 컴퓨터 그래픽 둥 다양한 미디어들로 구성되어 있다. 본 논문에서는 인터넷에 존재하는 웹 문서를 대상으로 내용 기반 이미지 검색방법을 제시한다. 내용기반 웹 이미지 검색 시스템은 웹 상의 텍스트 기반의 기존 상용 검색엔진을 이용하여 주요 검색어에 대한 이미지를 수집하는 웹 이미지 수집기와 수집된 이미지에 대해 MPEG-7 비주얼 기술자를 이용하여 데이터베이스에 색인하는 데이터베이스 불리기(population), 그리고 내용 기반 이미지 검색엔진으로 구성된다. 사용자는 장르, 주제 및 주요단어에 의해 분류되어 데이터베이스에 색인된 웹 이미지를 대상으로 검색이 가능하다. 이는 웹 문서를 직접 대상으로 한 특정 단어에 대한 내용 기반 이미지 검색이 가능하며 검색이 데이터베이스를 대상으로 이루어지기 때문에 빠른 검색 속도를 얻을 수 있으며, 또한 기존 웹에서 제공되는 텍스트 기반의 상용 검색엔진을 이용하여 주요단어에 대한 웹 이미지를 수집하여 색인하기 때문에 별도의 텍스트 검색엔진 구현을 필요로 하지 않는다.

  • PDF

동적 색인과 한국어 내용 기반 검색을 이용한 개인용 검색 시스템 (Personal Information Searching System using Dynamic Indexing and Korean Contents Based Search)

  • 김윤태;김지원;손수정;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.639-641
    • /
    • 2018
  • 고전적으로 이용되던 디렉터리 분류로는 원하는 정보를 빠르게 찾기 어려워지면서, 키워드 기반 검색 시스템이 정보 처리의 중심이 되고 있다. 본 논문에서는 개인용 컴퓨터에서의 빠른 자료 검색을 위한 키워드 기반 정보검색 시스템을 제안한다. 시스템에서는 동적 색인을 통하여 기존 시스템들보다 빠른 시간 내에 검색 결과를 제공한다. 내용 기반 검색과 다양한 포맷에 대한 문서 검색 기능을 포함하여 사용자에게 편리한 환경을 제공할 뿐만 아니라, 한글 문장이 포함된 문서에 대해서 원활한 검색을 제공하고자 한다. 성능 비교 검증을 수행한 결과 기존 시스템에 비해 보다 빠른 시간 내에 많은 문서를 탐지할 수 있음을 확인하였다.

  • PDF

XML 문서를 위한 효율적인 색인구조의 설계 (A Design of an Efficient Index Organization for XML Documents)

  • 안선하;박경환
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 춘계학술발표논문집
    • /
    • pp.292-295
    • /
    • 2000
  • XML은 메타언어로써 구조적인 문서를 생성할 수있게 하며 이러한 구조적인 문서는 내용 기반검색,질의등의 처리가 가능하다는 것이다. XML문서의 논리적 구조를 표현하는 방법은 사용자 정의 문서타입(DTD)과 XML Schema 의 두가지 방식이 있으며, XML Schema 는 사용자 정의문서타입(DTD)에 비해 다양한 데이터 타입, namespace, Open-ended 데이터 모델등을 지원하여 문서의 구조 정의를 훨씬 더 유연하고 명시적이게 하게 하는 장점이있다. 본 논문에서는 XML 문서 검색을 위해 XML Schemadp 기반하여 내용 검색과 구조 검색을 효율적으로 지원하는 인덱스 구조를 제안한다. 요소들의 정의에 따르면 계층관계를 표현하기위한 구조정보와 XML 문서 인스턴스에서 나타나는 각 요소들의 순서정보를 요소의 ID로 사용함으로써 임의의 요소를 효율적으로 접근할 수 있게 한다.

  • PDF

SGML 정보검색 인덱스 설계를 위한 K-ary 트리, 문서단위 구문 트리와 에리먼트 단위 구문 트리의 비교 (Comparison of K-ary tree, Document-unit parser tree and Element-unit parser tree for SGML IR index design)

  • 손정한;한성근;장재우;주종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (1)
    • /
    • pp.383-385
    • /
    • 1998
  • ISO에서 문서 교환에 대한 표준으로 제시된 SGML(Standard Generalized Markup Language)은 논문이나 보고서와 같이 내부적으로 복잡한 구조를 가지는 문서를 효과적으로 처리하기 위해 매우 융통성 있는 문법을 제공하고 있다. 이에 각 기업체나 행정기관에서는 기존의 전자 문서들을 SGML 문서로 변환하는 작업이 활발히 진행되고 있다. 따라서 문서의 논리적 구조에 기반한 검색에 대한 요구도 크게 증가하고 있다. 본 연구에서는 SGML 문서의 기본단위인 엘리먼트 단위의 검객과 문서의 논리적인 구조에 기반한 검색을 효율적으로 지원하는 인텍스를 설계하기 위해, K-ary 트리, 문서단위 구문트리와 엘리먼트단위 구문 트리의 3가지 방법에 대해 저장 시간, 삭제 시간, 검색 시간, 부가 저장 공간 측면에서 수학적 모델로서 성능평가를 수행한다.

MIRAGE-III 디지털도서관에서 가상문서 검색 서버의 설계 및 구현 (Design and Implementation of a Retrieval Server for Virtual Documents in the MIRAGE-III Digital Library)

  • 이용배;맹성현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권2호
    • /
    • pp.219-230
    • /
    • 2002
  • 인터넷이용의 급증에 따라 지식정보화사회 전반의 작업들이 분산환경의 디지털도서관에 저장되어 있는 멀티미디어 컨텐츠를 쉽고 신속하게 찾아 새로운 정보를 생성 또는 공유하는 작업을 통해 이루어진다. 이를 위해 핵심적으로 연구해야 할 부분은 원격지에 흩어져 있는 정보를 효과적으로 연결시켜서 의미있고 일관된 형태로 보여지도록 하는 것이다. 이 목적을 달성하기 위해 디지털도서관에서는 물리적으로 홑어져 있는 정보들이 논리적으로 일관되게 표현될 수 있는 가상공간을 제공해야 하며 가상공간에서 정보가 표현되었을 때 사용자가 원하는 정보를 신속하게 수집하여 제시할 수 있어야 한다. 가상문서(Virtual Document)란 특정 저장장소에 저장되어 존재하던 물리적 문서(Physical Document)들을 대상으로 사용자에게 필요한 일부분 또는 전체를 동적으로 연결하여 통합한 문서를 의미한다. MIRAGE-III 디지털도서관에서는 일반 텍스트문서와 XML로 기술된 구조화된 가상문서를 대상으로 내용기반 검색을 수행한다. 이 시스템에서는 XML 문서구조를 기반으로 부분문서의 검색이 가능하며 문서의 속성 및 계층구조에 대한 검색과 문서간의 링크관계를 이용한 검색도 가능하다. 본 논문에서는 MIRAGE-III 디지털도서관에서의 질의어처리기 및 검색기를 설계하고 구현한 방법론에 대하여 기술한다.

Suffix Tree를 이용한 웹 문서 클러스터의 제목 생성 방법 성능 비교 (Performance Comparison of Keyword Extraction Methods for Web Document Cluster using Suffix Tree Clustering)

  • 염기종;권영식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.328-335
    • /
    • 2002
  • 최근 들어 인터넷 기술의 발달로 웹 상에 많은 자료들이 산재해 있습니다. 사용자가 원하는 정보를 검색하기 위해서 키워드 검색을 이용하고 있는데 이러한 키워드 검색은 사용자들이 입력한 단편적인 정보에 바탕하여 검색하고 검색된 결과들을 자체적인 기준으로 순위를 매겨 나열식으로 제시하고 있다. 이러한 경우 사용자들의 생각과는 다르게 결과가 제시될 수 있다. 따라서 사용자들의 검색 시간을 줄이고 편리하게 검색하기 위한 환경의 필요성이 높아지고 있다. 본 논문에서는 Suffix Tree 알고리즘을 사용하여 관련있는 문서들을 분류하고 각각의 분류된 클러스터에 제목을 생성하기 위하여 문서 빈도수, 단어 빈도수와 역문서 빈도수, 카이 검정, 공통 정보, 엔트로피 방법을 비교 평가하여 제목을 생성하는데 어떠한 방법이 가장 효과적인지 알아보기 위해 비교 평가해본 결과 문서빈도수가 TF-IDF보다 약 10%정도 성능이 좋은 결과를 보여주었다.

  • PDF

XML 링크의 메타데이타를 이용한 검색 시스템의 설계 (Design of a Retrieval System using Metadata in XML Links)

  • 김상준;김은정;배종민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.157-159
    • /
    • 2000
  • 인터넷의 보편화로 정보 교환이 활발해지면서 일반 사용자들에게 필요한 정보를 손쉽게 취득하게 해주는 정보 검색 시스템의 역할이 아주 중요하게 되었다. 일반적인 정보 검색은 사용자의 질의에 대해 문서내의 색인어 발생 빈도를 기반으로 관련 문서를 찾 준다. 본 논문에서는 XML 링크 정보를 이용하여 링크를 검색하여 관련 문서를 찾아주는 정보 검색 시스템을 제시한다. 이를 위해 XML 링크에서 ROLE 속성값인 메타 데이터를 색인하여 저장하고 링크에 대한 모든 정보를 저장하고, 이를 기반으로 특정 주제에 대한 검색시, 특정 주제로 가장 많이 링크된 문서를 검색한다. 제시한 방법을 현재 웹상에서 주로 이용되는 HTML 문서를 기반으로 분석해 본 결과 그 필요성을 확인할 수 있었다.

  • PDF

이질적 검색기와 컬렉션으로부터 검색된 복수 문서 리스트의 효율적인 용합 방법 (A Deterministic Fusion Method for Multiple Lists of Documents from Heterogeneous Search Engines)

  • 이민호;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-19
    • /
    • 1999
  • 본 논문은 분산, 독립적인 다수의 문서 컬렉션으로부터의 검색결과를 병합하는 컬렉션 융합(collection fusion)문제에 대한 효과적인 랭킹방법을 제시한다. 일반적인 컬렉션 융합 문제란 분산되어 있는 다수의 문서 컬렉션에서 독립적이고 능동적인 검색기들의 검색결과를 효과적으로 랭킹(ranking) 병합하는 것인데, 각기 다른 특성을 가진 다수의 컬렉션을 동일한 검색기를 통하여 검색된 결과를 병합하는 환경과 서로 다른 알고리즘을 갖는 검색기를 통한 검색 결과 병합 환경으로 나누어 질 수 있다. 본 논문에서는 서로 다른 특성을 갖는 다수의 컬렉션을 서로 다른 알고리즘을 갖는 검색기들을 통하여 검색한 결과를 병합하는 방법을 제시한다. 각 컬렉션에 학습 질를 넣어 얻은 정보를 토대로, 실제 질의를 넣었을 때 각각의 컬렉션에서 나온 결과가 통합 결과 집합에서 차지하는 비율과 각 문서의 순위를 결정한다. 기존 연구에서 사용한 방법들은 랜덤성에 의존한 비결정적인 랭킹 방법을 제시하거나, 단순하게 검색결과 집합의 문서 수를 바탕으로 인터리빙(interleaving)하는 방법을 제시하였다. 본 논문에서는 학습 질의에서 나온 정보를 기반으로 결정적이면서도 보다 효과적인 랭킹 방법을 제시한다.

  • PDF