• 제목/요약/키워드: 문서 검색

검색결과 1,719건 처리시간 0.039초

문서의 의미적 구조정보를 이용한 특허 문서 분류 (Patent Document Categorization based on Semantic Structural Information)

  • 김재호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-34
    • /
    • 2005
  • 특허 검색은 수많은 특허 문서 중에서 특정 해당분야의 문서 집합 내에서 검색을 수행하기 때문에 정확한 특허 분류에 크게 의존하게 된다. 이러한 특허 분류의 중요성에 덧붙여, 특허 문서의 수가 빠르게 증가하게 되면서 특허를 자동으로 분류하려는 요구가 더욱 필요하게 되었다. 특허문서는 일반문서와는 달리 구조화되어 있기 때문에 특허분류를 하기 위해서는 이러한 점이 고려되어야 한다. 본 논문에서는 k-NN 방법을 이용하여 일본어 특허 문서를 자동으로 분류하는 방법을 제안한다. 훈련집합으로부터 유사문서를 검색할 때, 구조화되어 있는 특허 문서의 특징을 이용한다. 문서 전체가 아닌 (기존 기술), (응용 분야), (해결하고자 하는 문제), (문제를 해결하려는 방법) 등의 세분화된 요소끼리 비교하여 유사성을 계산한다. 특허 문서에는 사용자가 정의한 많은 의미 요소가 있기 때문에 먼저 이들을 군집화한 후에 이용한다. 실험 결과 제안한 방법이 특허문서를 그대로 이용하는 것보다는 74%, 특허문서에 나타난 <요약>, <청구항>, <상세한 설명>의 큰 구조 정보를 이용하는 것보다는 4%의 성능 향상을 가져왔다.

  • PDF

Xtree와 문서 유사도에 기반한 XML 문서 검색 (Searching XML Documents based on Xtree and Documents Similarity)

  • 이은정;박우창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.578-580
    • /
    • 2003
  • 인터넷의 성장으로 인해 준구조적인 문서 표준의 하나인 XML 문서의 사용이 증가하고 있다. 본 연구는 인터넷이나 XML 데이터베이스에서 저장된 스키마 정보가 주어지지 않는 많은 양의 XML 문서를 대상으로 주어진 XML 문서에 가장 가까운 문서들을 찾는 방범을 제시한다. 먼저 XML 문서들의 스키마 정보를 얻기위하여 XML 문서에 해당하는 카디널리티 정보를 포함하는 xtree로 변환하고, 변환된 문서들에 대하여 XML 각 요소에 대한 유사도와 문서 구조에 대한 유사도를 계산하여 가장 유사도가 가까운 XML 문서를 결과로 제시한다. 본 논문의 방법은 스키마가 알려지지 않는 XML의 문서들에 대한 검색을 할 수 있고 유사도를 이용하여 문서의 근사 검색을 할 수 있는 장정이 인다.

  • PDF

자동분류를 이용한 정답문서집합 구축 (Construction of Answer Sets using Automatic Categorization)

  • 장문수;오효정;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.494-499
    • /
    • 2001
  • 최근의 인터넷 정보검색은 방대한 정보의 수용과 지능적이고 개인화된 검색 결과 요구라는 사뭇 상반된 요구를 만족시켜야 한다. 기계적으로 키워드를 매칭시켜 나오는 문서를 사용자에게 맡기는 식의 검색은 더 이상 환영을 받지 못한다. 우리는 이러한 추세에 맞추어 의미기반 정보검색에 필요한 개념망과 정답문서집합으로 구성된 지식베이스를 제안한 바 있다. 본 논문에서는 방대한 구조의 개념망과 연결되는 정답문서집합을 유동적인 인터넷 환경에 적용하기 위해 자동으로 구축하는 시스템을 제시한다. 자동구축은 문서분류(document categorization) 기술을 활용하여 개념어에 문서를 할당하는 방법과 속성에 문서를 할당하는 방법으로 나누어 이루어진다. 제시한 방법은 실험을 통하여 기본적인 속성 할당에는 상당한 효과가 있는 것으로 판단되었고, 일부 미할당 문서에 대해서는 클러스터링과 같은 다른 알고리즘이 필요하다.

  • PDF

정보 검색에서 확장 퍼지 개념 네트워크를 이용한 문서 순위 결정 방법 (Document Ranking Method us ing Extended Fuzzy Concept Networks in Information Retrieval)

  • 손현숙;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.77-80
    • /
    • 2000
  • 정보 검색은 사용자가 원하는 요구에 가장 적합한 정보를 검색할 수 있도록 되어야 한다. 질의어가 문서에 대하여 어느 정도의 유사성을 가지고 존재하느냐를 기준으로 문서를 순서화 한다. 실제 순서화된 문서들을 보면 질의어와는 다른 문서들이 순서화 되는 경우를 볼 수 있다 본 논문에서는 순서화 되는 문서들 중에서 그 문서들이 질의어와 어느 정도 가까운지를 확장 퍼지 개념 네트워크에 근거한 문서 검색을 위한 퍼지 순위 처리를 위한 방법을 제시한다 확장 퍼지 개념 네트워크에는 개념들 사이에 4가지의 퍼지 관계를 사용한다. 퍼지 양의 관계, 퍼지 음의 관계, 퍼지 일반화, 및 퍼지 세분화 등이 있다. 확장 퍼지 개념 네트워크는 관계 행렬과 관련 행렬로 모델화 한다.

  • PDF

지식기반 방식을 이용한 웹 뉴스문서 검색 에이전트 시스템 연구 (A Study of Knowledge Based Agent System for Web New-Document Retrieval)

  • 이성열;백혜정;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.102-104
    • /
    • 2000
  • 현재 인터넷상의 정보와 문서의 양은 상상을 초월하는 증가추이를 나타내고 있다. 이와 더불어 표현하려는 목적에 따라 체계적으로 정리되고 정형화된 문서들 또한 증가하고 있다. 이러한 문서들 중에는 각 인터넷 신문사나 웹진과 같은 문서들이 포함되는데, 이러한 문서들은 각각의 내용구성과 표현 형식에 있어서 비슷한 구성을 지니고 있다. 본 논문에서는 이러한 체계적이고 정형화된 웹 뉴스 문서검색을 위하여 '지식기반 방식을 이용한 웹 뉴스문서 검색 에이전트 시스템'을 제안한다. 사용자는 시스템에서 제공하는 지식을 기반으로 검색하고자 하는 대상을 에이전트 시스템에게 요청하게 되고 지식기반을 이용한 에이전트 시스템은 보다 정확한 정보를 사용자에게 제공하게 된다.

  • PDF

Anchor Text 정보와 링크 정보를 이용한 정보 검색 모델 (Information Retrieval Model Using Anchor Text Information and Link Information)

  • 한기덕;정성원;허희근;이교운;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.916-918
    • /
    • 2004
  • 90년대 이전에 정보 검색에 대한 연구는 문서의 내용을 기반으로 한 연구가 주류였으며, 90년대에는 링크를 이용한 연구가 활발하였다. 90년대 말에 Page Rank와 HITS가 링크를 이용한 연구의 대표적 사례이며, 최근에는 문서의 내용과 링크 정보를 같이 이용하는 연구가 많이 발표되고 있다. 본 논문도 문서의 정보와 링크 정보를 이용한 새로운 검색 모델을 제시하고자 한다. 본 논문에서 사용하는 링크 정보는 수집된 문서에서 추출한 Page Rank의 가중치와 한 페이지를 가리키는 링크들의 목록이며, 상용하고자 하는 문서의 정보는 본문 내용과 Anchor Text이다. 링크 정보와 문서 정보를 이용하여 Anchor 벡터와 문서 벡터를 만들고, 각각 질의어 벡터와 Cosine Measure를 하여 값을 구한 후, 더한 값을 해당 문서의 가중치로 하여 검색에 이용한다.

  • PDF

DTD 여과 및 질의 확장에 의한 효율적인 XML 문서의 정보 검색 (Efficient XML Information Search through DTD Filtering and Query Expansion)

  • 김명숙;이경수;공용해
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.499-502
    • /
    • 2004
  • 본 논문은 정보검색의 대상이 되는 XML 문서를 효율적으로 선별하기 위해 온톨로지를 기반으로 XML 문서를 여과하였으며, 여과된 XML 문서를 대상으로 문서에 내재한 정보를 효과적으로 검색하도록 XML 질의를 확장하였다. 이를 위해, 온톨로지로부터 포괄적 DTD를 생성하는 알고리즘을 개발하였고, XML 문서의 효과적인 정보 검색을 위해 온톨로지의 개념 구조와 연관 관계를 분석하여 XML 질의를 확장하는 알고리즘을 개발하였다. 제안한 문서 여과와 질의 확장 알고리즘의 효과를 샘플 XML 문서에 적용하였다.

  • PDF

유전자 탐색에 의한 웹문서 검색 (Web-Document Retrieval Using Genetic Search)

  • 서영우;장영탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.69-71
    • /
    • 1998
  • 본 논문에서는 웹을 기반으로 한 인터넷에서 유전자 알고리즘을 이용한 정보검색 방법을 제시한다. 특정 문제에 대한 가설 공간을 탐색하여 최적의 해를 찾을 때 지역성과 전역성을 함께 고려하는 유전자 알고리즘의 특성을 웹에서의 정보검색에 이용한다. 여기에서 고려할 점은 탐색속도와 탐색방향인데 본 논문에서는 탐색속도를 고려하지 않았다. 탐색방향은 사용자의 정보 요구와 검색된 문서와 유사도 평가함수로 조절하였다. 본 논문에서 제안한 유사도 평가함수로 실험을 한 결과, 사용자의 초기 정보요구에 대한 검색결과의 적합성 여부에 대한 사용자의평가가 기존의 검색엔진을 사용했을 때보다 개선된 결과를 얻을 수 있었다. 그리고 HTML 문서의 특성을 고려해서 검색하는 경우에는 검색어에 대해 보다 특정적인 결과를 제시했으며, 문서 내에서 검색어의 지역 중요도만을 고려하는 경우는 보다 일반적인 결과를 제시하는 것을 확인할 수 있었다.

  • PDF

웹 문서의 토픽 선정 방법에 관한 연구 (Study on the Topic Selection of Web Documents)

  • 공현장;황명권;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.148-151
    • /
    • 2006
  • 웹 문서의 수가 기하급수적으로 늘어나는 현 시점에서 문서의 효율적인 관리을 위한 문서 클러스터링 방법은 현재 가장 요구되는 기술이다. 지금까지 문서 클러스터링의 방법 연구에서는 TF-Idf 측정값을 이용한 문서분류, Title 기반의 문서분류등과 같은 다양한 시도가 있었다. 이러한 문서 클러스터링 방법에서는 문서의 내용에 치중하거나 문서 분류를 위한 정확한 기준이 없어, 효율적인 문서의 클러스터링과 검색을 지원하지 못하였다. 그리하여, 본 연구에서는 새롭게 토픽 선정 알고리즘을 제안하고, 토픽 선정 알고리즘에 의해 결정된 토픽에 기반하여 문서 검색을 수행함으로써, 문서검색의 성능을 높일 수 있었다.

  • PDF

XML 문서의 구조 검색을 위한 저장 시스템 설계 및 구현 (A Design and Implementation of an XML Document Storage System for Structural Query)

  • 정병인;김희준;이재완
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2000년도 춘계종합학술대회
    • /
    • pp.284-287
    • /
    • 2000
  • 정보 통신 기술의 발전에 따라 복잡하고 다양한 정보들을 컴퓨터를 이용한 합리적인 방법을 통해 저장, 관리, 검색하여 활용해야 할 필요성이 높아지고 있다. 이러한 환경에서 많이 이용되고 있는 문서 포맷 중의 하나가 XML 이다. XML은 SGML과 HTML의 단점을 해결 및 보완한 것이기 때문에 인터넷을 기반으로 하여 많은 분야에서 활용이 될 전망이다. 따라서 증가하는 XML 문서들을 저장하고 관리하는 기능은 필연적으로 필요하게 된다 또 한 많은 양의 저장된 문서들에 대해서 원하는 문서를 찾을 수 있는 효율적인 검색 기능이 필요로 하게 된다. 따라서 제안한 XML 저장관리 시스템은 XML이 지닌 다양한 문서 정의들에 대한 손실이 없이 저장할 수 있는 모델과 데이터베이스에 최소한의 부하만을 주어 구조기반 검색을 수행할 수 있는 검색기 등을 설계 및 구현하였다.

  • PDF