• Title/Summary/Keyword: 문서비교

Search Result 1,053, Processing Time 0.028 seconds

Performance Improvement by a Virtual Documents Technique in Text Categorization (문서분류에서 가상문서기법을 이용한 성능 향상)

  • Lee, Kyung-Soon;An, Dong-Un
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.501-508
    • /
    • 2004
  • This paper proposes a virtual relevant document technique in the teaming phase for text categorization. The method uses a simple transformation of relevant documents, i.e. making virtual documents by combining document pairs in the training set. The virtual document produced by this method has the enriched term vector space, with greater weights for the terms that co-occur in two relevant documents. The experimental results showed a significant improvement over the baseline, which proves the usefulness of the proposed method: 71% improvement on TREC-11 filtering test collection and 11% improvement on Routers-21578 test set for the topics with less than 100 relevant documents in the micro average F1. The result analysis indicates that the addition of virtual relevant documents contributes to the steady improvement of the performance.

Feature Extraction of Web Document using Association Word Mining (연관 단어 마이닝을 사용한 웹문서의 특징 추출)

  • 고수정;최준혁;이정현
    • Journal of KIISE:Databases
    • /
    • v.30 no.4
    • /
    • pp.351-361
    • /
    • 2003
  • The previous studies to extract features for document through word association have the problems of updating profiles periodically, dealing with noun phrases, and calculating the probability for indices. We propose more effective feature extraction method which is using association word mining. The association word mining method, by using Apriori algorithm, represents a feature for document as not single words but association-word-vectors. Association words extracted from document by Apriori algorithm depend on confidence, support, and the number of composed words. This paper proposes an effective method to determine confidence, support, and the number of words composing association words. Since the feature extraction method using association word mining does not use the profile, it need not update the profile, and automatically generates noun phrase by using confidence and support at Apriori algorithm without calculating the probability for index. We apply the proposed method to document classification using Naive Bayes classifier, and compare it with methods of information gain and TFㆍIDF. Besides, we compare the method proposed in this paper with document classification methods using index association and word association based on the model of probability, respectively.

A Study on Heuristic Methods for Clustered Document Allocation (클러스터 문서할당을 위한 휴리스틱 기법에 관한 연구)

  • 박경모
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.54-56
    • /
    • 1998
  • 본 논문에서는 병렬 정보검색 시스템에 있어 클러스터 문서할당을 위한 두 가지 휴리스틱 기법을 제시한다. 효율적 문서할당에 관한 매핑 문제를 정의하고 유전알고리즘과 모의냉각기법에 기반을 두는 휴리스틱 매핑 알고리즘을 기술한다. 알고리즘 성능실험과 관련하여 시뮬레이션을 통한 다른 할당 알고리즘과 비교평가한 결과 개선된 성능을 얻을 수 있었다.

  • PDF

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

A Design and Implementation of WYSIWYG XML Editor Based on CSS 1 (CSS 1 기반 WYSIWYG XML 편집기의 설계 및 구현)

  • 김정훈;전상수;채진석;최한석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.293-295
    • /
    • 2000
  • XML은 HTML의 단순성과 SGML의 복잡성을 동시에 극복하기 위한 노력으로 시작되어 HTML이나 SGML과는 다른 새로운 세계를 만들어 내고 있으며, 인터넷 문서 표현과 관련된 여러 분야에서 활발하게 연구되고 있다. XML의 특징 중 하나는 문서의 내용과 표현이 분리되어 있어 하나의 문서를 여러 방법으로 표현할 수 있다는 점이다. 그러나 이러한 점은 문서의 외형을 정의하기 위해 스타일시트를 따라 만들어야 하며, 같은 결과물을 얻기 위해 HTML보다 많은 작업량이 필요하게 되는 등의 문제를 야기하게 되었다. 이 논문에서는 이러한 문제를 해결하기 위해 비교적 간단한 스타일시트 언어인 CSS 1을 기반으로 나모 웹 편집기와 같은 WYSIWYG 인터페이스를 제공하여 XML 문서를 편집할 수 있는 XML 문서편집기를 제안한다. 이 논문에서 제안하는 XML 문서편집기를 사용하면 스타일시트에 대해 잘 모르는 초보자라도 쉽게 XML 문서를 편집할 수 있을 것으로 기대된다.

  • PDF

Nested Interval Encoding with Continued Fractions for XML Storage & Retrieval (Nested Interval 을 이용한 XML 문서의 저장 및 질의 기법)

  • Song, Yong-Ho;Na, Gap-Joo;Lee, Sang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.27-30
    • /
    • 2005
  • XML(Extensible Markup Language)이 데이터 표현(data representation)과 문서 교환(data exchange)의 표준으로 지정됨에 따라 데이터베이스(database, DB)에 XML 문서를 저장하고 질의하기 위한 연구가 활발히 진행되고 있다. 특히, 현재 주류를 이루고 있는 관계형 DB 에 저장하기 위한 XML 인덱싱(indexing) 기법에 대한 연구도 다양하게 진행되고 있다. 본 논문에서는 XML 문서를 관계형 DB 에 효율적으로 저장하고 질의하기 위한 방법으로서 기존의 트리(tree) 구조의 데이터를 관계형 DB 에 Nested Interval 인덱싱 기법을 적용하여 XML 문서를 저장하는 방법에 대해 연구한다. 기존의 저장 기법들의 경우 XML 문서를 효율적으로 질의하기 위한 인덱싱을 수행하기 때문에 입력 후 추가되는 노드(node), 혹은 노드 집합의 입력 시에는 전체 혹은 일부분의 XML 문서를 재-인덱싱 해야 하는 비효율이 있다. 그러나, Nested Interval 의 경우에는 재-인덱싱이 불필요하다. 본 논문에서는 기존의 트리 구조 데이터의 인덱싱 기법들에 대한 비교와 함께 Nested Interval 을 이용한 XML 문서의 인덱싱 기법에 대해 기술한다.

  • PDF

A Study on the Effect of Data Fusion on the Retrieval Effectiveness of Web Documents (데이터 결합이 웹 문서 검색성능에 미치는 영향 연구)

  • Park, Ok-Hwa;Chung, Young-Mee
    • Journal of Information Management
    • /
    • v.38 no.1
    • /
    • pp.1-19
    • /
    • 2007
  • This study investigates the effect of data fusion on the retrieval effectiveness by performing an experiment combining multiple representations of Web documents. The types of document representation combined in the study include content terms, links, anchor text, and URL. The experimental results showed that the data fusion technique combining document representation methods in Web environment did not bring any significant improvement in retrieval effectiveness.

Learning Web-Document Characteristics Using Evolutionary Computation (진화연산을 이용한 웹 문서의 특성 학습)

  • Kim, Sun;Jang, Byung-Tak
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.05a
    • /
    • pp.43-46
    • /
    • 2000
  • 대용량의 문서를 대상으로 한 정보 검색은 인터넷과 WWW이 대중화되면서 웹 분서로 확장되었다. 기존의 문서는 주로 텍스트만으로 구성되는데 반해 웹 문서는 HTML을 기반으로 문서가 작성된다. HTML은 문서의 형태를 이루게 하는 여러 종류의 태그들로 구성되어 있고 문서 작성자는 이를 이용, 자기 의도를 홈페이지에 반영한다. 따라서 태그 정보의 학습은 검색 효율을 향상시키는데 도움을 줄 수 있다. 본 논문에서는 이러한 HTML의 태그 특성을 이용해 검색 효율을 향상하는 방법을 제시한다. 제시된 방법은 진화 알고리즘을 사용하여 질의와 검색결과를 담고 있는 데이터를 학습한다. 학습을 통해 얻어지는 결고는 각 태그에 대한 가중치 정보들이며, 이는 검색엔진의 문서 가중치 정보로 사용된다. TREC 데이터를 사용하여 실험 하였으며 태그 정보를 이용함에 따른 검색 성능 변화를 비교 분석하였다.

  • PDF

A comparison of RDB & ORDB about the XML Documents (XML 문서에 대한 RDB와 ORDB의 비교)

  • Yon, Chai-Hun;Park, Hyun-Ju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11c
    • /
    • pp.1485-1488
    • /
    • 2003
  • XML이 인터넷상에서 데이터의 교환 수단으로 널리 사용됨에 따라, 데이터를 처리하고 관리하는 다양한 데이터 모델의 DBMS에서 이를 수용하고 관리하는 도구를 제공하고 있다. XML이 데이터의 교환 수단으로 사용되는 가장 큰 이유는 자기 기술 문서화의 기능과 동적인 확장성을 가지고 있기 때문인데, 이를 통해 서로 다른 언어나 플랫폼에서 다른 형식의 데이터를 자신의 시스템의 맞게 변환할 수 있다. 문제는 XML 문서의 데이터를, 문서의 구조와 상관없이 자신이 사용하고 있는 데이터 모델로 저장하고 관리하려고 한다는 점이다. 이로 인해 데이터 관리상의 비용은 증가하고, DBMS의 성능은 저하된다. 본 논문에서는 XML 문서를 관리할 데이터 모델을 RDB와 ORDB로 한정하고, XML 문서가 지니는 구조적 특성에 따라 그에 맞는 데이터 모델을 제시한다. 고려되는 XML 문서의 구조적 특성은 평면 구조의 XML 문서와 계층 구조의 XML 문서이다.

  • PDF

Korean-English Sentence Alignment using Length and Similarity Information (길이 정보와 유사도 정보를 이용한 한영 문장 정렬)

  • Hong, Jeen-Pyo;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.130-135
    • /
    • 2010
  • 문장 정렬은 두 개의 문서 간의 대응이 되는 문장을 찾는 작업이다. 이 방법은 통계적 기계 번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적인 방법이다. 본 연구에서는 길이 정보에 추가적으로 유사도 정보를 반영하는 한영 문장 정렬 방법을 제안한다. 먼저 한국어로 된 문서를 기계번역 시스템에 적용하여 영어 문서로 변환한다. 그리고 번역된 영어로 된 문서 결과와 영어로 된 대상 문서 간의 정렬 작업을 수행한다. 정렬 완료된 결과와 원시 문서, 대상 문서로부터 최종적인 결과를 생성해낸다. 본 논문에서는 기계 번역을 이용하는 방법과 더불어 기존의 길이 기반 문장 정렬 프로그램에 문장 유사도 정보를 추가하여 단어 정렬의 성능 향상을 꾀하였다. 그 결과 "21세기 세종기획"의 최종 배포본 내에 포함된 한영 병렬 말뭉치에 대해 한영 문장 정렬 F-1 자질의 결과가 89.39%를 보였다. 이 수치는 기존의 길이 기반의 단어 정렬의 성능 평가 결과와 비교했을 때 약 8.5% 가량 성능이 향상되었다.

  • PDF