• Title/Summary/Keyword: 문서비교

Search Result 1,050, Processing Time 0.03 seconds

Document Clustering with Relational Graph Of Common Phrase and Suffix Tree Document Model (공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법)

  • Cho, Yoon-Ho;Lee, Sang-Keun
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.2
    • /
    • pp.142-151
    • /
    • 2009
  • Previous document clustering method, NSTC measures similarities between two document pairs using TF-IDF during web document clustering. In this paper, we propose new similarity measure using common phrase-based relational graph, not TF-IDF. This method suggests that weighting common phrases by relational graph presenting relationship among common phrases in document collection. And experimental results indicate that proposed method is more effective in clustering document collection than NSTC.

A Web Document Ranking Method Using Knowledge Information (지식 정보를 이용한 웹 문서 순위 결정 방법)

  • 이용현;변영태;구연건
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.135-137
    • /
    • 1998
  • 다양하고 방대한 양의 정보가 산재해 있는 웹의 정보 소스들 중 특정 도메인에 해당하는 문서를 판단하는 방법과 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법을 제안한다. 웹에 산재되어 있는 정보들은 특정 도메인에 적합한 문서들만을 저장하기 위해 특정 지식 베이스를 기반으로 하는 지식 정보를 이용하여 문서의 평가 작업을 한다. 또한 효과적인 검색을 지원하기 위한 웹 문서 순위 결정 방법으로 두 단계의 처리를 거친다. 첫째, 사용자로부터 주어진 질의에 대해 그 질의를 이루고 있는 각 단어들에 대한 상대적인 중요도를 반영한 P-norm 모델을 적용하여 문서의 순위를 결정한다. 두 번째 단계로 관련 문서들간의 유용한 링크 정보를 이용한 재조정 작업에 의해 문서의 순위를 결정하는 방법을 제시한다. 본 논문에서 제시한 방법에 의해 적절한 문서의 판단과 더 나은 정보의 제공을 수행할 수 있는 효과적인 정보 검색 기능을 가진다. 정보 탐색자에게 정확하고 효과적인 정보를 제공할 수 있게 되었고, 일반적인 웹 검색 방법과의 비교에 의해 검색 효율이 향상됨을 보인다.

  • PDF

The Optimization of Near Duplicate Detection Using Representative Unigram Grouping (대표 Unigram 군집화를 통한 유사중복문서 검출 최적화)

  • Kwon, Young-Hyun;Yun, Do-Hyun;Ahn, Young-Min
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.291-293
    • /
    • 2012
  • SNS, 블로그의 이용이 늘어나면서, 문서의 복제와 재생산이 빈번하게 발생함에 따라 대용량 문서에서의 유사중복문서 검출이 큰 이슈로 제기되고 있다. 본 논문에서는 한국어 문서를 대상으로 이러한 문제를 해결하기 위해 품질을 유지하면서 신속하게 문서집합 중 유사중복문서를 검출하는 방법에 대해 제안한다. 제안하는 알고리즘에서는 문서를 대표하는 고빈도 Unigram Token을 활용하여 문서를 군집화함으로써 비교 대상을 최소화 하였다. 실험결과, 76만 문서에서 기존 방법 대비 평균 0.88의 Recall을 유지하면서도 중복을 검출하는데 있어서 십수초내에 처리가 가능함을 보였다. 향후 대용량 검색시스템 및 대용량 이미지, 동영상 유사중복 검출에도 활용할 수 있을 것으로 기대한다.

Paging Mechanism for Efficient XML Document Updates and Retrieval (효율적 XML 문서 변경 및 검색을 위한 페이징 기법)

  • 연제원;이강찬;이규철;나중철;이미영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.99-101
    • /
    • 1999
  • 최근 들어 XML에 대한 연구가 늘어나면서, XML(eXtensible Markup Language)문서에 대한 저장/검색에 대한 다양한 방법들이 제시되고 있다. 특히 XML 문서의 구조적인 특성을 살리면서 문서의 저장 및 변경을 원활하게 지원할 수 있는 방안에 대한 요구가 늘고 있다. 기존의 저장관리 시스템을 위한 저장 모델로는 크게, XML 문서의 빠른 검색을 지원할 수 있는 가상분할모델(Virtual Fragmentation Model)과 문서에 대한 변경을 빠르게 지원해 줄 수 있는 분할모델(Decomposition Model)로 나누어 볼 수 있는데, 본 연구에서는 이 두가지 모델의 장점을 취합하여 문서의 검색 속도는 가상분할모델정도로, 문서의 변경속도는 분할모델정도로 빠르게 지원해 줄 수 있는 페이징(Paging)기법에 대해 설계하였다. 본 페이징 기법은 XML문서뿐만 아니라, HTML(HiperText Markup Language) 문서의 저장관리 시스템에서도 똑같이 적용될 수 있다. 본 연구의 후반부에서는 페이징 기법과 다른 기법에 대한 비교를 통하여 페이징 기법의 성능을 분석하였다.

  • PDF

Logical Structure Analysis of Topic-specific Web Documents (특정 주제 웹문서의 논리적 구조 분석)

  • 이민형;이경호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.157-159
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구라 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML 문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

Multi-Level Sequence Alignment : An Adaptive Control Method Between Speed and Accuracy for Document Comparison (계산속도 및 정확도의 적응적 제어가 가능한 다단계 문서 비교 시스템)

  • Seo, Jong-Kyu;Tak, Haesung;Cho, Hwan-Gue
    • Journal of KIISE
    • /
    • v.41 no.9
    • /
    • pp.728-743
    • /
    • 2014
  • Finger printing and sequence alignment are well-known approaches for document similarity comparison. A fingerprinting method is simple and fast, but it can not find particular similar regions. A string alignment method is used for identifying regions of similarity by arranging the sequences of a string. It has an advantage of finding particular similar regions, but it also has a disadvantage of taking more computing time. The Multi-Level Alignment (MLA) is a new method designed for taking the advantages of both methods. The MLA divides input documents into uniform length blocks, and then extracts fingerprints from each block and calculates similarity of block pairs by comparing the fingerprints. A similarity table is created in this process. Finally, sequence alignment is used for specifying longest similar regions in the similarity table. The MLA allows users to change block's size to control proportion of the fingerprint algorithm and the sequence alignment. As a document is divided into several blocks, similar regions are also fragmented into two or more blocks. To solve this fragmentation problem, we proposed a united block method. Experimentally, we show that computing document's similarity with the united block is more accurate than the original MLA method, with minor time loss.

Relevance Feedback Experiments for Korean Information Retrieval Systems (한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법의 실험)

  • Park, Su-Hyeon;Gwon, Hyeok-Cheol
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.5
    • /
    • pp.682-691
    • /
    • 1999
  • 정보검색 시스템의 검색 효율 향상을 위해서 다양한 적합성 피드백 방법이 개발되었다. 그러나 한국어 정보검색 시스템을 위한 적합성 피드백에 대한 연구는 거의 이루어지지 않은 실정이다. 이 논문에서는 기존에 개발된 적합성 피드백 방법을 한국어 정보 시스템에 적용하여 검색 효율을 비교하고, 새로운 적합성 피드백 방법을 개발 적용하여 기존의 방법들과 검색 효율을 비교분석하였다. 적합성 피드백은 원질의문을 확장할 단어 선택과 선택된 단어 가중치 부여로 이루어진다. 원질의문이 입력되면 검색된 적합문서에서 원질의문을 단어와 밀접한 관계가 있는 단어를 선택하기 위하여 가중치를 부가한후, 원질의문에 추가하여 질의문을 확장한다. 이 논문에서는 원질의문 확장을 위한 단어 선택과 단어 가중치 부여를 위해 3가지 값을 사용한다. 첫째, TF는 적합문서 내의 단어 빈도의 총합이다. 둘째, idf는 해당 문서집단의 역문헌빈도이다. 셋째, r/R은 검색된 적합문서 중에서 해당단어가 있는 적합문서의 비율을 나타낸다. TF와 idf는 정보검색 시스템에서 일반적으로 사용되고있는 값이고 r/R은 이 논문에서 제안한 새로운 값이다.

An Efficient Algorithm for NaiveBayes with Matrix Transposition (행렬 전치를 이용한 효율적인 NaiveBayes 알고리즘)

  • Lee, Jae-Moon
    • The KIPS Transactions:PartB
    • /
    • v.11B no.1
    • /
    • pp.117-124
    • /
    • 2004
  • This paper proposes an efficient algorithm of NaiveBayes without loss of its accuracy. The proposed method uses the transposition of category vectors, and minimizes the computation of the probability of NaiveBayes. The proposed method was implemented on the existing framework of the text categorization, so called, AI::Categorizer and it was compared with the conventional NaiveBayes with the well-known data, Router-21578. The comparisons show that the proposed method outperforms NaiveBayes about two times with respect to the executing time.

Comparison of Feature Selection Methods using the Statistics of Words in Text Categorization (문서 분류에서 단어의 통계 정보를 이용한 특징 선택 기법의 비교)

  • 임윤택;윤충화
    • Proceedings of the Safety Management and Science Conference
    • /
    • 1999.11a
    • /
    • pp.209-216
    • /
    • 1999
  • 정보 검색 분야의 문서 분류에 기계 학습 기법을 적용할 때 발생하는 가장 큰 문제는 문서를 패턴으로 표현할 때, 하나의 패턴이 가지는 특징의 수가 기계 학습 기법에서 처리할 수 있는 범위를 넘어서는 것이다. 이러한 문제를 해결하기 위하여 특징 선택 기법은 패턴을 구성하고 있는 특징 중에서 실제 문서 분류에 많은 영향을 주는 특징만을 선택하여, 기계 학습 기법에서 쉽게 처리할 수 있을 정도의 패턴을 구성하게 한다. 본 논문에서는 이러한 특징 선택 기법 중에서 IG(Information Gain), Gini index, Relief-F, DF(Document Frequency)를 비교하였다. 실험 결과 문서들에 포함된 모든 고유 단어를 특징의 길이로 하여 패턴을 구성했을 때보다 특징 선택 기법을 적용하여 고유 단어 중 일부를 특징으로 패턴을 구성할 때 기계학습에서 더 향상된 분류 성능을 보였다

  • PDF

Automatic Document Classification Based on Word Frequency Weight (단어 빈도 가중치를 이용한 자동 문서 분류)

  • Noh, Hyun-A;Kim, Min-Soo;Kim, Soo-Hyung;Park, Hyuk-Ro
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.581-584
    • /
    • 2002
  • 본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

  • PDF