• 제목/요약/키워드: Document similarity

검색결과 245건 처리시간 0.026초

동적 연결 그래프를 이용한 자동 문서 요약 시스템 (A Document Summarization System Using Dynamic Connection Graph)

  • 송원문;김영진;김은주;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.62-69
    • /
    • 2009
  • 문서 요약은 쉽고 빠르게 문서의 내용을 파악할 수 있도록 방대한 내용을 가지는 다양한 형태의 문서로부터 핵심 내용만을 추출하거나 생성하여 제공하는 것을 목적으로 한다. 본 논문에서는 효율적 문서 요약을 위해 주어진 문서의 평균 문장 길이(핵심어 개수)를 고려하여 문장 간의 핵심어 유사도를 나타내는 연결 그래프를 생성하고 분석하여 요약을 생성하는 기법을 제안한다. 또한 이러한 기법을 이용하여 응용 프로그램 문서로부터 자동으로 요약을 생성하는 자동 문서 요약 시스템을 개발한다. 제안한 방법의 객관적인 요약 성능 측정을 위해 정확한 요약문이 실린 20개의 테스트 문서를 이용하여 생성된 요약에 대해 precision(정확률)과 recall(재현율), F-measure를 측정하였으며, 실험 결과를 통해 기존 기법에 비해 우수한 요약 성능을 보임을 증명하였다.

An Improved K-means Document Clustering using Concept Vectors

  • Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권4호
    • /
    • pp.853-861
    • /
    • 2003
  • An improved K-means document clustering method has been presented, where a concept vector is manipulated for each cluster on the basis of cosine similarity of text documents. The concept vectors are unit vectors that have been normalized on the n-dimensional sphere. Because the standard K-means method is sensitive to initial starting condition, our improvement focused on starting condition for estimating the modes of a distribution. The improved K-means clustering algorithm has been applied to a set of text documents, called Classic3, to test and prove efficiency and correctness of clustering result, and showed 7% improvements in its worst case.

  • PDF

감정대상 프로그램의 마스터 매뉴얼 유사성 비교에 관한 연구 (A Study on the Comparison of Similarity between Master Manuals of Appraisal Program)

  • 전병태;이창훈
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권2호
    • /
    • pp.1-7
    • /
    • 2019
  • 프로그램 유사성 분석은 실질적 유사성과 의거성 분석으로 이루어진다. 실질적 유사성은 프로그램 소스 코드가 정량적으로 어느 정도 유사한가에 대한 판단이다. 의거성은 프로그램내의 주석이나 그 외 여러 가지 정황적 증거를 분석을 통해 유사성 정도를 판단한다. 매뉴얼의 경우, 의거성 분석의 대상이 될 수가 있다. 매뉴얼은 다음과 같이 3종류로 구분될 수 있다. 첫째, 마스터 매뉴얼은 제품의 개발 단계에서 작성하는 문서로서 해당 제품과 해당 제품의 파생 제품에 대한 모든 기능이 포함된 사용 설명서이다. 둘째, 고객 매뉴얼은 1차 고객이자 주문자에게만 공개하는 설명서이다. 셋째, 사용자 매뉴얼은 최종 OEM 생산단계에서 적용되는 문서로써 최종 구매자에게 공개되는 설명서이다. 본 논문에서는 피의자들로부터 압수한 마스터 매뉴얼과 피의자들이 인터넷 상에서 제공하고 있는 마스터 매뉴얼을 비교한다. 그리고 이 마스터 매뉴얼이 얼마나 유사하고 피해 회사만의 독창적이면서 재산적 가치를 포함하는지 여부를 판단한다.

계산속도 및 정확도의 적응적 제어가 가능한 다단계 문서 비교 시스템 (Multi-Level Sequence Alignment : An Adaptive Control Method Between Speed and Accuracy for Document Comparison)

  • 서종규;탁해성;조환규
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.728-743
    • /
    • 2014
  • 유사한 문서를 비교하는 방법으로는 지문법과 서열 정렬법이 널리 알려져 있다. 지문법은 계산속도가 빠른 대신 정확도가 떨어지며, 서열정렬법은 계산속도가 느린 대신 정확도가 높다. 다단계 정렬은 두 방법의 비중을 조절하여 문서 유사도를 비교할 수 있는 새로운 방법의 문서 유사도 측정 방법으로, 각 방법의 장점을 얻으면서 동시에 단점을 보완하도록 고안되었다. 특히 두 비교 방법의 비중을 "블록크기"라는 단일 변수를 이용하여 조절할 수 있도록 한 것이 제안 시스템의 핵심이다. 다단계 정렬은 문서를 일정한 길이의 블록으로 나누어 지문을 추출하고 블록간의 유사도를 계산한 다음 그 결과를 서열정렬법으로 다시 한 번 탐색하는 과정을 거친다. 이때 문서가 분할되는 과정에서 유사구간이 두 개 이상의 블록으로 나누어지는 현상이 발생하기도 한다. 이 논문에서는 다단계 정렬방법에 대해 설명하고, 유사도 비교 성능 개선을 위한 단편화 제거 기법과 휴리스틱 비교법에 대해 설명하고 실험적으로 그 결과를 보인다.

과제 유사도 측정 개선모형에 관한 실증적 연구 (An Empirical Study on Improvement model for Measuring of Project Similarity)

  • 정옥남;류성열;김종배
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.457-465
    • /
    • 2011
  • 지난 5년간 우리나라 R&D투자는 연평균 12.2%씩 증가하고 있다. 연구개발 중복 투자 방지와 독창성 도출을 위해서는 유사 중복과제 수행의 사전방지가 필요하고, 이를 위해 과제 유사도의 정확도를 개선할 필요가 있다. 본 논문에서는 유사 중복과제 수행의 사전방지를 위한 과제 유사도 측정 개선모형을 제안한다. 과제 유사도 측정 개선모형은 크게 두 단계로 정의된다. 먼저 추출단계에서 Document Vector를 기반으로 한 검색엔진에 연구보고서 초록을 추가한다. 다음은 분석단계에서 과제 키워드에서 복합 키워드 중심으로 생성한 과제의 연구주제망과 항목별 가중치를 활용하여 유사도를 측정한다. 실험결과 과제정보만을 활용한 기존방식보다 연구보고서 초록을 활용한 개선모형의 유사도가 평균 0.19이상 개선되었고, 단순키워드를 활용한 기존방식보다 복합 키워드 기반의 연구주제망과 항목별 가중치를 활용한 개선모형의 유사도가 평균 9.25이상 감소되었다. 연구보고서 초록이 유사도에 영향을 미치고 있고, 복합 키워드 기반의 연구주제망을 활용함으로써 유사도에 대한 정확도를 판단할 수 있는 범위가 확대되는 것을 확인하였다. 또한, 추가된 사항의 폭이 넓으면 넓을수록 유사도의 정확도가 높아지는 것과 과제정보 등 검색대상의 모집단이 클수록 과제 유사도의 정확도가 높아지는 것도 실험을 통해 확인하였다.

XML 스키마 매칭 기법의 교량 구조계산서 적용 방안 (An Efficient Application of XML Schema Matching Technique to Structural Calculation Document of Bridge)

  • 박상일;김봉근;이상호
    • 대한토목학회논문집
    • /
    • 제32권1D호
    • /
    • pp.51-59
    • /
    • 2012
  • 본 논문에서는 실무에서 작성된 교량 상부 구조계산서를 대상으로 문서구조를 분석하고 그 차이점을 찾아낼 수 있는 XML 스키마 매칭 기법을 효율적으로 적용하기 위한 방안을 제시한다. 이를 위해 XML 응용 스키마 매칭 기법의 유사성 측정에 사용되는 요소이름, 부모요소, 형제요소 및 자식요소의 가중치에 대한 매개변수 연구를 30개의 서로 다른 학습용 데이터를 대상으로 수행하여 구조계산서 문서구조 비교에 적합한 가중치를 제시하였다. 또한, 대량의 구성요소를 지니는 구조계산서의 문서구조를 비교할 때 많은 계산시간이 소요되는 단점을 극복하고자 유사성 정량화에 사용할 수 있는 간략 식을 제안하였다. 본 연구에서 제시한 간략 식을 이용한 방법은 그렇지 않은 기존의 연구결과와 비교했을 때 계산시간을 획기적으로 단축시킬 수 있으면서도 거의 유사한 정확도를 나타냄을 알 수 있었으며, 매개변수 연구에서 제시된 최적 가중치를 활용하면 기존 연구성과보다 약 10% 이상 정확도를 향상시킬 수 있음을 확인하였다. 실무에서 사용하는 강교량 상부 구조계산서 20개를 대상으로 실시한 수치실험 결과 본 연구에서 제시된 방법을 이용하는 것은 기존 연구에 비해 문서 구조 파악의 우수한 정확도를 유지하면서 계산시간 측면에서는 구성요소의 수에 따라 4배에서 460배까지 줄일 수 있음을 알 수 있었다.

텍스트 문서 분류에서 범주간 유사도와 계층적 분류 방법의 성과 관계 연구 (A Study on the Relationship between Class Similarity and the Performance of Hierarchical Classification Method in a Text Document Classification Problem)

  • 장수정;민대기
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.77-93
    • /
    • 2020
  • 비정형 텍스트 문서를 다중 범주로 분류하는 문제에 있어서, 계층적 분류 방법이 비계층적 분류 방법에 비하여 분류 성능이 우수한 것으로 알려져 있다. 기존 문헌과 다르게 본 연구에서는 사전에 범주들의 계층 구조가 정의된 상황에서 계층적 분류 방법과 비계층적 분류 방법의 성능을 비교하였다. 수자원 분야 기후변화 적응기술과 관련한 논문 분류 데이터와 20NewsGroup 오픈 데이터를 대상으로 계층적/비계층적 분류 방법의 성능을 비교하였다. 본 연구결과 기존 문헌과 다르게 계층적 분류 방법이 비계층적 분류 방법에 비하여 언제나 성능이 우수한 것은 아님을 확인하였다. 계층 구조의 상위/하위 수준에서의 상대적 유사도에 따라서 계층적/비계층적 분류 방법의 성능에 차이가 있음을 확인하였다. 즉, 상위 수준의 유사도가 하위 수준보다 상대적으로 낮은 경우 상위 수준에서의 오분류 감소로 계층적 분류 방법의 성능이 개선됨을 확인하였다.

비음수 행렬 분해와 군집의 응집도를 이용한 문서군집 (Document Clustering Method using Coherence of Cluster and Non-negative Matrix Factorization)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제13권12호
    • /
    • pp.2603-2608
    • /
    • 2009
  • 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해 (NMF, non-negative matrix factorization)를 군집방법과 군집의 응집도(coherence of cluster)를 이용한 군집 내 문서들의 정제를 이용한 새로운 문서군집방법을 제안한다. 제안된 방법은 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있고, 문장들 간의 유사도에 기반 한 군집의 응집도를 이용하여 군집내의 문서들을 정제하여서 재 할당함으로써 군집의 효율을 향상시킬 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

유사성 기반 XML 문서 분석 기법 (XML Document Analysis based on Similarity)

  • 이정원;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.367-376
    • /
    • 2002
  • XML 문서가 가지고 있는 태그의 자유로운 정의와 내포된 구조 정보는 정보 검색 및 문서 관리 분야에 많은 이점을 제공할 수 있다. 본 논문은 XML 요소(element)의 의미와 구조 정보를 반영한 문서간의 유사성을 검사할 수 있는 XML 문서 분석 기법을 제시하고자 한다. 도출된 문서간 유사성은 많은 정보 검색 및 마이닝 등의 기초 자료로 사용될 수 있다. 먼저 XML 요소를 시소러스를 이용하여 유사어와 합성어로 구성된 확장-요소 벡터로 확장하고 유사 행렬을 구축하여 요소간 유사성을 판별한다. 또한 오토마타(NFA(Nondeterministic Finite Automata)와 DFA(Deterministic Finite Automata)(를 이용하여 XML 문서의 내포된 구조를 발견하고 최소화 한다. 요소간의 유사 행렬과 최소화된 XML 구조를 이용하여 구조간의 유사성을 판별한다. 본 논문의 XML의 의미를 반영한 유사성 분석 기법은 온라인 서점의 실제 문서의 카테고리를 인식하는 데 있어 100% 정확도를 보였다.

문헌간 유사도를 이용한 자동분류에서 미분류 문헌의 활용에 관한 연구 (Utilizing Unlabeled Documents in Automatic Classification with Inter-document Similarities)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.251-271
    • /
    • 2007
  • 문헌간 유사도를 자질로 사용하는 분류기에서 미분류 문헌을 학습에 활용하여 분류 성능을 높이는 방안을 모색해 보았다. 자동분류를 위해서 다량의 학습문헌을 수작업으로 확보하는 것은 많은 비기 들기 때문에 미분류 문헌의 활용은 실용적인 면에서 중요하다. 미분류 문헌을 활용하는 준지도학습 알고리즘은 대부분 수작업으로 분류된 문헌을 학습데이터로 삼아서 미분류 문헌을 분류하는 첫 번째 단계와, 수작업으로 분류된 문헌과 자동으로 분류된 문헌을 모두 학습 데이터로 삼아서 분류기를 학습시키는 두 번째 단계로 구성된다. 이 논문에서는 문헌간 유사도 자질을 적용하는 상황을 고려하여 두 가지 준지도학습 알고리즘을 검토하였다. 이중에서 1단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질 생성에만 활용하므로 간단하며, 2단계 준지도학습 방식은 미분류 문헌을 문헌유사도 자질생성과 함께 학습 예제로도 활용하는 알고리즘이다. 지지벡터기계와 나이브베이즈 분류기를 이용한 실험 결과, 두 가지 준지도학습 방식 모두 미분류 문헌을 활용하지 않는 지도학습 방식보다 높은 성능을 보이는 것으로 나타났다. 특히 실행효율을 고려한다면 제안된 1단계 준지도학습 방식이 미분류 문헌을 활용하여 분류 성능을 높일 수 있는 좋은 방안이라는 결론을 얻었다.