• Title/Summary/Keyword: 문서비교

Search Result 1,047, Processing Time 0.03 seconds

A Comparative Study on the Type of Electronic Document via Internet (인터넷 전자문서 형식에 관한 비교 연구)

  • 조현양;최성필;고기형;송원택
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.123-128
    • /
    • 1999
  • 최근 급속히 발달한 인터넷을 통해 단순한 전자우편뿐만 아니라 학술 논문, 저작물 및 보고서, 계약서 등 실제 물리적인 문서를 표현하는 전자문서의 교환이 빈번하게 이루어지고 있다. 본 연구에서는 현재 사용되고 있는 전자문서 형식들인 가지고 있는 특성과 장단점을 비교 연구하였다. 우선 문서교환을 목적으로 하는 전자문서 형식이 가져야 할 특성으로 범용성, 신속성, 장치 독립성, 간결성, 확장성 등을 제시하고 이를 기준으로 현재 사용되거나 제안되고 있는 전자문서 형식들을 평가하였다. 특히 DVI, HTML, XML, SGML. PDF, Postscript 등의 문서 형식들을 대상으로 조사하고 평가하였다. 그 결과 연군개발정보센터에서 사용 중인 DVI 문서 형식이 한글 문서를 인터넷 상에 구현하는 가장 효율적인 방법 가운데 하나임이 증명되었다.

  • PDF

A Comparative Study on Category Assignment Methods of a KNN Classifier (KNN 분류기의 범주할당 방법 비교 실험)

  • 이영숙;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2000.08a
    • /
    • pp.37-40
    • /
    • 2000
  • KNN(K-Neatest Neighbors)을 사용한 문서의 자동분류에서는 새로운 입력문서에 범주를 할당하기 위해 K개의 유사문서로부터 범주별 문서의 분류빈도나 유사도를 이용한다. 본 연구에서는 KNN 기법에서 보편적으로 사용되는 범주 할당 방법을 응용하여 K개 유사문서 중 최상위 및 상위 M개 문서에 가중치를 부여하는 방법들을 고안하였고 K값의 변화에 따른 이들의 성능을 비교해 보았다.

  • PDF

Comparative Between Naive Bayes Classifier and Cosine Similarity Coefficient in Dynamic Document Filtering (동적인 문서 여과에서 나이브 베이즈 분류기와 코사인 유사 계수의 성능 비교)

  • Son Ki-Jun;Lim Soo-Yeoun;Park Seong-Bae;Lee Sang-Jo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.214-216
    • /
    • 2006
  • 온라인 정보가 증가함에 따라 많은 양의 정보 중에서 사용자가 원하는 정보를 정확하고 신속하게 찾아 주는 문서 여과의 중요성 또한 증가하고 있는 추세이다. 본 논문은 문서 여과 문제를 이진 문서 분류 문제로 보고, 나이브 베이즈 분류기를 동적인 문서 여과 목적으로 사용하였다. 이때 사용자가 자신의 관심 분야에 해당하는 주제를 제대로 여과 받기 위해서 학습 대상으로 삼아야 할 학습문서의 범위와 관련성 있는 문서를 제대로 여과 받기 위해서 체크해야 하는 관련성 표기 비율에 따른 분류기의 성능에 대하여 실험을 하였다. 코사인 유사계수를 이용한 여과 방법과의 성능도 비교 실험하였다. 실험 결과 나이브 베이즈 이진 분류기는 문서집합의 크기가 일정한 정도일 때 관련성 있는 문서가 모두 표기되지 않더라도 여과에는 큰 영향을 미치지 않음을 볼 수 있었다.

  • PDF

Effectiveness Evaluation of the Metrics Measuring the Change Degree of Web Pages (웹 문서 변경 측정 방법의 효과성 평가)

  • Kwon, Shin-Young;Lee, Sang-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.31-33
    • /
    • 2005
  • 웹의 진화론 연구하기 위해 다수의 문서 비교 방법들이 웹 문서 변경 측정 도구로서 사용되어 왔다. 웹의 진화 연구는 웹 데이터 베이스의 효율적 관리를 위해 필수적이기 때문이다. 그러나 같은 웹 문서의 변경에 대하여 어떠한 방법으로 측정하였는지에 따라 상이한 결과를 보일 수 있음에도 불구하고, 각 측정 방법의 비교 평가는 연구되지 않았다. 본 논문에서는 웹 문서 변경 측정 방법의 효과성 평가 척도를 제안한다. 그리고 수집된 실제 웹 문서를 통해 기존에 사용되어온 다섯 가지 측정 방법들의 결과 차이를 보인다. 아울러 정의한 평가 척도에 따라 각 측정 방법을 비교 평가한다.

  • PDF

Comparative study of legal document summary method based on pre-trained model (사전학습 기반의 법률문서 요약 방법 비교연구)

  • Kim, EuiSoon;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.614-617
    • /
    • 2021
  • 법률 문서는 일반 사용자가 이해하기 어려운 용어로 이루어져 있고 특히 장문의 문서가 많아 법률시스템에 종사하는 종사자들 또한 많은 양의 문서를 읽기가 어려운 현실이다. 이에 문서 요약 방법중 딥러닝 기반의 사전학습 모델을 적용한 추출요약기반, 생성요약 방법론과 딥러닝 이전의 핵심문장 추출 방법론을 비교하여 법률용어의 요약성능에 대한 비교 평가를 수행하고자 하며 추후 연구과제로 법률문서에 특화된 요약 모델을 만들어보고자 한다.

An effective method for comparing similarity of document with Multi-Level alignment (다단계정렬을 활용한 효율적인 문서 유사도 비교법)

  • Seo, Jong-Kyu;Hwang, Hae-Lyen;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.402-405
    • /
    • 2012
  • 문서와 문서간의 유사도들 측정하는 방법 은 크게 지문법 (fingerprint)을 이용한 방법과 서열 정렬(sequence alignment)알고리즘을 이용한 방법이 있다. 두 방법은 각각 속도와 정확도라는 장점을 가지고 있다. 다단계정렬(MLA, Multi-Level alignment))는 이러한 두 방법을 조합하여 탐색 속도와 정확도 사이의 비중을 사용자가 결정할 수 있도록 하기 위한 방법이다.[1] 다단계 정렬은 두 문서를 단위 블록(basis block)로 나누고 블록 간의 벡터를 비교하여 유사도를 측정하게 되는데, 본 연구에서는 초성 추출 및 어간 추출을 통해 단위 블록의 벡터를 빠른 시 간에 생성하고 비교하는 방법과 다단계 탐색을 통해 정확도를 유지하면서 빠르게 유사도를 측정하는 방식에 대해 설명한다. 실험결과 제안 방법을 통해 다단계 정렬 방법을 이용한 대용량 문서 비교의 속도가 2 배 이상 빨라짐을 보인다.

Feature Selection with Non-linear PCA in Text Categorization (대용량 문서분류에서의 비선형 주성분 분석을 이용한 특징 추출)

  • 신형주;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.146-148
    • /
    • 1999
  • 문서분류의 문제점 중의 하나는 사용하는 데이터의 차원이 매우 크다는 것이다. 그러므로 문서에서 필요한 단어만을 자동적으로 추출하여 문서데이터의 차원을 축소하는 작업이 문서분류에서는 필수적이다. DF(Document Frequency)는 문서의 차원축소의 대표적인 통계적 방법 중 하나인데, 본 논문에서는 문서의 차원축소에 DF와 주성분 분석(PCA)을 비교하여 주성분 분석이 문서의 차원축소에 적합함을 실험적으로 보인다. 그리고 비선형 주성분 분석(nonlinear PCA) 방법 중 locally linear PCA와 kenel PCA를 적용하여 비선형 주성분 분석을 이용하여 문서의 차원을 줄이는 것이 선형 주성분 분석을 이용하는 것 보다 문서분류에 더 적합함을 실험적으로 보인다.

  • PDF

문서없는 사무 환경을 위한 문서정보 유통시스팀의 구성 및 활용사례

  • Kim, Yeong-Hui;Jeong, Hyeon-Su;Kim, Yong-Jun
    • Electronics and Telecommunications Trends
    • /
    • v.8 no.1
    • /
    • pp.1-19
    • /
    • 1993
  • 문서량의 폭주는 유통과정에서 문서분실, 보관과정에서 문서분실과 파손, 보관공간의 낭비, 활용방법의 곤란으로 문서의 사장화 등 많은 문제점을 제기한다. 우리는 이러한 문제점 해결을 위하여 문서정보유통시스팀을 구성하여 문서의 전자화를 시도하였다. 이러한 목적을 위하여 본글은 첫째, 문서정보유통시스팀을 소개하고 둘째, 이를 활용한 응용사례를 소개하고 셋째, 일본 NTT에서 개발하고 있는 시스팀과 우리의 문서정보유통시스팀을 비교분석하였다.

A Similarity Evaluation using Structural Information of Documents (문서구조 정보 기반의 유사도 측정)

  • Shin, Mi-Hae;Ko, Bang-Won;Kim, Young-Chul;Jeong, Jin-Yeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2010.07a
    • /
    • pp.499-502
    • /
    • 2010
  • 인터넷의 발달로 인한 수많은 정보의 공유는 지식 정보사회의 발전을 가져왔다. 이러한 정보사회의 발전과 동시에 표절과 같은 새로운 지식 범죄도 급증하고 있다. 표절은 연구의 정직성과 창의성을 떨어뜨리고 학문의 발전을 저해하는 요소이다. 이러한 표절을 근절하기 위해서 그동안 많은 방법들과 시스템들이 제시되었다. 이중 자연어로 구성된 구조가 없는 일반 문서의 표절을 검사하는 방법은 지문법을 이용하였다. 지문법과 같이 통계적인 방법을 이용한 유사도 검사 방법은 문서 대 문서 전체를 비교하기 때문에 부분적 유사성, 즉 문장이나 문단 단위의 비교를 할 수 없는 단점이 있다. 본 논문에서 제시하는 시스템은 자연어로 이루어진 일반문서 중 특별한 문서의 구조 정보를 가질 수 있는 일반 텍스트 문서를 대상으로 유사도를 측정하였다. 즉 텍스트 문서 구조를 AST 형태의 자료구조로 표시하고 이를 이용하여 사용자가 원하는 부분 또는 전체 유사도 측정 방법을 제시한다.

  • PDF

Document Clustering Methods using Hierarchy of Document Contents (문서 내용의 계층화를 이용한 문서 비교 방법)

  • Hwang, Myung-Gwon;Bae, Yong-Geun;Kim, Pan-Koo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.10 no.12
    • /
    • pp.2335-2342
    • /
    • 2006
  • The current web is accumulating abundant information. In particular, text based documents are a type used very easily and frequently by human. So, numerous researches are progressed to retrieve the text documents using many methods, such as probability, statistics, vector similarity, Bayesian, and so on. These researches however, could not consider both subject and semantic of documents. So, to overcome the previous problems, we propose the document similarity method for semantic retrieval of document users want. This is the core method of document clustering. This method firstly, expresses a hierarchy semantically of document content ut gives the important hierarchy domain of document to weight. With this, we could measure the similarity between documents using both the domain weight and concepts coincidence in the domain hierarchies.