• Title/Summary/Keyword: 문서

Search Result 7,070, Processing Time 0.03 seconds

Data Model for Document-Centric XML Document (문서중심 XML 문서를 위한 데이터 모델)

  • 김연희;김성완;신판섭;이재호;임해철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.25-27
    • /
    • 2001
  • 웹 상의 데이터 표현 및 교환의 새로운 표준으로 인식되어 점차 그 교류의 앙이 중가하고 있는 XML 문서를 효과적으로 저장, 접근 및 검색하기 위한 기법에 대한 연구가 많았으나, 기존의 연구들은 데이터중심 문서의 특성이 두드러지는 XML 문서룬 대상으로 하는 것이 대두분이였다. 그러나 효과적인 XML 문서의 저장 및 검색을 위해서는 XML 문서의 실제 사용 목적이나 그 특성에 따라 XML 문서를 분류하여 각 특성에 맞는 저장, 접근 및 검색 기법을 개발하고 이를 통합한 XML 문서 저장 시스템의 개발이 요구된다. 따라서 본 논문에서는 통합 시스템 개발에서, 인간 이해 중심의 문서적 특성을 가지는 문서중심 문서를 위한 데이더 모델을 제안한다. 제안된 데이터 모델은 루트 노드가 존재하는 방향성과 순서가 있는 그래프 형태를 지원하며, XML 문서의 주요 구성 요소를 지원하는 여러 타입의 노드와 다양한 노드 사이의 관계를 표현하는 링크로 구성되어 XML 문서가 가지는 의미와 구조적 특징이 잗 표현되도록 하였다. 또한 모델링 후 손실되는 정보가 거의 없기 때문에, 다시 XML 문서로 변환하면 원래 XML 문서 그대로 복원되는 장점이 있어 문서중심 문서의 저장 및 검색을 위한 전용XML 저장 시스템에 적합한 데이터 모델이다.

  • PDF

Automatic Text Categorization Using Text Summarization Techniques (문서 요약 기법을 이용한 자동 문서 범주화)

  • Park, Jin-Woo;Ko, Young-Joong;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.138-145
    • /
    • 2001
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이터를 구축하고 실험하였으며 좋은 성능을 얻을 수 있었다.

  • PDF

Design and Implementation of XML Document Editor for the Document Merging (문서병합 기능을 갖는 XML 문서 편집기의 설계 및 구현)

  • 김규평;이종학
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.72-74
    • /
    • 2000
  • 최근 XML(eXtensible Markup Language)문서의 효율적인 작성과 유지관리를 위해 다양한 XML 문서 편집기들이 개발되고 있다. 하지만, 기존의 편집기들의 경우 하나의 XML 문서에 대한 편집기능은 제공하고 있으나 다수의 XML 문서들에 대한 병합(merge)기능은 제공하지 못하고 있다. 본 논문에서는 다수의 XML 문서를 병합할 경우 발생할 수 있는 이름중복과, 이름충돌의 해결 방법을 제안하고, 문서병합 기능을 갖는 XML 문서 편집기를 설계하고 구현하였다. 문서병합 기능을 갖는 XML 문서 편집기는 여러 곳에 산재하고 있는 동일한 부류의 여러 XML 문서들을 병합해야 할 경우에 용이하게 사용될 수 있다.

  • PDF

Converting HTML Documents to XML Documents through Interactions with Users (사용자와의 상호작용을 통한 HTML문서의 XML 문서로의 변환)

  • 김승원;민준기;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.103-105
    • /
    • 2002
  • 웹에 데이터를 나타내기 위해서 사용하는 HTML은 데이터를 표시(presentation)하기 위한 언어일 뿐 데이터의 의미를 나타내지는 못한다. 이러한 HTML의 단점을 극복하고 데이터의 표시(presentation)와 의미(semantic)를 나타낼 수 있도록 한 마크업 언어가 XML이다. HTML로 나타난 정보를 제대로 이용하기 위해서는 HTML 문서의 의미(semantic)정보를 알아내야만 한다. HTML 문서를 XML 문서로 변경할 수 있다면, 변경된 문서의 의미 정보를 이용할 수 있을 것이다. HTML 문서 포멧(format)을 XML 문서 포멧(format)으로 변경하기 위한 작업으로 [1]이 있다. [1]에서는 자동으로(automatic) 변환하는 방법을 사용했다. 이러한 방법은 프로그램이 HTML 문서의 의미를 파악하는데 한계가 있기 때문에 변환된 XML 문서에서 문서의 의미를 제대로 나타내기 어렵다는 단점을 안고 있다. 본 논문에서는 HTML 문서의 의미론 제대로 나타내는 XML 문서를 만들기 위해서 사용자가 어느 정도 개려하여 최종적인 XML 문서를 만드는 방법을 제안한다. 제안한 방법은 사용자의 약간의 개입으로 원래 HTML 문서의 의미를 보다 더 잘 나타내는 XML 문서를 만들어낸다.

  • PDF

Performance Improvement by a Virtual Documents Technique in Text Categorization (문서분류에서 가상문서기법을 이용한 성능 향상)

  • Lee, Kyung-Soon;An, Dong-Un
    • The KIPS Transactions:PartB
    • /
    • v.11B no.4
    • /
    • pp.501-508
    • /
    • 2004
  • This paper proposes a virtual relevant document technique in the teaming phase for text categorization. The method uses a simple transformation of relevant documents, i.e. making virtual documents by combining document pairs in the training set. The virtual document produced by this method has the enriched term vector space, with greater weights for the terms that co-occur in two relevant documents. The experimental results showed a significant improvement over the baseline, which proves the usefulness of the proposed method: 71% improvement on TREC-11 filtering test collection and 11% improvement on Routers-21578 test set for the topics with less than 100 relevant documents in the micro average F1. The result analysis indicates that the addition of virtual relevant documents contributes to the steady improvement of the performance.

A Study on Incremental Learning Model for Naive Bayes Text Classifier (Naive Bayes 문서 분류기를 위한 점진적 학습 모델 연구)

  • 김제욱;김한준;이상구
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.331-341
    • /
    • 2001
  • 본 논문에서는 Naive Bayes 문서 분류기를 위한 새로운 학습모델을 제안한다. 이 모델에서는 라벨이 없는 문서들의 집합으로부터 선택한 적은 수의 학습 문서들을 이용하여 문서 분류기를 재학습한다. 본 논문에서는 이러한 학습 방법을 따를 경우 작은 비용으로도 문서 분류기의 정확도가 크게 향상될 수 있다는 사실을 보인다. 이와 같이, 알고리즘을 통해 라벨이 없는 문서들의 집합으로부터 정보량이 큰 문서를 선택한 후, 전문가가 이 문서에 라벨을 부여하는 방식으로 학습문서를 결정하는 것을 selective sampling이라 한다. 본 논문에서는 이러한 selective sampling 문제를 Naive Bayes 문서 분류기에 적용한다. 제안한 학습 방법에서는 라벨이 없는 문서들의 집합으로부터 재학습 문서를 선택하는 기준 측정치로서 평균절대편차(Mean Absolute Deviation), 엔트로피 측정치를 사용한다. 실험을 통해서 제안한 학습 방법이 기존의 방법인 신뢰도(Confidence measure)를 이용한 학습 방법보다 Naive Bayes 문서 분류기의 성능을 더 많이 향상시킨다는 사실을 보인다.

  • PDF

Automatic Generation of XML Documents Using Rule-Based Document Classifier (규칙기반 문서 분류기를 이용한 XML 문서 의 자동생성)

  • 김효정;민미경
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.125-128
    • /
    • 2000
  • 인터넷 중심의 정보화 사회가 되면서 기존의 문서는 대부분 전자 문서로 대치되어 가고 있다. 전자 문서간의 호환과 표준화를 위하여 XML(eXtensible Markup Language)이 웹 문서의 표준으로 지정되었으나, 현재까지 사용되고 있는 문서들이 XML 형태의 문서가 아니므로 이를 수동으로 변환해야 하는 어려움이 있다. 본 논문에서는 규칙기반 분서 분류기(Rule-Based Document Classifier)를 설계하여 다양한 형태의 문서를 자동으로 분류하고 그룹화한다. 그룹화된 문서를 이용하여 자동으로 DTD(Document Type Definition)를 생성하고, 자동 생성된 DTD를 이용하여 XML 형태의 문서로 자동 변환할 수 있는 자동 XML 변환기를 제시한다. 이러한 방법은 문서들을 자동으로 분류하고, 문서의 행태에 변화가 있을 때에도 유사한 문서로 분류할수 있을 뿐만 아니라 문서를 재분류할 때 DTD의 중복 생성을 줄일 수 있는 등의 장점을 갖는다.

  • PDF

The Comparison of Neural Network and k-NN Algorithm for News Article Classification (신경망 또는 k-NN에 의한 신문 기사 분류와 그의 성능 비교)

  • 조태호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.363-365
    • /
    • 1998
  • 텍스트 마이닝(Text Mining)이란 텍스트형태의 문서들의 패턴 또는 관계를 추출하여 사용자가 원하는 새로운 정보를 가공하거나 기존의 정보를 변형하는 과정을 말한다. 텍스트 마이닝의 기능에는 문서 범주화(Document Categorization), 문서 군집화(Document Clustering), 그리고 문서 요약(Document Summarization)이 이에 해당된다. 문서 범주화란 문서에게 사전에 정의한 범주를 부여하는 과정을 말하고, 문서 군집화란 문서들을 계층적 구조로 형성하는 과정을 말하고, 문서 요약이란 문서의 전체 내용을 대표할 수 있는 내용의 일부만을 추출하는 과정을 말한다. 이 논문에서는 문서 범주화만을 다룰 것이며 그 대상으로는 신문기사로 설정하였다. 그의 범주는 4가지로 정치, 경제, 스포츠, 그리고 정보통신으로 설정하였다. 문서 범주화는 문서 분류(Document Classification)라고도 하며 문서에 범주를 자동으로 부여하여 기존에 인위적으로 부여함으로써 소요되는 시간과 비용을 절감하는 것이 목적이다. 문서 범주화에 대하여 k-NN(k-Nearest Neighbor)와 신경망을 이용하였으며, 신경망을 이용한 경우가 k-NN을 이용한 경우보다 성능이 우수하였다.

  • PDF

Design of System for Prevent Forgery of Digital Document on Off-Line (오프라인상에서의 전자문서 위변조 방지 시스템 설계)

  • 이윤오;유황빈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.503-505
    • /
    • 2003
  • 현재 인터넷을 통한 상대방의 신뢰성을 보장해 주는 인증서 사용이 빈번해지고 있다. 그러나 오프라인상의 전자문서는 상대방의 신뢰성 보장과 전자문서의 위변조의 위험성이 많다. 또한 전자문서는 오프라인상의 이동성에 제악을 받게 된다. 본 논문에서는 이러한 문제를 해결하고, 사용자가 온라인과 오프라인에서도 사용하게 편리하도록 문서내용, 문서작성자의 인증서 그리고 전자서명값을 이차원 바코드로 변환하여 출력된 전자문서에서 상대방의 신뢰성과 문서의 무결성을 보장하도록 제안한다. 제안된 시스템에서는 문서내용, 문서작성자의 인증서, 전자서명값을 변환해 출력문서에 이차원 바코드를 첨부하게 된다. 출력된 문서에서 첨부된 이차원 바코드를 스케닝 하고 문서내용, 문서작성자의 인증서 그리고 전자서명값을 얻어오고 검증을 통해 위변조 여부 판단하여 상대방의 신뢰성과 문서의 무결성을 확인 하도록 한다.

  • PDF

Keyword-based Document C lustering Algorithm (주제어 기반 문서 클러스터링 알고리즘)

  • 장성호;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.469-471
    • /
    • 2002
  • 높은 연관성을 갖는 문서들을 서로 집단화시키는 문서 클러스터링은 문서와 문서간의 연관성을 확인할 수 있는 문서의 주제어 추출이 중요한 문제이며 일반적인 정보검색 시스템에서 사용하는 출현빈도에 의한 주제어 추출은 성능 향상에 한계가 있다. 또한, 문서 클러스터링은 문서를 집단화시키기 위해 문서간 연관성을 확인하기 위해 유사도 계산에 따른 시간과 공간을 많이 소비하는 문제를 가지고 있다. 본 논문에서는 주제어 추출 기법을 적용하여 주제어 연관성에 의해 문서들을 집단화시키는 새로운 방법의 문서 클러스터링 알고리즘을 제안한다.

  • PDF