• Title/Summary/Keyword: 문서

Search Result 7,095, Processing Time 0.032 seconds

Automatic Text Categorization using the Importance of Sentences (문장 중요도를 이용한 자동 문서 범주화)

  • Ko, Young-Joong;Park, Jin-Woo;Seo, Jung-Yun
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.6
    • /
    • pp.417-424
    • /
    • 2002
  • Automatic text categorization is a problem of assigning predefined categories to free text documents. In order to classify text documents, we have to extract good features from them. In previous researches, a text document is commonly represented by the frequency of each feature. But there is a difference between important and unimportant sentences in a text document. It has an effect on the importance of features in a text document. In this paper, we measure the importance of sentences in a text document using text summarizing techniques. A text document is represented by features with different weights according to the importance of each sentence. To verify the new method, we constructed Korean news group data set and experiment our method using it. We found that our new method gale a significant improvement over a basis system for our data sets.

An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment (U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서)

  • Joo, Kil-Hong;Choi, Jin-Tak
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.9
    • /
    • pp.859-872
    • /
    • 2004
  • With the rapid advance of computer and communication techonology, the recent trend of education environment is edveloping in the ubiquitous learning (u-learning) direction that learners select and organize the contents, time and order of learning by themselves. Since the amount of education information through the internet is increasing rapidly and it is managed in document in an effective way is necessary. The document clustering is integrated documents to subject by classifying a set of documents through their similarity among them. Accordingly, the document clustering can be used in exploring and searching a document and it can increased accuracy of search. This paper proposes an efficient incremental clustering method for a set of documents increase gradually. The incremental document clustering algorithm assigns a set of new documents to the legacy clusters which have been identified in advance. In addition, to improve the correctness of the clustering, removing the stop words can be proposed.

  • PDF

A Study on Records Filing Systems (문서기록물의 파일링시스템에 관한 연구)

  • Yoo, Jae-Ok
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.16 no.2
    • /
    • pp.5-24
    • /
    • 2005
  • This study reviews various kinds of records filing systems, which function as a basic fundamental to effective records management. The purposes, methods and characteristics of Alphabetic, geographic, numeric, subject, and combined filing systems are examined. The alphabetic filing method uses letters of the alphabet to determine the order of names of people and companies. In subject filing the subjects are filed in alphabetic order. In numeric filing, numbers representing names or subjects are used. When records are requested by place or location rather than by individual or business name, geographic filing is advantageous.

  • PDF

Development of a Conversion and Transformation System for GML Documents (GML 문서를 위한 변환 및 전송 시스템 개발)

  • Hwang, Seung-Youn;Kang, Hong-Koo;Kim, Dong-Oh;Han, Ki-Joon
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 2004.12a
    • /
    • pp.147-152
    • /
    • 2004
  • OGC에서는 다양한 분야의 지리공간 정보를 손쉽게 상호 운용하기 위해 이질적인 환경의 지리공간 정보를 XML로 인코딩하는 GML 명세를 제시하였다. 그러나 GML 문서는 텍스트 구조로 되어있어 데이타 용량이 커지며 전송 시 속도가 현저히 저하되고, 문서 스캔 비용이 많이 든다는 문제가 있다. 그러므로, 대용량의 GML 문서를 정보 손실 없이 변환하여 전송 속도와 문서 스캔 속도를 향상시키기 위한 방법이 필요하다. 이에 OGC에서는 최근 바이너리 XML 형식인 BXML을 제안하였다. 본 논문에서는 BXML 형식을 사용하여 GML 문서를 토큰화하고, 토큰을 정의된 바이트 코드로 변환하여 문서의 크기를 줄이고 전송 속도와 문서 스캔 속도를 향상시키는 효율적인 GML 문서 변환 및 전송 시스템을 설계하고 구현하였다. GML 운서 변환 및 전송 시스템은 GML 문서와 BXML 문서를 상호 변환하는 기능과 BXML 문서에서 공간 데이타를 추출하여 디스플레이 하는 기능을 제공한다. 성능 평가 결과 GML 문서 변환 및 전송 시스템 사용시 GML 문서의 크기는 최대 80% 감소하였고 전송 속도는 최대 3.5배 향상되었다.

  • PDF

Document filtering for automatic construct ion of Answer Set (Answer set 자동 구축을 위한 문서 필터링)

  • Jeong, Yong-Kyo;Shin, Seug-Eun;Oh, Hyo-Jung;Jang, Myung-Gil;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.253-258
    • /
    • 2002
  • 본 논문은 의미기반 정보검색 소프트웨어 기술에서 정답 문서 자동 구축을 위한 문서 필터링기법을 제안한다. 문서 필터링은 1차 질의어와 문서간의 유사도와 2차 질의어와 문서간의 유사도를 이용하여 이루어지며, 1차 질의어와 문서간의 유사도를 구하기 위하여 개념 망과 백과사전 정보를 이용한 1차 질의어 확장 과정을 수행하고, 화장된 질의어와 문서와의 유사도를 계산한다. 1차 확장 질의어를 이용해 얻어진 결과 중 유사도가 상위 10%에 속하는 문서를 이용하여 2차 질의어 확장을 한다. 2차 질의어 확장은 상위 10% 문서에 출현하는 명사중 문서 출현 빈도가 임계치 이상인 명사를 선택하여 이루어지고, 그것을 이용하여 문서의 유사도를 계산한다. 이렇게 얻어진 두 가지의 유사도를 결합하여 문서들을 순위화하고 Accept Point를 이용하여 문서를 필터링한다.

  • PDF

XTGen: A Component Based System for Generating XML Transformer (XTGen: XML 변환기 생성을 위한 컴포넌트 기반 시스템)

  • 심민석;유대승;엄전섭;강만모;이명재
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.310-312
    • /
    • 2001
  • 최근 인터넷상에서 DTD 기반의 XML 문서가 문서 교환의 표준 수단으로 등장하면서 B2B 상에서 XML 문서의 사용이 빠른 속도로 증가하고 있다. 그러나 B2B 환경에서 문서교환시스템은 각기 다른 형태의 문서구조의 사용으로 인하여 시스템의 통합 및 상호운용에 있어 많은 어려움이 있다. 이에 논리적으로는 유사한 문서 교환 시스템의 통합 및 상호운용에 있어서 XML 문서의 교환을 위해서는 상호 변환 모듈이 필요하다. 그러나 상호 변환 모듈 개발을 위한 표준화된 방법과 툴의 미비로 인하여 변환 모듈 개발과 유지 보수에 많은 비용이 소요된다. 본 연구에서는 논리적으로 비슷하지만 서로 다른 DTD 기반의 XML 문서를 상호 변환하는 변환기를 자동 생성하는 시스템(XTGen)을 설계하고 구현한다. 시스템은 XML 문서를 검증하고 DTD를 추출하는 컴포넌트(XDA), 검증된 DTD를 문서 구조 정보 형식으로 변경하는 컴포넌트(DDA), 문서 구조 정보를 보여주고 상호 변환을 위해 매핑 할 수 있도록 하는 컴포넌트(DIV), 두 문서간의 매핑 정보를 추출하는 컴포넌트(MDO), 추출된 매핑 정보를 바탕으로 2개의 XML 문서를 상호 변환하는 변환기를 생성하는 컴포넌트(TCG)로 구성된다. 본 연구에서는 제안한 XML 변환기 생성 시스템(XTGen)은 XML 문서들의 상호 변환을 위한 변환 모듈을 자동 생성함으로써 변환기 생성의 비용을 감소시킬 수 있고 변환 모듈의 표준화를 통해 유지 보수성을 높일 수 있다.

Development of an XML Converter using Document Fragmentation Method (문서 단편화 기법을 이용한 XML 변환기의 설계 및 구현)

  • 정창후;최윤수;주원균;진두석;김광영;이민호;서정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.214-216
    • /
    • 2004
  • 최근 다양한 응용 분야에서 점차 증가하고 있는 XML 문서에 대한 효과적 검색을 위해서 많은 검색 시스템들이 제안되고 있다. 그러나 이러한 검색 시스템은 XML 문서의 구조적 특성을 명확하게 알지 못하거나 질의어 작성에 익숙하지 못한 사용자에게 XML 문서를 검색하는데 많은 어려움을 주고 있다. 이러한 문제를 해결하기 위해 본 논문은 복잡한 계층의 XML 문서를 의미 있는 엘리먼트를 중심으로 계층을 단순화시켜서 검색에 이용할 수 있도록 도와주는 XML 문서 변환기를 제안한다. XML 문서 변환기는 XML 문서의 부모-자식 관계, 형제 관계 등의 계층 정보를 유지하면서 문서를 단편화 시켜주는 도구이다. XML 문서 변환기와 더불어 이것을 이용하여 구현된 XML 문서 검색 시스템의 계층적 출력 인터페이스에 대하여 함께 설명하도록 한다.

  • PDF

Automatic Generation of Structured Hyperdocuments from Multi-Column Document Images (복잡환 다단 문서 영상으로부터 구조화된 하이퍼문서의 자동 생성)

  • 이지연;강희중;이성환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.458-460
    • /
    • 1999
  • 본 논문에서는 다양한 객체를 포함한 다단 문서 영상을 원본 문서와 거의 유사한 형태의 HTML 문서로 변환할 수 있는 방법을 제안한다. 또한 논문이나 매뉴얼, 책의 한 단원 등 여러장의 입력 문서의 경우, 문서의 논리적인 구조 분석을 수행하고 장이나 절 등의 섹션 제목들을 계층화하여 다단 문서의 변환과 동시에 구조화된 목차 페이지도 함께 자동 생성하는 방법을 제안한다. 제안된 다단 문서 변환 알고리즘을 잡지, 신문, 광고지, 매뉴얼 등, 비정형화된 문서에 적용한 결과, 원본 문서의 형태와 구조에 큰 변함없이 유사하게 변환되었고, 논리적인 구조 분석 및 섹션 제목들의 계층화 작업 또한 정확히 수행되어 구조화된 목차 페이지의 자동 생성이 가능하였다.

  • PDF

Restoration of Character String Stained with Line in Various Kinds of Form Documents (다양한 서식 문서에서 선에 의해 훼손된 문자열 복원)

  • 이창현;이관용;김경환;최영우;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.479-481
    • /
    • 1999
  • 현 사회에서 사용하고 있는 문서들은 양식을 가지고 있는 서식문서가 대부분이며, 이러한 양식을 가지고 있는 서식문서는 사회가 발전함에 따라 전자 문서로의 변경이 요구되고 있다. 그러나 서식문서를 전자 문서로 바꾸는 작업은 쉬운 일이 아니며, 이 작업을 위해 문자인식 기술이 요구된다. 특히 서식문서에서 문자의 인식률을 높이기 위해서는 문서양식의 라인과 겹쳐진 문자에 대하여 라인제거 및 문자 복원이 필수적이며, 또한 대부분의 서식 문서의 양식에 기입하는 내용은 문자열로 구성되어 있으므로 문자복원에 있어서 낱자 단위의 문자복원이 아닌 문자열 단위의 문자복원이 필요하다. 본 논문에서는 다양한 서식문서에서 라인과 겹쳐진 문자 영상에 대해 문자열 단위의 라인제거 및 복원하는 방법을 제안한다.

  • PDF

Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order (단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류)

  • Kim, Nam-Hun;Yang, Hyung-Jeong
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.41-45
    • /
    • 2017
  • 본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

  • PDF