• 제목/요약/키워드: Document

검색결과 4,946건 처리시간 0.035초

문장 수반 관계를 고려한 문서 요약 (Document Summarization Considering Entailment Relation between Sentences)

  • 권영대;김누리;이지형
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.179-185
    • /
    • 2017
  • 문서의 요약은 요약문 내의 문장들끼리 서로 연관성 있게 이어져야 하고 하나의 짜임새 있는 글이 되어야 한다. 본 논문에서는 위의 목적을 달성하기 위해 문장 간의 유사도와 수반 관계(Entailment)를 고려하여 문서 내에서 연관성이 크고 의미, 개념적인 연결성이 높은 문장들을 추출할 수 있도록 하였다. 본 논문에서는 Recurrent Neural Network 기반의 문장 관계 추론 모델과 그래프 기반의 랭킹(Graph-based ranking) 알고리즘을 혼합하여 단일 문서 추출요약 작업에 적용한 새로운 알고리즘인 TextRank-NLI를 제안한다. 새로운 알고리즘의 성능을 평가하기 위해 기존의 문서요약 알고리즘인 TextRank와 동일한 데이터 셋을 사용하여 성능을 비교 분석하였으며 기존의 알고리즘보다 약 2.3% 더 나은 성능을 보이는 것을 확인하였다.

Paperless 해운 물류를 위한 UNeDocs 적용 방안 연구 (The study on a plan for applying UNeDocs to Maritime Logistics to achieve its paperless logistics)

  • 안경림
    • 디지털산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.199-208
    • /
    • 2009
  • Mosts of export/import cargo has been moving using maritime transport means. Korea had been driven the system automation project using EDI document since the mid-1990s. However, this automation system comes upon about 40-50% against overall maritime business process, manual or paper document processing work is existing as ever. International e-business environment also has changing into electronic form document transaction from paper document-based transaction. International standardization organization, UN/CEFACT proposed UNeDocs for paperless jtransaction. UNeDocs is a specification to define XML data model as well as electronic form. With UNeDocs, it is not necessary to generate the duplexed data, and it can support user convenient and guarantee the flexibility. This paper defines the UNeDocs data model for EDI and Off-Line processing at the current maritime business. Then, it have to check XML syntax and structure for the defined data model through quality of document check system. Also, it explains the applying plan about the defined UNeDocs data model. It is possible to support paperless transaction as defining UNeDocs-based standard data model and converting into paper document, XML and EDI document using UNeDocs data model.

Machine Learning Based Automatic Categorization Model for Text Lines in Invoice Documents

  • Shin, Hyun-Kyung
    • 한국멀티미디어학회논문지
    • /
    • 제13권12호
    • /
    • pp.1786-1797
    • /
    • 2010
  • Automatic understanding of contents in document image is a very hard problem due to involvement with mathematically challenging problems originated mainly from the over-determined system induced by document segmentation process. In both academic and industrial areas, there have been incessant and various efforts to improve core parts of content retrieval technologies by the means of separating out segmentation related issues using semi-structured document, e.g., invoice,. In this paper we proposed classification models for text lines on invoice document in which text lines were clustered into the five categories in accordance with their contents: purchase order header, invoice header, summary header, surcharge header, purchase items. Our investigation was concentrated on the performance of machine learning based models in aspect of linear-discriminant-analysis (LDA) and non-LDA (logic based). In the group of LDA, na$\"{\i}$ve baysian, k-nearest neighbor, and SVM were used, in the group of non LDA, decision tree, random forest, and boost were used. We described the details of feature vector construction and the selection processes of the model and the parameter including training and validation. We also presented the experimental results of comparison on training/classification error levels for the models employed.

구조화된 전자문서 생성을 위한 사용자 중심의 XML 문서편집 시스템에 관한 연구 (Study of XML document editing system that is creation for structural digital document)

  • 차원준;황재각;이용준;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.277-280
    • /
    • 2003
  • 초기의 웹(Web)이 비구조적인 문서를 사용함으로써 발생하는 단점인 문서 처리와 교환 및 재사용성에 대한 해결책으로서 W3C(World Wide Web Consortium)에서 1998년 2월에 XML(extensible Markup Language)을 제정하였다. XML을 사용함으로써 기존 전자거래는 XML 기반 메시지 교환을 통한 기업간 전자거래 형태로 변화하고 있으며, 이러한 기업간 전자거래에 사용되는 XML 기반의 구조화된 전자문서를 저작 할 수 있는 솔루션에 대한 필요성이 대두되었다. 이에 본 논문에서는 XML 문서를 효율적으로 편집 및 저작 할 수 있는 사용자 중심의 XML 인스턴스 편집기와 XML 문서의 구조를 정의하는 XML 스키마 문서를 저작하기 위한 XML 스키마 편집기를 통합한 XML 문서편집 시스템에 관한 연구를 하였다.

  • PDF

문서 내용의 계층화를 이용한 문서 비교 방법 (Document Clustering Methods using Hierarchy of Document Contents)

  • 황명권;배용근;김판구
    • 한국정보통신학회논문지
    • /
    • 제10권12호
    • /
    • pp.2335-2342
    • /
    • 2006
  • 웹의 비약적인 성장으로 웹에는 무수한 정보를 축적하고 있으며, 특히 텍스트 문서는 인간에 의해 가장 쉽게 그리고 많이 이용되는 형식이라 하겠다. 텍스트 문서의 효율적 검색을 위해 많은 연구가 이루어졌으며, 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 유사한 문서를 의미적으로 찾아내기 위한 새로운 문서 분류의 척도를 제안하며 이를 적용하는 방법을 제시한다. 본 방법은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두며, 문서들간의 도메인 가중치와 도메인 내의 개념 일치도를 이용하여 유사도를 구한다.

의미특징 기반의 용어 가중치 재산정을 이용한 문서군집의 성능 향상 (Enhancing Document Clustering Using Term Re-weighting Based on Semantic Features)

  • 박선;김경준;김경호;이성로
    • 한국정보통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.347-354
    • /
    • 2013
  • 본 논문은 확장된 용어를 기반으로 용어의 가중치를 재산정하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 의미특징을 이용하여 군집문서의 중요 용어를 추출하고, 워드넷을 이용하여 용어를 확장함으로서 문서의 주제를 잘 나타낼 수 있다. 또한 확장된 용어를 기반으로 하여 용어의 가중치를 재산정함으로써 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 적용하지 않은 문서군집 방법에 비해서 좋은 성능을 보인다.

구조화된 전자문서 생성을 위한 사용자 중심의 XML 문서편집 시스템 (XML document editing system that is creation for structural digital document)

  • 최일선;이용준;정회경
    • 한국정보통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.513-518
    • /
    • 2003
  • 초기의 웹(Web)이 비구조적인 문서를 사용함으로써 발생하는 단점인 문서 처리와 교환 및 재사용성에 대한 해결책으로서 W3C(World Wide Web Consortium)에서 1998년 2월에 XML(eXtensible Markup Language)을 제정하였다. XML을 사용함으로써 기존 전자거래는 XML 기반 메시지 교환을 통한 기업간 전자거래 형태로 변화하고 있으며, 이러한 기업간 전자거래에 사용되는 XML 기반의 구조화된 전자문서를 저작할 수 있는 솔루션에 대한 필요성이 대두되었다. 이에 본 논문에서는 XML 문서를 효율적으로 편집 및 저작 할 수 있는 사용자 중심의 XML 인스턴스 편집기와 XML 문서의 구조를 정의하는 XML 스키마 문서를 저작하기 위한 XML 스키마 편집기를 통합한 XML 문서편집 시스템에 관한 연구를 하였다.

Content-based Configuration Management System for Software Research and Development Document Artifacts

  • Baek, Dusan;Lee, Byungjeong;Lee, Jung-Won
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권3호
    • /
    • pp.1404-1415
    • /
    • 2016
  • Because of the properties of software such as invisibility, complexity, and changeability, software configuration management (SCM) for software artifacts generated during software life-cycle has been used for guarantee of the quality of the software. However, the existing SCM system has only focused on code artifacts and software development document artifacts such as Software Requirements Specification (SRS), Software Design Description (SDD), and Software Test Description (STD). Moreover, software research-oriented project comes out late the code artifacts and the software development document artifacts. Therefore, there is a need for trace and management of software research document artifacts composed of highly abstracted non-functional requirements like 'the purpose of the project', 'the objectives', and 'the progress' before generation of the code artifacts and the software development document artifacts for a long time. Nevertheless, the existing SCM system cannot trace and manage them. In this paper, we propose content-based configuration management system comprised of the relevance link generation phase and content-based testing phase to trace and manage them. The preliminary application results show applicability and feasibility of the proposed system.

ISBP상의 복합운송서류의 일치성에 관한 심사기준 (Examination Criteria on the Compliance of Multimodal Transport Document in the ISBP)

  • 전순환
    • 통상정보연구
    • /
    • 제7권4호
    • /
    • pp.219-243
    • /
    • 2005
  • The Purpose of this Article is to analyze the examination criteria on the compliance of multimodal transport document in the ISBP. When the goods are taken in charge by the multimodal transport operator, he shall issue a multimodal transport document which, at the option of the consignor, shall be in either negotiable or non-negotiable form. The multimodal transport document shall be signed by the multimodal transport operator or by a person having authority from him. When the multimodal transport document is presented by the beneficiary to the bank in the letter of credit operations, the bank should examinate the bill of exchange and/or shipping documents, including multimodal transport document. There are two rules in connection with examination of the documents in the letter of credit operations. One is the "Uniform Customs and Practice for Documentary Credits(UCP 500)" approved by the Banking Commission in March 10, 1993, the other is the "International Standard Banking Practice for the Examination of Documents under Documentary Letters of Credits(ISBP)" approved by the ICC Banking Commission in October 2002. Therefore, this Article has studied the multimodal transport document presented under documentary credits on the basis of the UCP 500 and the ISBP it reflects.

  • PDF

FDC-TCT를 이용한 웹 문서 클러스터링 성능 개선 기법 (A performance improvement methodology of web document clustering using FDC-TCT)

  • 고석범;윤성대
    • 정보처리학회논문지D
    • /
    • 제12D권4호
    • /
    • pp.637-646
    • /
    • 2005
  • 키워드를 통한 웹 검색 결과의 분류와 같은 후처리가 요구되는 문서 분류 문제에서, 기존의 문서 분류 또는 클러스터링 알고리즘을 적용하는 데에는 많은 문제가 있다 그 중에서 고려해야 할 가장 심각한 두 가지 문제가 있다. 첫째는 전문가가 관여하여 범주를 선정하는 문제이고, 둘째는 문서분류에 소요되는 수행시간이 긴 문제이다. 따라서 본 논문에서는 이행적 폐쇄 트리를 이용하여 문서 유사도 계산 횟수를 크게 줄이고, 정확도의 희생을 최소화하면서 신속한 처리가 가능한 새로운 웹 문서 클러스터링 기법을 제안하다. 또한, 제안된 기법의 효율성을 검증하기 위하여 기존의 알고리즘과 비교 평가 및 분석한다.