• 제목/요약/키워드: Document Model

검색결과 842건 처리시간 0.03초

노드정보를 이용한 문서검색의 성능에 관한 연구 (A Study on the Performance of Structured Document Retrieval Using Node Information)

  • 윤소영
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.103-120
    • /
    • 2007
  • 노드는 문서를 구성하는 작은 크기의 의미 있는 정보 단위이다. 정보검색에 문서의 구조정보를 이용함과 더불어 문서보다 작은 검색단위에 대한 연구가 활발히 이루어지고 있다. 이 연구에서는 노드정보를 이용한 검색실험을 위해 벡터공간모델 검색기법을 사용하여 다양한 유사도 산출방식을 적용한 실험과 구조정보를 활용한 확장 실험을 수행하였다. 실험결과 문서의 유사도를 산출하는 방식에 따른 검색성능의 차이는 거의 나타나지 않았으며, 구조정보를 적용하는 확장 노드검색이 가장 좋은 성능을 나타냈다.

Joint Hierarchical Semantic Clipping and Sentence Extraction for Document Summarization

  • Yan, Wanying;Guo, Junjun
    • Journal of Information Processing Systems
    • /
    • 제16권4호
    • /
    • pp.820-831
    • /
    • 2020
  • Extractive document summarization aims to select a few sentences while preserving its main information on a given document, but the current extractive methods do not consider the sentence-information repeat problem especially for news document summarization. In view of the importance and redundancy of news text information, in this paper, we propose a neural extractive summarization approach with joint sentence semantic clipping and selection, which can effectively solve the problem of news text summary sentence repetition. Specifically, a hierarchical selective encoding network is constructed for both sentence-level and document-level document representations, and data containing important information is extracted on news text; a sentence extractor strategy is then adopted for joint scoring and redundant information clipping. This way, our model strikes a balance between important information extraction and redundant information filtering. Experimental results on both CNN/Daily Mail dataset and Court Public Opinion News dataset we built are presented to show the effectiveness of our proposed approach in terms of ROUGE metrics, especially for redundant information filtering.

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.

복사 방법론과 입력 추가 구조를 이용한 End-to-End 한국어 문서요약 (End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding)

  • 최경호;이창기
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.503-509
    • /
    • 2017
  • 본 논문에서는 copy mechanism과 input feeding 추가한 RNN search 모델을 end-to-end 방식으로 한국어 문서요약에 적용하였다. 또한 시스템의 입출력으로 사용하는 데이터를 음절단위, 형태소단위, hybrid 단위의 토큰화 형식으로 처리하여 수행한 각각의 성능을 구하여, 모델과 토큰화 형식에 따른 문서요약 성능을 비교한다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, 형태소 단위로 토큰화 하였을 때 우수한 성능을 확인하였으며, GRU search에 input feeding과 copy mechanism을 추가한 모델이 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.

효율적 구조 질의를 지원하는 바다-IV/XML 질의처리기의 설계 및 구현 (Design and Implementation of BADA-IV/XML Query Processor Supporting Efficient Structure Querying)

  • 이명철;김상균;손덕주;김명준;이규철
    • 정보기술과데이타베이스저널
    • /
    • 제7권2호
    • /
    • pp.17-32
    • /
    • 2000
  • As XML emerging as the Internet electronic document language standard of the next generation, the number of XML documents which contain vast amount of Information is increasing substantially through the transformation of existing documents to XML documents or the appearance of new XML documents. Consequently, XML document retrieval system becomes extremely essential for searching through a large quantity of XML documents that are storied in and managed by DBMS. In this paper we describe the design and implementation of BADA-IV/XML query processor that supports content-based, structure-based and attribute-based retrieval. We design XML query language based upon XQL (XML Query Language) of W3C and tightly-coupled with OQL (a query language for object-oriented database). XML document is stored and maintained in BADA-IV, which is an object-oriented database management system developed by ETRI (Electronics and Telecommunications Research Institute) The storage data model is based on DOM (Document Object Model), therefore the retrieval of XML documents is executed basically using DOM tree traversal. We improve the search performance using Node ID which represents node's hierarchy information in an XML document. Assuming that DOW tree is a complete k-ary tree, we show that Node ID technique is superior to DOM tree traversal from the viewpoint of node fetch counts.

  • PDF

웹 문서로부터 논리적 구조 추출 (Extracting Logical Structure from Web Documents)

  • 이민형;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1354-1369
    • /
    • 2004
  • 본 논문에서는 웹 문서를 XML 문서로 변환하기 위한 논리적 구조분석 방법을 제안한다. 제안된 방법은 비주얼 그룹화, 요소 식별, 그리고 논리적 그룹화의 세 단계로 구성된다. 특히 정교한 수준의 논리적 구조분석을 지원하기 위하여 특정 주제에 속하는 문서 유형의 논리적 계층 구조를 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법은 비주얼 그룹화를 통해서 추출된 시각적 계층구조와 문서 유형에 대한 논리적 구조 정보를 기술한 문서 모델에 기반하기 때문에 보다 정교한 수준의 구조 분석을 지원한다. 제안된 방법의 성능을 평가하기 위하여 웹으로부터 추출한 다수의 HTML 문서를 대상으로 실험한 결과, 기존 연구와 비교하여 논리적 구조분석을 성공적으로 수행하였다. 제안된 방법은 논리적 구조분석의 최종 결과로서 XML문서를 생성하기 때문에 문서의 재 사용성을 높인다.

  • PDF

Word2vec을 활용한 문서의 의미 확장 검색방법 (Semantic Extention Search for Documents Using the Word2vec)

  • 김우주;김동희;장희원
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.687-692
    • /
    • 2016
  • 기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

교량정보모델 기반의 설계정보와 XML 기반의 문서정보 통합 (Integration between XML-based Document Information and Bridge Information Model-based Structural Design Information)

  • 정연석;김봉근;정원석;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2006년도 정기 학술대회 논문집
    • /
    • pp.208-215
    • /
    • 2006
  • This study provides a new operation strategy which can guarantee the data consistency of engineering information among the various intelligent information systems. We present the strategies for the operation of bridges engineering information and the construction methodology of integrated database. The two core standard techniques are adopted to construct the integrated database. One of these standards is the Standard for the Exchange of Product Model Data (STEP) for CAD/CAE information and the other is the Extensible Markup Language (XML) for engineering document information. This study can transform a document me into a data type for web-based application modules which assist end-users in searching and retrieval of engineering document data. In addition, relaying algorithm is developed to integrate the two different information, e.g. CAD/CAE information and engineering document information. The pilot application modules for management and maintenance of existing bridge are also developed to show application of the strategy.

  • PDF

Detection of Malicious PDF based on Document Structure Features and Stream Objects

  • Kang, Ah Reum;Jeong, Young-Seob;Kim, Se Lyeong;Kim, Jonghyun;Woo, Jiyoung;Choi, Sunoh
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.85-93
    • /
    • 2018
  • In recent years, there has been an increasing number of ways to distribute document-based malicious code using vulnerabilities in document files. Because document type malware is not an executable file itself, it is easy to bypass existing security programs, so research on a model to detect it is necessary. In this study, we extract main features from the document structure and the JavaScript contained in the stream object In addition, when JavaScript is inserted, keywords with high occurrence frequency in malicious code such as function name, reserved word and the readable string in the script are extracted. Then, we generate a machine learning model that can distinguish between normal and malicious. In order to make it difficult to bypass, we try to achieve good performance in a black box type algorithm. For an experiment, a large amount of documents compared to previous studies is analyzed. Experimental results show 98.9% detection rate from three different type algorithms. SVM, which is a black box type algorithm and makes obfuscation difficult, shows much higher performance than in previous studies.

웹 컨텐트 저장소 (Design of Web Content Model)

  • ;구흥서
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1915-1918
    • /
    • 2002
  • Managing semistructured data needs fine granularity such as markup elements. XML has major effect in managing web content, it enables content reusability, enriches information with metadata, ensures valid document links, etc. We introduce our content model as an integrated work which handles content objects as controllable units. The paper concerns on modeling news site and how the content is classified due to the site structure, aggregated content and reusability. The model stores instance XML document into relation database using fragmentation strategy.

  • PDF