• Title/Summary/Keyword: 문서지

Search Result 2,043, Processing Time 0.023 seconds

Semantic Document-Retrieval Based on Markov Logic (마코프 논리 기반의 시맨틱 문서 검색)

  • Hwang, Kyu-Baek;Bong, Seong-Yong;Ku, Hyeon-Seo;Paek, Eun-Ok
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.6
    • /
    • pp.663-667
    • /
    • 2010
  • A simple approach to semantic document-retrieval is to measure document similarity based on the bag-of-words representation, e.g., cosine similarity between two document vectors. However, such a syntactic method hardly considers the semantic similarity between documents, often producing semantically-unsound search results. We circumvent such a problem by combining supervised machine learning techniques with ontology information based on Markov logic. Specifically, Markov logic networks are learned from similarity-tagged documents with an ontology representing the diverse relationship among words. The learned Markov logic networks, the ontology, and the training documents are applied to the semantic document-retrieval task by inferring similarities between a query document and the training documents. Through experimental evaluation on real world question-answering data, the proposed method has been shown to outperform the simple cosine similarity-based approach in terms of retrieval accuracy.

Semi-automatic Ontology construction based on Hub word (허브 단어에 기반한 온톨러지의 반자동 구축)

  • 임수연;구상옥;송무희;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.377-379
    • /
    • 2003
  • 본 논문은 문서검 색을 위한 온톨러지(Ontology)의 반자동 구축방안을 제시한다. 이를 위하여 우리는 다른 단어들과 특히 많은 관련이 있는 단어를 허브 단어(hub word)라고 정의하며 경제분야에 특정적인 온톨러지의 구축을 위하여 TREC 문서집합의 Wall Street Journal 문서들을 분석하였다. 문서집합 내의 모든 단어들의 tf, idf 값를 이용하여 허브 단어를 결정짓고 이렇게 선택된 허브 단어들을 중심으로 온톨러지를 구축하였다. 우리는 허브 단어와 다른 단어들간의 관계를 문서로부터 자동으로 추출하고 그 정보를 이용하여 온톨러지를 확장해나간다. 제안된 온톨러지는 전통적인 문서 검색의 인덱스 파일과 같은 역할을 하게 되며, 간단한 역파일(inverted file) 구조보다 더 많은 의미정보(semantic information)를 제공할 수 있다.

  • PDF

Automatic Generation of Structured Hyperdocuments from Multi-Column Document Images (복잡환 다단 문서 영상으로부터 구조화된 하이퍼문서의 자동 생성)

  • 이지연;강희중;이성환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.458-460
    • /
    • 1999
  • 본 논문에서는 다양한 객체를 포함한 다단 문서 영상을 원본 문서와 거의 유사한 형태의 HTML 문서로 변환할 수 있는 방법을 제안한다. 또한 논문이나 매뉴얼, 책의 한 단원 등 여러장의 입력 문서의 경우, 문서의 논리적인 구조 분석을 수행하고 장이나 절 등의 섹션 제목들을 계층화하여 다단 문서의 변환과 동시에 구조화된 목차 페이지도 함께 자동 생성하는 방법을 제안한다. 제안된 다단 문서 변환 알고리즘을 잡지, 신문, 광고지, 매뉴얼 등, 비정형화된 문서에 적용한 결과, 원본 문서의 형태와 구조에 큰 변함없이 유사하게 변환되었고, 논리적인 구조 분석 및 섹션 제목들의 계층화 작업 또한 정확히 수행되어 구조화된 목차 페이지의 자동 생성이 가능하였다.

  • PDF

Design and Implementation of Form Generator System for Creating E-Business XML Document (E-비즈니스 XML 문서 생성을 위한 Form 생성기의 설계 및 구현)

  • 조준구;김창수;정회경
    • Proceedings of the CALSEC Conference
    • /
    • 2001.02a
    • /
    • pp.385-390
    • /
    • 2001
  • 본 논문은 인터넷 환경에서의 전자 비즈니스(E-Business) 상황에서 거래 주체들(Trading Partner)간에 교환되어 지는 비즈니스 문서 양식을 생성하기 위해 연구되어 졌다. 기존의 종이 형태 또는 특정 포맷을 갖는 문서 양식이 갖는 문제점은 많은 단계의 제작 과정과 그에 따른 고 비용의 문제, 거래 파트너간의 문서 교환을 통한 상호 운용성(Interoperability)을 확보 할 수 없는 문제들을 가지고 있다. 이에, 인터넷 문서 표준인 XML(extensible Markup Language)과 그 표현을 위한 XSL(extensible Stylesheet Language) 문서를 이용하여 비즈니스 DTD 문서를 기반으로 한 XML 폼 생성기(Form Generator)를 개발하였으며, 그 결과인 폼 XML 문서를 XSL 문서를 이용하여 기존 웹 상에서 이용할 수 있는 HTML 문서로 생성하고, 사용자 입력을 통해서 비즈니스 DTD 문서 구조에 유효한 비즈니스 XML 메시지를 작성할 수 있도록 설계 구현하였다.

  • PDF

Syntax-Directed Document Editor based XML DTD (XML DTD 기반의 구문지향 문서 작성기)

  • Kim, Young-Chul;Kim, Sung-Keun;Choi, Jong-Myung
    • The Journal of Korean Association of Computer Education
    • /
    • v.7 no.4
    • /
    • pp.67-75
    • /
    • 2004
  • XML is being accepted as a standard for the next generation web documents, as it enables to extend the document structures. However, general users have difficulties in writing valid and well-formed XML documents, since the documents should satisfy the grammatical constraints of XML. In this paper, we present a syntax-directed XML document editor which will ease users in writing valid XML documents. The editor will help users, and increase productivity in writing XML documents.

  • PDF

An XML Document Processor Generator using Object-oriented Attribute Grammar (객체지향 속성 문법을 이용한 XML 문서 처리기 생성기)

  • 최종명;유재우
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.2
    • /
    • pp.224-234
    • /
    • 2004
  • An XML document processor should process the XML documents according to their purposes and semantics. It is very hard to automatically generate an XML document processor with DTD, because it does not provide the semantic information. In this paper, we introduce an XML document processor generator and a method for specifying semantics using the object-oriented attribute grammar. The XML document processor generator will reduce costs and efforts in developing XML document processors.

The Block Segmentation and Extraction of Layout Information In Document (문서의 영역분리와 레이아웃 정보의 추출)

  • 조용주;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.17 no.10
    • /
    • pp.1131-1146
    • /
    • 1992
  • In this paper, we suggest a new algorithm applied to the segmentation of published documents to obtain constituent and layout information of document. Firstly, we begin the process of blocking and labeling on a 300dpi scanned document. Secondly, we classify the blocked document by individual sub-regions. Thirdly, we group sub-regions into graphic areas and text areas. Finally, we extract information for layout recognition by using the data. From an experiment on papers of an academic society, we obtain the above 98% of region classification rate and extraction rate of information for the layout recognition.

  • PDF

Fast Skew Detection of Document Image Using Morphological Operation (모폴로지 연산을 이용한 문서 이미지의 고속 기울기 검출 기법)

  • Shin Myoung-Jin;Kim Do-Hyun;Cha Eui-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2006.05a
    • /
    • pp.796-799
    • /
    • 2006
  • This paper presents a new method for automatic detection of skew in a document image using mathematical morphology. To speed up processing, we use reduced image but it still requires long time to estimate the skew angle so the proposed method works with region of interest, not with whole image. Character strings are connected by using morphological closing operation and a component labeling is used to select region of interest. The method considers the lowermost pixels of characters in candidate regions in the binary image of original document image. Experimental results shows that the proposed method is extremely fast and robust as well as independent of script forms.

  • PDF

A Syntactic Approach for Logical Structure Analysis of Document Images (문서 영상의 논리적인 구조 분석을 위한 구문론적인 접근 방식)

  • Lee, Gyeong-Ho;Choe, Yun-Cheol;Jo, Seong-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.7
    • /
    • pp.524-536
    • /
    • 2001
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 특히 제안된 파싱 기법은 텍스트 라인을 기본 단위로 하는 기존 연구보다 논리적인 계층 구조를 보다 정확하고 빠르게 생성하기 위하여 텍스터 영역의 계층적인 트리 구조를 입력으로 받아들인다. 또한 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서모델을 정의하고, 이의 자동 생성과 점증적인 학습 방법을 제안한다. 제안된 방법의 성능을 평가하기 위하여 과학 기술 논문으로부터 스캐닝한 372개의 논문 연상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석과 문서 모델의 자동 생성을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재 사용성과 호환성을 높인다.

  • PDF

Document Clustering with Relational Graph Of Common Phrase and Suffix Tree Document Model (공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법)

  • Cho, Yoon-Ho;Lee, Sang-Keun
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.2
    • /
    • pp.142-151
    • /
    • 2009
  • Previous document clustering method, NSTC measures similarities between two document pairs using TF-IDF during web document clustering. In this paper, we propose new similarity measure using common phrase-based relational graph, not TF-IDF. This method suggests that weighting common phrases by relational graph presenting relationship among common phrases in document collection. And experimental results indicate that proposed method is more effective in clustering document collection than NSTC.