• Title/Summary/Keyword: 문서

Search Result 7,095, Processing Time 0.037 seconds

건설분야의 전자문서 교환을 위한 XML 응용기술 연구

  • 정성윤;김성식;강민구;나혜숙;최원식
    • Proceedings of the CALSEC Conference
    • /
    • 1999.11a
    • /
    • pp.349-363
    • /
    • 1999
  • 독자적인 문서 표현방식으로 발주처와 계약업체간의 문서정보 교환 및 재활용에 장애요인으로 발생 2005년부터 공공건설사업에 CALS 체계 구축을 위한 기술문서의 전자화 필요성 인식 우리 건설분야에서는 아직까지 전자문서 거래를 위한 전자문서의 개발 기준이나 지침 등이 정립되어 있지 않음 (중략)

  • PDF

Design and Implementation of XML Document Generator with Similar Structure (유사 구조를 갖는 XML 문서 생성기의 설계 및 구현)

  • 이범석;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.163-165
    • /
    • 2004
  • 여러 장점을 가지고 점차 그 사용이 증가하고 있는 XML은 내용뿐만 아니라 그 구조적 정보까지 포함하고 있는 특징을 가지고 있는데, 이러한 XML 문서를 효율적으로 검색하기 위해 구조 유사성을 기반으로 하는 검색 기법이 개발되고 있다. 새롭게 개발되는 유사한 구조의 XML 문서를 검색하는 시스템의 성능 평가를 위해서는 구조적으로 유사한 다량의 XML 데이터가 필요하다. 본 논문에서는 지금까지 개발되었던 유사 구조 문서 생성기를 바탕으로 사용자가 원하는 데이터 구조를 생성하는데 보다 효과적인, 유사 구조를 갖는 XML 문서 생성기인 xTrans를 설계 및 구현한다. xTrans는 원본 XML 문서에 삽입, 삭제, 치환의 세 가지 연산을 이용하여 사용자가 원하는 일정한 비율만큼의 구조적 변화를 일으키는데, 그러한 연산은 불규칙한 위치에서 생성되므로, 같은 비율의 변화가 일어난 여러 개의 유사 구조 문서를 생성할 수 있다. 사용자는 각 연산의 변형 비율을 지정해주어 원하는 만큼 변형시킨 문서를 생성하고, 이 문서들을 이용하여 새롭게 개발되는 유사 구조 문서 검색 시스템의 성능평가에 활용할 수 있다.

  • PDF

Document Autoclustering for Web Agent (웹 에이전트를 위한 문서 자동 분류)

  • 양찬범;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.54-56
    • /
    • 1999
  • 웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심정보를 학습하고 사용자가 필요로 한느 웹 상의 정보를 제공하는 시스템이다. 웹 에이전트는 사용자의 관심정보를 추출하기 위해서 귀납적 기계학습을 수행한다. 이때, 학습의 효율을 높이기 위해서는 관련이 있는 문서들을 그룹화하여 학습 시스템에 제공하여야 한다. 본 논문에서는 비감독 개념 학습 알고리즘인 COBWEB을 이용하여 사용자가 관심을 표시한 문서들의 분류트리를 생성한다. 분류트리는 귀납적 기계학습 시스템의 입력으로 사용될 수 있는 형태가 아니므로 분류 트리의 분석과 문서 분류 후처리 작업을 통해서 문서 집합을 생성해야 한다. 이를 위해서는 분류트리를 분석하여 초기 클러스터를 생성하고, 유사한 클러스터들의 병합을 수행한다. 본 논문에서 제안하는 문서 자동 분류 방식은 비감독 개념 학습 알고리즘이 생성한 문서 분류 트리의 분석을 통해서 충분한 유사도와 적절한 수의 문서를 포함하는 초기 클러스터를 생성할 수 있다. 그러므로 문서 분류의 후처리 작업인 클러스터의 병합 작업에서 불필요한 작업을 제거함으로서 보다 효과적이고 합리적인 문서 분류 작업을 수행한다.

  • PDF

A Comparative Study on the Type of Electronic Document via Internet (인터넷 전자문서 형식에 관한 비교 연구)

  • 조현양;최성필;고기형;송원택
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.123-128
    • /
    • 1999
  • 최근 급속히 발달한 인터넷을 통해 단순한 전자우편뿐만 아니라 학술 논문, 저작물 및 보고서, 계약서 등 실제 물리적인 문서를 표현하는 전자문서의 교환이 빈번하게 이루어지고 있다. 본 연구에서는 현재 사용되고 있는 전자문서 형식들인 가지고 있는 특성과 장단점을 비교 연구하였다. 우선 문서교환을 목적으로 하는 전자문서 형식이 가져야 할 특성으로 범용성, 신속성, 장치 독립성, 간결성, 확장성 등을 제시하고 이를 기준으로 현재 사용되거나 제안되고 있는 전자문서 형식들을 평가하였다. 특히 DVI, HTML, XML, SGML. PDF, Postscript 등의 문서 형식들을 대상으로 조사하고 평가하였다. 그 결과 연군개발정보센터에서 사용 중인 DVI 문서 형식이 한글 문서를 인터넷 상에 구현하는 가장 효율적인 방법 가운데 하나임이 증명되었다.

  • PDF

A Syntactic Approach for Logical Structure Analysis of Document Images (문서 영상의 논리적인 구조 분석을 위한 구문론적인 접근 방식)

  • Lee, Gyeong-Ho;Choe, Yun-Cheol;Jo, Seong-Bae
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.7
    • /
    • pp.524-536
    • /
    • 2001
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 특히 제안된 파싱 기법은 텍스트 라인을 기본 단위로 하는 기존 연구보다 논리적인 계층 구조를 보다 정확하고 빠르게 생성하기 위하여 텍스터 영역의 계층적인 트리 구조를 입력으로 받아들인다. 또한 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서모델을 정의하고, 이의 자동 생성과 점증적인 학습 방법을 제안한다. 제안된 방법의 성능을 평가하기 위하여 과학 기술 논문으로부터 스캐닝한 372개의 논문 연상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석과 문서 모델의 자동 생성을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재 사용성과 호환성을 높인다.

  • PDF

A Model for XML Data Conversion with Style Editor (XSL 편집기를 이용한 데이터 변환 모델)

  • Lee, Eun-Jung;Woo, Gyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1119-1122
    • /
    • 2001
  • XML 데이터의 스타일 편집기 시스템을 이용한 문서의 변환 방법을 소개한다. 스타일 편집을 위한 XSL 정보는 XML 데이터에서 스타일을 적용할 부분을 선택하고 적용할 스타일을 기술하는데, 적용 결과는 원본 XML 문서에서 일부를 추출하는 효과가 된다. 본 논문에서는 이 때 추출되는 XML 문서의 부분을 새로운 문서로 생성하는 XSLT 의 자동 생성 알고리즘을 제안하였다. 이 때 생성된 XSLT 코드에 의해 XML 문서를 변환한 결과가 다음과 같은 성질을 만족함을 보였다. 1) 변환된 결과 문서에 편집의 결과인 XSL 스타일을 그대로 적용할 수 있으며, 2) 결과 문서가 최소한의 노드만을 가진다. 일반적으로 스타일을 적용할 때 원본 XML 문서는 불필요하거나 공개될 수 없는 많은 정보를 포함하고 있다. 본 논문에서 제시된 모델을 실제 문서 전송 시스템에 적용하면 스타일 편집의 결과로 XML 의 필요한 부분만을 추출하는 XSLT 코드와 그 추출 문서에 적용 가능한 XSL 스타일 정보를 생성함으로써 효율적인 전송과 데이터 보호의 목적을 동시에 만족시킬 수 있다.

  • PDF

Multi-Document Summarization Using Tag Cluster (태그 클러스터를 이용한 다중문서요약 기법)

  • Heu, Jee-Uk;Jeong, Jin-Woo;Hong, Hyun-Ki;Lee, Dong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.45-48
    • /
    • 2011
  • 오늘날 인터넷의 빠른 보급으로 인하여 웹 상에 생성되는 문서의 양은 하루가 다르게 늘어나고 있다. 이러한 엄청난 양의 문서들 중 사용자는 자신이 원하는 정보가 담긴 문서를 얻기 위해서는 직접 문서를 검토해야 하며, 많은 시간이 투자 된다는 어려움이 있다. 이러한 사용자들의 어려움을 줄이기 위하여 문서의 핵심을 유지하며 양을 줄이는 다중문서요약기업에 대한 연구가 활발히 진행되어왔다. 본 논문에서는 효율적이고 빠른 문서 요약을 위하여 폭소노미 시스템인 플리커를 통하여 문서 내에 존재하는 각 단어들의 클러스터를 획득하고, 이를 기반으로 단어들의 중요도를 분석하여 중요문장을 추려내는 다중문서요약 기법을 제안한다.

Document Clustering with Relational Graph Of Common Phrase and Suffix Tree Document Model (공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법)

  • Cho, Yoon-Ho;Lee, Sang-Keun
    • The Journal of the Korea Contents Association
    • /
    • v.9 no.2
    • /
    • pp.142-151
    • /
    • 2009
  • Previous document clustering method, NSTC measures similarities between two document pairs using TF-IDF during web document clustering. In this paper, we propose new similarity measure using common phrase-based relational graph, not TF-IDF. This method suggests that weighting common phrases by relational graph presenting relationship among common phrases in document collection. And experimental results indicate that proposed method is more effective in clustering document collection than NSTC.

Web Document Clustering for Specific Subject Information Using WordNet and HTML Tags (WordNet과 HTML 태그를 활용한 특정영역 정보의 웹 문서 분류)

  • 조은휘;변영태
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.28-32
    • /
    • 2002
  • 웹 상의 많은 정보들 속에서 사용자가 원하는 정보를 찾아내는 일은 쉽지 않다. 사용자가 의도하는 양질의 정보 제공을 위해 특정 영역과 관련한 정보 제공 시스템이 .개발되고 있다. 이전 시스템은 특정 영역 관련 지식베이스를 토대로 하여 웹 문서를 수집해 놓고, 사용자에게 정보를 제공한다. 본 논문에서는 전문 사이트 내에 문서간의 유사성을 토대로 하여 동물 영역에 대한 효과적인 문서 클러스타링(clustering)에 관해 실험하였다. 기존의 방법에서는 문서의 분류나 질의어와 관련한 문서 선택이나 순위 결정이 주로 텀(term)을 바탕으로 하고 있다. 본 논문에서는 각 문서 내의 텀 뿐만 아니라 HTML 태그(tag), 지식베이스에 WordNet의 계층구조를 적용한 data를 활용하고, SVD(Singular Value Decomposition)를 사용하여 문서간의 관계를 밝혀내어 문서 분류 및 수집에 이용하였다. 특정 영역의 전문 문서를 많이 제공하는 사이트에 적용하여 좋은 결과를 볼 수 있었다.

  • PDF

Document Reranking Model Using Clusters (문서 클러스터를 이용한 재순위화 모델)

  • Lee, Kyung-Soon;Park, Young-Chan;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.81-87
    • /
    • 1998
  • 본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.

  • PDF