• Title/Summary/Keyword: 문서과

Search Result 2,264, Processing Time 0.053 seconds

XML Document Structure Comparison based on Function Transform and FFT (함수 변환과 FFT에 의한 XML 문서의 구조 비교)

  • Lee Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.28-30
    • /
    • 2006
  • XML 문서의 유사성을 비교하는 연구는 XML 문서의 저장 및 검색에 유용하기 때문에 많은 연구가 진행되었다. XML 문서의 유사성 연구는 크게 edit-distance를 이용하는 방법, 문서의 그래프 모델을 이용하는 방법, 문서의 매트릭스 모델을 이용하는 방법 등이 있다. 최근에는 문서를 encoding 하고 푸리에 변환을 이용하는 방법이 보고되었다. 본 논문에서는 XML 문서를 함수로 변환하고 FFT를 적용하여 문서의 구조적 유사성을 비교하는 새로운 방법을 제안한다. 제안하는 방법은 JAXP로 구현하였으며 XML 문서의 구조를 분석하여 함수로 변환하였다. 그리고 함수에 FFT를 적용하여 XML 문서의 구조적 유사성을 비교하였다. FFT 비교 결과는 XML 문서의 함수 변환이 적합한 것임을 보여주었으며 비교 결과는 예상된 결과를 보여주었다.

  • PDF

High Speed Local Text Reuse Detection using IR Approach (정보검색 기법을 이용한 부분 문서 재사용 고속 탐색)

  • Bae, Won-Sik;Jo, Myung-Rae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.63-68
    • /
    • 2008
  • 인터넷의 발달로 지식의 재사용이 폭발적으로 증가하였다. 이는 지식의 확산이라는 측면에서는 바람직하지만 지식의 도용이라는 문제점을 안고 있다. 따라서 문서의 전부나 일부분을 재사용한 것인지를 판단하고자하는 요구가 증가하고 있다. 본 논문에서는 정보검색 기술을 이용하여 문서에서 부분 문서 재사용 및 표절을 탐색하는 방법을 제안한다. 본 논문에서는 대용량 문서의 고속 탐색을 위해서 원본 문서와 대상 문서를 색인하여 검색에 이용한다. 또한 한글의 언어적 특성을 맞게 어순 변경 비교, 기능어 생략 비교, 갭(gap) 비교 등의 다양한 처리 조건을 제공하여 문서 재사용을 탐색할 수 있다. 실험을 통해서 기존의 시스템보다 정확하게 고속으로 문서 재사용 탐색이 가능함을 보였다. 특히 비교 문서가 증가하더라도 비교 시간이 급격하게 증가하지 않으며, 정보검색 기법을 사용하는 경우 취약하다고 알려져 있는 부분 문서 재사용 탐색에도 견고하며, 처리 조건에 따라 유연하게 문서 재사용 탐색이 가능하다.

  • PDF

Sequencing Document Clusters to Support Human Annotation Efforts (효율적인 문서 처리 작업을 위한 문서집합 나열)

  • Nah, Chong-Yeol;Moon, Il-Chul;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.75-78
    • /
    • 2008
  • 온톨로지 어노테이션(Annotation)과정은 수동에 의해 대부분의 문서 처리 작업이 진행되고 있다. 그러므로 계획적이지 않은 문서 처리는 자칫 일관성이나 효율성을 떨어뜨릴 수가 있다. 예를 들어, 처리되는 문서들의 도메인이 자주 바뀌면, 수동 어노테이션을 하는 작업자는 객관성을 잃을 가능성이 높다. 따라서, 본 연구에서는 처리되는 문서집합의 도메인이 최대한 연관성이 유지되도록 처리 문서를 집합하여 나열하는 알고리즘을 소개한다. 첫번째로, 문서들을 유사한 주제 집합으로 형성한다. 두번째로, 두개 이상의 집합에 겹치는 문서들을 계산한다. 마지막으로, 이러한 겹침이 최대화 되도록 문서들의 처리 순서를 나열한다. 본 알고리즘을 IT관련 위키피디아 문서집합을 이용하여 평가를 시행했다. 평가 결과 우리의 알고리즘을 이용하면 처리되는 문서들의 도메인 이동이 무작위로 처리하는 것 보다 연속적이었음을 수치상으로 계산할 수 있었다.

  • PDF

SNS news Recommendation by Using Cosine Similarity (코사인 유사도 기법을 이용한 뉴스 추천 시스템)

  • Kim, Simon;Kim, Hyung-Jun;Han, In-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.163-166
    • /
    • 2013
  • 사용자별로 SNS/RSS 구독 뉴스 분석을 통해 사용자가 관심이 있는 새로운 뉴스를 추천해 주는 시스템을 설계하고 구현한다. 뉴스 추천 시스템의 설계를 위해 전체 시스템에서 사용자와 서버에서의 작업을 명세하고, 이중에 주요 기능을 담당하는 부분을 구현한다. 구현된 주요 기능은 선호 문서가 들어왔을 때 특징을 추출하고 이를 저장하는 것과 새로운 문서가 들어왔을 때 선호 문서군과 얼마나 유사한지 판별하여 문서에 대한 추천 여부를 결정하는 것이다. 선호 문서의 특징 추출에 대해서는 형태소 분석을 통해 단어와 빈도를 추출하고 이를 누적하여 저장한다. 또한, 새로운 문서가 들어왔을 때 코사인 유사도를 계산하여 사용자가 선호하는 학습문서와의 유사도 비교를 통해 문서 추천 여부를 결정한다. 구현된 시스템에서 실제로 연관된 선호 문서군을 학습시키고, 연관된 새로운 문서 혹은 연관되지 않은 새로운 문서에 대한 추천 여부를 비교하는 것으로 시스템 정확도를 파악한다.

  • PDF

Document Version Management in CoDocs System (CoDocs 문서관리시스템의 버전관리)

  • 안건태;김진홍;한천용;정명희;이명준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.290-292
    • /
    • 2000
  • 정보통신 분야에서의 최근의 기술적인 발전에 힙입어 인트라넷을 기반으로 한 조직내 업무를 자동화하고, 또한 정보 공유를 통해 생산성을 높이기 위하여 많은 정보시스템이 구축되고 있다. 이러한 정보시스템은 조직의 성격에 따라 유연성있게 변화하면서 기술문서 등 여러 가지 종류의 문서들을 효과적으로 관리할 수 있도록 지원하는 것이 바람직하다. CoDocs 시스템은 공동작업의 효과적인 지원을 위해 문서를 체계적으로 관리할 수 있는 웹 기반환경에서 구현된 문서관리 시스템이다. 본 논문에서는 CoDocs 시스템에서 구축된 문서정보조직을 기반으로 문서간의 연계성을 높이고 활용성을 증가시키기 위해 문서 버전관리기능을 설계 및 구현하였다. 버전관리는 각 문서의 버전을 저장하여 히스토리(history) 정보를 유지하고 관리하며, 문서간의 연관성을 부여하여 문서등록 및 검색 시 관련문서에 대한 참조기능을 제공한다.

  • PDF

Ontology-Based Document Classification (온톨로지 기반 웹 문서 분류)

  • 송무희;임수연;민도식;강동진;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.535-537
    • /
    • 2003
  • 본 논문에서는 웹 문서들이 가지는 용어 정보들과 어휘들의 의미구조를 계층적 형태로 표현한 온틀로지 기반 자동 문서분류 방법을 제안한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 점하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하며, 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

Design of a Knowledge Server for Distribution of Multimedia Contents (멀티미디어 컨텐츠 유통을 위한 지식서버 시스템의 설계)

  • 정창후;이용배;맹성현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.316-318
    • /
    • 2001
  • 인터넷의 급속한 발전으로 인해 다양한 멀티미디어 리소스를 쉽고 빠르게 활용할 수 있는 시대가 도래하였다. 그러나 이러한 멀티미디어 문서들을 새롭게 편집하고 저장하고 유통시킬 수 있는 기술적 인프라는 아직 부족하다고 보여진다. 멀티미디어 문서를 편집하는 작업에는 다양만 문서포맷을 지원하는 멀티미디어 저작 툴이 필요하며 편집된 문서를 저장할 시에는 대용량의 고속 저장강치가 필요하다. 더불어 이러한 멀티미디어 문서를 활발히 유통시키기 위해서는 디지털 문서의 지적 재산권을 보호해줄 수 있는 견고한 유통 시스템이 필수이다. 본 논문에서는 멀터미디어 컨텐츠의 유통에 기여할 수 있는 지식서버 시스템에 관하여 기술하고자 한다. 가상문서[1] 개념을 기반으로 설계된 지식서버 시스템은 기존의 멀티미디어 컨텐츠를 재구성하여 만든 가상문서를 유통시킬 수 있는 특징을 가지고 있다. 이러한 지식서버 시스템을 이용하면 대용량의 저장장치를 필요로 하지 않는 멀티미디어 문서를 저작 및 저장할 수 있고, 새롭게 저작된 멀티미디어 문서를 지식서버 시스템의 인증 서버를 통하여 쉽게 유통시킬 수 있다. 또한 유통된 가상문서가 실제 문서로 재현될 경우에 지식서버 내의 로그관리기에 의하여 로그정보가 기록되기 때문에 컨텐츠 유통 현황을 실시간으로 파악할 수 있다.

  • PDF

Design and implementation of a structure-and content-based document retrieval system for XML documents (XML 문서를 위한 구조 및 내용기반 문서검색 시스템 설계 및 구현)

  • 이정재;장재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.93-95
    • /
    • 1999
  • 최근 XML 문서에 대한 활용이 늘어나면서 이들 문서에 대한 저장 및 검색에 대한 요구가 증가하고 있다. XML문서는 SGML(Standard Generalized Markup Language) 문서가 가지고 있는 다양한 기능들과 구조적인 표현 능력, 그리고 사용의 용이성 등의 장점을 지닌 언어로 1996년 웹의 문서 표준으로 제안되었다. 따라서 XML 문서의 특성을 반영한 문서 검색시스템에 대한 요구가 시급한 상태이며, 기존의 시스템의 경우 구조 및 내용-기반 멀티미디어 문서검색을 효과적으로 지원하지 못하고 있다. 본 논문에서는 XML 문서의 구조정보 및 내용정보를 효과적으로 검색할 수 있는 XML 문서 저장 시스템을 설계 및 구현한다. 구현하는 시스템은 구조-기반 검색을 위해 o2store위에 역파일 인덱스를 구축하고 내용-기반 검색을 위해 X-tree를 사용한다. 또한 검색 인터페이스를 JAVA로 구현하여 효율적인 검색이 이루어지도록 한다.

  • PDF

The Classification arranged from Protectorate period to the early Japanese Colonial rule period : for Official Documents during the period from Kabo Reform to The Great Han Empire - Focusing on Classification Stamp and Warehouse Number Stamp - (통감부~일제 초기 갑오개혁과 대한제국기 공문서의 분류 - 분류도장·창고번호도장을 중심으로 -)

  • Park, Sung-Joon
    • The Korean Journal of Archival Studies
    • /
    • no.22
    • /
    • pp.115-155
    • /
    • 2009
  • As Korea was merged into Japan, the official documents during Kabo Reform and The Great Han Empire time were handed over to the Government-General of Chosun and reclassified from section based to ministry based. However they had been reclassified before many times. The footprints of reclassification can be found in the classification stamps and warehouse number stamps which remained on the cover of official documents from Kabo Reform to The Great Han Empire. They classified the documents by Section in the classification system of Ministry-Department-Section, stamped and numbered them. It is consistent with the official document classification system in The Great Han Empire, which shows the section based classification was maintained. Although they stamped by Section and numbered the documents, there were differences in sub classification system by Section. In the documents of Land Tax Section, many institutions can be found. The documents of the same year can be found in different group and documents of similar characteristics are classified in the same group. Customs Section and Other Tax Section seemed to number their documents according to the year of documents. However the year and the order of 'i-ro-ha(イロハ) song' does not match. From Kabo Reform to The Great Han Empire the documents were grouped by Section. However they did not have classification rules for the sub units of Section. Therefore, it is not clear if the document grouping of classification stamps can be understood as the original order of official document classification system of The Great Han Empire. However, given the grouping method reflects the document classification system, the sub section classification system of the Great Han Empire can be inferred through the grouping method. In this inference, it is understood that the classification system was divided into two such as 'Section - Counterpart Institution' and 'Section - Document Issuance Year'. The Government-General of Chosun took over the official documents of The Great Han Empire, stored them in the warehouse and marked them with Warehouse Number Stamps. Warehouse Number Stamp contained the Institution that grouped those documents and the documents were stored by warehouse. Although most of the documents on the shelves in each warehouse were arranged by classification stamp number, some of them were mixed and the order of shelves and that of documents did not match. Although they arranged the documents on the shelves and gave the symbols in the order of 'i-ro-ha(イロハ) song', these symbols were not given by the order of number. During the storage of the documents by the Government-General of Chosun, the classification system according to the classification stamps was affected. One characteristic that can be found in warehouse number stamps is that the preservation period on each document group lost the meaning. The preservation period id decided according to the historical and administrative value. However, the warehouse number stamps did not distinguish the documents according to the preservation period and put the documents with different preservation period on one shelf. As Japan merged Korea, The Great Han Empire did not consider the official documents of the Great Han Empire as administrative documents that should be disposed some time later. It considered them as materials to review the old which is necessary for the colonial governance. As the meaning of the documents has been changed from general administrative documents to the materials that they would need to govern the colony, they dealt with all the official documents of The Great Han Empire as the same object regardless of preservation period. The Government-General of Chosun destroyed the classification system of the Great Han Empire which was based on Section and the functions in the Section by reclassifying them according to Ministry when they reclassified the official documents during Kobo Reform and the Great Han Empire in order to utilize them to govern the colony.

A Design and Implementation of WYSIWYG XML Editor Based on CSS 1 (CSS 1 기반 WYSIWYG XML 편집기의 설계 및 구현)

  • 김정훈;전상수;채진석;최한석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.293-295
    • /
    • 2000
  • XML은 HTML의 단순성과 SGML의 복잡성을 동시에 극복하기 위한 노력으로 시작되어 HTML이나 SGML과는 다른 새로운 세계를 만들어 내고 있으며, 인터넷 문서 표현과 관련된 여러 분야에서 활발하게 연구되고 있다. XML의 특징 중 하나는 문서의 내용과 표현이 분리되어 있어 하나의 문서를 여러 방법으로 표현할 수 있다는 점이다. 그러나 이러한 점은 문서의 외형을 정의하기 위해 스타일시트를 따라 만들어야 하며, 같은 결과물을 얻기 위해 HTML보다 많은 작업량이 필요하게 되는 등의 문제를 야기하게 되었다. 이 논문에서는 이러한 문제를 해결하기 위해 비교적 간단한 스타일시트 언어인 CSS 1을 기반으로 나모 웹 편집기와 같은 WYSIWYG 인터페이스를 제공하여 XML 문서를 편집할 수 있는 XML 문서편집기를 제안한다. 이 논문에서 제안하는 XML 문서편집기를 사용하면 스타일시트에 대해 잘 모르는 초보자라도 쉽게 XML 문서를 편집할 수 있을 것으로 기대된다.

  • PDF