• Title/Summary/Keyword: 문서

Search Result 7,090, Processing Time 0.034 seconds

Text Similarity Decision System by Term Selection Method (용어 선별 기법에 의한 유사 문서 판별 시스템)

  • 장성호;강승식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

An Active Validation Mechanism for XML Databases (XML 데이터베이스의 능동적 검증 기법)

  • 김상균;전희영;이경하;이규철;이미영;손덕주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.12-14
    • /
    • 2000
  • XML[1]은 문서의 논리적인 구조를 가지고 있으며 XML 문서를 파싱할 때 이 구조에 맞는지 검증을 하게 된다. 이때 대부분 파서의 경우에는 문서 단위로 검증을 하며 문서의 일부분만 검증할 수 없다. 또한 XML 문서가 변경되었을 때 이 문서가 유효(valid)한지 검사할 때에도 문서 전체를 검증해야 한다. 이렇게 되면 검증할 필요가 없는 부분도 다시 검증하게 되는 오버헤드가 발생하는데 만약 XML 문서가 데이터베이스에 저장되어 있다면 문서 전체를 꺼내어서 검증하고 다시 삽입해야 한다. 본 논문에서는 이러한 문제점을 해결하기 위하여 XML 문서가 변경되었을 때 변경된 부분만 검증할 수 있는 기법을 제한한다.

  • PDF

문서없는 사무 환경을 위한 문서정보 유통시스팀의 구성 및 활용사례

  • Kim, Yeong-Hui;Jeong, Hyeon-Su;Kim, Yong-Jun
    • Electronics and Telecommunications Trends
    • /
    • v.8 no.1
    • /
    • pp.1-19
    • /
    • 1993
  • 문서량의 폭주는 유통과정에서 문서분실, 보관과정에서 문서분실과 파손, 보관공간의 낭비, 활용방법의 곤란으로 문서의 사장화 등 많은 문제점을 제기한다. 우리는 이러한 문제점 해결을 위하여 문서정보유통시스팀을 구성하여 문서의 전자화를 시도하였다. 이러한 목적을 위하여 본글은 첫째, 문서정보유통시스팀을 소개하고 둘째, 이를 활용한 응용사례를 소개하고 셋째, 일본 NTT에서 개발하고 있는 시스팀과 우리의 문서정보유통시스팀을 비교분석하였다.

Word Ambiguity Resolution for Concept-based Text Classification (개념 기반 문서 분류를 위한 단어 애매성 해소)

  • 강원석;황도삼
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.167-169
    • /
    • 2000
  • 문서 분류 시스템은 문서에 나타난 용어나 개념의 출현 정보를 이용한다. 개념 기반문서분류는 용어를 사용하지 않고 문서의 단어에 나타난 의미를 이용한다. 단어가 중의성을 가지는 경우 그 뜻을 정확히 가리지 않으면 문서에 출현하지 않은 의미를 이용하게 되므로 문서 분류 시스템의 성능이 저하된다. 본 논문은 개념 기반 문서분류를 위하여 단어 애매성 해소를 시도하였다. 문서에 출현된 의미 정보를 이용하여 의미들간의 공기정보를 구하고 이를 이용하여 단어의 애매성을 해소하였다. 단어의 의미정보는 시소러스 도구를 통해 획득하고 의미들간의 공기정보는 의미들간의 동시 출현 정보를 획득하여 구축하였다. 본 시스템은 문서 분류 등 자연어처리 분야에 이용할 수 있어 효용가치가 높다.

  • PDF

XML document transformation for small-screen device (소형 스크린 장치를 위한 XML 문서 변환)

  • 이영호;김상훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.856-858
    • /
    • 2004
  • PDA나 휴대폰 같은 모바일 장치는 데스크 탑 컴퓨터에 비해 상대적으로 작은 스크린을 가진다 웹 문서는 일반적으로 데스크 탑 컴퓨터 스크린을 기준으로 작성되기 때문에 이러한 웹 문서가 모바일 장치에서 표현되기 위해서는 다수의 좌, 우 스크롤을 필요하게 된다. 이는 문서 내용의 독이성을 떨어뜨리며 사용자에게 많은 불편함을 준다. 본 논문에서는 XML로 작성된 웹 문서를 소형 스크린 장치에 적합하도록 변환하는 주석 기반 XML 변환 시스템을 제안한다. XML 변환 시스템은 분할 정보가 기술된 외부 주석을 이용하여 XML 문서를 소형 스크린에 알맞은 다수의 XML 문서로 분할하고, 분할된 XML 문서를 HTML 문서로 변환하는 과정으로 XML 문서 변환을 처리한다.

  • PDF

The Classification and filing of the Official Documents of the Office of Crown Properties in the Great Han Empire (대한제국기 내장원의 공문서 편철과 분류)

  • Park, Sung-Joon
    • The Korean Journal of Archival Studies
    • /
    • no.28
    • /
    • pp.3-33
    • /
    • 2011
  • The Office of Crown Properties was established to manage the property of royal properties as an institution belonging to the Department of the Royal Household in April, 1895. However, as the Great Han Empire established and various policies enforcing the power of the emperor became introduced, the Office of Crown Properties came to be expanded to a large financial agency that would be in charge of various financial sources such as Public Land and Maritime Tax. As the Office of Crown Properties came to manage various income sources, it classified the documents dealing with various government agencies in the Capital and other countryside regions by the unit of Section. The Office of Crown Properties classified the documents by Section and filed them according to Sending/Receiving subject. Sometimes, it filed one kind of document only but sometimes many different kinds of documents were filed together. The types of the document can show the characteristics of the document and the hierarchy of the related agencies through the document name. The fact that they filed the documents with different grades in one file shows that the hierarchy of the agency they dealt with was not the primary standard of the filing and that they did not file the documents by its type. The Office of Crown Properties did not file the related documents in the same file, either. We can say the documents are related if they were corresponded with other agencies while they dealt with a specific item. However, they did not file the related documents in the same file but distinguished sending documents from receiving documents. The reason why they filed different kind documents in the same file and separated the related documents in different file was they took 'whether they were sent or received' as the primary filing standard. They separated the sending documents from the receiving documents first and then filed them according to time regardless of the region or institution. The Office of Crown Properties primarily classified the documents by Section, classified the documents with the standard of whether they were receiving documents or sending documents and then filed them in a file according to the time. It means that the Office of Crown Properties came to create the Official Document Classification and filing system.

Design and Implementation of a Virtual Document Authoring Tool for a Digital Library (디지털 도서관에서 이용하는 가상문서 저작도구의 설계 및 구현)

  • Lee, Sang-Bong;Cho, Eun-Il;Lee, Yong-Bae;Myaeng, Sung-Hyon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.171-174
    • /
    • 2000
  • 가상문서(Virtual Document)란 특정 저장장소에 저장되어 실재로 존재하는 물리적 문서(Physical Document)들을 대상으로 사용자에게 필요한 일부분 또는 전체를 동적으로 연결하여 통합한 문서를 의미한다. 가상문서의 특징은 여러가지 형태로 작성되고 표현된 문서들을 하나의 문서개념으로 통합해 제시할 수 있으며, 가상문서 단일로 데이터를 관리함으로써 다양한 멀티미디어 요소들이 그에 적합한 애플리케이션의 도움을 받아 하나의 프레임 안에서 동시에 존재하고 상호 연계하여 동작할 수 있게 된다. 가상문서를 사용하는 이점은 첫째, 저작자가 가상문서안에 들어갈 여러 미디어 컨텐트들을 복사하여 가상문서에 직접 삽입하지 않고 위치정보만을 기술하므로 방대한 양의 멀티미디어 문서에 대한 저장공간을 줄일 수 있으며 둘째, 링크의 사용으로 인해 크기가 작아진 가상문서는 네트워크를 통한 문서 전송시 효율적으로 전송할 수 있다. 본 논문에서는 디지털도서관 시스템 MIRAGE III(4)에서 이용하는 가상문서를 쉽게 만들어 주는 가상문서 저작도구의 설계 및 구현과정에 대하여 기술하였다.

  • PDF

An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier (문서의 주제어별 가중치와 말뭉치를 이용한 한국어 문서의 자동분류 : 베이지안 분류자)

  • 허준희;고수정;김태용;최준혁;이정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.154-156
    • /
    • 1999
  • 문서 분류는 미리 정의된 두 개 또는 그 이상의 클래스에 새로 생성되는 객체들을 할당하는 방법이다. 문서의 자동 분류에 대한 연구는 오래 전부터 연구되어 왔지만 한국어에 대한 적용 및 연구는 다른 분야에 비해 아직까지 활발히 이루어지지 않고 있다. 본 논문에서는 문서를 자동으로 분류하기 위해 문서의 주제어에 가중치를 부여하고, 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 주제어들과의 상호정보에 의해 추출된 단어를 사용하여 문서를 표현한 후, 가중치를 부여한 문서의 주제어에 베이지안 분류자를 사용하여 문서분류를 수행한다. 실험은 한국어 정보검색 실험용 데이터 집합인 KTset95 문서 4,414개 중 1,300개의 문서를 학습 집합으로, 1,000개의 문서를 분류에 대한 검증 집합으로 사용하였다. 실험 결과, 순수 베이지안 확률을 사용한 기존의 방법보다 실험 집합과 검증 집합에서 각각 1.92%, 4.3% 향상된 분류 정확도를 얻었다.

  • PDF

A Design of the XML-based Converting System between Wired Internet and Wireless Internet (XML 기반의 유무선 인터넷 문서 변환 시스템의 설계)

  • 이미경;정병수;김원태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.250-252
    • /
    • 2001
  • 현재 무선인터넷 문서는 유선인터넷 문서와 호환되지 않으며 다양한 종류의 무선 마크업 언어들로 구성되어 있어서, 무선 인터넷 문서를 새롭게 구축해야하는 문제점을 가진다. 본 논문에서는 이를 해결하기 위한 방안으로 유선 인터넷 문서를 여러 종류의 문선 인터넷 문서로 변환할 수 있는 변환 시스템을 설계한다. 이 시스템은 기존의 무선 마크업 언어의 기능을 모두 지원해주는 XML응용인 XWML을 설계하여 유무선 문서의 중간모듈로 이용한다. 유선 인터넷 문서는 필터링과 포멧팅 과정을 거쳐 XWML문서로 변환된 후 문서생성모듈에서 WML, HDML mHTML등의 무선 인터넷용 문서를 생성한다. 따라서 유선 인터넷 문서를 다양한 문선인터넷 문서로 변환할 수 있기 때문에, 무선 인터넷 환경에 맞는 컨텐츠를 일일이 작성하지 않아도 되는 장점을 가진다.

  • PDF

Study on the Topic Selection of Web Documents (웹 문서의 토픽 선정 방법에 관한 연구)

  • Kong, Hyun-Jang;Hwang, Myung-Gwon;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.148-151
    • /
    • 2006
  • 웹 문서의 수가 기하급수적으로 늘어나는 현 시점에서 문서의 효율적인 관리을 위한 문서 클러스터링 방법은 현재 가장 요구되는 기술이다. 지금까지 문서 클러스터링의 방법 연구에서는 TF-Idf 측정값을 이용한 문서분류, Title 기반의 문서분류등과 같은 다양한 시도가 있었다. 이러한 문서 클러스터링 방법에서는 문서의 내용에 치중하거나 문서 분류를 위한 정확한 기준이 없어, 효율적인 문서의 클러스터링과 검색을 지원하지 못하였다. 그리하여, 본 연구에서는 새롭게 토픽 선정 알고리즘을 제안하고, 토픽 선정 알고리즘에 의해 결정된 토픽에 기반하여 문서 검색을 수행함으로써, 문서검색의 성능을 높일 수 있었다.

  • PDF