• Title/Summary/Keyword: 문서

Search Result 7,090, Processing Time 0.033 seconds

Unicode based Classics Archive Management System (Unicode 기반 고전문서 편찬 관리시스템)

  • 최윤수;진두석;안성수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.115-117
    • /
    • 2002
  • 고전문서는 우리 가 상상할 수 없을 만큼의 문화와 지식의 깊이를 지니고 있다. 이러한 문화와 지식을 바탕으로 새로운 지식을 창출해내기 위한 고전문서의 전산화 작업은 필수적인 과제이다. 따라서, 최근 대규모의 고전문서 전산화 작업이 많이 진행되고 있다. 이러한 수백만 혹은 수천만 페이지에 달하는 대규모 고전문서 전산화 작업에서 가장 어렵고 비용이 많이 소요되는 분야는 고전문서의 의미적 특징을 최대한 손상시키지 않고 데이터베이스를 구축하는 일이다. 그러므로 본 논문에서는 고전문서의 특성을 고려하여 데이터베이스를 구축하고 관리할 수 있는 고전문서 편찬 관리시스템에 대하여 소개한다. 특히 고전문서 전산화에 반드시 필요한 확장 한자의 입력 및 검색기능과 문서의 전후관계를 고러만 문서 구조정보의 처리, 그리고 이러한 모든 기능을 효율적으로 수행하기 위한 정보검색 시스템에 대하여 소개한다.

  • PDF

Automatic Text Categorization Using Term Information of Anchor Text (Anchor Text의 단어 정보를 이용한 자동 문서 범주화)

  • Heo, Hee-keun;Han, Gi-deok;Jung, Sung-won;Lim, Sung-shin;Kwon, Hyuk-chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.665-668
    • /
    • 2004
  • 최근의 웹 문서는 텍스트뿐만 아니라 이미지, 사운드 등 다른 여러 형태로 표현되고 있어서 텍스트의 비중이 낮아지고 있다. 그래서 문서 내에서 일정량 이상의 단어 추출이 어려운 문서들에 대해서 기존의 단어 정보만을 이용한 문서 범주화 방법은 좋은 성능을 기대할 수 없다. 그래서 본 논문은 Anchor Text 단어 정보의 자질 적합성 판단에 의한 새로운 자동 문서 범주화 모델을 제안한다. 문서 범주화 모델로는 베이지언 확률 모델을 이용하였으며, 카이제곱 통계량을 사용하여 자질을 선정하였다. 문서 내에서 추출된 단어 자질들이 해당 문서를 판단하는데 부족하다고 판단되면 문서의 링크정보를 이용하여 연결된 문서의 단어 자질과 Anchor Text의 단어 자질을 반영함으로써 성능을 향상시킨다.

  • PDF

Automatic Text Categorization based on Semi-Supervised Learning (준지도 학습 기반의 자동 문서 범주화)

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.5
    • /
    • pp.325-334
    • /
    • 2008
  • The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. While it is easy to collect the unlabeled documents, it is not so easy to manually categorize them for creating training documents. In this paper, we propose a new text categorization method based on semi-supervised learning. The proposed method uses only unlabeled documents and keywords of each category, and it automatically constructs training data from them. Then a text classifier learns with them and classifies text documents. The proposed method shows a similar degree of performance, compared with the traditional supervised teaming methods. Therefore, this method can be used in the areas where low-cost text categorization is needed. It can also be used for creating labeled training documents.

Collection and Examination of Historical Documents on Modern Hydrological Investigation (근대 수문조사 고문서의 수집 및 검토)

  • Kwon, Sung-Ill;Kim, Won;Kim, Dong-Gu;Kim, Hye-Jin
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2011.05a
    • /
    • pp.243-243
    • /
    • 2011
  • 수문조사를 우량, 수위, 유량을 측정하는 것으로 정의하고, 위와 같은 기록을 바탕으로 하면 우리나라의 근대 수문조사는 1911년에 시작된 것으로 볼 수 있다. 이에 따라 2011년은 우리나라의 근대 수문조사 100년이 되는 해이다. 이를 계기로 과거 우리나라 수문조사의 역사를 정리하고 새로운 발전방향을 제시하는 것이 필요하다. 본 연구에서는 1910∼1945년의 기간에 발간된 고문서를 대상으로 하여 수문조사에 대하여 작성한 문서를 발굴, 정리 및 분석하여 과거 수문조사에 대한 내용을 쉽게 파악하고, 역사적, 학술적으로 중요한 수문조사의 문서를 쉽게 접할 수 있도록 하였다. 1911년 이후에 수문조사, 하천, 기상, 수력, 홍수 등에 대하여 작성된 문서를 수집하기 위해서 문헌 조사를 실시하였다. 특히, 1911년부터 1940년의 일제 강점기때 조선총독부에서 우리나라의 수문조사 및 수자원 등에 대하여 발행한 문서 중에서 아직까지 일반인에게 보급되지 않은 문서를 중심으로 조사하였다. 이러한 문헌 조사는 국내외 도서관에서의 문서 검색, 고문서 판매서점의 판매문서 확인 등의 방법으로 이루어졌고, 이렇게 하여 수집된 문서는 총 115권이었다. 수집한 문서 중에서 조사 및 공사 연보, 원문 내용을 확인하기 곤란한 경우, 기번역된 문서를 제외한 나머지 문서에 대해서 내용을 쉽게 파악할 수 있도록 주요 내용을 정리하였다. 주요 내용에는 서지정보로서 저자, 발행기관, 발행연도, 핵심용어 등을 정리하고, 일본어로 작성된 문서 내용을 파악하는데 도움을 주기위해 주요 내용과 목차를 번역하여 정리하였다. 이렇게 정리된 문서는 본문 내용, 발행연도, 발행기관 등에 대하여 경향성을 살펴볼 수 있었다. 본문 내용에 대하여 살펴본 결과, 호우 등에 의한 수해 현황을 기술한 문서, 수문관측 자료를 기술한 문서, 하천조사 내용을 기술한 문서 등이 많은 것으로 나타났다. 발행연도별로 살펴보면, 1920년도와 1930년도에 많이 발행된 것으로부터 이 시기에 수문관측, 하천조사, 하천공사 등이 활발하게 이루어졌음을 짐작할 수 있었다. 그리고 이 문서들은 조선총독부에서 발행한 것으로 일본이 조선의 하천 상황을 파악하기 위해 계획적이고 체계적으로 수문관측, 하천조사 등을 실행하였음을 짐작할 수 있었다. 이와 같이 우리나라 수문조사의 역사를 발굴하고 분석한 결과 자료는 향후 우리나라 수문조사의 발전방향을 제시하는데 있어 밑거름이 될 수 있을 뿐만 아니라 학술적, 기술적으로 활용할 수 있을 것으로 판단된다.

  • PDF

K-means Clustering Method according to Documentation Numbers (문서 수에 따른 가중치를 적용한 K-means 문서 클러스터링)

  • 조시성;안동언;정성종;이신원
    • Proceedings of the IEEK Conference
    • /
    • 2003.07d
    • /
    • pp.1557-1560
    • /
    • 2003
  • 본 논문에서는 이 문서 클러스터링 방법 중 계층적 방법인 Kmeans 클러스터링 알고리즘을 이용하여 문서를 클러스터링 하고자 한다. 기존의 Kmeans 클러스터링 알고리즘은 문서의 수가 많을 경우 하나의 클러스터링에 너무 많은 문서들이 할당되는 문제점이 있다. 이 치우침을 완화하고자 각 클러스터링에 할당된 문서 수에 따라서 문서에 가중치를 부여한 후 다시 클러스터링을 하는 방법을 제안하였다. 실험 결과는 정확률, 재현율을 결합한 조화 평균(F-measure)을 사용하여 평가하였으며 기존 알고리즘보다 9%이상의 성능 향상을 나타냈다.

  • PDF

한글 문서의 색인어와 색인 기법

  • 강승식
    • Communications of the Korean Institute of Information Scientists and Engineers
    • /
    • v.22 no.4
    • /
    • pp.72-77
    • /
    • 2004
  • 정보검색 시스템의 성능을 평가하는 요소는 재현율(recall)과 정확률(precision)이고, 재현율과 정확률을 결정하는데 가장 큰 영향을 미치는 것은 문서에 대한 색인어와 색인어 가중치이다[1]. '질의어'에 적합한 문서를 검색할 수 있는지를 결정하는 것은 "적합 문서에 대해 색인이 되어 있는가\ulcorner"하는 문제이며, 이는 재현율에 직접적인 영향을 미치게 된다. 즉, 적합 문서를 색인할 때 '질의어'에 대한 색인이 되어 있지 않은 문서는 검색이 되지 않으며, 또한 부적합 문서에 색인이 되어 있으면 부적합 문서들이 다수 검색되기 때문에 정확률이 낮아지게 된다.이 낮아지게 된다.

The Efficient Text Documents Browsing on World Wide Web (웹에서 효율적인 텍스트 문서 브라우징)

  • 김원중;조이기;손철수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.457-459
    • /
    • 2001
  • 웹의 등장으로 우리는 현재 멀티미디어 정복까지도 쉽게 이용할 수 있게 되었지만, 웹에서의 텍스트 문서정보의 브라우징(Browsing)은 많은 마우스 클릭과 스크롤링을 필요로 하고 있다. 또한 현재의 웹 텍스트 문서의 브라우징은 문서의 내용이 클 경우 검색자가 현재 브라우징하고 있는 문서가 본인이 필요로 하는 것인지, 아닌지를 판단하는데 많은 시간과 노력을 요구한다. 본 논문에서는 문서의 제목 부분과 내용 단락의 전체가 아닌 1-2줄만으로도 문서의 전체 윤곽을 쉽게 파악할 수 있다는데 착안하여 웹에서의 효율적인 텍스트 문서 브라우징 시스템을 개발하였다.

  • PDF

A Design of Component based Document Management System Using Messaging Server (메시징 서버를 이용한 콤포넌트 기반의 문서관리 시스템 설계)

  • 허성영;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.181-183
    • /
    • 2000
  • 본 논문에서는 메시징 서버를 이용한 문서 관리 시스템을 제안한다. 본 문서관리 시스템은 각 구성 부분들을 콤포넌트 단위로 설계하고, 메시징 서버를 기본 엔진으로 사용한다. 엔진으로 메시징 서버를 사용하면 각각의 문서를 하나의 객체로 처리할 수 있게 되어 문서 객체들에 대한 직접적인 관리가 가능해지므로 프로젝트 관리, 문서 권한 관리, 새로운 문서 유형의 추가 수정등이 용이하고, 문서들을 계층적 구조로 저장 검색하기에 용이하다. 이 시스템은 워크플로우와 같은 메시징 기반의 시스템과의 연동에 쉽게 적용될 수 있다.

  • PDF

Advanced Clustering Algorithm for Documents Visualization (문서 시각화를 위한 개선된 클러스터링 알고리즘)

  • 신광철;한상용
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.256-258
    • /
    • 2002
  • 본 논문은 주어진 문서집합에 대한 유사도 검사를 통해 주어진 문서집합의 내용을 사용자가 직관적으로 파악할 수 있도록 하는 클러스터링 시각화 알고리즘에 관한 것이다. 제안하는 방법의 핵심은 주어진 문서 집합의 각 문서 사이의 유사도를 측정하여 각 문서 주변의 밀집도를 파악하고, 밀집도가 높은 문서들을 묶어 하나의 클러스터로 구성한 후, 구성된 각각의 클러스터의 키워드를 제공함으로 사용자가 해당 문서 집합의 내용을 보다 직관적으로 파악할 수 있도록 한 것이다. 우리는 TIME 데이터 집합에 대해 제시하는 알고리즘을 적용해 실험한 후 그 결과를 기존의 spherical k-means에 의해 클러스터링한 결과와 비교하여 제안하는 방법이 사용자에게 더 나은 시각화 정보를 제공함을 알아보았다.

  • PDF

Design of XML Based Publish System for Multipurpose Contents (XML 기반 다목적 컨텐츠 출판 시스템의 설계)

  • 김연혜;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.82-84
    • /
    • 2002
  • 개인용 컴퓨터의 대중화가 이루어지면서 수많은 전자 문서가 작성되어졌다. 그러나 전자 문서의 검색 문제와 문서의 3가지 구성요소인 내용, 구조, 표현의 혼재로 인한 문서의 재작성이 많이 일어났다 이러한 소모적인 문서의 재작성은 특히 동일한 컨텐츠를 가진 여러 목적의 출판에서 두드러진다. 본 논문에서는 이러한 전자 문서의 재작성을 줄이고자 XML 기반 다목적 컨텐츠 출판 시스템을 설계한다. 본 논문에서 설계된 시스템은 전자 문서 변환을 2단계로 분리함 으로써 변환기 중복 구현을 최소화하고 전자 문서 편집기간의 호환성 문제를 해결한다.

  • PDF