• 제목/요약/키워드: 문서과

검색결과 2,264건 처리시간 0.03초

도합유사도를 이용한 한국어 추출문서 요약 (Korean Indicative Summarization Using Aggregate Similarity)

  • 김재훈;김준홍
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다. 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서요약 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC 에서 구축한 신문기사 105 건을 이용하였다. 문서요약 시스템에 의해서 생성된 요약문서의 크기가 본문 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

도합유사도를 이용한 한국어 추출문서 요약 (Korean Indicative Summarization Using Aggregate Similarity)

  • 김재훈;김준홍
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서 시스템에 의해서 생성된 문서의 크기가 본문의 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF

문서 단편화 기법을 이용한 XML 변환기의 설계 및 구현 (Development of an XML Converter using Document Fragmentation Method)

  • 정창후;최윤수;주원균;진두석;김광영;이민호;서정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.214-216
    • /
    • 2004
  • 최근 다양한 응용 분야에서 점차 증가하고 있는 XML 문서에 대한 효과적 검색을 위해서 많은 검색 시스템들이 제안되고 있다. 그러나 이러한 검색 시스템은 XML 문서의 구조적 특성을 명확하게 알지 못하거나 질의어 작성에 익숙하지 못한 사용자에게 XML 문서를 검색하는데 많은 어려움을 주고 있다. 이러한 문제를 해결하기 위해 본 논문은 복잡한 계층의 XML 문서를 의미 있는 엘리먼트를 중심으로 계층을 단순화시켜서 검색에 이용할 수 있도록 도와주는 XML 문서 변환기를 제안한다. XML 문서 변환기는 XML 문서의 부모-자식 관계, 형제 관계 등의 계층 정보를 유지하면서 문서를 단편화 시켜주는 도구이다. XML 문서 변환기와 더불어 이것을 이용하여 구현된 XML 문서 검색 시스템의 계층적 출력 인터페이스에 대하여 함께 설명하도록 한다.

  • PDF

복잡환 다단 문서 영상으로부터 구조화된 하이퍼문서의 자동 생성 (Automatic Generation of Structured Hyperdocuments from Multi-Column Document Images)

  • 이지연;강희중;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.458-460
    • /
    • 1999
  • 본 논문에서는 다양한 객체를 포함한 다단 문서 영상을 원본 문서와 거의 유사한 형태의 HTML 문서로 변환할 수 있는 방법을 제안한다. 또한 논문이나 매뉴얼, 책의 한 단원 등 여러장의 입력 문서의 경우, 문서의 논리적인 구조 분석을 수행하고 장이나 절 등의 섹션 제목들을 계층화하여 다단 문서의 변환과 동시에 구조화된 목차 페이지도 함께 자동 생성하는 방법을 제안한다. 제안된 다단 문서 변환 알고리즘을 잡지, 신문, 광고지, 매뉴얼 등, 비정형화된 문서에 적용한 결과, 원본 문서의 형태와 구조에 큰 변함없이 유사하게 변환되었고, 논리적인 구조 분석 및 섹션 제목들의 계층화 작업 또한 정확히 수행되어 구조화된 목차 페이지의 자동 생성이 가능하였다.

  • PDF

다양한 서식 문서에서 선에 의해 훼손된 문자열 복원 (Restoration of Character String Stained with Line in Various Kinds of Form Documents)

  • 이창현;이관용;김경환;최영우;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.479-481
    • /
    • 1999
  • 현 사회에서 사용하고 있는 문서들은 양식을 가지고 있는 서식문서가 대부분이며, 이러한 양식을 가지고 있는 서식문서는 사회가 발전함에 따라 전자 문서로의 변경이 요구되고 있다. 그러나 서식문서를 전자 문서로 바꾸는 작업은 쉬운 일이 아니며, 이 작업을 위해 문자인식 기술이 요구된다. 특히 서식문서에서 문자의 인식률을 높이기 위해서는 문서양식의 라인과 겹쳐진 문자에 대하여 라인제거 및 문자 복원이 필수적이며, 또한 대부분의 서식 문서의 양식에 기입하는 내용은 문자열로 구성되어 있으므로 문자복원에 있어서 낱자 단위의 문자복원이 아닌 문자열 단위의 문자복원이 필요하다. 본 논문에서는 다양한 서식문서에서 라인과 겹쳐진 문자 영상에 대해 문자열 단위의 라인제거 및 복원하는 방법을 제안한다.

  • PDF

웹기반 전자결재 시스템 상호간의 공문서 교환에 관한 연구 (A Study On Public Document Interchange In the Web-Based Electronic Approval System)

  • 정화자;박동현;이춘원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.412-414
    • /
    • 2001
  • 정보시스템 구축이란 필연적인 수단의 대안으로 제시되고 있는 것이 인트라넷 환경이다. 그러나 사용자들은 단지 전자메일이나 전자게시판만보다 효율적으로 인트라넷 환경을 이용할 수 있는 Workflow 개념을 절실히 요구하고 있으며, 그 대표적인 예인 전자결재시스템이 기업의 업무에 적용되기를 원하고 있다. 하지만, 상용화된 현재의 그룹웨어 시스템간의 문서 호환성 결여는 인터넷이라는 통합 패러다임에 역행하는 결과를 낳게 되었고, 그룹웨어 시스템간의 정보의 공유와 확장성을 고려하지 않을 수 없게 되었다. 컴퓨터 환경의 보편화로 문서의 전자화와 문서관리 전자문서화로 변하고 있으며, 전자상거래와 전자문서교환, 전자문서관리시스템에서는 기본적으로 종이 문서를 사용하지 않지만, 아직도 문서 교환의 많은 부분이 팩스나 종이로 이루어지고 있다. 본 논문에서는 웹 표준 문서 포맷 기술로 자리잡고 있는 SML(eXtensible Markup Language)을 이용하여 웹기반 전자결재시스템 상호간의 문서호환성을 해결하기 위한 표준 문서 교환 시스템에 대한 프로토타입을 설계하고 이를 구현하였다.

  • PDF

문서의 계층화를 이용한 문서비교 방법 (The Method of Document Comparison using Document Hierarchy)

  • 황명권;공현장;황광수;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.143-147
    • /
    • 2006
  • 오늘날 웹의 비약적인 성장으로 텍스트, 이미지, 비디오, 그리고 사운드 등의 다양한 데이터 형식의 많은 정보가 축적되었으며 날마다 늘어나고 있다. 이들 정보의 효율적 검색을 위해 많은 연구가 이루어졌으며, 특히 텍스트 문서의 효율적인 검색을 위해 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다. 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 사용자가 원하는 문서와 비슷한 문서를 의미적으로 찾아내기 위한 방법을 제안한다. 본 방법론은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두어 각 문서들의 계층들의 도메인 비중과 도메인 내의 개념 일치도를 이용하여 문서들 간에 유사도를 구한다.

  • PDF

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

문서의 효율적인 검색을 위한 HTML 문서 변환 시스템 (HTML Document Conversion System for Effective Retrieval of Text Document)

  • 김수의;장대용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.184-186
    • /
    • 2000
  • 이 연구에서는 텍스트 문서를 웹에서 HTML 문서 형태로 효율적으로 검색할 수 있는 변환 시스템을 개발하였다. 웹상에 사용자가 원하는 부분만을 HTML 문서 형태로 제공하도록 문서의 논리적인 구조를 파악하며 그 구조에 대한 정보와 각 논리 단위에 해당하는 부분의 범위 정보를 저장할 수 있도록 관계형 데이터베이스 스키마를 개발하였다. 개발한 시스템은 문서의 목차 테이블을 자동으로 구축하고 목차 테이블의 각 항목에 하이퍼링크를 설정한다. 문서를 웹에서 검색하기 위한 첫 화면은 목차 테이블이며, 그 중 한 항목이 클릭되면 그 항목의 내용이 제공되고, 만약 그 하위에 속하는 항목들이 있다면 그들에 대한 링크를 역시 제공한다. 이러한 방법으로 한 문서의 전체를 그 논리 구조에 따라 사용자가 원하는 대로 검색할 수 있다. 이 시스템은 멀티미디어 타입의 문서를 하이퍼미디어 문서 형식으로 변환할 수 있도록 확장하여 보완 개발될 수 있고, 장래에 전자 출판과 전자 도서관에 응용될 수 있다.

  • PDF

유연성있는 웹 기반의 문서관리 시스템 (A Flexible Web-based Document Management System)

  • 김규완;김인호;정재훈;정수권;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.222-224
    • /
    • 1998
  • 정보통신 분야에서의 최근의 기술적인 발전에 힘입어 인트라넷을 기반으로 한 조직내 업무를 자동화하고, 또한 정보 공유를 통해 생산성을 향상하기 위하여 많은 정보시스템이 구축되고 있다. 이러한 정보시스템은 조직의 성격에 따라 유연성있게 변화하면서 기술문서 등 여러 가지 종류의 문서들을 효과적으로 관리할 수 있도록 지원하는 것이 바람직하다. 본 연구에서는 각종 기술문서 등의 다양한 문서를 효과적으로 관리하기 위한 정보시스템을 설계하였다. 설계된 웹 문서관리 시스템은 체계적인 사용자인증을 통하여 조직내의 다양한 문서들에 대하여 계층적으로 문서 정보조직을 구성하고 이를 이용하여 문서를 등록하고, 등록된 문서 정보를 통하여 문서를 검색하는 기능을 지원한다.

  • PDF