• 제목/요약/키워드: 디지털 문서

검색결과 479건 처리시간 0.03초

문서 유사도를 통한 관련 문서 분류 시스템 연구 (Related Documents Classification System by Similarity between Documents)

  • 정지수;지민규;고명현;김학동;임헌영;이유림;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.77-86
    • /
    • 2019
  • 본 논문은 머신 러닝 기술을 이용하여 과거의 수집된 문서를 분석하고 이를 바탕으로 문서를 분류하는 방법을 제안한다. 특정 도메인과 관련된 키워드를 기반으로 데이터를 수집하고, 특수문자와 같은 불용어를 제거한다. 그리고 한글 형태소 분석기를 사용하여 수집한 문서의 각 단어에 명사, 동사, 형용사와 같은 품사를 태깅한다. 문서를 벡터로 변환하는 Doc2Vec 모델을 이용해 문서를 임베딩한다. 임베딩 모델을 통하여 문서 간 유사도를 측정하고 머신 러닝 기술을 이용하여 문서 분류기를 학습한다. 학습한 분류 모델 간 성능을 비교하였다. 실험 결과, 서포트 벡터 머신의 성능이 가장 우수했으며 F1 점수는 0.83이 도출되었다.

대용량 XML 문서 처리를 위한 기본도구

  • 채진석
    • 디지털콘텐츠
    • /
    • 9호통권76호
    • /
    • pp.19-21
    • /
    • 1999
  • XML을 여러 응용에서 활용하기 위해서는 문서 작성을 도와주는 도구 및 관련 S/W들이 필요하다. 여기서는 XML문서 처리의 가장 기본이 되는 XML파서와 DTD편집기, XML편집기, XSL 편집기 등의 저작 도구를 설명하고, 일반적인 XML문서를 위한 브라우저와 수학, 화학, 음악 등 특수 분야의 브라우저에 대해 소개한다.

  • PDF

XML 기반 가상문서에서의 멀티미디어 및 구조적 문서의 표현과 처리 (Representing and Processing Multimedia and Structured Documents For XML-Based Virtual Documents)

  • 박천수;임동수;박종현;강민구;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.246-248
    • /
    • 2000
  • 가상문서는 웹 상에 존재하는 내용 중에서 원하는 부분만을 링크를 이용해 새로운 문서를 생성하는 개념이다. 본 논문에서는 가상문서를 지원하는 디지털 도서관 시스템에서 텍스트, 이미지 데이터뿐 아니라 멀티미디어 데이터와 구조적 의미를 갖는 데이터를 처리 가능하도록 DTD의 표기법을 확장하였다. 또한, 저작도구에서 생성된 내포링크, 참조링크, 총칭링크 등 다양한 의미의 가상무서를 브라우징 가능하도록 문서 변환기에서 멀티미디어와 구조적 문서를 처리하기 위한 방법을 제시하였다.

  • PDF

웹 문서 검색을 위한 한글 MG 시스템의 확장 (An Extension of Hangul MG System for Web Document Retrival)

  • 김범수;나연묵
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.290-292
    • /
    • 2000
  • 최근 국대 인터넷 발전과 더불어 검색엔진들의 수요가 많아지고 있어 크고 작은 검색엔진들이 많이 개발되고 있다. 기존의 디지털 라이브러리에 사용되고 있는 정보 검색 엔진인 한글 MG 시스템을 웹 문서 검색에 적용하는데는 어려움이 있었다. 본 논문은 한글 MG 시스템을 기반으로 웹 사이트의 내부 문서 검색이 가능한 소형검색엔진으로 확장하는데 필요한 웹 로봇에 의한 문서 수집, 수집된 문서의 가공, 메타 데이터의 데이터베이스와, 단락 대 문서 사상, 문서 검색을 위한 질의 루틴의 수정과 웹 검색 및 시스템 관리 인터페이스에 대한 방안들을 제안하여 확장 시스템을 설계하고 구현하였다.

  • PDF

디지털 도서관 환경에서의 정보 검색을 위한 자연어 문서 및 질의 처리기에 관한 연구 (A Study on Natural Language Document and Query Processor for Information Retrieval in Digital Library)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권12호
    • /
    • pp.1601-1608
    • /
    • 2001
  • 디지털 도서관은 자연어 문서와 멀티미디어 자료에 대한 정보 검색 엔진을 필요로 하는 가장 중요한 데이터베이스 시스템이다. 이 논문은 자연어 처리 기법의 정보 검색 엔진과 브라우저에 대한 설계와 실험 결과를 소개한다. 자연어 문서에 대한 정보 검색 과정은 어휘 분석, 구문 분석, 스테밍, 주제어 색인 등의 계산학적 처리를 포함한다. 많은 이미지와 이미지의 제목, 그리고 자연어로 기술된 설명 문서를 포함하는 실험적인 데이터베이스 ‘Earth and Space Science’를 통해서 자연어 문서 분석에 기반하는 정보 검색 기능을 실험하였다. 또한 디지털 도서관 환경에서의 멀티미디어 정보 검색 내용 기반의 이미지 검색 엔진과 병행하는 정보 검색 시스템으로서의 가능성을 보여준다.

  • PDF

텍스트 문서 영상 컨텐츠의 부활 (Revival of Text Document Image Contents)

  • 오일석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.96-102
    • /
    • 2003
  • 인류의 자식은 문서와 문서라는 형태를 통해 오랜세월 축적되어 왔다. 최근 컴퓨터 기술과 인터넷의 발전으로 인해 문서의 제작과 제공 패러다임이 아날로그 방식에서 디지털 방식으로 급속히 바뀌고 있다. 이러한 과정에서 기존 컨텐츠는 아날로그 형태로 존재하나 새로 발생하는 컨텐츠는 디지털 형태를 갖게되므로 존재 방식에 큰 간격이 발생하여 여러 문제를 야기할 수 있다. 이 논문은 텍스트 문서 영상 컨텐츠에 대해 이러한 간격을 줄이기 위한 방안을 고찰한다.

  • PDF

웹 환경에서의 가상교육 시스템 설계 및 구현 (Design and Implementation of a Virtual Education System on the Web Environment)

  • 노진순;이용배;맹성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.595-597
    • /
    • 2001
  • World-Wide Web으로 인하여 인터넷 상의 다양하고 고품질의 자료들을 교육 자료에 손쉽게 활용할 수 있는 시대가 도래하였다. 그러나 이러한 자료들은 교육적 효과를 극대화시키기 위해서 좀 더 정제되고, 교육과정에 맞는 흐름을 가질 필요가 있다. 이러한 과정의 흐름을 제공하기 위해서는 웹 상에서 분산되어 독립적으로 존재하는 디지털 문서들을 교육 목적에 맞게 새로운 순서, 즉 문맥화된 순서를 가진 자료로 재구성할 수 있어야 하며, 문서간의 부드러운 내용 전개를 위해서 부가적인 설명이나 기존 문서에 빠져 있는 내용들을 보완할 수 있어야 한다. 본 논문의 연구과정에서 개발된 가상교육 시스템은 교사가 교육용 지식문서를 작성하여 면대면(face to face) 교육에서는 직접 학생들을 교육할 수 있는 교육 자료로 사용될 수 있을 뿐만 아니라 웹을 통해서는 학생 스스로가 부족한 부분을 원하는 시간에 학습할 수 있는 능동적인 교육 환경을 제공할 수 있다. 또한, 가상교육 시스템에 가상문서 개념을 도입함으로써 인터넷 상의 수많은 리소스들을 인용하는 것에 대한 부하를 막을 수 있다. 본 논문에서는 인터넷 상의 디지털 컨텐츠를 전문적인 지식을 가진 교사가 교육과정에 맞게 쉽게 재구성해 줄 수 있도록 가상교육 시스템을 설계 및 구현한 내용에 대해 기술한다.

  • PDF

모바일 환경에서의 XML 문서 디지털 서명 시스템 (XML Digital signature System based on Mobile Environment)

  • 학일명;홍현우;이성현;이재승;정희경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.701-704
    • /
    • 2007
  • 최근 모바일 단말기를 통하여 휴대폰 결제, 계좌 이체, 주식 투자 등의 금융서비스를 이용하는 사용자가 증가하고 있다. 모바일 전자상거래에서 데이터는 XML 문서형태로 전송, 교환되고 있다. 그러나 XML 문서는 해킹이나 악성코드로 공격받게 될 경우 일반적인 XML 문서만으로는 전자상거래의 보안요구를 만족시키기 어렵다. 특히 현재 국내에서 개발된 WIPI(Wireless Internet Platform for Interoperability)의 경우, 개방적인 플랫폼으로서 집중적인 공격에 대비해야 할 필요성이 있다. 이에 본 논문에서는 모바일 환경에서 XML 문서의 디지털 서명에 관련한 W3C 권고안의 요구사항에 따라 기존의 RSA(Rivest Shamir Adleman), DSA(Digital Signature Algorithm), KCDSA(Korean certificate Digital Signature Algorithm) 및 HMAC(Hash Message Authentication Code) 알고리즘을 사용하여 모바일 환경에서의 XML 문서 디지털 서명 시스템을 설계 및 구현하였다. 본 시스템은 국내 무선 인터넷 표준인 WIPI 플랫폼에서 테스트를 진행하였다.

  • PDF

XML 기반의 본문검색 미들웨어 시스템 설계 및 구현 (Design and Implementation of the Search Inside Middleware System by using XML)

  • 김효남
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.229-232
    • /
    • 2011
  • 최근 스마트 디바이스 기반의 다양한 콘텐츠 제작 공급에 대한 새로운 마켓 시장 형성과 태블릿 디바이스 기반의 전자책 시장 규모의 확대에 따른 새로운 유형의 디지털 콘텐츠 시장이 형성되고 있다. 디지털 미디어는 정보환경 범위를 종이의 범위에서 벗어나 매체와 연계한 다양한 형태로의 변화뿐만 아니라 서술 방식과 소통방식의 방법에도 변화를 발생하였다. 그리고 지면에서 국한된 아날로그 매체의 물리적, 공간적, 시간적인 한계를 뛰어넘어 다양한 콘텐츠를 손쉽게 접근할 수 있게 만들었다. 이런 환경에서 본문검색 서비스는 아날로그와 디지털 매체의 상호 공존관계를 형성할 수 있다. 본 논문에서는 그림종이문서를 본문검색이 가능한 이미지형태의 디지털문서로 변환해주는 디지털라이징 시스템으로 문자위치정보를 포함하는 광학문자인식(OCR)기능과 인식된 문자의 오류를 수정하는 에디터기능을 통해 추출된 내용을 XML형태로 제공하는 본문검색 시스템을 제안한다. 특히, 문자인식 후처리 공정에서 복수의 관학문자인식(OCR)엔진을 통해 결과 비교와 문자위치 정보 확인 및 편집, 맞춤법 검사 등의 특화된 기능 등은 본 논문에서 가지는 강점으로 디지털문서 구축에 소요되는 시간과 비용을 혁신적으로 절감시켜준다.

  • PDF

MIRAGE의 OAI지원 기능을 위한 Data Provider 설계 와 구현 (A Design and Implementation of Data Provider for Developing Features Supporting OAl in MIRAGE)

  • 지용인;이종필;이현숙;이만호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.169-171
    • /
    • 2002
  • MIRAGE는 XML을 기반으로 하는 가상문서라는 개념을 도입하여 인터넷 상의 정보 공유를 가능하게 하여 새로운 지식을 생성할 수 있도록 한 디지털도서관 시스템이다. OAI는 컨텐츠에 대한 메타데이터를 이용해서 디지털도서관 안에 있는 정보를 상호이용하기 위한 프로토콜이다. 본 논문에서는 MIRAGE에 OAI 지원 기능을 첨가하여 MIRAGE 시스템에 의해 만들어진 가상문서에 대한 메타데이터를 제공하는 data provider를 구현하여 다른 디지털도서관과 더불어 정보를 상호이용할 수 있도록 하였다. 또한 원문에 대한 접근을 원하는 사용자를 위해서 메타데이터의 원문에 직접 접근할 수 있도록 하였다.

  • PDF