• 제목/요약/키워드: Document Processing System

검색결과 394건 처리시간 0.022초

GPU 병렬성을 이용한 문서 유사도 계산 성능 개선 (Improving the Performance of Document Similarity by using GPU Parallelism)

  • 박일남;배병걸;임은진;강승식
    • 정보처리학회논문지B
    • /
    • 제19B권4호
    • /
    • pp.243-248
    • /
    • 2012
  • 정보검색 분야에서 벡터 모델, 문서 클러스터링 등은 입력 문서 개수가 증가할수록 유사도 계산 속도가 시스템의 성능에 많은 영향을 미치고 있다. 본 논문에서는 문서 유사도 계산 성능을 향상시키기 위하여 유사도를 계산하는 연산을 CPU 대신에 GPU를 이용하는 CUDA 프레임워크에서 병렬처리 기법으로 구현하는 방법을 제안하였다. 이 방법은 보편적인 방식인 CPU 환경에서 구현했을 때와 비교할 때 최대 15배까지 성능이 향상되었다. 또한, 기존의 CUDA 라이브러리인 CUBLAS와 Thrust를 사용한 방법보다도 각각 5.2배, 3.4배의 성능 개선 효과가 있음을 확인하였다.

내장형 XML문서 데이터베이스 관리 시스템의 설계 및 구현 (Design and Implementation Embedded XML Document DataBase Management System)

  • 안병태;서익진
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.103-116
    • /
    • 2005
  • PDA와 같은 내장형 컴퓨팅 기술이 발달하면서 PIMS와 같은 다양한 응용들이 개발되었다. 그리고, 이들 응용 시스템들간 XML 문서를 통한 데이터 공유와 정보 교환이 활발히 이루어지고 있다. 이에 따라 데이터 처리량이 점점 증가하게 되어 내장형 시스템에서도 XML 문서 데이터베이스 관리 시스템의 필요성이 점점 대두되고 있다. 그런데 하드웨어적으로 많은 제약을 갖는 대부분의 내장형 시스템에서는 XML 문서를 처리하기 위하여 자체 파일 시스템을 이용하고 있다. 이로 인해 타 응용과의 효율적인 데이터 공유와 정보 교환, 그리고 효율적인 데이터 처리에 많은 애로사항이 발생하고 있다. 본 논문에서는 이러한 내장형 시스템 응용의 XML 문서를 통한 데이터 공유와 정보 교환을 효율적으로 지원하기 위한 내장형 XML문서 데이터베이스 관리 시스템을 설계 및 구현하였다.

  • PDF

An Ontology-based Knowledge Management System - Integrated System of Web Information Extraction and Structuring Knowledge -

  • Mima, Hideki;Matsushima, Katsumori
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2005년도 e-Biz World Conference 2005
    • /
    • pp.55-61
    • /
    • 2005
  • We will introduce a new web-based knowledge management system in progress, in which XML-based web information extraction and our structuring knowledge technologies are combined using ontology-based natural language processing. Our aim is to provide efficient access to heterogeneous information on the web, enabling users to use a wide range of textual and non textual resources, such as newspapers and databases, effortlessly to accelerate knowledge acquisition from such knowledge sources. In order to achieve the efficient knowledge management, we propose at first an XML-based Web information extraction which contains a sophisticated control language to extract data from Web pages. With using standard XML Technologies in the system, our approach can make extracting information easy because of a) detaching rules from processing, b) restricting target for processing, c) Interactive operations for developing extracting rules. Then we propose a structuring knowledge system which includes, 1) automatic term recognition, 2) domain oriented automatic term clustering, 3) similarity-based document retrieval, 4) real-time document clustering, and 5) visualization. The system supports integrating different types of databases (textual and non textual) and retrieving different types of information simultaneously. Through further explanation to the specification and the implementation technique of the system, we will demonstrate how the system can accelerate knowledge acquisition on the Web even for novice users of the field.

  • PDF

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법 (A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing)

  • 김현주;박소미;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.113-120
    • /
    • 2010
  • 정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

SGML 문서 저작 도구 (An SGML Document Authoring Tool)

  • 안보희;유재우;송후봉
    • 한국정보처리학회논문지
    • /
    • 제6권2호
    • /
    • pp.512-521
    • /
    • 1999
  • ISO 8879로 정의된 SGML은 문서의 논리적 구조를 정의하는 메타언어로서 전자문서의 기본 형식으로 많이 사용되고 있다. SGML 문서는 문서구조 정의와 이에 따라 작성된 실제문서로 구성되므로 저작 도구는 문서구조와 실제문서를 모두 작성하고 검증할 수 있어야 한다. 그러나 SGML 문서처리를 위한 정형화된 모델과 절차가 존재하지 않으므로 이러한 도구의 구성이 쉽지 않다. 본 연구에서는 SGML 구문분석기, 문서구조 정의를 위한 편집기, SGML 문서 편집기 및 형식 편집기 등으로 구성된 모형과 각 구성 요소의 정형화된 처리 방법을 제안하고 구현하였다. 사용자의 편의를 위하여 아이콘 기반의 시각 프로그래밍 기법을 사용하였으며, 한글 문제점들을 해결하는 통합적 문서 저작 환경을 윈도우즈 NT 시스템에서 java와 C++ 언어를 사용하여 구현하였다.

  • PDF

구문의미트리 비교기를 이용한 유사문서 판별기 (Discriminator of Similar Documents Using the Syntactic-Semantic Tree Comparator)

  • 강원석
    • 한국콘텐츠학회논문지
    • /
    • 제15권10호
    • /
    • pp.636-646
    • /
    • 2015
  • 정보사회에 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 그 필요성에 따라 많은 연구가 이루어지고 있으나 자연어 처리의 문제가 유사 문서 판별의 질 향상에 제약이 되었다. 최근 구문의미분석의 기술을 접목하여 유사문서 판별의 성능을 향상을 시도하였으나 구문의미분석의 결과인 구문의미트리를 비교하는 어려움이 있었다. 본 논문은 구문의미트리의 유사도를 계산하는 구문의미트리 비교기를 개발하고 이를 이용하여 유사문서를 판별하는 시스템을 설계, 구현한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미트리 비교기를 이용한 유사문서 판별기의 성능을 검증할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

콘도르 정보 검색 시스템 (Information Retrieval System : Condor)

  • 박순철;안동언
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.31-37
    • /
    • 2003
  • 본 연구는 다중어 질의어를 제공하는 대용량 정보검색 시스템, 콘도르에 대한 고찰이다. 이 시스템은 전북대학교, (주)서치라인, 그리고 카네기멜론 대학교가 컨소시엄 형태로 개발하였다. 이 시스템의 질의처리는 확률 모델을 기반하고 있으며 최근 정보검색 시스템에서 제공하는 문서 클러스터링 기능을 제공하고 있다. 특히 시스템의 특징은 다중어 질의어를 처리하고 질의를 중심으로 온라인으로 문서를 클러스터링하고 요약하는 것이다. 본 시스템은 이미 국내의 3,000만개 웹페이지에 대한 테스트를 마쳤으며 그 안정성을 확보하고 있다.

  • PDF

구조화된 전자문서 생성을 위한 사용자 중심의 XML 문서편집 시스템에 관한 연구 (Study of XML document editing system that is creation for structural digital document)

  • 차원준;황재각;이용준;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2003년도 춘계종합학술대회
    • /
    • pp.277-280
    • /
    • 2003
  • 초기의 웹(Web)이 비구조적인 문서를 사용함으로써 발생하는 단점인 문서 처리와 교환 및 재사용성에 대한 해결책으로서 W3C(World Wide Web Consortium)에서 1998년 2월에 XML(extensible Markup Language)을 제정하였다. XML을 사용함으로써 기존 전자거래는 XML 기반 메시지 교환을 통한 기업간 전자거래 형태로 변화하고 있으며, 이러한 기업간 전자거래에 사용되는 XML 기반의 구조화된 전자문서를 저작 할 수 있는 솔루션에 대한 필요성이 대두되었다. 이에 본 논문에서는 XML 문서를 효율적으로 편집 및 저작 할 수 있는 사용자 중심의 XML 인스턴스 편집기와 XML 문서의 구조를 정의하는 XML 스키마 문서를 저작하기 위한 XML 스키마 편집기를 통합한 XML 문서편집 시스템에 관한 연구를 하였다.

  • PDF

구조화된 전자문서 생성을 위한 사용자 중심의 XML 문서편집 시스템 (XML document editing system that is creation for structural digital document)

  • 최일선;이용준;정회경
    • 한국정보통신학회논문지
    • /
    • 제7권3호
    • /
    • pp.513-518
    • /
    • 2003
  • 초기의 웹(Web)이 비구조적인 문서를 사용함으로써 발생하는 단점인 문서 처리와 교환 및 재사용성에 대한 해결책으로서 W3C(World Wide Web Consortium)에서 1998년 2월에 XML(eXtensible Markup Language)을 제정하였다. XML을 사용함으로써 기존 전자거래는 XML 기반 메시지 교환을 통한 기업간 전자거래 형태로 변화하고 있으며, 이러한 기업간 전자거래에 사용되는 XML 기반의 구조화된 전자문서를 저작할 수 있는 솔루션에 대한 필요성이 대두되었다. 이에 본 논문에서는 XML 문서를 효율적으로 편집 및 저작 할 수 있는 사용자 중심의 XML 인스턴스 편집기와 XML 문서의 구조를 정의하는 XML 스키마 문서를 저작하기 위한 XML 스키마 편집기를 통합한 XML 문서편집 시스템에 관한 연구를 하였다.

DISSECTION TECHNIQUE FOR EFFICIENT JOIN OPERATION ON SEMI-STRUCTURED DOCUMENT STREAM

  • Seo, Dong-Hyeok;Lee, Dong-Gyu;Ryu, Keun-Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2007년도 Proceedings of ISRS 2007
    • /
    • pp.11-13
    • /
    • 2007
  • There has been much interest in stream query processing. Various index techniques and advanced join techniques have been proposed to efficiently process data stream queries. Previous proposals support rapid and advanced response to the data stream queries. However, the amount of data stream is increasing and the data stream query processing needs more speedup than before. In this paper, we proposed novel query processing techniques for large number of incoming documents stream. We proposed Dissection Technique for efficient query processing in the data stream environment. We focused on the dissection technique in join query processing. Our technique shows efficient operation performance comparing with the other proposal in the data stream. Proposed technique is applied to the sensor network system and XML database.

  • PDF