• 제목/요약/키워드: Document Processing System

검색결과 397건 처리시간 0.023초

Incorporating Deep Median Networks for Arabic Document Retrieval Using Word Embeddings-Based Query Expansion

  • Yasir Hadi Farhan;Mohanaad Shakir;Mustafa Abd Tareq;Boumedyen Shannaq
    • Journal of Information Science Theory and Practice
    • /
    • 제12권3호
    • /
    • pp.36-48
    • /
    • 2024
  • The information retrieval (IR) process often encounters a challenge known as query-document vocabulary mismatch, where user queries do not align with document content, impacting search effectiveness. Automatic query expansion (AQE) techniques aim to mitigate this issue by augmenting user queries with related terms or synonyms. Word embedding, particularly Word2Vec, has gained prominence for AQE due to its ability to represent words as real-number vectors. However, AQE methods typically expand individual query terms, potentially leading to query drift if not carefully selected. To address this, researchers propose utilizing median vectors derived from deep median networks to capture query similarity comprehensively. Integrating median vectors into candidate term generation and combining them with the BM25 probabilistic model and two IR strategies (EQE1 and V2Q) yields promising results, outperforming baseline methods in experimental settings.

PDFindexer: Distributed PDF Indexing system using MapReduce

  • Murtazaev, JAziz;Kihm, Jang-Su;Oh, Sangyoon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제4권1호
    • /
    • pp.13-17
    • /
    • 2012
  • Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

빅데이터 관리를 위한 문서형 DB 기반 로그관리 시스템 설계 (Design of Log Management System based on Document Database for Big Data Management)

  • 류창주;한명호;한승조
    • 한국정보통신학회논문지
    • /
    • 제19권11호
    • /
    • pp.2629-2636
    • /
    • 2015
  • 최근 IT 분야에서 빅데이터 관리에 대한 관심이 급증하고 있으며, 빅데이터의 실시간 처리 문제를 해결하기 위해 많은 연구가 진행되고 있다. 네트워크상에서 주고받는 데이터를 실시간으로 저장하는 기능으로 인해 리소스가 많이 필요한 반면, 높은 비용적 측면 때문에 분석 시스템 도입에 문제가 야기 되고 있으며 이러한 문제점 해결을 위해 저비용 고효율성을 만족하는 시스템 재설계의 필요성이 증가되고 있다. 본 논문에서는 빅 데이터 관리를 위한 문서형 DB기반 로그관리 시스템을 설계하기 위해서 문서형 데이터베이스인 MongoDB를 사용하였으며, 제안하는 로그관리 시스템을 통해 고효율의 로그 수집 및 처리와 위,변조에 안전한 로그 데이터 저장을 확인한다.

문서 영상의 그림 영역에서 통계적 분석을 이용한 단어 영상 추출 (Word Image Decomposition from Image Regions in Document Images using Statistical Analyses)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.591-600
    • /
    • 2006
  • 본 논문에서는 문서 영상의 그림 영역에서 통계적 분석을 통한 단어 영상을 추출하는 방법을 제안한다. 제안 방법은 그림 영역의 구성 요소를 문자 성분과 그래픽 성분으로 분류하기 위하여 연결요소에 대한여 통계적 분석 방법인 상자그림 분석을 적용하고, 분류된 문자 성분들에 대하여 지역적 밀집도를 분석하여 문자 영역을 추출한다. 추출된 문자 영역에서 투영 히스토그램 분석을 통하여 문자열을 추출하고, 문자열을 단어단위 영상으로 분리하기 위하여 투영 히스토그램 분석과 갭 군집화, 특수 기호 검출 등을 수행한다. 제안 방법은 임계값의 사용 대신에 그림 영역의 구성 요소들에 대하여 통계적 분석을 수행하기 때문에 그림의 형태 변화에 민감하지 않으며, 지역적 밀집도 분석으로 보다 정확한 문자 영역을 추출하였다. 또한 제안 방법의 응용 분야인 주제어 검색을 위한 오프라인의 전처리에 해당하는 문서 영상의 단어단위 영상 추출에 적용하여 제안 방법에 대한 연구의 필요성을 제시하였다.

웹에서의 XML 문서 접근 제어 시스템의 설계 및 구현 (Design and Implementation of an Access Control System for XML Documents on the Web)

  • 이용규
    • 한국정보처리학회논문지
    • /
    • 제7권11S호
    • /
    • pp.3623-3632
    • /
    • 2000
  • 지금까지 XML 문서는 사용자에게 문서내의 모든 내용을 공개하였지만, 전자상거래와 같은 특정 분야의 경우에는 사용자에 따라 문서의 일부만을 공개하는 것이 필요하다. 따라서, 본 논문에서는 사용자에게 XML 문서의 권한을 부여하여 접근 권한을 근간으로 XML 문서에 대해서 접근을 관리하는 접근 제어 시스템을 설계하고 구현한다. 이를 위하여 권한 주체의 기본 단위로 사용자 그룹을 설정하고, XML 문서의 엘리먼트를 권한 객체의 기본 단위로 설정한다. 그리고, XML 문서의 생성자는 문서를 생성할 때 사용자 그룹에게 문서 내의 엘리먼트에 대한 접근 권한을 부여한다. 사용자가 XML 문서를 접근할 경우, 사용자가 속한 그룹의 해당 문서에 대한 접근 권한을 접근 제어 리스트를 이용하여 검사하고 접근 권한을 맞는 문서의 특정 부분만을 보여준다. 그 결과 XML 문서에 대한 접근 관리가 가능하다.

  • PDF

XML 기반의 e-비즈니스 문서 생성을 위한 폼 생성시스템 (U Based Form Document Generation System for e-Business Sung-Han)

  • 김성한;김창수;정회경
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.713-722
    • /
    • 2002
  • 본 논문에서는 e-비즈니스 DTD(Document Type Definition) 문서를 기반으로 한 XML 폼 생성기(Form Generator)를 설계 및 구현하였다. 인터넷 보급과 정보환경 변화는 e-비즈니스에 있어서 많은 변화를 제공하였고, 거래에 사용될 비즈니스 문서 양식에 있어서도 웹 형식이거나 전자화된 전용 양식 형태로 변환될 필요가 있게 되었다. 이러한 상황에서 각각의 업체별로 다양한 문서 포맷을 사용하여, 상호주체 간에 포맷 호환성 제공을 위한 필요성이 제기되며, 따라서 재사용성과 포맷 호환성 지원에 따른 비용의 문제를 안고 있다. 이에 따라, 논문에서 제안하는 XML 폼 생성기는 XSLT를 이용하여, 생성 결과인 XML 폼 문서에 HTML(HyperText Markup Language) 형태의 웹 문서로 생성 후에, 사용자 입력을 통해 e-비즈니스 DTD 문서 구조에 유효한 XML 비즈니스 메시지를 작성할 수 있다.

문서 클러스터링을 이용한 문맥 광고 시스템 (Contextual Advertisement System based on Document Clustering)

  • 이동광;강인호;안동언
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.73-80
    • /
    • 2008
  • 본 연구에서는 문서 클러스터링을 이용하여 동음 이의어와 핵심단어 선정 실패로 인해 발생하는 자동 광고 시스템의 오류를 해결하는 광고 키워드 추출방식을 제안한다. 먼저 대규모 뉴스기사를 대상으로 유사한 내용을 가지며 동일한 광고 키워드와 연관이 있는 기사들을 자동으로 분류하여 광고 키워드에 대한 문맥 정보를 구축한다. 또한 광고 대상물에 대한 광고주의 요약 정보나 광고 대상 웹페이지를 분석하여 광고 키워드에 대한 문맥 정보를 추출하는 방식을 보인다. 이렇게 구축된 문서 분류와 광고 키워드용 문맥 정보를 이용하여 광고 대상 문서가 속한 문서 분류를 추정하여 단어들의 의미적인 애매성을 해결하고, 추정한 문서 분류와 관련 있으면서 문맥적으로 중요성을 가지는 핵심 단어들을 선정하여 광고 키워드를 추출한다. 상용 광고 시스템과의 비교 분석 결과 신문 기사나 일반 블로그를 대상으로 최소 21%의 성능 향상을 얻었다.

구조적 상이성 분석에 기반한 XML 문서 변환 시스템의 설계 및 구현 (Design and Implementation of XML Document Transformation System based on Structured Differences Analysis)

  • 조정길;조윤기;구연설
    • 정보처리학회논문지D
    • /
    • 제9D권2호
    • /
    • pp.297-306
    • /
    • 2002
  • 본 논문은 논리적으로는 유사하지만 구문 측면에서는 서로 다른 XML 스키마(Schema) 기반의 XML 문서를 구조적 상이성 분석을 통하여 상호 변환하는 시스템의 설계 및 구현에 관한 것이다. 이를 위해 원시(Source) 문서와 목적(Destination) 문서를 데이터 레지스트리(DataRegistry)와 구조적 상이성 분석을 이용하여 병합 데이터를 생성하고, 생성된 병합 데이터를 기반으로 하는 XML 문서를 생성한다. 이 XML 문서 변환 시스템은 다른 응용 시스템에서 사용하는 XML 문서를 현 시스템에 맞게 변환하는 작업을 시간과 비용 그리고 신뢰성의 측면에서 유용하도록 설계하였다. 이 시스템의 구현환경은 IBM 호환 PC에서 동작하며, Windows 2000 환경의 운영체제에서 Visual Basic 6.0을 사용하여 개발하였다.

디지털펜과 필기체인식 기술을 이용한 수기문서 전자화 프레임워크 (A Framework for Digitalizing Handwritten Document using Digital Pen and Handwriting Recognition Technology)

  • 손봉기;김학준
    • 한국산학기술학회논문지
    • /
    • 제12권3호
    • /
    • pp.1417-1426
    • /
    • 2011
  • 아직도 다양한 비즈니스 현장에서는 업무특성이나 법률적 제약 때문에 종이문서로 정보를 취득하고 있다. 이러한 수기문서는 IT 시스템을 통한 실시간 정보 처리와 관리를 위해 전자화 과정을 거쳐 디지털 문서로 변환되어 야 한다. 기존의 문서 전자화 시스템은 수기문서를 스캐닝과 후처리 작업을 거쳐 전자화하기 때문에 연속적인 업무 처리가 어렵다. 이 논문에서는 디지털펜과 필기체인식 기술을 이용한 수기문서 전자화 프레임워크인 LiveForm을 제안한다. 또한, 제안한 프레임워크의 적용가능성을 보이기 위해 LiveForm 기반 산업특수가스 유통 서비스를 구현하고 적용 효과를 분석한다. LiveForm은 디지털펜으로 절대좌표값이 인쇄된 종이문서를 작성하면 작성문서와 동일한 디지털이미지를 생성하고, 기록 정보는 필기체인식을 통해 디지털 문자로 변환하여 업무시스템에 자동으로 입력한다. LiveForm 기반 응용시스템은 종이문서 기반 정보 취득이 많은 업무에서 문서 전자화를 위한 스캐닝과 데이터 수동입력없이 취득한 정보를 업무시스템 자동으로 반영할 수 있어 업무 프로세스를 대폭 개선할 수 있다.

An Innovative Approach of Bangla Text Summarization by Introducing Pronoun Replacement and Improved Sentence Ranking

  • Haque, Md. Majharul;Pervin, Suraiya;Begum, Zerina
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.752-777
    • /
    • 2017
  • This paper proposes an automatic method to summarize Bangla news document. In the proposed approach, pronoun replacement is accomplished for the first time to minimize the dangling pronoun from summary. After replacing pronoun, sentences are ranked using term frequency, sentence frequency, numerical figures and title words. If two sentences have at least 60% cosine similarity, the frequency of the larger sentence is increased, and the smaller sentence is removed to eliminate redundancy. Moreover, the first sentence is included in summary always if it contains any title word. In Bangla text, numerical figures can be presented both in words and digits with a variety of forms. All these forms are identified to assess the importance of sentences. We have used the rule-based system in this approach with hidden Markov model and Markov chain model. To explore the rules, we have analyzed 3,000 Bangla news documents and studied some Bangla grammar books. A series of experiments are performed on 200 Bangla news documents and 600 summaries (3 summaries are for each document). The evaluation results demonstrate the effectiveness of the proposed technique over the four latest methods.