• 제목/요약/키워드: 문서지

검색결과 2,045건 처리시간 0.031초

공백행 추출에 의한 기울어진 문서 영상의 보정 (A Skew Correction for Document Images by the Extraction of Blank Lines)

  • 정재영;김문현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.541-543
    • /
    • 1998
  • 본 논문에서는 선형적으로 기울어진 문서 영상의 기울기를 검출하기 위한 단순하면서도 효과적인 알고리즘을 제안한다. 문서 내의 인접한 두 행 사이에는 일정한 두께의 공백 행이 존재하며, 그 공백 행의 기울기는 실제 문서의 기울어진 정도를 반영한다는 사실에 기인한다. 먼저, 간단한 모폴로지 연산을 이용하여 문자행 영역과 공백행 영역을 분리한 후, 이를 일정 간격으로 수직 샘플링하여 수직선 상에 있는 모든 공백행의 중심점(행간점)을 찾는다. 전체 영상으로부터 동일한 공백 행상에 있는 임의의 두 행간점간에 계산된 기울기들의 분포를 보면 실제 문서의 기울기에서 최대 값을 가진다. 제안한 알고리즘을 다양한 형태의 가로쓰기 문서(검출 가능한 최대 기울기 : $\pm$45$^{\circ}$)에 적용하여 0.5$^{\circ}$의 오차범위 내에서 정확한 결과를 얻을 수 있음을 보인다.

  • PDF

추상구문트리를 이용한 구문지향 XML 문서 편집기 (A Syntax-Directed XML Document Editor using Abstract Syntax Tree)

  • 김영철;유두규
    • 인터넷정보학회논문지
    • /
    • 제6권2호
    • /
    • pp.117-126
    • /
    • 2005
  • 기존의 XML 문서 편집기는 일반 텍스트 위주의 편집을 하고 내부적으로 구문적 검사를 하지 않는다. 따라서 작성된 XML 문서가 잘 설계(well-formed) 되었는지 유효(valid) 문서인지를 검사하지 못한다. 본 논문에서는 XML 문서를 편집하는데 있어서 구문에 맞도록 설계할 수 있는 구문지향 편집기를 설계하고 구현한다. 또한 트리 기반의 편집기로 구현되어 있기 때문에 향후에 XML 문서 확장이 용이하며, 다른 시스템과는 달리 실시간으로 유효성을 검증할 수 있도록 설계되었다. 본 시스템은 향후에 XML 관련 어플리케이션 개발에 많은 영향을 줄 것으로 기대된다.

  • PDF

온톨로지를 통한 추론형 시멘틱 검색 시스템에 관한 연구 (Ontology Based Semantic Search System Using Inference)

  • 하상범;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.625-627
    • /
    • 2004
  • 시멘틱 웹의 등장으로 온톨로지를 통하여 에이전트가 이해할 수 있는 의미(semantic)를 갖는 문서를 생성하는 것이 가능해졌다. 이러한 시멘틱 웹의 영역은 비즈니스 업무 효율을 증가시키고 이를 통해 이윤을 극대화시키는 방법으로 시멘틱 검색을 통한 정보검색시스템으로 확대적용 될 수 있다. 데이터베이스를 활용하여 문서를 저장하고 데이터베이스의 질의문물 사용하거나 일반적인 키워드기반의 정보검색 기법을 사용하여 자료를 검색하는 기존의 시스템은 다양한 분야에서 많이 연구되어 왔다. 본 논문에서는 온톨로지를 기반으로 추론을 적용한 시멘틱 검색시스템에 대하여 문서검색에 초점을 맞추어 연구 결과를 제안한다. 본 논문에서 제안하는 방식은 기존의 데이터베이스 질의문으로 검색이 불가능하거나 정보관리 시스템에서 단순히 키워드 매칭으로 검색되지 않는 문서에 대해서 본 시스템이 온톨로지라 추론을 통하여 문서의 검색에 가능함을 보인다. 이러한 방식은 자연어처리 검색과 유사한 검색영역을 갖는다. 이는 문서의 검색에 있어 단순히 키워드의 유사도에 의존하지 않고 Description Logic을 바탕으로 구성된 온톨로지에 미리 정의 되어있는 의미를 바탕으로 생성된 메타데이타를 가지고 추론을 하기 때문에 가능하다 또한 기존의 정보관리 시스템에서 채용한 데이터베이스를 통한 질의응답 시스템을 적용하여 온톨로지 표현언어에 대해 질의 응답이 가능한 DQL 인터페이스와 연동을 통하여 본 시스템의 속도와 효율성을 극대화시킨다.

  • PDF

모바일 플랫폼상의 X-File Viewer (X-File Viewer on a Mobile Platform)

  • 하경주
    • 한국산업정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.61-70
    • /
    • 2010
  • 본 논문에서는 다양한 모바일 플랫폼 환경에서 실행이 가능한 모바일 문서 뷰어를 제안한다. 제안한 문서 뷰어는 자체 파일분석을 통한 파일 decoding 엔진과 독립적인 모듈로 동작하는 엔진으로 OS에 따라 유연하게 장착이 가능하게 설계되었다. 또한 제안된 뷰어에서는 문서파일의 특정을 분석하여 문서파일의 editing tool들의 기초 자료로 사용되어질 수 있다.

Self-Supervised Document Representation Method

  • Yun, Yeoil;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권5호
    • /
    • pp.187-197
    • /
    • 2020
  • 최근 신경망 기반의 학습 알고리즘인 딥 러닝 기술의 발전으로 인해 텍스트의 문맥을 고려한 문서 임베딩 모델이 다양하게 고안되었으며, 특히 대량의 텍스트 데이터를 사용하여 학습을 수행한 사전 학습 언어 모델을 사용하여 분석 문서의 벡터를 추론하는 방식의 임베딩이 활발하게 연구되고 있다. 하지만 기존의 사전 학습 언어 모델을 사용하여 새로운 텍스트에 대한 임베딩을 수행할 경우 해당 텍스트가 가진 고유한 정보를 충분히 활용하지 못한다는 한계를 가지며, 이는 특히 텍스트가 가진 토큰의 수에 큰 영향을 받는 것으로 알려져 있다. 이에 본 연구에서는 다수의 토큰을 포함한 장문 텍스트의 정보를 최대한 활용하여 해당 텍스트의 벡터를 도출할 수 있는 자기 지도 학습 기반의 사전 학습 언어 모델 미세 조정 방법을 제안한다. 또한, 제안 방법론을 실제 뉴스 기사에 적용하여 문서 벡터를 도출하고 이를 활용하여 뉴스의 카테고리 분류 실험을 수행하는 외부적인 임베딩 평가를 수행함으로써, 제안 방법론과 기존 문서 임베딩 모델과의 성능을 평가하였다. 그 결과 제안 방법론을 통해 도출된 벡터가 텍스트의 고유 정보를 충분히 활용함으로써, 문서의 특성을 더욱 정확하게 표현할 수 있음을 확인하였다.

효과적인 문서 수준의 정보를 이용한 합성곱 신경망 기반의 신규성 탐지 (CNN-Based Novelty Detection with Effectively Incorporating Document-Level Information)

  • 조성웅;오흥선;임상훈;김선호
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권10호
    • /
    • pp.231-238
    • /
    • 2020
  • 웹 상에 수 많은 문서가 등장함에 따라 기존 문서와 내용이 중복되는 문서를 찾아서 제외함으로써 새로운 문서를 찾는 노력을 줄일 수 있어 문서 수준의 신규성 탐지(novelty detection)가 중요해졌다. 최근 연구에서는 합성곱 신경망(CNN) 구조 기반의 신규성 탐지 모델 구조가 제안되었고 상당한 성능 향상을 나타내였다. 본 논문에서는 기존의 CNN 기반의 모델에서 문서 수준의 정보가 제한적으로 사용되는 것을 관측하고 문서의 신규성을 결정할 때 문서 수준의 정보가 중요하므로 제한적인 사용이 문제가 된다고 가정하였다. 이에 대한 해결책으로, 본 논문에서는 합성곱 신경망 기반 신규성 탐지 모델 구조를 개선하여 문서 수준 정보를 효과적으로 사용하는 두 가지 방법을 제안한다. 본 논문에서 제안하는 방법은 대상(target) 문서와 증거로 주어진 출처(source) 문서 사이의 상대적(relative) 정보를 추출하여 신규성을 분류할 대상 문서의 특징 벡터를 구성하는 것에 초점을 맞춘다. 본 논문에서는 표준 벤치마크 데이터 셋인 TAP-DLND 1.0를 이용하여 여러 실험을 통해서 제안한 방법의 우수성을 보여준다.

대용량 문서 집합에서 유사 문서 탐색을 위한 효과적인 전처리 시스템의 설계 (An Efficient Preprocessing System for Searching Similar Texts among Massive Document Repository)

  • 박선영;김지훈;김선영;김형준;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.626-630
    • /
    • 2010
  • 최근 문서 표절이 사회적 이슈가 되면서 문서간 유사도를 검사하는 시스템의 필요성이 대두되었다. 이에 따라 문서 유사도 검사 시스템에서의 중요한 요소인 검사 속도와 정확도를 충족시키기 위한 연구가 진행되고 있다. 본 논문에서는 유사 문서 탐색 시스템에서의 성능을 향상시키기 위해 전역 사전이라는 모델을 사용한 전처리 방법을 제시한다. 전역 사전이란 탐색 대상 문서군에서 사용된 모든 단어의 정보를 포함한 것으로, 유사한 문서가 어느 문서인지 빠르게 파악하는 데에 사용한다. 시스템에서 이 모델을 적용하는 방법에 대해 기술하고, 실험을 통해 각 방법의 전처리 성능을 분석하여 최적화된 문서 전처리 방법을 찾아낸다. 결과적으로 검사 대상 문서가 20,000건 이상인 경우에도 검사 대상 문서의 개수를 50개 이하로 획기적으로 줄여서 전체 시스템의 성능을 크게 향상시킬 수 있다는 것을 알 수 있었다.

하이브리드 문서 저작도구의 설계 및 개발 (Design and Development of Hybrid Documents Authoring Tool)

  • 홍광진;정기철
    • 한국멀티미디어학회논문지
    • /
    • 제9권4호
    • /
    • pp.377-387
    • /
    • 2006
  • 디지털 문서가 가진 동적인 컨텐츠의 사용을 통한 높은 정보 전달성과 공유 용이성 등의 장점으로 인해 점차적으로 디지털 문서가 종이 문서의 역할을 대신하고 있다. 하지만 종이 문서가 가진 높은 가독성과 휴대성, 저렴한 가격 등의 장점 때문에 사용자들은 여전히 종이 문서를 선호한다. 이와 같이, 종이 문서를 선호하는 사람들에게 디지털 문서의 장점을 제공하기 위해서, 종이 문서에 디지털 정보를 담는 것에 대한 다양한 연구가 이루어지고 있다. 본 논문은 사용자가 직접 펜을 이용하여 종이 문서에 디지털 정보들을 삽입, 삭제, 수정할 수 있는 Hybrid Documents Authoring Tool(HDAT) 을 제안한다. 제안된 시스템은 읽기와 쓰기 기능을 모두 지원하는 통합형 저작 도구 시스템이다. 또한 문서의 인식을 위해 마커나 패턴 등과 같은 부수적인 장치의 도움 없이 컴퓨터 비전 기술만을 이용함으로써 사용자에게 최대한 자연스러운 환경을 제공한다. 실험을 통해 우리는 제안된 시스템의 효용성을 확인하고, 카메라에 의해 발생하는 제약 아래에서 영상 기반 문서 검색을 위한 카메라 해상도, 입력 영상의 크기, 비교할 샘플의 개수 등의 최저 한계를 측정함으로써 시스템이 실생활 에 적용되었을 때 발생할 수 있는 다양한 상황에서 만족할 만한 성능을 낼 수 있음을 확인하였다.

  • PDF

역사적 기록 문서에서 효율적인 유사도 및 클러스터링 측정에 관한 연구 (A Study on the efficiency of similarity and clustering measure in Historical Writing Document)

  • 한광덕
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.94-101
    • /
    • 2002
  • Web상에 있는 문서들이 다양하고, 복잡 그리고 대형화함에 따라 문서의 표현과 전달체계에서도 많은 변화가 요구되고 있다. 조선왕조실록문서(Annal of The chosun Dynasty)는 역사적 사실을 연구하는데 중요한 문서이고, CD-ROM으로도 출판되었다. 그러나 문서의 접근 방법에 대해 검색의 단순성 그리고 내용 기반(content-based)으로 구성되었기 때문에 문서의 구성요소들 간의 사건연관 (event-relationship)를 엮어주는 데는 어려운 점이 많다. 따라서 본 논문에서는 조선왕조실록 문서들간의 효율적이고, 적절한 유사성 및 클러스터링 방법을 실험하여 문서들간의 사건연관을 찾아내도록 연구했다. 연구 방법으로는 조선왕조실록 문서들간의 유사도 방법들을 시뮬레이션하여 역사적 기록문서에 가장 적합한 유사도 방법을 찾아내고, 유사도 확률에 따라 그 문서들을 클러스터링 하였다. 평가결과 클러스터링을 한 문서들을 실제 확인해본 결과 사실과 거의 같다는 것이 증명되었다.

  • PDF

효율적인 문서검색을 위한 레벨별 불용어 제거에 기반한 문서 클러스터링 (Document Clustering based on Level-wise Stop-word Removing for an Efficient Document Searching)

  • 주길홍;이원석
    • 컴퓨터교육학회논문지
    • /
    • 제11권3호
    • /
    • pp.67-80
    • /
    • 2008
  • 오늘날 여러 문서 범주화 방법들은 문서 클러스터링 알고리즘을 통하여 의미적으로 비슷한 내용의 문서들을 클러스터로 표현한 후 클러스터링 과정에서의 결합관계를 통해 범주화하는 자동화된 방법과 미리 정의된 분류 기준에 의해 수작업으로 문서를 분류하는 방법으로 구분되어 진다. 자동화된 방법은 속도는 빠르나 의미적으로 낮은 정확성을 가지며, 수작업에 의한 분류 방법은 처리 시간과 비용이 크게 증가하는 단점이 있다. 이러한 단점들을 극복하기 위하여 본 논문에서는 각 문서가 속하는 도메인의 불용어 제거를 기반으로 하여 문서 클러스터링을 수행하여 의미적으로 명확한 클러스터를 빠르게 생성한다. 클러스터의 정확성을 높이기 위하여 생성된 클러스터에 대해 레벨 순서에 따른 불용어 제거와 문서 클러스터링 과정을 반복적으로 적용하여 카테고리 트리를 생성하고, 이를 통해 문서집합간의 상하위 관계를 표현하는 자동화된 문서 범주화 방법을 제안한다.

  • PDF