• 제목/요약/키워드: 문서 구조 분석

검색결과 497건 처리시간 0.025초

문서 내 전역 관계 추출: 생략된 개체의 고려 (Global Relation Extraction for Documents: Regarding Omitted Entities)

  • 김규경;김경민;조재춘;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-49
    • /
    • 2018
  • 최근 존재하는 대부분의 관계 추출 모델은 언급 수준의 관계 추출 모델이다. 이들은 성능은 높지만, 문서에 존재하는 다수의 문장을 처리할 때, 문서 내에 주요 개체 및 여러 문장에 걸쳐서 표현되는 개체간의 관계를 분류하지 못한다. 이는 높은 수준의 관계를 정의하지 못함으로써 올바르게 데이터를 정형화지 못하는 중대한 문제이다. 해당 논문에서는 이러한 문제를 타파하기 위하여 여러 문장에 걸쳐서 개체간의 상호작용 관계도 파악하는 전역 수준의 관계 추출 모델을 제안한다. 제안하는 모델은 전처리 단계에서 문서를 분석하여 사전 지식베이스, 개체 연결 그리고 각 개체의 언급횟수를 파악하고 문서 내의 주요 개체들을 파악한다. 이후 언급 수준의 관계 추출을 통하여 1차적으로 단편적인 관계 추출을 실행하고, 주요개체와 관련된 관계는 외부 메모리에 샘플로 저장한다. 이후 단편적 관계들과 외부메모리를 이용하여 여러 문장에 걸쳐 표현되는 개체 간 관계를 알아낸다. 해당 논문은 이러한 모델의 구조도와 실험방법의 설계에 대하여 설명하였고, 해당 실험의 기대효과 또한 작성하였다.

  • PDF

이동 단말을 위한 HTML 문서의 변환 기법 (A HTML Document Transcoding Technique for Mobile Devices)

  • 신희숙;조수선;이동우;마평수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2347-2350
    • /
    • 2002
  • 본 논문에서는 일반 데스크탑 PC의 디스플레이 성능에 적합하도록 작성된 유선의 웹 문서를 무선 인터넷 환경의 핸드헬드 계열 소형 단말에서도 효율적으로 표현하기 위한 변환 기법을 제시한다. 이는 기존의 단순한 텍스트 위주의 추출 및 형식의 변환과는 달리, 분석 및 변환을 위한 최소 내용 단위를 설정하고, 이들의 재배치를 통하여 원본 웹 문서의 정보를 보다 정확히 반영한다. 또한 새로운 인덱스 형식으로의 재표현을 통하여 기존의 페이지 조각과 계층적 구조의 인덱스 링크를 이용한 인터페이스보다 편리한 검색 및 페이지 이동을 제공한다. 이 기법은 보다 많은 정보를 복잡한 구조로 표현하는 현재의 웹 문서 특징을 반영하고, 이동 단말들의 고성능화 추세와 함께 화려한 무선 인터넷을 요구하는 사용자들을 고려한 것이다. 전체 변환 과정은 Layout-Forming Tag Analysis Algorithm, Component Grouping Algorithm Component Block Classification Method, Index Generation Method로 구성된다. 변환 시스템의 구성 모듈별 설계와 프로토타입의 구현을 통하여 제안하는 알고리즘 및 변환 방법을 평가하였고, 실제 웹 문서에 대한 실험 결과에서 단말의 소형 화면에 적합하게 변환된 모습을 확인하였다.

  • PDF

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

OSD 메뉴 자동검증을 위한 작업스케줄링 및 패턴 인식 기법 (Job Scheduling and Pattern Recognition for Auto OSD Verification System)

  • 이진석;김호준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.379-381
    • /
    • 2006
  • 본 연구는 디스플레이 제품의 OSD(On Screen Display) 메뉴의 문자 오류 검사 과정을 자동화하는 방법과 FMM 신경망을 이용한 실시간 문자인식 방법을 제안한다. 이는 일반적인 문자인식 문제와는 달리 시스템 환경에 대한 몇 가지 가정과 제약조건을 고려해야 한다. 예컨대 문제의 특성상 카메라 및 TV제어 기기부의 동작과 연동하는 작업 스케줄링 기능과 실시간 분석기능 등의 요건은 시스템개발을 복잡하게 하는 반면, 주어진 OSD 메뉴 데이터로부터 검증과정은 미지 패턴에 대한 인식과정을 단순화하여 일종의 판정(decision) 문제로 고려될 수 있게 한다. 본 연구에서는 디스플레이 제품의 OSD 메뉴와 같이 특수한 구조를 갖는 문서영상에 대한 논리적인 구조분석을 통해서 연속적인 문서영상을 발생시켜서 검증과정을 자동화하는 작업스케줄링 방법을 제안하고 인식의 방법론으로서 수정된 구조의 FMM신경망을 적용한다. 또한 실제 데이터를 사용한 실험결과를 통해 시스템의 유용성을 고찰한다.

  • PDF

FP-Tree를 이용한 문서 분류 방법 (Text Document Categorization using FP-Tree)

  • 박용기;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권11호
    • /
    • pp.984-990
    • /
    • 2007
  • 전자 문서의 급속한 증가로 인하여 자동 문서 분류의 필요성도 증가하고 있다. 기존의 문서 분류 방법들은 대개 문서를 단어의 집합으로 간주하여 기계 학습의 방법을 그대로 적용하거나 악간의 변형을 가한 방법들이 대부분이다. 본 논문에서는 데이타 마이닝 분야에서 사용되는 FP-Tree 구조를 이용하여 문서내의 문장들의 패턴을 저장하고 이를 사용하여 문서를 분류하는 방법(FPTC)을 제시한다. 또한 FP-Tree를 이용한 방법에 상호 정보량과 문장별 엔트로피를 적용하여 분류 정확도를 높이는 방법 그리고 각각의 실험 결과와 함께 다른 문서 분류 알고리즘과 비교 분석한 결과를 살펴보기로 한다.

문서 영상의 정교한 기하적 구조분석을 위한 지식베이스 시스템 (A Knowledge-based System for Analyzing Sophisticated Geometric Structure of Document Images)

  • 이경호;최윤철;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권11호
    • /
    • pp.795-813
    • /
    • 2001
  • 문서 영상으로부터 논리적인 구성 요소를 추출하여 전자 문서를 생성하기 위해서는 정교한 수준의 기하적인 구조 분석이 선행되어야 한다. 본 논문은 과학기술 논문을 대상으로 정교한 수준의 기하적인 구조 분석을 지원하기 위하여 지식베이스에 기반한 방법을 제안한다. 제안된 지식베이스는 과학기술 논문 유형이 공통적으로 갖는 기하적인 특성은 물론이고 출판물 특유의 특성에 대한 지식을 규칙 형태로 표현한다. 제안된 방법은 상향식과 하향식의 복합 기법을 사용하며 영역분할과 식별의 두 단계로 구성된다. 일반적으로 영역분할에 의하여 분할된 영역과 레이아웃을 구성하는 복합 객체사이에는 일-대-일의 대응관계가 존재하지 않는다. 따라서 제안된 방법은 분할된 영역을 추가로 분할하거나 통합하면서 이미지, 드로잉, 그리고 테이블 등의 비 텍스트 객체는 물론이고 텍스트 라인이나 수식과 같은 텍스트객체를 식별한다. 제안된 방법의 평가하기 위하여 IEEE Transactions on Pattern Analysis and Machine Intelligence로부터 스캐닝한 372개의 논문영상으로 실험한 결과, 제안된 방법은 99% 이상의 실험 영상에 대한 기하적인 구조 분석에 성공하여 기존 방법에 비해 정교한 수준의 성능을 보였다.

  • PDF

XML 이메일 시스템의 필터링 에이전트 인터페이스 설계 (Design of Filtering Agent Interface using XML E-Mail System)

  • 정옥란;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 합동 추계학술대회 논문집 정보 및 제어부문
    • /
    • pp.476-480
    • /
    • 2002
  • 인터넷의 발달로 인하여 웹을 통한 문서 송수신이 많아지면서 종래의 인쇄 매체 상에 기술된 문서들은 점차 전자문서화 되기 시작했다. 이러한 문서들을 서로 다른 시스템 사이에서 상호 교환하기 위해서는 사용자가 원하는 논리적 구조를 태그로 구현할 수 있는 정형화된 문서 형태가 필요하다. 또한 이메일을 통한 개인적 정보를 얻고 또한 메일의 양이 갈수록 늘어나는 상황에서 카테고리별 자동 분류를 할 수 있는 에이전트가 현안이 되고 있다. 본 논문에서는 XML 형식의 메일에 XSL 문서를 임베디드하여 보내는 XML 이메일 시스템을 설계하여, 본 시스템을 이용하여 본문 내용을 카테고리별 자동 분류해주는 필터링 에이전트 인터페이스(Filtering Agent Interface)를 제안하고자 한다. XML 메일 서버를 통하여 수신된 메일은 XML과 XSL 형식에 따라 XML 메일 데이터베이스에 따로 저장되기 때문에 분석이 매우 용이하다는 장점을 이용하였다.

  • PDF

XML 문서의 객체지향적 관리를 위한 XML DOM 소프트웨어의 설계 및 구현 (Design and Implementation of XML DOM Software for the Object-oriented Management of XML Documents)

  • 선승상;박상윤;엄영익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.659-664
    • /
    • 2000
  • 인터넷 사용자의 급증 및 인터넷 기반 응용 개발의 필요성은 기존 웹 환경의 기능성 및 구조성 등에 대한 확장을 요구하게 되었다. 이러한 배경 하에서 차세대 웹 문서를 위한 표준으로 XML이 탄생하게 되었고 DOM 인터페이스를 통한 XML 문서의 관리가 객체 지향 웹 기술을 위한 이슈로 부상하게 되었다. 본 논문에서는 차세대 웹 표준 언어인 XML 및 문서 객체화 기술인 DOM 등을 분석하고, XML 파서 모듈, DOM 처리 모듈 및 파서/DOM 연동 모듈들로 구성된 XML 문서의 객체화된 관리를 위한 XML DOM 소프트웨어를 설계하고 구현한 결과를 제시한다.

  • PDF

웹 문서 검색을 위한 검색어 추출과 확장에 관한 연구 (A Study on Keyword Extraction and Expansion for Web Text Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.1111-1118
    • /
    • 2004
  • 웹 문서 검색 시스템 사용자에게 자연어 질의를 입력하는 방법은 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의를 입력하는 웹 문서 검색 시스템을 위해 자연어 처리 기술에 기반하여 사용자의 입력 질의 문장을 구문 분석한 후 검색어를 추출하고 확장하는 다중검색 기법을 제안한다. 질의문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하며, 검색어가 되는 음역어와 축약어들을 확장하여 다중 검색함으로써 재현율과 정확도를 향상시킬수 있음을 보였다.

  • PDF

교차언어 문서검색에서 중의성 해소를 위한 가중치 부여 및 질의어 구조화 방법 (Weighting and Query Structuring Scheme for Disambiguation in CLTR)

  • 정의헌;권오욱;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 2001
  • 본 논문은 사전에 기반한 질의변환 교차언어 문서검색에서, 대역어 중의성 문제를 해결하기 위한, 질의어 가중치 부여 및 구조화 방법을 제안한다. 제안하는 방법의 질의 변환 과정은 다음의 세 단계로 이루어진다. 첫째, 대역어 클러스터링을 통해 먼저 질의어 단어의 적합한 의미를 결정짓고, 둘째, 문맥정보와 지역정보를 이용하여 후보 대역어들간의 상호관계를 분석하며, 셋째, 각 후보 대역어들을 연결하여, 후보 질의어를 만들고 각각에 가중치를 부여하여 weighted Boolean 질의어로 생성하게 된다. 이를 통해, 단순하고 경제적이지만, 높은 성능을 낼 수 있는 사전에 의한 질의변환 교차언어 문서검색 방법을 제시하고자 한다.

  • PDF