• 제목/요약/키워드: 문서 구조 인식

검색결과 133건 처리시간 0.038초

Pre-Order List를 이용한 XML문서의 효과적인 색인방법 (An Efficient Indexing Method For XML Documents Using Pre-Order List)

  • 김영;박상호;박선;이주홍;홍준식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2004
  • 최근 XML은 인터넷상의 데이터의 표현 및 교환의 표준으로 인식되면서 XML에 대한 많은 연구가 이루어지고 있다 특히 XML문서의 정보량이 방대해짐에 따라 빠른 검색의 필요로 많은 인덱싱 기법들이 제안되었다. 최근의 연구 중, 패스를 기반으로 하는 인덱싱 기법들은 중간노드와 최하위노드의 검색, 조상-후손관계의 조인연산 등에서 성능이 떨어지는 경향이 있다. 이를 보완하기 위해 연구된 Numbering-Scheme 기반의 인덱싱 기법들은 대부분의 검색에서 우수한 성능을 보인다. 그러나 하위 노드가 늘어나는 경우엔 검색 오버헤드가 커질 수 있으며, 대량의 XML 문서나 구조가 다른 XML 문서가 추가되면 인덱스와 데이터 값의 재조정이 필요하게 된다. 이러한 문제를 해결하기 위하여 본 논문은 Numbering-Scheme을 기반으로 각 노드별 노드범위(Node-Range)와 Pre-Order List물 추가하여 검색성능을 높이고, 데이터의 삽입, 삭제에 효과적인 인덱싱 기법을 제안한다.

  • PDF

요약화일 기법을 이용한 한글 문서 검색 시스템의 설계 (Design of Hangul Document Retrieval System Using Signature File Methods)

  • 이정기;김철완;장재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.47-57
    • /
    • 1993
  • 현재 국내에서 한국형 정보 검색 시스템의 중요성을 인식하고, 이를 국내 기술로 구축하려는 여러 시도들이 진행중에 있다. 이 가운데 정보 검색 시스템 구축에 기반이 되는 정보 저장 하부 구조로서, 한글 문서를 위한 효율적인 문서 검색 기법에 대한 연구는 필수적이다. 본 논문에서는 이를 위해 파일 기법을 이용한 한글 문서 검색 기법을 설계한다. 아울러, 제안된 기법을 토대로 실제 시스템을 구현하여 성능을 분석하였다.

  • PDF

SMS : SBML 문서관리기 (SMS : An SBML Document Manager)

  • 임정곤;김태경;정태성;조완섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.334-336
    • /
    • 2004
  • 최근 이슈가 되고 있는 시스템 생물학(Systems Biology)은 생물학적인 이론과 컴퓨터의 계산적인 모델링 그리고 실험의 상호 의존적인 통합으로써 특징 지워진다. 그 중 컴퓨터의 계산적인 모델링에 대한 연구가 무엇보다 중요한 비중을 차지하고 있다. 하지만 계산적인 모델링에서 여러 자원을 통합하기 위한 공통의 기반 구조나 표준에 대한 연구는 미흡한 실정이다. 이러한 문제점을 해결하기 위해 XML 기반의 형식을 갖춘 SBML(Systems Biology Markup Language)이 시스템 생물학의 표준으로 개발되어 연구 중에 있다. 현재 개발 중인 시뮬레이션과 데이터 분석을 위한 다양한 옹용 어플리케이션이 이미 SBML 문서를 지원하고 있다 본 연구에서는 시스템 생물학 분야에서 SBML 표준에 대한 중요성을 인식하여, 객체지향 바이오 데이터베이스로부터 질의의 결과를 SBML 문서로 변환하고, 반대로 SBML 문서를 객체지향 데이터베이스에 저장하는 변환기를 제안하고자 한다.

  • PDF

문서 클러스터링을 위한 학술지 논문의 구조적 초록 활용성 연구 (Usability Analysis of Structured Abstracts in Journal Articles for Document Clustering)

  • 최상희;이재윤
    • 정보관리학회지
    • /
    • 제29권1호
    • /
    • pp.331-349
    • /
    • 2012
  • 구조적 초록은 학술 논문의 주제를 표현하는 역할을 하여 학술 논문을 처리하는데 중요한 요소로 인식되어왔다. 이 연구에서는 구조적 초록을 구성하는 세부 필드의 속성을 4개로 분석하고 초록의 구조를 활용하여 문서 클러스터링에 적용할 수 있는 가능성을 고찰고자 하였다. 구조적 초록의 필드 속성을 문서 클러스터링에 적용한 결과 클러스터링 기법간의 편차가 있었으나 연구 목적이 제공하는 정보량에 비해 주제성이 커서 클러스터링 성능에 가장 큰 영향을 미치고 있는 것으로 나타났다. 또한 분석 결과 특정 필드에 특화되어 출현하는 필드 종속적인 단어가 발생하는 것으로 나타나 필드 종속적인 단어를 배제하고 집단내 평균연결 기법을 적용하였을 때는 클러스터링의 성능이 개선되는 것으로 분석되었다.

불완전 XML을 위한 파싱 방법 (A Parsing Method for an Incomplete XML)

  • 조경룡;조성언;박장우
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2153-2158
    • /
    • 2008
  • 대표적인 웹 문서의 표준인 XML은 문서의 구조와 내용을 기술하기 위해 태그로 이루어진 문법 구조를 갖는다. XML 문서 작성자는 XML 문서 작성 중 해당 XML DTD(Document Type Definition)에 문법적으로 올바르지 않은 문장을 입력할 수 있다. 즉, 일반적인 텍스트 에디터 환경에서 XML 문서에 입력되는 내용과 태그의 쌍은 완전하지 못한 형태로 입력될 수 있다. 문법적으로 불완전한 문장 입력은 사용자의 계속적인 편집 상태를 종료하고, 정상적인 파싱을 보장하지 않는 원인이 된다. XML 문서를 작성하는 과정에서 문법적으로 불완전한 문장 입력은 정상적인 파싱을 보장하지 않는다. 따라서, 에디터가 문법적으로 빠져있는 부분의 심볼이 무엇인지 정확히 인식 가능하고, 주어진 문법에 따라 부분적인 파스트리를 완성한다면, 사용자의 프로그래밍 편집 상태를 종료하지 않고 계속적인 편집과 성공적인 파싱을 보장할 수 있을 것이다. 본 논문은 XML 문서 편집기에 사용될 수 있는 XML 파서가 문법적으로 불충분한 문장의 입력에 대해 문법에 따라 빠진 부분을 인식하고, 누락된 문법 심벌을 찾아 부족한 부분 파스트리를 완성함으로써 사용자에게 성공적인 XML 문서 편집을 보장할 수 있는 파싱 방법을 제안한다. 제안된 파싱 방법을 통해 사용자는 프로그래밍 편집 중 문법 오류에 대한 부담을 줄일 수 있다. 또한, 사용자는 불완전 입력에 대해 일반적인 에러 처리에 따른 편집 중단 없이 계속적인 문서 파싱 을 보장받아 편집 효율을 높일 수 있다.

이벤트 템플릿을 이용한 정보 추출에 관한 연구 (A Study on Information Extraction Using Event Template)

  • 임수종;정의석;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.585-588
    • /
    • 2002
  • 본 논문에서는 개체형 인식이 된 일반 문서에서 정보 추출을 하기 위하여 이벤트 템플릿 구조를 사용하는 방법을 제안한다. 제한된 도메인 지식을 주로 사용하는 기존의 정보 추출 방법과 달리 predicate-argument 구조를 갖는 이벤트 템플릿은 일반적인 지식을 주로 사용하여 정보 추출을 한다. 이벤트 템플릿을 추출하기 위해서는 형태소 분석 결과 용언의 하위범주 정보를 이용하고 이벤트 템플릿의 논항 구조를 이용하여 필요시 이벤트 템플릿을 통합한다. 문서에서 생성된 일반적인 이벤트 템플릿은 정보수용자의 요구에 맞는 도메인 지식을 사용하여 최종적인 결과를 생성한다. 이벤트 템플릿을 사용하는 정보 추출 실험 결과는 제한된 도메인 정보를 사용하는 시스템에 비해 정확율은 떨어지지만 기존 정보 추출시스템의 문제인 이식성을 높일 수 있다.

  • PDF

문단 단위 가중치 함수와 문단 타입을 이용한 문서 범주화 (Automatic Text Categorization Using Passage-based Weight Function and Passage Type)

  • 주원균;김진숙;최기석
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.703-714
    • /
    • 2005
  • 문서 범주화 분야에 대한 연구들은 전체 문서 단위에 한정되어 왔으나, 오늘날 대부분의 전문들이 주요 주제를을 표현하기 위해서 조직화 된 특정 구조로 기술되고 있어, 텍스트 범주화에 대한 새로운 인식이 필요하게 되었다. 이러한 구조는 부주제(Sub-topic)의 텍스트 블록이나 문단(Passage) 단위의 나열로서 표현되는데, 이러한 구조 문서에 대한 부주제 구조를 반영하기 위해서 문단 단위(Passage-based) 문서 범주화 모델을 제안한다. 제안한 모델에서는 문서를 문단들로 분리하여 각각의 문단에 범주(Category)를 할당하고, 각 문단의 범주를 전체 문서의 범주로 병합하는 방법을 사용한다. 전형적인 문서 범주화와 비교할 때, 두 가지 부가적인 절차가 필요한데, 문단 분리와 문단 병합이 그것이다. 로이터(Reuter)의 4가지 하위 집합과 수십에서 수백 KB에 이르는 전문 테스트 컬렉션(KISTl-Theses)을 이용하여 실험하였는데, 다양한 문단 타입들의 효과와 범주 병합 과정에서의 문단 위치의 중요성에 초점을 맞추었다 실험한 결과 산술적(Window) 문단이 모든 테스트 컬렉션에 대해서 가장 좋은 성능을 보였다. 또한 문단은 문서 안의 위치에 따라 주요 주제에 기여하는 바가 다른 것으로 나타났다.

공간 정보와 투영 프로파일을 이용한 문서 영상에서의 타이틀 영역 추출 (Automatic Title Detection by Spatial Feature and Projection Profile for Document Images)

  • 박효진;김보람;김욱현
    • 융합신호처리학회논문지
    • /
    • 제11권3호
    • /
    • pp.209-214
    • /
    • 2010
  • 본 논문은 형태 처리기법과 연결요소 분석을 이용한 문서 영상의 분할과 구조적인 특징과 투영 프로파일 분석을 이용하여 문서영상에서 제목영역 추출방안을 제안한다. 문서 영상의 처리는 영상 분할과 제목 추출, 두 단계로 이루어진다. 영상 분할의 단계에서는 문서 영상을 구성요소 영역들로 나눈다. 영상 분할이 끝나면 분할된 영역들을 대상으로 구조적인 정보를 이용하여 제목이 될 후보 영역을 추출한다. 제목이 아닌 영역을 제거하여 제목 후보영역을 추출하고 난 후 투영 프로파일을 분석하여 제목 영역을 최종적으로 추출한다. 본 논문에서 제시된 투영 프로파일 분석을 이용한 제목 추출 방법은 다양한 문서 영상의 분할 및 제목 추출 결과를 보였으며, 문서 제목 인식, 멀티미디어 데이터 검색, 실시간 영상처리와 같은 다양한 응용분야에 활용될 것으로 기대된다.

웹 기반의 VoiceXML 문서 인터프리터의 설계 (The design of VoiceXML Interpreter based on the Web)

  • 이선남;김경아;이기호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.355-357
    • /
    • 2001
  • VoiceXML은 음성인식 및 음성합성과 음성처리기술을 이용하여, 시각에 의존하는 기존의 웹을 벗어나 음성 및 시각을 모두 활용할 수 있는 새로운 정보 서비스 패러다임으로 제시되어지고 있다. VoiceXML을 이용한 음성정보서비스를 제공할 경우, 마크업 언어형태로 작성된 시나리오를 인터프리터를 통해 서비스하기 때문에 시나리오 변경 요구시 재프로그램해야 하는 기존 음성정보서비스 시스템의 문제점을 쉽게 개선할 뿐만 아니라, 음성정보서비스의 개발자가 음성인식.음성합성과 같은 기술적인 문제와는 독립적으로 시나리오를 작성할 수 있다는 이점이 있다. 본 논문에서는 W3C Voice Browser Working Group에서 제안하는 문법표현.시스템구조.다이얼로그 모델 등을 지원하는 XML 기반 대화형 마크업 언어인 VoiceXML 문서의 인터프리터를 설계하고자 한다.

  • PDF

계층적 레이블 임베딩을 이용한 세부 분류 개체명 인식 (Fine-grained Named Entity Recognition using Hierarchical Label Embedding)

  • 김홍진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2021
  • 개체명 인식은 정보 추출의 하위 작업으로, 문서에서 개체명에 해당하는 단어를 찾아 알맞은 개체명을 분류하는 자연어처리 기술이다. 질의 응답, 관계 추출 등과 같은 자연어처리 작업에 대한 관심이 높아짐에 따라 세부 분류 개체명 인식에 대한 수요가 증가했다. 그러나 기존 개체명 인식 성능에 비해 세부 분류 개체명 인식의 성능이 낮다. 이러한 성능 차이의 원인은 세부 분류 개체명 데이터가 불균형하기 때문이다. 본 논문에서는 이러한 데이터 불균형 문제를 해결하기 위해 대분류 개체명 정보를 활용하여 세부 분류 개체명 인식을 수행하는 방법과 대분류 개체명 인식의 오류 전파를 완화하기 위한 2단계 학습 방법을 제안한다. 또한 레이블 주의집중 네트워크 기반의 구조에서 레이블의 공통 요소를 공유하여 세부 분류 개체명 인식에 효과적인 레이블 임베딩 구성 방법을 제안한다.

  • PDF