• Title/Summary/Keyword: 문서 특성 추출

Search Result 177, Processing Time 0.022 seconds

A Study on Information Map based on Hypertext (하이퍼텍스트 기반의 정보 지도에 관한 연구)

  • Ryu, Cheol;Lee, Kang-Chan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.755-758
    • /
    • 2001
  • 웹 문서는 하이퍼텍스트의 특성을 가지는 문서 형태를 가지며, 일반적인 문서의 특성 보다는 사용자에 의하여 쉽게 생성, 변경, 삭제되는 특성을 가지고 있다. 본 논문은 WWW 검색 엔진이 WWW의 확장성과 역동성을 반영하지 못하는 단점을 보완하는데 그 의의가 있다. 본 논문에서 제시하는 시스템은 기존의 WWW 검색 엔진을 통하여 얻은 검색 결과를 출발점으로 한 실시간 검색을 통하여 WWW 문서의 현재 상태를 정확하게 파악할 수 있는 장정이 있다. 또한 탐색 결과의 가시화를 통하여 웹 문서에 대한 정보 지도(information map)를 추출할 수 있으며, 이러한 기능을 통하여 기존의 정보 검색 엔진에서 제공하지 못하던 자신의 정보 요구에 맞는 정보 지도를 제공함으로써 새로운 지식의 전달을 꾀할 수 있다.

  • PDF

Keyword Extraction for Korean Language Q&A (국어정보 질의응답을 위한 키워드 추출)

  • Jong, Jong-Seok;Lee, Su-In;Lee, Hyun-A
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF

Rhetorical Structure Tree Generation for Text Summarization System (문서 요약 시스템을 위한 수사 구조 트리 생성)

  • 정준호;김미진;이현주;박미성;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.175-177
    • /
    • 1999
  • 본 논문에서는 수사 정보와 문장간 유사도를 이용하여 문서의 수사 구조 트리를 생성하는 방법을 제안하였다. 말뭉치에서 찾아낸 수사 정보를 종류별로 분류하고, 이를 사용해서 문서 내의 수사 정보를 추출해서 가능한 모든 구조를 생성한다. 다음으로 문장간의 유사도를 사용해서 가중치가 가장 높은 하나의 구조를 선택한다. 생성된 수사 구조를 사용하여 문서를 요약할 수 있는데, 수사 정보는 언어적 특성을 이용하는 것이므로 모데인에 독립적인 요약 시스템을 만들 수 있다.

  • PDF

Keyword Extraction Using Unsupervised Learning Method (비감독 학습 기법에 의한 키워드 추출)

  • Shin, Seong-Yoon;Baek, Jeong-Uk;Rhee, Yang-Won
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2010.05a
    • /
    • pp.165-166
    • /
    • 2010
  • Noun extraction is to find all nouns presented in the document, Korean information retrieval uses noun as index terms or keywords of representing the document. In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

  • PDF

Establishing Data Quality Metric from Dirty Data (오류 데이터로부터의 데이터 품질 메트릭의 정립)

  • 김수경;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.409-411
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제 표준인 ISO/IEC9126은 소프트웨어 품질 특성 및 측적 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 오류 데이터 형태를 분류하고, 이를 기반으로 데이터 품질 특성을 추출한다. 추출된 데이터 품질 특성을 측정하기 위해, 오류 데이터를 품질 속성으로 하는 데이터 품질 특성을 추출한다. 본 논문에서 제시하는 데이터 품질 메트릭은 지식 공학(knowledge engineering) 시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF

Efficient Informal ion Extracting System using Remote Distributed Processing (원격 분산처리에 의한 효율적인 정보수집 시스템)

  • 공용해;최인석
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.228-231
    • /
    • 2001
  • 사용자에게 제공할 정보 수집의 효율을 증대하기 위하여 Java 기반 정보 수집 이동 에이전트 시스템을 구현하였다. 정보수집 이동 에이전트는 원격 사이트로 이동하여 XML 문서를 파싱하고, 정보를 추출하여 호스트의 데이터베이스에 저장하도록 한다. 이동 에이전트는 원격 사이트에서 XML파서를 활용하여 필요한 정보만을 수집하여 전송하므로 네트워크의 부아를 줄일 수 있음과 동시에 호스트의 처리 부하를 크게 줄일 수 있을 뿐만 아니라 향후 원격 사이트의 고유한 문서 특성에 적합한 정보 추출이 가능하도록 확장할 수 있다.

  • PDF

조응구조의 지시사상 (mapping) 이론

  • Park, Yeong-Gyu
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.199-199
    • /
    • 1990
  • 입력된 문서 영상으로부터 분리 추출된 문자 영상을 올바르게 인식하는 것은 문서 인식에서 가장 핵심적인 부분이다. 스캐너를 통해 입력되고 분리된 실제의 문자 영상은 많은 문제점들을 가지고 있다. 한글의 경우 이 중 개별 문자 영상내의 각 자소간의 접촉은 올바른 인식을 저해하는 주요한 원인이다. 이런 접촉의 문제를 효율적으로 해결하기 위해 한글의 구조적 특성을 지닌 "방향 필터"를 정의하고, 이것을 이용하여 세선화된 문자 영상을 추적하면서 선소들을 뽑아낸다. 이렇게 하여 얻은 선소들과 선소들간의 지식을 조합하여 한글자소 획을 추출케 되고 결국에는 이런 획의 조합을 통해 문자 영상을 인식하는 방법을 제안한다.

  • PDF

Speed Improvement of Sentence Aligner for Parallel Text (병렬 코퍼스 구축을 위한 문장 자동 정렬 프로그램의 속도 개선)

  • Jeong, Seon-Yi;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.163-168
    • /
    • 2012
  • 문서 또는 문장 단위의 정렬이 통계적 기계 번역에 활발히 이용되고 있다. 문장 정렬은 통계 기반의 기계 번역에서 가장 중요한 작업으로 정렬의 정확도와 속도는 기계 번역 시스템의 성능을 좌우할 수 있다. 문장 정렬을 수행 할 때 대용량의 문서입력이 있을 경우 처리 속도가 상당히 늦어지는 문제를 지적하고 그 문제를 해결하는 두 가지 방법을 제안한다. 문서의 구조적 특성을 이용하여 문서의 경계정보를 추출하거나 또는 단어 출현 빈도의 따른 경계 추출방법을 이용하여 문제를 해결한다. 상기의 방법이 정렬 속도 저하 개선에 비교적 효과가 있고 그에 따른 성능 저하가 없음을 실험을 통하여 확인하였다.

  • PDF

Logical Structure Analysis for Structured Document Generation A Syntactic Approach (구조화된 문서 생성을 위한 논리적인 구조 분석 기법 : 구문론적인 접근방식)

  • 이경호;최윤철;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.175-177
    • /
    • 2000
  • 본 논문에서는 다수의 페이지로 구성된 복잡한 구조의 문서로부터 SGML/XML에 기반한 전자 문서를 생성하기 위한 구문론적인 구조분석 방법을 제안한다. 제안된 방법은 구조분석의 정확성과 처리속도의 향상을 위하여 텍스트 영역의 계층적인 트리를 파싱하여 논리적인 계층 구조를 추출한다. 또한 본 논문은 문서 유형의 논리적인 구조 정보와 기하적인 특성을 효과적으로 기술할 수 있는 문서 모델을 정의한다. 제안된 방법의 성능을 평가하기 위하여 IEEE Transactions on Pattern Analysis and Machine Intelligence로부터 스캐닝한 372개의 논문 영상으로 실험한 결과, 제안된 방법은 기존 연구와 달리 다수의 문서 영상으로 구성된 문서에 대하여 논리적인 구조분석을 효율적으로 지원하였다. 특히 제안된 방법은 논리적인 구조분석의 최종 결과로서 SGML/XML 문서를 생성하기 때문에 문서의 재사용성과 호환성을 높인다.

  • PDF

Extraction of Data Quality Characteristics from Dirty Data (데이터 오류에서 추출한 데이터 품질 특성)

  • 김수경;최병주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.549-551
    • /
    • 2000
  • 소프트웨어 제품의 품질을 보증하는 일은 매우 중요하며, 국제표준인 ISO/IEC 9126은 소프트웨어 품질 및 특성 및 측정 메트릭 표준을 제공하고 있다. 이때 ISO/IEC 9126에서는 소프트웨어를 프로그램, 절차, 규칙 및 관련문서로 한정하고 있기 때문에 데이터의 품질에는 적용할 수 없다. 본 논문에서는 데이터 품질 평가 및 제어를 위하여 데이터 오류 형태를 분류하고, 이를 기반으로 데이트 품질 특성 및 부특성을 분류한다. 데이터 품질 특성 분류는 ISO/IEC 9126에 정의한 소프트웨어 품질 특성을 데이터 오류 형태에 대응시켜 추출한다. 본 논문에서 제시하는 데이트 품질특성 분류는 지식 공학(knowledge engineering)시스템이 최종 사용자에게 제공하는 데이터나 지식의 품질 측정 및 제어에 기준이 된다.

  • PDF