• 제목/요약/키워드: 문서 유형 분류

Search Result 102, Processing Time 0.025 seconds

A Question Type Classifier Using a Support Vector Machine (지지 벡터 기계를 이용한 질의 유형 분류기)

  • An, Young-Hun;Kim, Hark-Soo;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

System for Extraction and Classification of Critical Objects using YOLOv8 (YOLOv8을 활용한 디지털 문서의 핵심 객체 추출 및 분류 시스템 설계)

  • Young-Rae Cho;Hong Jun Kim;Byung Hoon Park;Sooyeon Shin;Chi hoon Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.596-599
    • /
    • 2024
  • 디지털 문서의 유통과정에서 발생할 수 있는 보안상의 문제를 해결하기 위해서는 파일 복사, 이동과정에 문서의 보안 등급을 자동 검출하고 특정 문서의 유출을 방지하는 보안 솔루션이 필요하다. 따라서 본 논문에서는 이러한 보안상의 문제를 해결하기 위하여 하나의 검출 분류 시스템을 제안하고자 한다. 제안한 시스템은 디지털 문서 내용을 이용하여 핵심 정보라고 판단되는 객체를 우선 추출한 후 그 핵심 유형을 분류하는 과정을 통해서 핵심 정보를 사전에 탐지하도록 하였다. 이를 위해서 SOTA를 달성한 YOLOv8를 이용하여 디지털 문서의 핵심 객체 감지하고 또한 파인튜닝을실시한 모델을 이용하여 그 유형을 분류하도록 설계하였다. 해당 시스템 검증을 위해서 기업에서 사용하고 있는 실제 사내 문서를 데이터셋을 이용하고 그 성능평가를 실시하였다.

Document Understanding using Partial Matching Method (부분 매칭을 이용한 서식 이해에 관한 연구)

  • 변영철;윤성수;김경환;최영우;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.443-445
    • /
    • 1999
  • 여러 가지 유형의 서식 문서를 자동으로 처리하려면 서식을 이해하는데 필요한 항목 영상을 추출하기에 앞서 서식을 분류(classification)해야 한다. 서식을 분류함에 있어서 서식 영상 전체를 다룰 경우 상당한 시간이 걸릴 수 있다. 왜냐하면 일반적으로 서식 문서 영상의 크기는 일반 문자 영상에 비해 상당히 클 뿐만 아니라 대상 서식 문서의 유형도 많아질 수 있기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위한 방법으로서 DP 매칭에 의한 부분 매칭 방법을 제안하고자 한다. 실험 결과, 제안하는 방법은 서식 문서의 전체가 아닌 일부 영역만을 비교함으로써 인식 시간과 인식률 면에서 서식 문서를 효과적으로 처리할 수 있었다.

  • PDF

Automatic Classification of Patent Documents Using Doc2Vec (Doc2Vec을 이용한 특허 문서 자동 분류)

  • Song, Jinjoo;Kang, Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

Korean Morphological Analysis Considering a Term with Multiple Parts of Speech ("의미적 한 단어" 유형 분석 및 형태소 분석 기법)

  • Hur, Yun-Young;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.128-131
    • /
    • 1994
  • 한국어 문서중 신문이나 시사지, 법률관련문서, 경제학관련문서, 국문학관련문서와 같은 전문분야 문서에는 한글, 한자, 영어, 문장부호와 같은 기호들의 결합으로 이루어지면서 하나의 뜻으로 나타내는 "의미적 한 단어"가 많이 존재한다. 이러한 단어들은 이를 고려하지 못한 형태소 분석기의 분석률을 감소시키고, 오분석율을 증가시킨다. 본 논문은 "의미적 한 단어"의 유형과 분석과정에 따른 유형을 분류하였으며 그에 적합한 형태소 분석기법을 제시하였다. 유형 분류과 제사된 형태소 분석기법으로 구현된 형태소 분석기는 기존의 형태소 분석기보다 분석률이 증가되었으며 오분석률은 감소되었다.

  • PDF

Efficient Model-based Form Processing Methods for Various Kinds of Form Documents (다양한 유형의 서식문서 처리를 위한 효과적인 모형 기반 방법에 관한 연구)

  • 변영철;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.420-422
    • /
    • 1998
  • 본 논문에서는 여러 가지 유형의 서식문서를 효과적으로 처리하기 위한 방법을 제안하고 모형 기반 서식 처리 시스템을 위한 프레임워크를 구현한다. 이를 위해서 서식문서의 모형으로 등록되는 정보로서 네가지 유형의 서식문서에 관한 지식을 정의하고, 이를 기술하기 위한 서식 기술 언어를 정의한다. 먼저, 서식 등록 과정에서 서식에 관한 네가지 유형의 지식을 서식 모형으로 등록한다. 그리고 서식 처리 과정에서 시스템에 등록되어 있는 서식 모형을 이용하여 서식을 분류함으로써 계산 시간을 줄일 수 있다. 실험결과 8개의 서식 모형이 등록되어 있을 경우에는 평균 서식 분류 시간은 0.74초였으며, 5개 혹은 6개의 항목을 추출하는데 걸리는 시간은 평균 0.45초였다. 본 방법은 서식 영상의 질이 좋지 않을 경우에도 잘 동작함은 물론 서식 모형만 추가함으로써 다른 서식 문서도 쉽게 처리할 수 있다.

  • PDF

(A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System) (한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기)

  • 김학수;안영훈;서정연
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.5_6
    • /
    • pp.466-475
    • /
    • 2003
  • To build an efficient Question-Answering (QA) system, a question type classifier is needed. It can classify user's queries into predefined categories regardless of the surface form of a question. In this paper, we propose a question type classifier using a Support Vector Machine (SVM). The question type classifier first extracts features like lexical forms, part of speech and semantic markers from a user's question. The system uses $X^2$ statistic to select important features. Selected features are represented as a vector. Finally, a SVM categorizes questions into predefined categories according to the extracted features. In the experiment, the proposed system accomplished 86.4% accuracy The system precisely classifies question type without using any rules like lexico-syntactic patterns. Therefore, the system is robust and easily portable to other domains.

Multi-class Support Vector Machines Model Based Clustering for Hierarchical Document Categorization in Big Data Environment (빅 데이터 환경에서 계층적 문서 유형 분류를 위한 클러스터링 기반 다중 SVM 모델)

  • Kim, Young Soo;Lee, Byoung Yup
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.11
    • /
    • pp.600-608
    • /
    • 2017
  • Recently data growth rates are growing exponentially according to the rapid expansion of internet. Since users need some of all the information, they carry a heavy workload for examination and discovery of the necessary contents. Therefore information retrieval must provide hierarchical class information and the priority of examination through the evaluation of similarity on query and documents. In this paper we propose an Multi-class support vector machines model based clustering for hierarchical document categorization that make semantic search possible considering the word co-occurrence measures. A combination of hierarchical document categorization and SVM classifier gives high performance for analytical classification of web documents that increase exponentially according to extension of document hierarchy. More information retrieval systems are expected to use our proposed model in their developments and can perform a accurate and rapid information retrieval service.

Block Classification of Document Images Using the Spatial Gray Level Dependence Matrix (SGLDM을 이용한 문서영상의 블록 분류)

  • Kim Joong-Soo
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.10
    • /
    • pp.1347-1359
    • /
    • 2005
  • We propose an efficient block classification of the document images using the second-order statistical texture features computed from spatial gray level dependence matrix (SGLDM). We studied on the techniques that will improve the block speed of the segmentation and feature extraction speed and the accuracy of the detailed classification. In order to speedup the block segmentation, we binarize the gray level image and then segmented by applying smoothing method instead of using texture features of gray level images. We extracted seven texture features from the SGLDM of the gray image blocks and we applied these normalized features to the BP (backpropagation) neural network, and classified the segmented blocks into the six detailed block categories of small font, medium font, large font, graphic, table, and photo blocks. Unlike the conventional texture classification of the gray level image in aerial terrain photos, we improve the classification speed by a single application of the texture discrimination mask, the size of which Is the same as that of each block already segmented in obtaining the SGLDM.

  • PDF

Semantic Clustering Model for Analytical Classification of Documents in Cloud Environment (클라우드 환경에서 문서의 유형 분류를 위한 시맨틱 클러스터링 모델)

  • Kim, Young Soo;Lee, Byoung Yup
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.11
    • /
    • pp.389-397
    • /
    • 2017
  • Recently semantic web document is produced and added in repository in a cloud computing environment and requires an intelligent semantic agent for analytical classification of documents and information retrieval. The traditional methods of information retrieval uses keyword for query and delivers a document list returned by the search. Users carry a heavy workload for examination of contents because a former method of the information retrieval don't provide a lot of semantic similarity information. To solve these problems, we suggest a key word frequency and concept matching based semantic clustering model using hadoop and NoSQL to improve classification accuracy of the similarity. Implementation of our suggested technique in a cloud computing environment offers the ability to classify and discover similar document with improved accuracy of the classification. This suggested model is expected to be use in the semantic web retrieval system construction that can make it more flexible in retrieving proper document.