• 제목/요약/키워드: 문서 분류기

검색결과 192건 처리시간 0.028초

특허정보 검색을 위한 벡터스페이스 검색모텔의 적용 (Vector Space Model for Patent Information Retrieval System)

  • 원상훈;노태길;손기준;박정희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

군집화 기법을 이용한 능동적 학습의 최초학습예제 선정 (Selecting Initial Training Set for Active Learning by Clustering)

  • 강재호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.16-18
    • /
    • 2003
  • 기계학습의 분류(classification) 기술을 실제 문제에 적용하기 위해서는 카테고리(category)를 부여한 학습예제를 상당수 준비하여야 한다. 예제에 카테고리를 부여(labeling)하는 작업에는 무시할 수 없는 시간과 인력을 필요로 한다. 능동적 학습(active learning)은 동일한 수의 학습예제로 최대한의 성능을 달성하기 위하여 카테고리를 부여할 학습예제를 선별하는 전략이다. 능동적 학습은 현재까지 파악된 정보에 기반하여 분류기(classifier)를 생성하고, 생성된 분류기를 활용하여 카테고리를 부여받았을 때 가장 이득이 큰 예제들을 선정하여 사용자에게 문의하는 과정을 반복하여 수행한다. 만일 능동적 학습의 첫 학습단계에서 학습에 보다 유용한 예제들을 최초학습예제집합으로 선정한다면 같은 수의 학습예제로 더 나은 성능을 달성할 수 있을 것이다. 본 논문에서는 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 일반적인 가정에 기반하여 예제들을 군집화(clustering)한 후, 생성된 각 군집을 대표할 수 있는 예제로 최초학습예제집합으로 구성하는 방안을 제안한다. 제안한 방안을 문서분류 문제를 대상으로 실험해 본 결과 최초학습예제들을 임의로 선정하는 방식보다 정확도가 높은 분류기를 생성할 수 있음을 확인하였다.

  • PDF

정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발 (Developing a Text Categorization System Based on Unsupervised Learning Using an Information Retrieval Technique)

  • 노대욱;이수용;나동열
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.160-168
    • /
    • 2007
  • 문서분류기의 개발에 있어 지도학습기법을 이용할 경우 많은 양의 사람에 의한 범주 부착 말뭉치가 필요하다. 그러나 이의 구축은 많은 시간과 노력을 필요로 한다. 최근 이러한 범주 부착 말뭉치 대신 원시말뭉치와 범주마다 약간의 씨앗 정보를 이용하여 학습을 수행하여 문서분류기를 개발하는 방법론이 제시되었다. 본 논문에서는 이 방법론 하에서 다른 연구에서의 결과보다 좋은 성능을 나타내는 비지도 학습 기법을 소개한다. 본 논문에서 제시하는 기법의 특징은 씨앗 단어에서 출발하여 평균상호정보를 이용하여 다른 대표단어 및 그들의 가중치를 학습한 다음, 정보검색에서 많이 사용하는 기술을 이용하여 그 가중치를 갱신하는 것이다. 그리고 이 과정을 반복 수행하여 최종적으로 높은 성능의 시스템을 개발 할 수 있음을 제시하였다.

분석 배제 정보와 후절어를 이용한 한국어 명사추출 (Korean Noun Extraction Using Exclusive Segmentation Information and Post-noun morpheme sequences)

  • 이도길;류원호;임해창
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.19-25
    • /
    • 2000
  • 명사 추출기는 정보검색, 문서분류, 문서요약, 정보추출 등의 분야에서 사용되고 있으며, 정확한 명사 추출과 빠른 색인 속도는 이들 시스템 성능과 밀접한 관계가 있다. 한국어에서 명사를 추출하기 위해서는 형태소 분석이 필요한데, 본 논문에서는 대량의 품사부착된 말뭉치로부터 추출한 분석배제 정보와 후절어를 이용함으로써 형태소 분석을 생략하거나 보다 단순한 처리에 의해 명사를 추출하는 방법을 제안한다. 실험결과에 의하면, 제안된 방법에 의한 명사추출기는 비교적 높은 정확률과 재현율을 나타내며, 빠른 속도를 보였다.

  • PDF

계층적 문서 클러스터링을 이용한 실세계 질의 메일의 자동 분류 (Automatic Categorization of Real World FAQs Using Hierarchical Document Clustering)

  • 류중원;조성배
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.187-190
    • /
    • 2001
  • Due to the recent proliferation of the internet, it is broadly granted that the necessity of the automatic document categorization has been on the rise. Since it is a heavy time-consuming work and takes too much manpower to process and classify manually, we need a system that categorizes them automatically as their contents. In this paper, we propose the automatic E-mail response system that is based on 2 hierarchical document clustering methods. One is to get the final result from the classifier trained seperatly within each class, after clustering the whole documents into 3 groups so that the first classifier categorize the input documents as the corresponding group. The other method is that the system classifies the most distinct classes first as their similarity, successively. Neural networks have been adopted as classifiers, we have used dendrograms to show the hierarchical aspect of similarities between classes. The comparison among the performances of hierarchical and non-hierarchical classifiers tells us clustering methods have provided the classification efficiency.

  • PDF

질의 응답 시스템에서 개체 피드백을 이용한 정답 추출 (Answer Extraction Using Named Entity Feedback in Question Answering System)

  • 나승훈;강인수;이상율;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.676-678
    • /
    • 2002
  • 질의 응답 시스템(Question Answering: QA)에서 정답 유형 부류(Answer Type Taxonomy: ATT)란 사용자 질문 분석을 위한 미 부류 체계를 의미하는 것으로, ATT의 크기가 클수록 시스템의 성능은 높아진다. ATT를 확장하기 위해서는, 개체(Named Entity)에 의미 범주를 결정하는 개체 분류기(Named Entity Tagger의 분류 체계가 세분되어야 하는데, 기존의 개체 분류기는 한문서 내에서 그 개체의 분류를 시도하기 때문에, 분류를 위한 문맥 정보의 양이 부족하여, 정확하고 상세한 분류를 기대하기 힘들다. 본 논문에서는 동일 개체에 대한 문맥 정보를 수집하기 위해, 그 개체가 나타나는 다른 문서들을 검색하는 개체 피드백 Named Enti쇼 Feedback)이라는 기법을 사용한다. 개체가 상세히 분류됨에 따라 ATT도 확장될 수 있었으며, 이렇게 확장된 ATT상에서의 정답 추출은 baseline보다 약 7%정도의 성능 향상을 보여, 개체 피드백의 효과를 확인할 수 있었다.

  • PDF

점진적 학습 기반 모아 콘텐츠 큐레이션 서비스 시스템 설계 (Design of Moa Contents Curation Service System Based on Incremental Learning Technology)

  • 이정원;민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.401-402
    • /
    • 2018
  • 콘텐츠 큐레이션 서비스를 위해서 대용량 데이터를 학습하는 과정에서 발생하는 메모리부족 문제, 학습소요시간 문제 등을 해결하기 위한 "대용량 문서학습을 위한 동적학습 파이프라인 생성기술 중 빅데이터 마이닝을 위한 점진적 학습 모델" 기술이 필요하며, 본 논문에서 제안한 콘텐츠 큐레이션 서비스는 온라인상의 수많은 콘텐츠들 중 개인의 주관이나 관점에 따라 관련 콘텐츠들을 수집, 정리하고 편집하여 이용자와 관련이 있거나 좋아할 만한 콘텐츠를 제공하는 서비스이다. 본 논문에서 설계된 모아 큐레이션 서비스는 대용량의 문서를 학습함에 있어서 메모리 부족 문제, 학습 소요시간 문제 등을 해결하기 위해 학습데이터의 용량 제한이 없는 문서를 자유롭게 학습하고 부분적인 자질추가/변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법 등을 제시하였다.

  • PDF

문서영상의 낱자 단위 언어 구분 (Language Identification of Character-level in Document Image)

  • 권세광;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.613-615
    • /
    • 2003
  • 본 논문은 문서 구조분석을 통해 얻어진 텍스트 영상에 대해 낱자 단위 분할 과정과 분할된 낱자에 대한 언어 구분 방법을 제안한다. 먼저 8방향 연결 요소를 이용한 레이블링을 수행하고 각 레이블의 거리관계와 한글 종모음의 특징을 이용하여 낱자 분리를 수행한다. 분리가 이루어진 낱자의 언어 구분은 각 낱자에 존재하는 concavity 특징을 이용하여 한글과 영어로 구분하게 된다. Concavity 특징을 찾기 위해 낱자를 이루는 흑화소 중 수직런을 이루는 흑화소 중 일부와 세리프 성분을 제거하며 그 방법을 기술한다. concavity 특징은 분리기를 통해 한글과 영어 두 가지로 분리되며, 분류기는 신경망을 이용한다. 제안된 방법은 20개의 텍스트 영상에 총 7923개의 낱자를 대상으로 실험하였으며, 낱자 분리는 97.20%의 정확도를 보였으며 분리된 낱자에 대한 언어 구분은 92.70%의 정확도를 얻을 수 있었다.

  • PDF