• 제목/요약/키워드: 문서자동분류

검색결과 311건 처리시간 0.036초

문장 중요도를 이용한 자동 문서 범주화 (Automatic Text Categorization using the Importance of Sentences)

  • 고영중;박진우;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권6호
    • /
    • pp.417-424
    • /
    • 2002
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나, 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서 요약에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이타를 구축하고 실험하였으며 문장 중요도를 사용하지 않은 시스템 보다 향상된 성능을 얻을 수 있었다.

인터넷 문서 자동 분류 시스템 개발에 관한 연구 (A Study on Development of Automatic Categorization System for Internet Documents)

  • 한광록;선복근;한상태;임기욱
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2867-2875
    • /
    • 2000
  • 본 논문은 인터넷 문서 자동 분류 시스템의 구현에 대하여 논한다. 문서 자동분류 알고리즘을 설정하고, 역전파 학습 모델을 이용하여 문서의 범주화를 수행하는 시스템을 구축한다. 문서학습을 위해서 범주별 인터넷 문서들을 수집하고 수집한 문서에 대하여 카이제곱($\chi^2$)검정을 수행함으로써 범주화 자질을 추출한다. 이 범주화 자질을 바탕으로 하여 학습 및 분류 벡터 집합을 생성한다. 실험 결과의 평가로부터 본 논문에서 구현한 시스템이 유사도 계산을 이용한 문서의 분류 시스템보다 성능이 향상된 것을 알 수 있었다.

  • PDF

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

딥러닝-규칙기반 병행 모델을 이용한 특허문서의 자동 IPC 분류 방법 (Hybrid Approach Combining Deep Learning and Rule-Based Model for Automatic IPC Classification of Patent Documents)

  • 김용일;오유리;심우철;고봉수;이봉건
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-350
    • /
    • 2019
  • 인공지능 관련 기술의 발달로 다양한 분야에서 인공지능 활용에 대한 관심이 고조되고 있으며 전문영역에서도 기계학습 기법을 활용한 연구들이 활발하게 이루어지고 있다. 특허청에서는 분야별 전문지식을 가진 분류담당자가 출원되는 모든 특허에 국제특허분류코드(이하 IPC) 부여 작업을 수행하고 있다. IPC 분류와 같은 전문적인 업무영역에서 딥러닝을 활용한 자동 IPC 분류 서비스를 제공하기 위해서는 기계학습을 이용하는 분류 모델에 분야별 전문지식을 직관적으로 반영하는 것이 필요하다. 이를 위해 본 연구에서는 딥러닝 기반의 IPC 분류 모델과 전문지식이 반영된 분류별 어휘사전을 활용한 규칙기반 분류 모델을 병행하여 특허문서의 IPC분류를 자동으로 추천하는 방법을 제안한다.

  • PDF

위키피디아를 이용한 반자동 학습 기반의 cQA 서비스 주제 분류 시스템 (A Topic Classification System in cQA Services Based on Semi-Automatic Learning Using Wikipedia)

  • 김태현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-141
    • /
    • 2015
  • 본 논문은 커뮤니티 기반의 질의-응답 서비스에서 사용자 질의의 주제를 분류하는 시스템을 소개한다. 커뮤니티 기반의 질의-응답 서비스는 분야에 따라 다양한 주제를 가질 수 있으며 오늘 날 사용자 질의의 주제 분류에는 통계 기반의 분류 방법이 많이 이용되고 있다. 통계 기반의 분류 방법으로 사용자 질의를 분류하기 위해서는 주제에 적합한 대량의 학습 말뭉치가 필요하다. 주제에 적합한 대량의 학습 말뭉치를 사람이 직접 구축하는 것은 많은 시간과 비용이 든다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 위키피디아 문서를 Supervised K-means Clustering 기법으로 주제별로 분류함으로써 학습 말뭉치를 반자동으로 구축하는 방법을 제안한다. 그 다음, 생성된 학습 말뭉치로 지지 벡터 기계를 학습하여 사용자 질의의 주제를 분류하게 된다. 위키피디아 문서와 사용자 질의는 다른 도메인의 문서임에도 불구하고 본 논문의 시스템으로 사용자 질의의 주제를 분류한 결과 77.33%의 정확도를 보였다.

  • PDF

대용량 문서분류에서의 비선형 주성분 분석을 이용한 특징 추출 (Feature Selection with Non-linear PCA in Text Categorization)

  • 신형주;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.146-148
    • /
    • 1999
  • 문서분류의 문제점 중의 하나는 사용하는 데이터의 차원이 매우 크다는 것이다. 그러므로 문서에서 필요한 단어만을 자동적으로 추출하여 문서데이터의 차원을 축소하는 작업이 문서분류에서는 필수적이다. DF(Document Frequency)는 문서의 차원축소의 대표적인 통계적 방법 중 하나인데, 본 논문에서는 문서의 차원축소에 DF와 주성분 분석(PCA)을 비교하여 주성분 분석이 문서의 차원축소에 적합함을 실험적으로 보인다. 그리고 비선형 주성분 분석(nonlinear PCA) 방법 중 locally linear PCA와 kenel PCA를 적용하여 비선형 주성분 분석을 이용하여 문서의 차원을 줄이는 것이 선형 주성분 분석을 이용하는 것 보다 문서분류에 더 적합함을 실험적으로 보인다.

  • PDF

FP-Tree를 이용한 문서 분류 방법 (Text Document Categorization using FP-Tree)

  • 박용기;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권11호
    • /
    • pp.984-990
    • /
    • 2007
  • 전자 문서의 급속한 증가로 인하여 자동 문서 분류의 필요성도 증가하고 있다. 기존의 문서 분류 방법들은 대개 문서를 단어의 집합으로 간주하여 기계 학습의 방법을 그대로 적용하거나 악간의 변형을 가한 방법들이 대부분이다. 본 논문에서는 데이타 마이닝 분야에서 사용되는 FP-Tree 구조를 이용하여 문서내의 문장들의 패턴을 저장하고 이를 사용하여 문서를 분류하는 방법(FPTC)을 제시한다. 또한 FP-Tree를 이용한 방법에 상호 정보량과 문장별 엔트로피를 적용하여 분류 정확도를 높이는 방법 그리고 각각의 실험 결과와 함께 다른 문서 분류 알고리즘과 비교 분석한 결과를 살펴보기로 한다.

Co-Trained Support Vector Machines을 이용한 문서분류 (Text Categorization Using Co-Trained Support Vector Machines)

  • 박성배;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.259-261
    • /
    • 2002
  • 대부분의 자동문서분류 시스템은 문서에 사용된 단어의 분포만 고려하고, 또 하나의 중요한 정보인 통사 정보는 무시한다. 본 논문에서는 통사정보와 어휘정보를 모두 사용함으로써 대규모의 비구조 문서를 분류하는 방법을 제시한다. 이를 위해, 학습 데이터에 대해 독립된 두 개의 관점을 요구하는 일종의 부분 감독 학습 알고리즘인 co-training 알고리즘을 사용한다. 어휘정보와 통사정보가 각각 문서의 독립된 관점이 될 수 있으므로, 이 두 정보와 레이블이 없는 문서를 사용하여 문서 분류의 성능을 높일 수 있다. Reelers-21578 문서집합과 TREC-7 filtering 문서집합에 대한 실험 결과는 제시된 방법의 유효성을 보인다.

  • PDF

계층구조 카테고리를 가지는 텍스트 분류 시스템 (A Text Classification System for Hierarchical Categories)

  • 박지호;김진상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.128-130
    • /
    • 2000
  • 인터넷의 발전으로 온라인 문서들의 양이 급증하여 문서의 자동 분류 기술의 중요성이 증대되고 있다. 문서를 미리 정의된 카테고리로 분류할 때 카테고리는 평면구조보다 계층구조를 갖도록 하는 것이 사용자의 측면에서 볼 때 훨씬 더 자연스럽다. 본 논문에서는 계층구조 카테고리를 가지는 문서를 분류하는 방법을 연구하고 실제 20개의 유스넷 뉴스그룹 문서들을 분류하도록 시험하였다. 여기서 사용한 알고리즘은 하이퍼링크 정보를 이용하여 웹 문서분류를 목적으로 개발된 IBM의 TAPER(taxonomy and path enhanced retrieval system) 알고리즘을 변형한 것이다.

  • PDF

학습방법개선과 후처리 분석을 이용한 자동문서분류의 성능향상 방법 (Reinforcement Method for Automated Text Classification using Post-processing and Training with Definition Criteria)

  • 최윤정;박승수
    • 정보처리학회논문지B
    • /
    • 제12B권7호
    • /
    • pp.811-822
    • /
    • 2005
  • 자동문서분류는 문서의 내용에 기반하여 미리 정의된 항목에 자동으로 할당하는 작업으로서 효율적인 정보관리 및 검색등에 필수적인 작업이다. 기존의 문서분류성능 향상을 위한 연구들은 대부분 분류모델 자체를 개선시키는 데 주력해왔으며 통계적인 방법으로 그 범위가 제한되어왔다. 본 연구에서는 자동문서분류의 성능향상을 위해 데이터마이닝 기법과 결함허용방법을 이용하는 개선된 학습알고리즘과 후처 리 방법에 의한 RTPost 시스템을 제안한다. RTPost 시스템은 학습문서 선택작업 이전에 분류항목 설정의 문제를 다루며, 분류함수의 성능보다는 지정방식의 문제점을 감안하여 학습과 분류 후처리 프로세스를 개선하려는 것이다. 이를 통해 분류결과에 중요한 영향을 미쳐왔던 학습문서의 수와 선택방법, 분류모델의 성능등에 의존하지 않는 안정적인 분류가 가능하였고, 이를 분류오류율이 높은 경계선 인접영역에 위치한 문서들에 적용한 결과 높은 정확율을 얻을 수 있었다. 뿐만 아니라, RTPost 프로세스를 진행하는 동안 능동학습방법의 장점을 수용하여 학습효과는 높이며 비용을 감소시킬 수 있는 자가학습방법(self learning)방법의 효과를 기대할 수 있다.