• 제목/요약/키워드: Document Classification

검색결과 444건 처리시간 0.022초

특징선택과 특징가중의 융합을 통한 웹문서분류 성능의 개선 (Performance Improvement of Web Document Classification through Incorporation of Feature Selection and Weighting)

  • 이아람;김한준;현만
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.141-148
    • /
    • 2013
  • 기계학습을 이용한 자동분류시스템은 학습과정을 통해 분류모델을 구축하고 이를 기반으로 미분류 데이터를 특정 카테고리로 분류한다. 기계학습 기반 자동분류 시스템의 성능은 분류모델의 구성 인자인 특징의 품질에 크게 의존한다. 문서 데이터의 경우 특징 집합을 생성하기 위해 문서내의 출현단어와 문서의 구조적 정보를 활용한다. 특히 웹문서로부터 특징을 추출하기 위해 단어뿐만 아니라 태그, 하이퍼링크 정보를 분석할 수 있다. 최근 웹문서의 분류 기법에 대한 연구는 기계학습 알고리즘보다 특징 생성 및 가공 기술에 초점을 맞추고 있다. 이에 본 논문은 웹문서의 분류모델을 개선하기 위해 단어, 태그, 하이퍼링크 정보로부터 고품질의 특징을 선별 추출하여 가중치를 자동으로 부여하는 기법을 제안한다. Web-KB 문서집합을 이용한 다양한 실험을 통해 제안 기법의 우수성을 보인다.

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

문서측 자질선정을 이용한 고속 문서분류기의 성능향상에 관한 연구 (Improving the Performance of a Fast Text Classifier with Document-side Feature Selection)

  • 이재윤
    • 정보관리연구
    • /
    • 제36권4호
    • /
    • pp.51-69
    • /
    • 2005
  • 문서분류에 있어서 분류속도의 향상이 중요한 연구과제가 되고 있다. 최근 개발된 자질값투표 기법은 문서자동분류 문제에 대해서 매우 빠른 속도를 가졌지만, 분류정확도는 만족스럽지 못하다. 이 논문에서는 새로운 자질선정 기법인 문서측 자질선정 기법을 제안하고, 이를 자질값투표 기법에 적용해 보았다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 문서측 자질선정을 적용한 실험에서는, 간단하고 빠른 자질값투표 분류기로 SVM 분류기만큼 좋은 성능을 얻을 수 있었다.

감정 자질을 이용한 한국어 문장 및 문서 감정 분류 시스템 (A Korean Sentence and Document Sentiment Classification System Using Sentiment Features)

  • 황재원;고영중
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권3호
    • /
    • pp.336-340
    • /
    • 2008
  • 최근 감정 분류에 대한 관심이 높아져 연구가 활발히 진행되고 있다. 문서 전체에 관한 감정의 분류도 중요하지만, 문서를 이루고 있는 문장에 관한 분류도 점차 그 필요성이 높아지고 있다. 본 논문에서는 한국어 감정 분류 시스템 구축을 위해서 추출된 한국어 감정 자질을 이용한 한국어 문장 및 문서 감정 분류에 관해 연구한다. 한국어 감정 분류의 시작은 감정을 내포한 대표적인 어휘로부터 시작하며, 이와 같은 감정 자질들은 문장 및 문서의 감정을 분류하는데 결정적인 관여를 한다. 한국어 감정 자질의 추출을 위하여 영어 단어 시소러스 정보를 이용하여 자질들을 확장하고, 영한사전을 통해 확장된 자질들을 번역함으로써 감정 자질들을 추출하였다. 추출된 감정 자질들을 사용하여, 단어 벡터로 표현된 입력문서를 이진 분류기인 지지벡터 기계(SVM: Support Vector Machine)를 이용하여 문장과 문서에 내포된 감정을 판단하고 평가하였다.

텍스트 문서 분류에서 범주간 유사도와 계층적 분류 방법의 성과 관계 연구 (A Study on the Relationship between Class Similarity and the Performance of Hierarchical Classification Method in a Text Document Classification Problem)

  • 장수정;민대기
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.77-93
    • /
    • 2020
  • 비정형 텍스트 문서를 다중 범주로 분류하는 문제에 있어서, 계층적 분류 방법이 비계층적 분류 방법에 비하여 분류 성능이 우수한 것으로 알려져 있다. 기존 문헌과 다르게 본 연구에서는 사전에 범주들의 계층 구조가 정의된 상황에서 계층적 분류 방법과 비계층적 분류 방법의 성능을 비교하였다. 수자원 분야 기후변화 적응기술과 관련한 논문 분류 데이터와 20NewsGroup 오픈 데이터를 대상으로 계층적/비계층적 분류 방법의 성능을 비교하였다. 본 연구결과 기존 문헌과 다르게 계층적 분류 방법이 비계층적 분류 방법에 비하여 언제나 성능이 우수한 것은 아님을 확인하였다. 계층 구조의 상위/하위 수준에서의 상대적 유사도에 따라서 계층적/비계층적 분류 방법의 성능에 차이가 있음을 확인하였다. 즉, 상위 수준의 유사도가 하위 수준보다 상대적으로 낮은 경우 상위 수준에서의 오분류 감소로 계층적 분류 방법의 성능이 개선됨을 확인하였다.

단어패턴 빈도를 이용한 단문 오피니언 문서 분류기법의 실험적 평가 (An Experimental Evaluation of Short Opinion Document Classification Using A Word Pattern Frequency)

  • 장재영;김일민
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.243-253
    • /
    • 2012
  • 데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내 산업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 분류 정확도를 보이지 않고 있다. 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어패턴의 빈도만을 고려한 새로운 오피니언 문서 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화한 후, 패턴들의 빈도를 이용하여 기계학습 알고리즘을 적용한다. 이후에 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 제안된 기법의 정확도를 평가하기 위해서 실험결과를 제시한다.

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

블록의 속성과 질감특징을 이용한 문서영상의 블록분류 (Block Classification of Document Images by Block Attributes and Texture Features)

  • 장영내;김중수;이철희
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.856-868
    • /
    • 2007
  • 본 논문에서는 블록의 속성과 질감특징을 이용하여 효과적인 블록 분류 방법을 제안하였다. 제안한 방법에서는 먼저 명암도 문서영상을 이진화한 후, 평활화 기법을 적용하여 블록의 위치정보와 본 논문에서 사용할 특징 중에 하나인 각 블록의 내부에 있는 작은 블록들의 최대 높이 값을 구하였다. 이 위치정보들을 이용하여 문서영상을 각 블록으로 분할한다. 이 블록의 명암도 블록영상에서 문서의 속성이 잘 반영된 (0,1) 방향의 공간 명암도 의존 행렬을 구하여 7가지 질감특징을 구하였다. 먼저 블록의 속성을 최소거리 규칙(Nearest Neighbor Rule)에 입력하여 문자와 비문자 영역으로, 상세분류를 위하여 7가지 질감특징을 이용하여 큰 문자, 작은 문자, 표, 그래픽 및 사진 등으로 구분함으로써 문서인식을 위한 구조 해석뿐만 아니라 다양한 응용 분야에 효과적으로 이용될 수 있도록 하였다.

  • PDF

문서 영상의 영역 분류와 회전각 검출 (A Block Classification and Rotation Angle Extraction for Document Image)

  • 모문정;김욱현
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.509-516
    • /
    • 2002
  • 본 논문에서는 그림, 글자, 표, 직선 등과 같은 다양한 정보를 포함하는 문서 영상 인식에 대한 효율적인 알고리즘을 제안한다. 이 시스템은 문서영상의 기울짐을 보정하기 위한 회전각검출 단계, 불필요한 배경영역을 제거하는 단계, 문서영상에 내재된 각 구성요소를 검출하는 분류 단계로 구성된다. 알고리즘은 문서의 기울어짐에 의해서 발생되는 오류를 최소화하기 위한 회전각 검출과정과 검출된 회전각을 기반으로 문서를 보정하는 전처리단계를 수행한다. 입력된 문서영상의 수평성분과 수직성분만을 이용하여 회전각을 검출하고, 문서의 구성요소 검출과정에서 불필요한 배경영역을 제거함으로써 계산시간을 최소화하였다. 그리고 영상에 내재된 그림영역, 글자영역, 표영역, 직선영역 둥의 다양한 구성요소를 분류한다. 제안한 문서 인식 시스템의 성능 평가를 위해서 다양한 문서영상에 제안한 방법을 적용하고 성공적인 결과를 보인다.

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장 (Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification)

  • 이호경;양선;고영중
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1008-1014
    • /
    • 2016
  • 트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.