• 제목/요약/키워드: 분류화

검색결과 4,781건 처리시간 0.03초

정규화 용어빈도가중치에 의한 자동문서분류 (Automatic Text Categorization by using Normalized Term Frequency Weighting)

  • 김수진;김민수;백장선;박혁로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.510-512
    • /
    • 2003
  • 본 논문에서는 문서의 자동 분류를 위한 용어 빈도 가중치 계산 방법으로 Box-Cox변환기법을 응용한 정규화 용어빈도 가중치를 정의하고, 이를 문서 분류에 적응하였다. 여기서 Box-Cox 변환기법이란 자료를 정규분포화 할 때 적용하는 통계적인 변환방법으로서, 본 논문에서는 이를 응용하여 새로운 용어빈도가중치 계산법을 제안한다. 문서에서 등장한 용어 빈도는 너무 많거나 적게 등장할 경우, 중요도가 떨어지게 되는데, 이는 용어의 중요도가 빈도에 따른 정규분포로 모델링 될 수 있다는 것을 의미한다. 또한 정규화 가중치 계산방법은 기존의 용어빈도 가중치 공식과 비교할 때, 용어마다 계산방법이 달라져, 로그나 루트와 같은 고정된 가중치 방법보다는 좀더 일반적인 방법이라 할 수 있다. 신문기사 8000건을 대상으로 4개의 그룹으로 나누어 실험 한 결과, 정규화 용어빈도가중치 계산방법이 모두 우위의 분류 정확도롤 가져, 본 논문에서 제안한 방법이 타당함을 알 수 있다.

  • PDF

지지 벡터 기계를 이용한 질의 유형 분류기 (A Question Type Classifier Using a Support Vector Machine)

  • 안영훈;김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.129-136
    • /
    • 2002
  • 고성능의 질의응답 시스템을 구현하기 위해서는 사용자의 질의 유형의 난이도에 관계없이 의도를 파악할 수 있는 질의유형 분류기가 필요하다. 본 논문에서는 문서 범주화 기법을 이용한 질의 유형 분류기를 제안한다. 본 논문에서 제안하는 질의 유형 분류기의 분류 과정은 다음과 같다. 우선, 사용자 질의에 포함된 어휘, 품사, 의미표지와 같은 다양한 정보를 이용하여 사용자 질의로부터 자질들을 추출한다. 이 과정에서 질의의 구문 특성을 반영하기 위해서 슬라이딩 윈도 기법을 이용한다. 또한, 다량의 자질들 중에서 유용한 것들만을 선택하기 위해서 카이 제곱 통계량을 이용한다. 추출된 자질들은 벡터 공간 모델로 표현되고, 문서 범주화 기법 중 하나인 지지 벡터 기계(support vector machine, SVM)는 이 정보들을 이용하여 질의 유형을 분류한다. 본 논문에서 제안하는 시스템은 질의 유형 분류 문제에지지 벡터 기계를 이용한 자동문서 범주화 기법을 도입하여 86.4%의 높은 분류 정확도를 보였다. 또한 질의 유형 분류기를 통계적 방법으로 구축함으로써 lexico-syntactic 패턴과 같은 규칙을 기술하는 수작업을 배제할 수 있으며, 응용 영역의 변화에 대해서도 안정적인 처리와 빠른 이식성을 보장한다.

  • PDF

지진 이벤트 분류를 위한 정규화 기법 분석 (Analysis of normalization effect for earthquake events classification)

  • 장수;구본화;고한석
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.130-138
    • /
    • 2021
  • 본 논문에서는 지진 이벤트 분류를 위한 다양한 정규화 기법 분석 및 효과적인 합성곱 신경망(Convolutional Neural Network, CNN)기반의 네트워크 구조를 제안하였다. 정규화 기법은 신경망의 학습 속도를 개선할 뿐만 아니라 잡음에 강인한 모습을 보여 준다. 본 논문에서는 지진 이벤트 분류를 위한 딥러닝 모델에서 입력 정규화 및 은닉 레이어 정규화가 모델에 미치는 영향을 분석하였다. 또한, 적용 은닉 레이어의 구조에 따른 다양한 실험을 통해 효과적인 모델을 도출하였다. 다양한 모의실험 결과 입력 데이터 정규화 및 제1 은닉 레이어에 가중치 정규화를 적용한 모델이 가장 안정적인 성능 향상을 보여 주었다.

An Efficient Deep Learning Ensemble Using a Distribution of Label Embedding

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.27-35
    • /
    • 2021
  • 본 연구에서는 레이블 임베딩의 분포를 반영하는 딥러닝 모형을 위한 새로운 스태킹 앙상블 방법론을 제안하였다. 제안된 앙상블 방법론은 기본 딥러닝 분류기를 학습하는 과정과 학습된 모형으로 부터 얻어진 레이블 임베딩을 이용한 군집화 결과로부터 소분류기들을 학습하는 과정으로 이루어져 있다. 본 방법론은 주어진 다중 분류 문제를 군집화 결과를 활용하여 소 문제들로 나누는 것을 기본으로 한다. 군집화에 사용되는 레이블 임베딩은 처음 학습한 기본 딥러닝 분류기의 마지막 층의 가중치로부터 얻어질 수 있다. 군집화 결과를 기반으로 군집화 내의 클래스들을 분류하는 소분류기들을 군집의 수만큼 구축하여 학습한다. 실험 결과 기본 분류기로부터의 레이블 임베딩이 클래스 간의 관계를 잘 반영한다는 것을 확인하였고, 이를 기반으로 한 앙상블 방법론이 CIFAR 100 데이터에 대해서 분류 성능을 향상시킬 수 있다는 것을 확인할 수 있었다.

위키피디아를 이용한 분류자질 선정에 관한 연구 (An Experimental Study on Feature Selection Using Wikipedia for Text Categorization)

  • 김용환;정영미
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.155-171
    • /
    • 2012
  • 텍스트 범주화에 있어서 일반적인 문제는 문헌을 표현하는 핵심적인 용어라도 학습문헌 집합에 나타나지 않으면 이 용어는 분류자질로 선정되지 않는다는 것과 형태가 다른 동의어들은 서로 다른 자질로 사용된다는 점이다. 이 연구에서는 위키피디아를 활용하여 문헌에 나타나는 동의어들을 하나의 분류자질로 변환하고, 학습문헌 집합에 출현하지 않은 입력문헌의 용어를 가장 유사한 학습문헌의 용어로 대체함으로써 범주화 성능을 향상시키고자 하였다. 분류자질 선정 실험에서는 (1) 비학습용어 추출 시 범주 정보의 사용여부, (2) 용어의 유사도 측정 방법(위키피디아 문서의 제목과 본문, 카테고리 정보, 링크 정보), (3) 유사도 척도(단순 공기빈도, 정규화된 공기빈도) 등 세 가지 조건을 결합하여 실험을 수행하였다. 비학습용어를 유사도 임계치 이상의 최고 유사도를 갖는 학습용어로 대체하여 kNN 분류기로 분류할 경우 모든 조건 결합에서 범주화 성능이 0.35%~1.85% 향상되었다. 실험 결과 범주화 성능이 크게 향상되지는 못하였지만 위키피디아를 활용하여 분류자질을 선정하는 방법이 효과적인 것으로 확인되었다.

Hough Transform을 이용한 한글 필기체 형식 분류에 관한 연구 (A Study on the Classification of Hand-written Korean Character Types using Hough Transform)

  • 구하성;고경화
    • 한국통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.1991-2000
    • /
    • 1994
  • 본 논문에서는 필기체 문자 인식 시스템을 위하여 6형식 분류 알고리즘을 제안하였다. 입력 영상은 세선화 과정을 거친 후 잡음을 제거하는 절단화 과정을 거친 후 $64\times64$ 크기로 정규화하여 이용하였다. 6형식 분류는 신경회로망의 모델 중 다층 퍼셉트론의 학습알고리즘을 이용하여 대분류와 상세분류 과정에서 이루어진다. 특징값 추출은 부분적인 특정값으로는 Subblock Hough transform을 이용하였으며 전체적인 특징값으로는 표본화 Hough transfrom을 이용하였다. 실험은 10사람이 한 형식당 30번씩 쓴 1800자를 대상으로 하였으며 받침의 유무로 대분류한 후 각기 종모음과 횡모음의 유무로 상세분류하여 90%의 분류 성공율을 얻었다.

  • PDF

오류 학습 문서 제거를 통한 문서 범주화 기법의 성능 향상 (A Text Categorization Method Improved by Removing Noisy Training Documents)

  • 한형동;고영중;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권9호
    • /
    • pp.912-919
    • /
    • 2005
  • 문서 범주화에서 이진 분류를 다중 분류에 적용할 때 일반적으로 '한 범주에 적합-다른 모든 범주에서는 부적합(One-Against-All) 판정 방법'을 사용한다. 하지만, 이러한 '한 범주에 적합-다른 모든 범주에서는 부적합 판정 방법'은 한 가지 문제점을 가지는데, 적합(positive) 집합의 문서들은 사람이 직접범주를 할당한 것이지만 부적합(negative) 집합의 문서들은 사람이 직접 범주를 할당한 것이 아니기 때문에 오류 문서들이 많이 포함될 수 있다는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서 슬라이딩 원도우(sliding window) 기법과 EM 알고리즘을 이진 분류 기반의 문서 범주화에 적용할 것을 제안한다. 제안된 기법은 먼저 슬라이딩 윈도우 기법을 사용하여 오류 문서들을 추출하고 이들을 EM알고리즘을 사용해서 다시 범주를 할당함으로써 이진 분류 기반의 문서 범주화 기법의 성능을 향상시킨다.

텍스트 분류를 위한 자질 순위화 기법에 관한 연구 (An Experimental Study on Feature Ranking Schemes for Text Classification)

  • 김판준
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.1-21
    • /
    • 2023
  • 본 연구는 텍스트 분류를 위한 효율적인 자질선정 방법으로 자질 순위화 기법의 성능을 구체적으로 검토하였다. 지금까지 자질 순위화 기법은 주로 문헌빈도에 기초한 경우가 대부분이며, 상대적으로 용어빈도를 사용한 경우는 많지 않았다. 따라서 텍스트 분류를 위한 자질선정 방법으로 용어빈도와 문헌빈도를 개별적으로 적용한 단일 순위화 기법들의 성능을 살펴본 다음, 양자를 함께 사용하는 조합 순위화 기법의 성능을 검토하였다. 구체적으로 두 개의 실험 문헌집단(Reuters-21578, 20NG)과 5개 분류기(SVM, NB, ROC, TRA, RNN)를 사용하는 환경에서 분류 실험을 진행하였고, 결과의 신뢰성 확보를 위해 5-fold cross validation과 t-test를 적용하였다. 결과적으로, 단일 순위화 기법으로는 문헌빈도 기반의 단일 순위화 기법(chi)이 전반적으로 좋은 성능을 보였다. 또한, 최고 성능의 단일 순위화 기법과 조합 순위화 기법 간에는 유의한 성능 차이가 없는 것으로 나타났다. 따라서 충분한 학습문헌을 확보할 수 있는 환경에서는 텍스트 분류의 자질선정 방법으로 문헌빈도 기반의 단일 순위화 기법(chi)을 사용하는 것이 보다 효율적이라 할 수 있다.

공공도서관 분류오류의 실증적 분석과 대안 (Analysis and Alternative of Classification Errors in Public Libraries)

  • 윤희윤
    • 한국도서관정보학회지
    • /
    • 제34권1호
    • /
    • pp.43-65
    • /
    • 2003
  • 도서관은 오랫동안 분류법을 적용하여 자료를 정리하여 왔다. 그 궁극적 목적은 자료의 체계적 배가와 접근(브라우징)의 편의성을 극대화하는데 있으며, 동일한 자료가 동일한 분류번호에 배정되어야 한다는 원칙을 전제로 한다. 이러한 당위성에도 불구하고 한국십진분류법을 표준도구로 사용하고 있는 국내 공공도서관의 경우, 소위 분류오류가 적지 않은 것으로 판단되어 그 원인이 무엇이며 어느 정도로 심각한지를 실증적으로 분석하였다. 그리고 분류오류를 해소하기 위한 대안, 즉 분류의 중요성에 대한 인식 제고, 학부의 분류교육의 충실화, 사서직 실무교육의 강화. CIP 제도의 정착과 내실화, 분류표의 체계성 및 하위항목의 개선, 재분류(분류수정)팀의 구성과 가동, 분류사이트 운영의 필요성을 제시하였다.

  • PDF

데이터 마이닝의 분류화와 연관 규칙을 이용한 네트워크 트래픽 분석 (Analysis of Network Traffic using Classification and Association Rule)

  • 이창언;김응모
    • 한국시뮬레이션학회논문지
    • /
    • 제11권4호
    • /
    • pp.15-23
    • /
    • 2002
  • As recently the network environment and application services have been more complex and diverse, there has. In this paper we introduce a scheme the extract useful information for network management by analyzing traffic data in user login file. For this purpose we use classification and association rule based on episode concept in data mining. Since login data has inherently time series characterization, convertible data mining algorithms cannot directly applied. We generate virtual transaction, classify transactions above threshold value in time window, and simulate the classification algorithm.

  • PDF