Abstract
This paper shows a reinforced construction scheme of training data for improvement of text classification by automatic search of boundary category. The documents laid on boundary area are usually misclassified as they are including multiple topics and features. which is the main factor that we focus on. In this paper, we propose an automated exploring methodology of optimal boundary category based on previous research. We consider the boundary area among target categories to new category to be required training, which are then added to the target category sementically. In experiments, we applied our method to complex documents by intentionally making errors in training process. The experimental results show that our system has high accuracy and reliability in noisy environment.
본 논문은 기존의 목표항목만을 위주로 한 학습체계에서 발생하는 오분류 문제의 해결을 위해 기존의 학습체계에 경계항목을 자동으로 탐 색하여 포함시켜 확대시키는 방법을 제안하고 있다. 여러 주제에 걸쳐 다양한 내용을 다루는 복잡한 문서들은 확실히 어느 범주로 분류해야 할 지 판가름하기 어려운 성질인 모호성이 강하다. 이러한 경우 모든 경우들을 정확히 구분할 수 있는 최적의 경계를 찾는 일은 더욱 어려운 일이 다. 복잡하고 불확실성이 높은 데이터들의 특징은 대부분 분류 경계영역에 위치하므로 이러한 분류경계의 데이터들을 새로운 학습 항목으로 인 식시키도록 하는 것이 필요하다. 본 연구에서는 주어진 목표항목 사이의 경계항목을 자동으로 탐색하여 학습체계에 추가하는 학습 체계 확장 알고리즘을 제시하고, 의도적인 학습오류를 발생시킨 후 기존방법과의 비교실험을 수행함으로써 제안방법의 정확성과 안정성을 비교하였다. 실 험결과 경계범주를 포함하여 학습 체계를 확장시켰을 때의 예측력은 기존 0.70에서 0.86으로 약 24% 향상 되었고, 오류를 포함시켰을 때의 예 측력은 기존 0.52에서 0.79로 약 49% 향상되었다.