• Title/Summary/Keyword: 자동분류시스템

Search Result 785, Processing Time 0.026 seconds

Attribute-Based Classification Method for Automatic Construction of Answer Set (정답문서집합 자동 구축을 위한 속성 기반 분류 방법)

  • 오효정;장문수;장명길
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.7_8
    • /
    • pp.764-772
    • /
    • 2003
  • The main thrust of our talk will be based on our experience in developing and applying an attribute-based classification technique in the context of an operational answer set driven retrieval system. To alleviate the difficulty and reduce the cost of manually constructing and maintaining answer sets, i.e., knowledge base, we have devised a new method of automating the answer document selection process by using the notion of attribute-based classification, which is in and of itself novel. We attempt to explain through experiments how helpful the proposed method is for the knowledge base construction process.

An Automatic Classification System of Official Documents in Middle Schools Using Term Weighting of Titles (제목의 단어 가중치를 이용한 중등학교 공문서 자동분류시스템)

  • Kang, Hyun-Hee;Jin, Min
    • Journal of The Korean Association of Information Education
    • /
    • v.7 no.2
    • /
    • pp.219-226
    • /
    • 2003
  • It takes a lot of time to classify official documents in schools and educational institutions. In order to reduce the overhead, we propose an automatic document classification method using word information of the titles of documents in this paper. At first, meaningful words are extracted from titles of existing documents and Inverse Document Frequency(IDF) weights of words are calculated against each category. Then we build a word weight dictionary. Documents are automatically classified into the appropriate category of which the sum of weights of words of the title is the highest by using the word weight dictionary. We also evaluate the performance of the proposed method using a real dataset of a middle school.

  • PDF

Design and Implementation of Text Classification System based on ETOM+RPost (ETOM+RPost기반의 문서분류시스템의 설계 및 구현)

  • Choi, Yun-Jeong
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.2
    • /
    • pp.517-524
    • /
    • 2010
  • Recently, the size of online texts and textual information is increasing explosively, and the automated classification has a great potential for handling data such as news materials and images. Text classification system is based on supervised learning which needs laborous work by human expert. The main goal of this paper is to reduce the manual intervention, required for the task. The other goal is to increase accuracy to be high. Most of the documents have high complexity in contents and the high similarities in their described style. So, the classification results are not satisfactory. This paper shows the implementation of classification system based on ETOM+RPost algorithm and classification progress using SPAM data. In experiments, we verified our system with right-training documents and wrong-training documents. The experimental results show that our system has high accuracy and stability in all situation as 16% improvement in accuracy.

Construction of the Authority Files Using Automatically Indexed Terms (자동색인어를 이용한 전거파일의 구축)

  • 한영균
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.93-96
    • /
    • 1994
  • 본 연구는 자동색인시스템의 색인기능을 통해서 추출된 색인어를 이용해서 검색시스템에서 요구되는 전거파일을 구축하는 작업의 효용성을 확인하기 위한 시험적 연구의 결과를 정리한 것이다. 언론연구원의 KINDS 서비스 시스템의 신문기사 데이터베이스에서 색인시스템을 통해 추출된 약 80만개의 색인어를 기본자료로 삼아 색인어를 하위분류하고, 그것을 이용한 전거파일 구축의 가능성을 타진해 본 것이다.

  • PDF

Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches (전문가의 형태소 분류를 활용한 과학 논증 자동 채점)

  • Lee, Manhyoung;Ryu, Suna
    • Journal of The Korean Association For Science Education
    • /
    • v.40 no.3
    • /
    • pp.321-336
    • /
    • 2020
  • We explore automated scoring models of scientific argumentation. We consider how a new analytical approach using a machine learning technique may enhance the understanding of spoken argumentation in the classroom. We sampled 2,605 utterances that occurred during a high school student's science class on molecular structure and classified the utterances into five argumentative elements. Next, we performed Text Preprocessing for the classified utterances. As machine learning techniques, we applied support vector machines, decision tree, random forest, and artificial neural network. For enhancing the identification of rebuttal elements, we used a heuristic feature-engineering method that applies experts' classification of morphemes of scientific argumentation.

Classification of e-mail Using Dynamic Category Hierarchy and Automatic category generation (자동 카테고리 생성과 동적 분류 체계를 사용한 이메일 분류)

  • Ahn Chan Min;Park Sang Ho;Lee Ju-Hong;Choi Bum-Ghi;Park Sun
    • Journal of Intelligence and Information Systems
    • /
    • v.10 no.2
    • /
    • pp.79-89
    • /
    • 2004
  • Since the amount of E-mail messages has increased , we need a new technique for efficient e-mail classification. E-mail classifications are grouped into two classes: binary classification, multi-classification. The current binary classification methods are mostly spm mail classification methods which are based on rule driven, bayesian, SVM, etc. The current multi- classification methods are based on clustering which groups e-mails by similarity. In this paper, we propose a novel method for e-mail classification. It combines the automatic category generation method based on the vector model and the dynamic category hierarchy construction method. This method can multi-classify e-mail automatically and manage a large amount of e-mail efficiently. In addition, this method increases the search accuracy by dynamic reclassification of e-mails.

  • PDF

Classification of C.elegans Behavioral Phenotypes Using Shape Information (형태적 특징 정보를 이용한 C.Elegans의 개체 분류)

  • Jeon, Mi-Ra;Nah, Won;Hong, Seung-Bum;Baek, Joong-Hwan
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.28 no.7C
    • /
    • pp.712-718
    • /
    • 2003
  • C.elegans are often used to study of function of gene, but it is difficult for human observation to distinguish the mutants of C.elegans. To solve this problem, the system, which can classify the mutant types automatically using the computer vision, is now studying. Tn previous work[1], we described the preprocessing method for automated-classification system. In this paper, we introduce shape features, which can be extracted from an acquisition image. We divide the feature into two categories, which are related to size and posture of the worm, and each feature is described mathematically We validate the shape information experimentally. And we use hierarchical clustering algorithm for classification. It reveals that 4 mutants of the worm, which are used in experiment, can be classified with over 90% of success rate.

Automatic Pronunciation Generation System Using Minimum Morpheme Information (최소 형태소 정보를 이용한 자동 발음열 생성 시스템)

  • 김선희;안주은;김순협
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.216-219
    • /
    • 2003
  • 본 논문은 최소한의 형태소 정보를 이용한 자동 발음열 생성 시스템을 제안한다 일반적으로 발음열 생성 시스템은 입력된 문장에 대하여 형태소 단위로 분석한 다음, 각 형태소와 형태소의 결함 관계를 고려한 음운 규칙을 적용함으로써 상응하는 발음열을 생성한다. 지금까지의 연구는 이러한 발음열 생성시의 형태소 분석에 관하여 그 범위에 관한 연구 없이, 가능한 최대한의 분석을 상정하고 있다. 본 논문은 한국어 음운현상을 체계적인 텍스트 분석을 통하여 모든 형태론적 음운론적인 환경에서 가능한 모든 음운현상을 분류하여 발음열 생성시에 실제로 필요한 형태소 분석의 범위를 규명하는 것을 그 목적으로 한다. 음운 현상을 분석하기 위해 사용한 텍스트 자료로는 어휘가 중복되지 않으면서도 많은 종류의 어휘가 수록된 5만 여 어휘의 연세한국어사전과 2200 여 개의 어미와 조사를 수록한 어미조사사전을 이용하였다. 이와 같이 텍스트를 분석한 결과, 음운현상은 규칙적인 음운 현상과 불규칙적인 음운현상으로 나뉘는데, 이 가운데 형태소 정보가 필요한 형태음운규칙으로는 두 가지가 있으며, 이러한 형태음운규칙을 위한 형태소 분석의 범위로는 세세한 분류를 필요로 하지 않는 최소한의 정보로 가능함을 보인다. 이러한 체계적인 분석을 기반으로 제안하는 자동 발음열 생성 시스템은 형태음운규칙과 예외규칙, 그리고 일반음운 규칙으로 구성된다. 본 시스템에 대한 성능 실험은 PBS 1637 어절과 ETRI 텍스트 DB 19만 여 어절을 이용하여 99.9%의 성능결과를 얻었다.

  • PDF

An Implementation of Automatic Genre Classification System for Korean Traditional Music (한국 전통음악 (국악)에 대한 자동 장르 분류 시스템 구현)

  • Lee Kang-Kyu;Yoon Won-Jung;Park Kyu-Sik
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.1
    • /
    • pp.29-37
    • /
    • 2005
  • This paper proposes an automatic genre classification system for Korean traditional music. The Proposed system accepts and classifies queried input music as one of the six musical genres such as Royal Shrine Music, Classcal Chamber Music, Folk Song, Folk Music, Buddhist Music, Shamanist Music based on music contents. In general, content-based music genre classification consists of two stages - music feature vector extraction and Pattern classification. For feature extraction. the system extracts 58 dimensional feature vectors including spectral centroid, spectral rolloff and spectral flux based on STFT and also the coefficient domain features such as LPC, MFCC, and then these features are further optimized using SFS method. For Pattern or genre classification, k-NN, Gaussian, GMM and SVM algorithms are considered. In addition, the proposed system adopts MFC method to settle down the uncertainty problem of the system performance due to the different query Patterns (or portions). From the experimental results. we verify the successful genre classification performance over $97{\%}$ for both the k-NN and SVM classifier, however SVM classifier provides almost three times faster classification performance than the k-NN.

A Two-level Self-Organizing Map for Automatic Response of Hanmail Net Questions (한메일넷 질의 자동응답을 위한 이단계 자기구성 지도)

  • 김현도;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.481-483
    • /
    • 2000
  • 컴퓨터가 널리 보급되고 인터넷이 발전함에 따라 많은 정보가 생산되고, 이러한 정보를 가공하여 사용자에게 효율적으로 제공하는 서비스들도 많아지게 되었다. 그러나, 컴퓨터에 익숙하지 않은 사용자들은 쉽게 이러한 서비스를 이용하지 못하기 때문에 사용자들을 돕는 시스템들이 필요하게 되었다. 한메일넷의 경우 전자 우편을 통한 사용자들의 질문에 대해 관리자가 직접 답을 해주는데, 사용자의 증가로 질의응답 업무의 양이 커지고 있다. 따라서, 본 논문에서는 사용자의 질의에 자동으로 응답하는 시스템을 개발하기 위하여 효율적인 이단계 자기구성 지도(SOM)를 제안한다. 이 방법은 다양한 크기의 질의메일을 정형화된 크기로 만들기 위한 데이터 축약 SOM과 이를 실제 해당 답변 클래스로 분류하는 문서 분류 SOM으로 구성된다. 실제 사용되고 있는 2206개의 데이터에 대한 실험 결과, 95%의 분류 성공률을 보여 그 가능성을 볼 수 있었다.

  • PDF