• Title/Summary/Keyword: 자동분류시스템

Search Result 785, Processing Time 0.026 seconds

An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines (카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기)

  • Lee, Songwook
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.05a
    • /
    • pp.592-595
    • /
    • 2009
  • We propose an automatic spam mail classifier for e-mail data using Support Vector Machines (SVM). We use a lexical form of a word and its part of speech (POS) tags as features. We select useful features with ${\chi}^2$ statistics and represent each feature using text frequency (TF) and inversed document frequency (IDF) values for each feature. After training SVM with the features, SVM classifies each email as spam mail or not. In experiment, we acquired 82.7% of accuracy with e-mail data collected from a web mail system.

  • PDF

Korean Word Learning System Using Automatic Question Generation Technique (자동 문제 생성 기술을 이용한 한국어 어휘학습시스템)

  • Choe, Su-Il;Im, Ji-Hui;Choe, Ho-Seop;Ock, Cheol-Young
    • Korean Journal of Cognitive Science
    • /
    • v.17 no.4
    • /
    • pp.271-286
    • /
    • 2006
  • In this paper, we introduce automatic question generation technique using the language resources like User-Word Intelligent Network(U-WIN) and Korean dictionary including quite a for of information. And we present Korean word learning system with this technique. The item pool method which almost learning-system are using makes some problems. As a solution of the problems, we classified into 8 question type and implemented the Korean word learning system which is making the Korean question automatically by using the morphological and semantic information according to the automatic question generation pattern of each type.

  • PDF

A Study on Automatic Keyword Classification (용어의 자동분류에 관한 연구)

  • Seo, Eun-Gyoung
    • Journal of the Korean Society for information Management
    • /
    • v.1 no.1
    • /
    • pp.78-99
    • /
    • 1984
  • In this paper, the automatic keyword classification which is one of the automatic construction methods of retrieval thesaurus is experimented to the Korean language on the basis that the use of retrieval thesaurus would increase the efficiency of information retrieval in the natural language retrieval system searching machine-readable data base. Furthermore, this paper proposes the application methods. In this experiment, the automatic keyword classification was based on the assumption that semantic relationships between terms can be found out by the statistical patterns of terms occurring in a text.

  • PDF

A Study on the Automatic Classification of Non-contour Elements in a Contour Map Image (등고선 지도영상에서의 비등고 성분의 자동 분리에 관한 연구)

  • Kim, Kee-Soon;Kim, Kyung-Hoon;Kim, Joon-Seek
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.04a
    • /
    • pp.1031-1036
    • /
    • 2000
  • 지리정보시스템(Geographic Information System)분야에서 사회 기반 시설에 대한 요구가 증대되고, 시설물을 관리하기 위한 지리정보 데이터 베이스 구축이 필요하며, 데이터베이스 구축을 위해서는 지도 정보를 필요로 한다. 본 논문에서는 지도 정보를 자동으로 분석하여 등고선과 숫자, 기호를 추출해 내는 알고리즘에 대해 연구하였다. 지도상의 숫자, 기호를 추출하고 효율적으로 분류하기 위해 불필요한 자료를 제거하고 필요한 정보를 추출한 후 손상된 부분을 복원하는 방법과 필요한 정보만을 추출한 후 손상된 부분을 복원하는 방법을 제안하고 결과를 비교하였다. 이렇게 추출한 정보가 의미를 갖는 단위(기호, 숫자)들로 분류되도록 라벨링 방법과 무게 중심을 이용한 물체 추출 방법을 적용하여 숫자 기호들을 자동으로 분류하였으며, 여러 지역의 지형도를 입력하여 모의실험을 통해 제안한 알고리즘의 효율성을 증명하였다.

  • PDF

Initial Analysis of Positive/Negative Opinion Classification of Twitter Data Using Naïve Bayes and SVM (Naïve Bayes와 SVM을 이용한 트위터 데이터의 긍정/부정 의견 자동분류 결과 분석)

  • Cho, Heeryon;Kim, Songkuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.406-409
    • /
    • 2012
  • '나꼼수 비키니 시위'에 대 긍정적(지지), 부정적(비판) 의견을 담은 트위터 데이터를, 단어의 출현에 주목하여 Naïve Bayes (NB)와 Support Vector Machine (SVM)을 적용하여 자동분류 한 결과, NB가 75.98%로, 73.65%인 SVM 보다 약간 더 나은 성능을 보였다. 본 실험을 통해, 기계학습을 이용한 대중의견(opinion) 자동분류 시스템을 실용화할 때의 고려사항에 대해 살펴 본다.

Retrieval of Similar Medical image Objects using Conceptual Clustering Methods (유사객체 분류에 의한 유사 의료영상의 검색)

  • 원정임;이덕형;송혜정;윤지희;김백섭
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.34-36
    • /
    • 2002
  • 의료영상 처리시스템의 자동인식 결과 등과 함께 진단 중인 의죠 영상과 유사한 영상객체를 임의로 검색하여 부가정보로 활용할 수 있는 지능적 의료정보 시스템 구현에 대하여 논한다 의료 영상객체간 유사도 계산을 위하여 각 객체로부터 추출된 특징 정보를 객체 속성으로 이용하며, 이 들 특징 값들의 빈도와 관련 분포 속성 간 관련성 등을 고려한 유사객체 분류방식을 사용한다. 이와 같이 얻어진 영상객체 간 유사도 정보는 지식베이스로 관리되어 자동 영상 인식에 사용될 뿐 아니라 유사 영상 검색 및 진단의 근거자료로 사용된다. 즉 전문의나 병리학자들은 진단 과정에서 유사영상의 판독 결과 등을 참조함으로써 영상의 정확한 판독 및 진단 확증의 객관적 근거 자료를 학보하는데 도움을 받을 수 있다. 구현된 시스템의 적용 예로 자궁경부 세포진 영상인식 시스템을 이용하여 그 유용성을 보인다.

  • PDF

Design of Filtering Agent Interface using XML E-Mail System (XML 이메일 시스템의 필터링 에이전트 인터페이스 설계)

  • Jeong, Ok-Ran;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 2002.11c
    • /
    • pp.476-480
    • /
    • 2002
  • 인터넷의 발달로 인하여 웹을 통한 문서 송수신이 많아지면서 종래의 인쇄 매체 상에 기술된 문서들은 점차 전자문서화 되기 시작했다. 이러한 문서들을 서로 다른 시스템 사이에서 상호 교환하기 위해서는 사용자가 원하는 논리적 구조를 태그로 구현할 수 있는 정형화된 문서 형태가 필요하다. 또한 이메일을 통한 개인적 정보를 얻고 또한 메일의 양이 갈수록 늘어나는 상황에서 카테고리별 자동 분류를 할 수 있는 에이전트가 현안이 되고 있다. 본 논문에서는 XML 형식의 메일에 XSL 문서를 임베디드하여 보내는 XML 이메일 시스템을 설계하여, 본 시스템을 이용하여 본문 내용을 카테고리별 자동 분류해주는 필터링 에이전트 인터페이스(Filtering Agent Interface)를 제안하고자 한다. XML 메일 서버를 통하여 수신된 메일은 XML과 XSL 형식에 따라 XML 메일 데이터베이스에 따로 저장되기 때문에 분석이 매우 용이하다는 장점을 이용하였다.

  • PDF

(A Question Type Classifier based on a Support Vector Machine for a Korean Question-Answering System) (한국어 질의응답시스템을 위한 지지 벡터기계 기반의 질의유형분류기)

  • 김학수;안영훈;서정연
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.5_6
    • /
    • pp.466-475
    • /
    • 2003
  • To build an efficient Question-Answering (QA) system, a question type classifier is needed. It can classify user's queries into predefined categories regardless of the surface form of a question. In this paper, we propose a question type classifier using a Support Vector Machine (SVM). The question type classifier first extracts features like lexical forms, part of speech and semantic markers from a user's question. The system uses $X^2$ statistic to select important features. Selected features are represented as a vector. Finally, a SVM categorizes questions into predefined categories according to the extracted features. In the experiment, the proposed system accomplished 86.4% accuracy The system precisely classifies question type without using any rules like lexico-syntactic patterns. Therefore, the system is robust and easily portable to other domains.

Contextual Advertisement System based on Document Clustering (문서 클러스터링을 이용한 문맥 광고 시스템)

  • Lee, Dong-Kwang;Kang, In-Ho;An, Dong-Un
    • The KIPS Transactions:PartB
    • /
    • v.15B no.1
    • /
    • pp.73-80
    • /
    • 2008
  • In this paper, an advertisement-keyword finding method using document clustering is proposed to solve problems by ambiguous words and incorrect identification of main keywords. News articles that have similar contents and the same advertisement-keywords are clustered to construct the contextual information of advertisement-keywords. In addition to news articles, the web page and summary of a product are also used to construct the contextual information. The given document is classified as one of the news article clusters, and then cluster-relevant advertisement-keywords are used to identify keywords in the document. We could achieve 21% precision improvement by our proposed method.

A Study on Automatic Classification of Class Diagram Images (클래스 다이어그램 이미지의 자동 분류에 관한 연구)

  • Kim, Dong Kwan
    • Journal of the Korea Convergence Society
    • /
    • v.13 no.3
    • /
    • pp.1-9
    • /
    • 2022
  • UML class diagrams are used to visualize the static aspects of a software system and are involved from analysis and design to documentation and testing. Software modeling using class diagrams is essential for software development, but it may be not an easy activity for inexperienced modelers. The modeling productivity could be improved with a dataset of class diagrams which are classified by domain categories. To this end, this paper provides a classification method for a dataset of class diagram images. First, real class diagrams are selected from collected images. Then, class names are extracted from the real class diagram images and the class diagram images are classified according to domain categories. The proposed classification model has achieved 100.00%, 95.59%, 97.74%, and 97.77% in precision, recall, F1-score, and accuracy, respectively. The accuracy scores for the domain categorization are distributed between 81.1% and 95.2%. Although the number of class diagram images in the experiment is not large enough, the experimental results indicate that it is worth considering the proposed approach to class diagram image classification.