• Title/Summary/Keyword: 과도 분류

Search Result 8,482, Processing Time 0.036 seconds

Classification using Hierarchical Sampling in Large Classification System (대규모 분류 체계에서 계층적 샘플링을 활용한 문서의 분류)

  • Hong, SungMo;Jang, HeonSeok;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.51-55
    • /
    • 2017
  • 대규모 분류체계를 사용하는 경우, 기존 방법의 딥 러닝으로는 분류 정확도가 현저히 떨어진다. 이를 해결하기 위해 계층 구조를 활용한 네거티브 샘플링 방법을 제안한다. 학습 문서가 속한 카테고리의 상위 카테고리와 일정부분 겹치는 범위에서 네거티브 샘플을 선택하면, 하나의 큰 문제를 다수개의 하위 문제로 쪼개서 해결하는 학습 효과가 있다. 소규모 분류 체계와 대규모 분류체계 각각에서 샘플링 전략을 차용하였을 때를 비교한 결과, 대규모에서 효과가 좋았으며 그 때의 정확도가 150배 이상 차이가 나는 것을 보였다.

  • PDF

Face Recognition Using Sequential Fusion of Binary Classifiers with Rejection (거절 조건을 가진 이진 분류기 순차 결합을 통한 얼굴인식)

  • 부덕희;고재필;변혜란
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.334-336
    • /
    • 2003
  • 얼굴인식 연구는 얼굴표현에 집중하여 연구가 이루어져 왔으며, 이에 따라 최종 인식단계에서는 간단한 분류기가 적용되었다. 그러나, 보다 강건한 분류 성능을 얻기 위해서는 복잡한 분류기를 도입할 필요성이 있다. 복잡한 분류기를 사용하면서, 얼굴인식의 특성상 온라인 학습을 가능하게 하기 위해서는 이진 분류기 분해/결합 방법을 도입한다. 이러한 기법으로는 OPC와 PWC가 대표적이다. 본 방법의 성능은 기본이진 분류기의 성능에 좌우되기 때문에 SVM을 적용한다. 본 논문에서는 대표적인 방법인 OPC와 PWC의 장단점을 설명하고, 거절 조건을 갖는 이들 분류기들의 순차 결합 방법을 제안한다. ORL얼굴데이터 베이스에 대한 실험에서는, 제안하는 방법을 통해 얼굴인식 성능을 향상시킬 수 있음을 보인다.

  • PDF

Auto-Classification of Annotated Images using Similarity between Concepts (개념간 유사성을 이용한 이미지 자동분류)

  • Hwang, Kwang-Su;Yi, Hong-Ryoul;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.370-375
    • /
    • 2007
  • 인터넷과 디지털기기의 발달로 인해 이미지 데이터가 기하급수적으로 증가함에 따라 이미지 데이터의 의미적인 자동분류를 위한 연구가 활발히 진행되고 있다. 기존의 이미지 분류방법은 내용기반 분류와 주석자에 의한 직접 분류 방법이 있다. 하지만 분류 기준이 명확하지 않고, 이미지가 내포하고 있는 정확한 의미 별로 분류가 이루어져 있지 않았다. 이에 본 논문에서는 이미지의 주석간 개념적인 관계를 분석하고 이미지에 의미를 대표할 수 있는 키워드를 추출하여 의미적이고 효율적인 분류 방법을 제안한다.

  • PDF

Automatic Text Categorization using difference TTF and ITTF (TTF와 ITTF의 차를 이용한 자동 문서 분류)

  • 이상철;하진영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.133-135
    • /
    • 2001
  • 본 논문에서는 일반적으로 Word Based Matching 방법에서 많이 쓰이는 TFIDF 방법대신에 TTF(Total Term Frequency)와 ITTF(Inverse Total Term Frequecy) 에 가중치를 주어 문서분류의 정확도를 높이는 방법을 제안하고자 한다. TFIDF방법에서 IDF는 역문헌빈도를 나타내는데 Term에 대한 빈도비율의 공정성이 떨어져 문서 분류의 정확도에 한계가 있다. 본 논문에서 제시하는 문서 분류방법은 TTF와 ITTF에 각각의 가중치를 준 후에 차연산 이용하여 문서를 분류하는 것이다. 이러한 방법의 특징은 IDF를 사용할 때 보다 각 카테고리에 있는 term, 즉 단어의 중요도에 대한 가중치를 좀 더 공평하게 줌으로써 문서의 분류를 높일 수 있다. 본 논문에서는 조선일보의 카테고리를 사용하였으며 조선일보의 기사를 대상으로 문서 자동 분류 실험을 수행하였다. 실험 결과 TFIDF보다 본 논문에서 제안한 방법이 문서 분류에 높은 정확도를 나타냄을 보였다.

  • PDF

Prediction of Cardiovascular Disease Steps using Support Vector Machine Ensemble (SVM 앙상블을 이용한 심혈관질환 질환단계 예측)

  • Eom Jae-Hong;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.76-78
    • /
    • 2006
  • 현재 심혈관 질환은 암 다음으로 높은 사망 원인으로 기록되고 있어 심혈관 질환에 대한 초기 진단은 질환의 치료에 매우 중요한 문제로 대두되고 있다. 본 논문에서는 SVM을 이용하여 심혈관질환 환자의 질환 단계를 예측하였다. 일반적으로 이진분류에 사용되는 SVM을 이용하여 정상 및 질환 $1{\sim}3$기의 총 4가지 분류가 필요한 다분류 분류문제를 처리하기 위해서 논문에서는 독립적 학습된 단일 SVM 분류기들을 결합하여 분류를 수행하는 SVM 앙상블 방법을 사용하였다. 단일 분류기의 결합은 Majority voting, 최소자승에러기반 가중치 부여, 2단계층 결합 등의 방법으로 수행하여 심혈관 질환 분류에 적합한 앙상블의 구성을 시도하였다. 실험 데이터는 (주)제노프라의 압타머 칩 데이터를 사용하였다. 서로 다른 데이터를 이용하여 학습된 이종의 SVM들을 결합한 결과 질환단계 예측에 있어서 단일 SVM을 이용하여 질환 단계를 예측하는 경우 보다 향상된 질환단계 예측 성능을 관찰할 수 있었으며, 심혈관 질환의 예측에 대해서는 단일 SVM 분류기의 2단 계층 결합법이 가장 좋은 성능을 보임을 확인하였다.

  • PDF

Automatic Category Merging Technique Electronic Commerce (전자상거래 환경에서의 분류체계 자동 통합 기법)

  • 김재범;김동규;이상구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.281-283
    • /
    • 2000
  • 인터넷은 단순한 정보 교환의 수단이 아니라 기업들의 이윤 창출을 위한 새로운 공간이 되고 있으며 수많은 쇼핑몰들이 이를 설명해 주고 있다. 하지만 분류체계 측면에서 각 쇼핑몰들이 제공하고 있는 분류체계에는 크게 다음 두 가지의 문제점이 있다. 첫째로 각 쇼핑몰마다 서로 다른 자기만의 상품 분류체계를 가지고 있다는 점이다. 이로 인해 쇼핑몰을 이용하고자 하는 사용자는 각 쇼핑몰을 방문할 때마다 혼란스러울 수 밖에 없다. 두 번째는 각 쇼핑몰이 제공하고 있는 분류체계는 정적인 형태만을 띄고 있다는 점이다. 따라서 사용자는 이미 정해져 있는 상품에 대한 분류의 체계만을 좋건 싫건 간에 따라야 한다. 따라서 이러한 문제들을 해결하기 위하여 본 논문에서는 규칙이라는 추가 정보를 가지도록 모델링된 쇼핑몰의 분류체계들에 대하여 자동적인 통합의 기법을 제시한다. 제시된 기법에 의하여 쇼핑몰 사용자들에게 모든 쇼핑몰의 통합된 뷰의 제공, 사용자별 분류체계의 생성, 메타 쇼핑몰 간의 통일된 인터페이스 제공 등을 할 수 있다.

  • PDF

An Automatic Classification System for Hanmail Net Questions Using Multiple Neural Networks (다중 신경망을 이용한 한메일넷 질의 자동분류 시스템)

  • 이지행;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.232-234
    • /
    • 2000
  • 최근들어 정보의 양이 날로 방대해 짐에 따라 이를 자동으로 분류해 줄 수 있는 무서 자동분류의 중요성이 널리 인식되고 있다. 문서 자동분류는 새로운 문서를 미리 정의된 부류로 대응시키는 일련의 작업을 말하며, 각종 패턴인식 기법들을 이용하여 시도되고 있다. 본 논문에서는 수많은 사용자들의 질의들을 분류하여 자동으로 응답하는 시스템에 적용할 수 있는 자동 질의 분류시스템을 제안한다. 실험은 500만명 이상이 사용하고 있는 한메일넷의 실제 사용자 질의를 수집하여 수행하였으며, 자동분류 방법으로는 다중 신경망을 이용하였다. 또한 효율적인 특징추출 기법과 결과 결합방법을 적용하여 분류의 정확율을 높이고자 하였다. 2204개의 실제 질의메일에 대한 실험결과, 91.1%까지의 정확율을 얻어 제안한 시스템이 실제 한메일넷의 자동응답 시스템에 효과적으로 적용될 수 있음을 알 수 있었다.

  • PDF

Unsupervised Document Clustering for Constructing User Profile of Web Agent (웹 에이전트 사용자 특성모델 구축을 위한 비감독 문서 분류)

  • 오재준;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.105-107
    • /
    • 1998
  • 본 연구는 웹 에이전트에 있어서 가장 핵심적인 부분이라 할 수 있는 사용자 특성모델 구축방법을 개선하는데 목적을 두고 있다. 사용자 특성모델을 귀납적 기계학습 방식으로 자동 추출하기 위해서는, 사용자가 관심을 가지는 분야별로 문서를 자동 분류하는 작업이 매우 중요하다. 지금까지의 방식은 사람이 관심부여에 따라 문서를 수동적으로 분류해 왔으나, 문서의 양이 기하급수적으로 증가할 경우 처리할 수 있는 문서의 양에는 한계가 있을 수밖에 없다. 또한 수작업 문서 분류 방식을 웹 에이전트에 그대로 적용하였을 경우 사용자가 일일이 문서를 분류해야한다는 번거로움으로 인해 웹 에이전트의 효용성이 반감될 것이다. 따라서 본 연구에서는 비감독 문서 분류 알고리즘과 그것을 바탕으로 얻어진 문서 분류 정보를 후처리 (Post-Processing)함으로써 보다 간결하고 정확한 문서 분류 결과를 얻을 수 있는 구체적인 방법을 제공하고자 한다.

  • PDF

A Study on Process-based Classification of Digital Contents Industry (프로세스 관점의 컨텐츠 산업 분류체계에 관한 연구)

  • 김훈태;홍정완;윤용기;박윤정;최봉균;임춘성
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2002.05a
    • /
    • pp.894-901
    • /
    • 2002
  • 컨텐츠 산업은 전통적인 미디어 기업들이 생각하는 제작물 위주의 산업에서 디지털 컨텐츠를 중심으로 하는 통합 서비스산업으로의 전환기를 맞이하고 있으며 최근에는 그에 대한 관심이 더욱 증대하고 있다. 산업 전반적인 요소들이 빠르게 변화하고 있는 정보통신서비스 산업에서의 컨텐츠 산업은 타 산업에서 생산에 해당하는 역할을 맡고 있다. 그리고 타 산업에서의 제품 분류에 해당하는 컨텐츠의 분류가 있지만 현재의 컨텐츠 분류 체계는 실제 제작되는 컨텐츠 자체의 내용이나 사업의 수익모델 등을 분류의 기준으로 제시하고 있다. 하지만 그러한 분류는 정보통신서비스 간업 전체의 흐름에 대한 관점과 산업내 사업자간의 상호작용을 고려하지 알고 있기에 실제 산업에 참여하고 있는 사업자에게 필요한 다양한 기준의 분류를 제시 못 하고 있다. 본 연구에서는 컨텐츠 산업에 참여하는 사업자 사이의 핵심 프로세스를 선정하고. 이를 중심으로 하여 프로세스 관점으로 컨텐츠 산업의 사업자 분류를 통해 사업자간에 일어나는 상호 필요한 프로세스에서의 데이터, 문서 등을 활용에 대한 방안을 제시하고자 한다.

  • PDF

A Study on Categorization of Korean News Article based on CNN using Doc2Vec (Doc2Vec을 활용한 CNN기반 한국어 신문기사 분류에 관한 연구)

  • Kim, Do-Woo;Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.67-71
    • /
    • 2016
  • 본 논문에서는 word2vec과 doc2vec을 함께 CNN에 적용한 문서 분류 방안을 제안한다. 먼저 어절, 형태소, WPM(Word Piece Model)을 각각 사용하여 생성한 토큰(token)으로 doc2vec을 활용하여 문서를 vector로 표현한 후, 초보적인 문서 분류에 적용한 결과 WPM이 분류율 79.5%가 되어 3가지 방법 중 최고 성능을 보였다. 다음으로 CNN의 입력자질로써 WPM을 이용하여 생성한 토큰을 활용한 word2vec을 범주 10개의 문서 분류에 사용한 실험과 doc2vec을 함께 사용한 실험을 수행하였다. 실험 결과 word2vec만을 활용하였을 때 86.89%의 분류율을 얻었고, doc2vec을 함께 적용한 결과 89.51%의 분류율을 얻었다. 따라서 제안한 모델을 통해서 분류율이 2.62% 향상됨을 확인하였다.

  • PDF