• 제목/요약/키워드: 이진 분류

검색결과 605건 처리시간 0.034초

나이브 베이지안에 기반한 성별 예측 및 정확률 추론 기법 (Gender Prediction and Precision Inference Method based on the naive Bayesian)

  • 권태원;이의종;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.588-590
    • /
    • 2016
  • 사용자의 성별은 기본적이면서도 중요한 마케팅 데이터다. 그러나 최근에는 개인정보보호 강화 추세로, 회원가입 시 성별이나 나이 등의 세부 정보를 입력하지 않는 간편 가입이 많아졌다. 이러한 입력되지 않은 정보 추출을 위해 성별 예측 연구의 필요성이 증가되었다. 성별이 입력된 사용자의 정보를 바탕으로 성별이 입력되지 않은 사용자의 성별을 예측하는 기존 연구가 다양한 방법으로 진행되어왔고, 우수한 식별이 가능한 기법들은 이진분류기인 SVM을 기반으로 한 연구가 다수 존재한다. 그러나 SVM 알고리즘은 이진 분류만 가능하기 때문에 성별예측에 대한 정확률은 알 수가 없다. 성별예측의 정확률을 활용하면 부정확한 분류를 예방할 수 있으며 상품추천의 가중치로 사용 될 수 있다. 본 연구는 확률을 기반으로 하여 정확률을 추론 가능한 나이브 베이지안을 응용한다. 그리고 데이터 집합 사례를 균형있게 늘려주는 SMOTE기법을 이용해 클래스 불균형 문제를 개선했으며 또한 성별 예측의 특성에 맞게 노이즈를 제거하고, 성별 분류에 확정적인 아이템에 가중치를 적용했다. 더불어 제안 방법을 실제 데이터에 적용시켜 우수성을 입증하였다.

온라인 리뷰에서 평점의 분류 (Classification of ratings in online reviews)

  • 최동준;최호식;박창이
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.845-854
    • /
    • 2016
  • 감성분석 (sentiment analysis) 혹은 오피니언 마이닝 (opinion mining)은 블로그, 리뷰, 신문기사나 소셜네트워크 등의 문서에서 개인의 주관적인 정보 혹은 의견을 알아보는데 사용되는 텍스트 마이닝의 기법이다. 평점이 있는 온라인 리뷰에서 리뷰 텍스트에 기반한 평점의 분류문제에 대한 선행연구에서는 이진 분류만을 고려하였다. 그러나 긍정과 부정 외에도 중립적인 의견도 있을 수 있기 때문에 이진 분류보다는 다범주 분류가 더 적합할 것이다. 본 연구에서는 리뷰 텍스트에 기반한 평점의 다범주 분류문제를 고려한다. 전처리에서는 카이제곱 통계량을 이용하여 평점과 연관된 단어들을 추출하고 이를 입력변수로 삼아 지지벡터기계 (support vector machines)와 비례오즈 모형 (proportional odds model) 등 다범주 분류기의 예측력을 비교한다.

포섭 구조기반 OVR SVM 결합을 통한 다중부류 암 분류 (Multi-class Cancer Classification by Integrating OVR SVMs based on Subsumption Architecture)

  • 홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.37-39
    • /
    • 2006
  • 지지 벡터 기계(Support Vector Machine; SVM)는 기본적으로 이진분류를 위해 고안되었지만, 최근 다양한 분류기 생성전략과 결합전략이 고안되어 다중부류 분류에도 적용되고 있다. 본 논문에서는 OVR(One-Vs-Rest) 전략으로 생성된 SVM을 NB(Naive Bayes) 분류기를 이용하여 동적으로 구성함으로써, OVR SVM을 이용한 다중부류 분류 시스템에서 자주 발생하는 동점을 효과적으로 해결하는 방법은 제안한다. 이 방법을 유전발현 데이터를 이용한 다중부류 암 분류에 적용하였는데, 고차원의 데이터로부터 NB 분류기 구축에 유용한 유전자를 선택하기 위해 Pearson 상관계수를 사용하였다. 14개의 암 유형과 16,063개의 유전발현 수준을 가지는 대표적인 다중부류 암 분류 데이터인 GCM 암 데이터에 적용하여 제안하는 방법의 유용성을 확인하였다.

  • PDF

효과적인 지문분류를 위한 SOM기반 OVA SVM의 결합 기법 (SOM-based Combination Method of OVA SVMs for Effective Fingerprint Classification)

  • 홍진혁;민준기;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.622-624
    • /
    • 2005
  • 대규모 지문인식 시스템에서 비교해야할 지문의 수를 줄이기 위해서 지문분류는 필수적인 과정이다. 최근 이진분류기인 지지 벡터 기계(Support Vector Machine: SVM)를 이용한 지문분류 기법이 많이 연구되고 있다. 본 논문에서는 다중부류 지문분류에 적합하도록 자기 구성 지도(Self-Organizing Map:SOM)를 이용하여 OVA(One-Vs-All) SVM들을 결합하는 지문분류 기법을 제안한다. SOM을 이용하여 OVA SVM들을 동적으로 결합하기 위한 결합 지도를 생성하여 지문분류 성능을 높인다. 지문분류에 있어 대표적인 NIST-4 지문 데이터베이스를 대상으로 Jain이 구축한 FingerCode 데이터베이스에 제안하는 방법을 적용하여 $1.8\%$의 거부율에서 $90.5\%$의 분류율을 획득하였으며, 기존의 결합 방법인 승자독식(Winner-takes-all)과 다수결 투표(Majority vote)보다 높은 성능을 확인하였다.

  • PDF

최대 엔트로피 기반 문서 분류기의 학습 (Text Categorization Based on the Maximum Entropy Principle)

  • 장정호;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.57-59
    • /
    • 1999
  • 본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

  • PDF

GPCR 분류에서 ART1 군집화를 위한 퍼지기반 임계값 제어 기법 (Fuzzy-based Threshold Controlling Method for ART1 Clustering in GPCR Classification)

  • 조규철;마용범;이종식
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권6호
    • /
    • pp.167-175
    • /
    • 2007
  • 퍼지이론은 생명정보공학에서 지식을 표현하는데 활용되고 제어시스템 모델을 이해하는데 활용되어 왔다. 본 논문에서는 생명정보학의 응용 프로그램에서 중요한 데이터 분류에 초점을 맞추었다. 최적의 임계값 유도를 위한 GPCR 분류에서 기존의 순차기반 임계값 제어기법은 임계값 결정범위와 최적의 임계값 유도 시간의 문제점을 보였고, 이진기반 임계값 제어기법은 임계값 결정 초기에 시스템의 안정성에 대한 단점이 있었다. 이를 보완하기 위해 우리는 ART1 군집화를 위한 퍼지기반 임계값제어기법을 제안한다. 제안된 방법의 성능을 평가하기 위해 ART1 군집화를 위한 퍼지기반 임계값 제어기법을 구현하여 기존의 순차기반 임계값 제어기법과 이진기반 임계값 제어기법과의 인식률에 대한 구동시간의 변화, 임계값의 변화에 따른 시스템의 구동시간을 측정하였다. 퍼지기반 임계값제어 기법은 GPCR 데이터 분류에서 인식률과 구동시간에 대한 정보를 통해 분류 임계값을 조정하여 높은 인식률과 낮은 구동시간을 지속적으로 유도하여 안정적이고 효과적인 분류 시스템을 만들 수 있었다.

  • PDF

SVM 앙상블을 이용한 심혈관질환 질환단계 예측 (Prediction of Cardiovascular Disease Steps using Support Vector Machine Ensemble)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.76-78
    • /
    • 2006
  • 현재 심혈관 질환은 암 다음으로 높은 사망 원인으로 기록되고 있어 심혈관 질환에 대한 초기 진단은 질환의 치료에 매우 중요한 문제로 대두되고 있다. 본 논문에서는 SVM을 이용하여 심혈관질환 환자의 질환 단계를 예측하였다. 일반적으로 이진분류에 사용되는 SVM을 이용하여 정상 및 질환 $1{\sim}3$기의 총 4가지 분류가 필요한 다분류 분류문제를 처리하기 위해서 논문에서는 독립적 학습된 단일 SVM 분류기들을 결합하여 분류를 수행하는 SVM 앙상블 방법을 사용하였다. 단일 분류기의 결합은 Majority voting, 최소자승에러기반 가중치 부여, 2단계층 결합 등의 방법으로 수행하여 심혈관 질환 분류에 적합한 앙상블의 구성을 시도하였다. 실험 데이터는 (주)제노프라의 압타머 칩 데이터를 사용하였다. 서로 다른 데이터를 이용하여 학습된 이종의 SVM들을 결합한 결과 질환단계 예측에 있어서 단일 SVM을 이용하여 질환 단계를 예측하는 경우 보다 향상된 질환단계 예측 성능을 관찰할 수 있었으며, 심혈관 질환의 예측에 대해서는 단일 SVM 분류기의 2단 계층 결합법이 가장 좋은 성능을 보임을 확인하였다.

  • PDF

Faster R-CNN과 DenseNet을 이용한 도형 상표 비엔나 분류 자동화 연구 (A Study on Trademark Vienna Classification Automation Using Faster R-CNN and DenseNet)

  • 이진우;김홍기;이하영;고봉수;이봉건
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.848-851
    • /
    • 2019
  • 이미지 형식으로 등록되는 상표의 특성상 상표의 검색에는 어려움이 따른다. 특허청은 도형 상표의 검색을 용이하게 하기 위해 상표가 포함하고 있는 구성요소에 도형분류코드를 부여한다. 하지만 도형 상표에 포함된 이미지를 확인하고 분류코드를 부여하는 과정은 사람이 직접 수행해야 한다는 어려움이 따른다. 이에 본 논문에서는 딥러닝을 이용하여 자동으로 도형 상표 내 객체를 인식하고 분류코드를 부여하는 방안을 제안한다. DenseNet을 이용하여 중분류를 먼저 예측한 후 각 중분류에 해당하는 Faster R-CNN 모델을 이용하여 세분류 예측을 수행하였다. 성능평가를 통해 비엔나분류 중분류별 평균 74.49%의 예측 정확도를 확인하였다.

적응형 이진화와 컨벡스 헐 기법을 적용한 심층학습 기반 기계부품(오링) 불량 판별 (Machine Parts(O-Ring) Defect Detection Using Adaptive Binarization and Convex Hull Method Based on Deep Learning)

  • 김현태;성은산
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1853-1858
    • /
    • 2021
  • 오링은 기계 부품들 사이에서 틈을 메워주는 역할을 한다. 지금까지 불량품 선별은 육안 및 수작업으로 수행하여 분류 오류가 자주 발생한다. 따라서 사람의 개입이 없는 카메라 기반의 불량품 분류 시스템이 필요하다. 그러나 카메라 입력 영상에서 배경으로부터 필요 영역을 분리하기 위해 이진화 과정이 필요하다. 본 논문에서는 주변 조명의 변화나 반사 등의 요인으로 인해 단일 임계값 이진화를 적용하기 어려워, 주변 화소 값을 함께 고려한 적응형 이진화 기법을 적용한다. 또한 누락되는 화소 부분을 보완하기 위해 컨벡스 헐 기법도 함께 적용한다. 그리고 분리된 영역에 적용할 학습 모델은 불량 특성이 비선형인 경우에 유리한 잔류 오차 기반의 심층학습 신경망 모델을 적용한다. 실험을 통해 제안하는 시스템이 오링의 불량 판별 자동화에 적용 가능하다는 것을 제시한다.

XGBoost 알고리즘을 활용한 강우의 음향 및 진동 분석 기반의 강우강도 산정 (Discerning the intensity of precipitation through acoustic and vibrational analysis of rainfall via XGBoost algorithm)

  • 황승현;이진욱;김현준;변종윤;전창현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.209-209
    • /
    • 2023
  • 본 연구에서는 강우 시 발생하는 음향 및 진동 신호를 기반으로 강우강도를 산정하기 위한 방법론을 제안하였다. 먼저, Raspberry Pi, 콘덴서 마이크 및 가속도 센서로 구성된 관측 기기로부터 실제 비가 내리는 환경에서의 음향 및 진동 신호를 수집하였다. 가속도 센서로부터 계측된 진동 신호를 활용하여 강우 유무에 대한 이진 분류를 수행하고, 강우가 발생한 것으로 판단된 기간에 해당하는 음향 신호에 Short-Time Fourier Transform 기술을 적용하여 주파수 영역에서 나타나는 magnitude의 평균과 표준 편차, 최고 주파수 등의 특징을 기반으로 강우강도를 산정하였다. 이를 위해 앙상블 기반의 머신러닝 학습 모델인 XGBoost 알고리즘을 사용하였으며, 광학 우적계를 통해 관측한 강우강도와 산정 결과를 비교·평가하였다. 강우강도 산정 과정에서 사용된 음향 신호의 길이를 1초, 10초, 1분으로 구분하였으며, 무강우 기간 내 음향 정보로부터 배경 음향에 의한 노이즈를 제거하고자 하였다. 최종적으로 강우 유무 이진 분류 과정의 선행 여부, 음향 신호의 길이 및 노이즈 제거 방법에 따른 강우강도 산정 결과들에 대한 성능 비교를 통해 본 연구에서 제안하고자 하는 방법론의 실효성을 평가하였다.

  • PDF