• 제목/요약/키워드: 베이즈 분류기

검색결과 63건 처리시간 0.024초

폐질환 조기 검출을 위한 결합 히스토그램 기반의 통계적 특징 인자에 대한 연구 (Study of Joint Histogram Based Statistical Features for Early Detection of Lung Disease)

  • 원철호
    • 재활복지공학회논문지
    • /
    • 제10권4호
    • /
    • pp.259-265
    • /
    • 2016
  • 본 논문에서는 폐질환 조기 검출을 위하여 Broncho vascular, Emphysema, Ground Glass Reticular, Ground Glass, Honeycomb, Normal의 6가지 폐조직에 대한 새로운 분류기법을 제안하였다. 단순 베이즈 분류기와 아다부스트 학습 기법을 도입하여 459개의 결합 히스토그램 특징인자로부터 유효한 특징인자를 선별함으로써 폐조직을 분류하였다. 다중 해상도 해석, 체적 LBP 및 CT 휘도를 기반으로 하는 결합 히스토그램 특징인자는 정확도, 민감도, 특이도 결과에서 기존의 3D AMFM보다 우수한 결과를 보였다. 제안한 특징인자와 3D AMFM 특징인자의 정확도는 각각 90.1%과 85.3%로서 제안한 특징인자의 우수한 분류 성능을 확인하였다.

증강현실 응용을 위한 자연 물체 인식 (Natural Object Recognition for Augmented Reality Applications)

  • 안잔 쿠마르 폴;모하마드 카이룰 이슬람;민재홍;김영범;백중환
    • 융합신호처리학회논문지
    • /
    • 제11권2호
    • /
    • pp.143-150
    • /
    • 2010
  • 무마커 증강현실 시스템은 실내나 옥외 환경에서 자연 물체를 인식하고 매칭하는 기능이 필수적이다. 본 논문에서는 비주얼 서술자와 코드북을 사용하여 특징을 추출하고 자연 물체를 인식하는 기법을 제안한다. 증강현실 응용은 동작 속도와 실시간 성능에 민감하기 때문에, 본 연구에서는 멀티 클래스의 자연 물체 인식에 초점을 두었으며 분류와 특징 추출 시간을 줄이는 것을 포함한다. 훈련과 테스트 과정에서 자연 물체로부터 특징을 추출하기 위해 SIFT와 SURF을 각각 사용하고 그들의 성능을 비교한다. 또한, 클러스터링 알고리즘을 이용하여 다차원의 특징 벡터들로부터 비주얼 코드북을 생성하고 나이브 베이즈 분류기를 이용해 물체를 인식한다.

효율적인 문헌 분류를 위한 시계열 기반 데이터 집합 선정 기법 (Time-Series based Dataset Selection Method for Effective Text Classification)

  • 채영훈;정도헌
    • 한국콘텐츠학회논문지
    • /
    • 제17권1호
    • /
    • pp.39-49
    • /
    • 2017
  • 인터넷 기술이 발전함에 따라 온라인상의 데이터는 급격하게 증가하고 있고, 증가하는 데이터에 대해 점진적인 기계학습 기법을 통해 효율적으로 학습하기 위한 연구가 진행되고 있다. 온라인상의 문서는 대부분 게시일, 출판일과 같은 시계열적 정보를 포함하고 있고, 이를 분류에 반영한다면 효율적인 분류가 가능할 것이다. 본 연구에서는 웹 문서상에서 나타나는 어휘의 시계열적 변화를 분석하였고, 분석한 시계열 정보를 기반으로 데이터 집합을 분할하여 효율적인 분류 학습 기법을 제안한다. 실험 및 검증을 위해 온라인상의 뉴스 기사 100만 건을 시계열 정보를 포함하여 수집하였다. 수집된 데이터를 바탕으로 데이터 집합을 분할하여 $Na{\ddot{i}}ve$ Bayes 및 SVM 분류기를 사용하여 실험을 진행하였고, 각 모델에서 전체 데이터 집합 학습 대비 최대 2.02% 포인트, 2.32% 포인트의 성능 향상을 확인하였다. 본 연구를 통해 시계열적 어휘의 변화를 분류에 반영하여 분류의 성능을 향상시킬 수 있음을 확인하였다.

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

기계학습을 통한 디스크립터 자동부여에 관한 연구 (A Study on automatic assignment of descriptors using machine learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.279-299
    • /
    • 2006
  • 학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 그 결과, 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

기계학습 기반의 웹 이미지 분류 (A Machine Learning Approach to Web Image Classification)

  • 조수선;이동우;한동원;황치정
    • 정보처리학회논문지B
    • /
    • 제9B권6호
    • /
    • pp.759-764
    • /
    • 2002
  • HTML 페이지로 대표되는 웹 문서에서 이미지는 매우 큰 비중을 차지하고 있지만 이에 대한 분석 및 이해에 관한 연구는 활발하게 진행되지 못하고 있다. 여러 가지 웹 이미지들은 중요한 정보를 전달하기도 하지만 그렇지 않은 것들도 있다. 본 논문에서는 현재 서비스중인 인터넷 사이트의 웹 이미지들을 수집하여 기계학습(machine learning)에 기반한 분류(classification)론 통해 제거 가능한 이미지와 제거 불가능한 이미지의 두가지 클래스로 분석해 본다. 이를 위해 16개의 독특하고 풍부한 웹 이미지 특징들을 발굴하고 베이지안 기법과 결정 트리 기법을 사용하여 실험하였다. 그 결과 각각의 기법에서 87.09%, 82.72%의 F-measure 값을 얻었으며 특히, 특징 그룹의 비교 실험을 통해 본 연구에서 추가한 특징들이 매우 유용한 것임을 입증하였다.

분류기 성능 향상을 위한 범주 속성 가상예제의 생성과 선별 (Generation and Selection of Nominal Virtual Examples for Improving the Classifier Performance)

  • 이유정;강병호;강재호;류광렬
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1052-1061
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주 속성 데이타에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이타를 대상으로 하였고, 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 하였다. 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 범주 속성 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이타를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

감성분석 기반의 게임 소비자 온라인 구전효과 연구 (A Study on the Effects of Online Word-of-Mouth on Game Consumers Based on Sentimental Analysis)

  • 정근웅;김종욱
    • 디지털융복합연구
    • /
    • 제16권3호
    • /
    • pp.145-156
    • /
    • 2018
  • 배급사가 소매점을 통해 게임을 유통했던 과거와 다르게 현재는 디지털 콘텐츠인 게임을 온라인 기반의 유통채널을 활용하여 판매를 실시하고 있다. 본 연구는 온라인 디지털 콘텐츠 유통 채널인 스팀(Steam)에서 판매되는 게임의 판매량에 대해서 eWOM(전자구전효과)의 요인들이 어떤 영향을 미치는지 분석한다. 최근 빅데이터 기반의 데이터 마이닝 기법을 이용한 연구가 많이 진행되고 있는데, 본 연구에서 eWOM의 요인 중 각 리뷰의 감성을 분석할 수 있는 텍스트 마이닝 기법인 감성분석을 실시하여 eWOM의 감성지수를 도출한다. 감성분석은 나이브 베이즈(Naive Bayes)와 지지벡터기(SVM) 분류기를 활용하고, 정확도가 높은 지지벡터기(SVM) 분류기를 통해 감성지수를 산출한다. 도출한 감성지수와 eWOM의 크기인 각 게임의 리뷰의 수, eWOM의 평점인 각 게임의 유저점수를 독립변수로 하여 종속변수인 판매변화량에 대해서 회귀분석을 실시한다. 회귀분석 결과, 독립변수인 eWOM의 크기와 eWOM의 감성지수가 종속변수인 판매변화량에 영향을 미치는 것을 확인하였다. 본 연구는 연구결과를 통해 국내 게임 기업들이 스팀을 기반으로 해외진출 시 판매량에 영향을 미치는 eWOM의 요인들을 제시할 수 있는 시사점을 가진다.

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 (Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network)

  • 이용훈;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.63-76
    • /
    • 2012
  • 본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.