• 제목/요약/키워드: naive Bayes

검색결과 235건 처리시간 0.02초

안면 정보를 이용한 나이브 베이즈 기반 고중성지방혈증 예측 모델 (Prediction Model for Hypertriglyceridemia Based on Naive Bayes Using Facial Characteristics)

  • 이주원;이범주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.433-440
    • /
    • 2019
  • 최근에 이르러, 기계학습 및 데이터마이닝은 수많은 질병 예측 및 진단에 활용되고 있다. 만성질환은 전체 사망률의 약 80%를 차지하는 질병으로, 점점 증가하는 추세이다. 만성질환 관련 예측 모델을 연구한 기존 연구들은 예측 모델을 구성하는 데이터로 혈당, 혈압, 인슐린 수치 등의 건강검진 수준의 데이터를 이용한다. 본 논문은 만성질환의 위험 요인인 이상지질혈증과 안면 정보의 연관성을 검증하고, 기계학습 기반 안면 정보를 이용한 이상지질혈증 예측 모델을 세계 최초로 개발한다. 본 연구는 5390명의 임상 데이터 중 안면 정보와 중성지방혈증 정보를 바탕으로 수행하였다. 중성지방혈증은 이상지질혈증을 판단하는 척도이다. 연구의 결과로 얼굴의 하악(mandibular) 간의 거리를 나타내는 FD_43_143_aD(p<0.0001, Area Under the receiver operating characteristics Curve(AUC)=0.652) 와 고중성지방혈증이 매우 높은 연관성을 가진 것을 밝혀냈고, 이를 기반으로 구축한 모델은 0.662의 AUC값을 획득하였다. 이러한 연구결과는 향후 질병 역학 및 대중 보건 영역의 스크리닝 단계에서 안면정보만으로 다양할 질병을 예측할 수 있는 기반을 제공할 수 있을 것이다.

자연어 처리 및 기계학습을 활용한 제조업 현장의 품질 불량 예측 방법론 (A Method for Prediction of Quality Defects in Manufacturing Using Natural Language Processing and Machine Learning)

  • 노정민;김용성
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.52-62
    • /
    • 2021
  • 제조업 현장에서 제작 공정 수행 전 품질 불량 위험 공정을 예측하여 사전품질관리를 수행하는 것은 매우 중요한 일이다. 하지만 기존 엔지니어의 역량에 의존하는 방법은 그 제작공정의 종류와 수가 다양할수록 인적, 물리적 한계에 부딪힌다. 특히 원자력 주요기기 제작과 같이 제작공정이 매우 광범위한 도메인 영역에서는 그 한계가 더욱 명확하다. 본 논문은 제조업 현장에서 자연어 처리 및 기계학습을 활용하여 품질 불량 위험 공정을 예측하는 방법을 제시하였다. 이를 위해 실제 원자력발전소에 설치되는 주기기를 제작하는 공장에서 6년 동안 수집된 제작 기록의 텍스트 데이터를 활용하였다. 텍스트 데이터의 전처리 단계에서는 도메인 지식이 잘 반영될 수 있도록 단어사전에 Mapping 하는 방식을 적용하였고, 문장 벡터화 과정에서는 N-gram, TF-IDF, SVD를 결합한 하이브리드 알고리즘을 구성하였다. 다음으로 품질 불량 위험 공정을 분류해내는 실험에서는 k-fold 교차 검증을 적용하고 Unigram에서 누적 Trigram까지 여러 케이스로 나누어 데이터셋에 대한 객관성을 확보하였다. 또한, 분류 알고리즘으로 나이브 베이즈(NB)와 서포트 벡터 머신(SVM)을 사용하여 유의미한 결과를 확보하였다. 실험결과 최대 accuracy와 F1-score가 각각 0.7685와 0.8641로서 상당히 유효한 수준으로 나타났다. 또한, 수행해본 적이 없는 새로운 공정을 예측하여 현장 엔지니어들의 투표와의 비교를 통해서 실제 현장에 자연스럽게 적용할 수 있음을 보여주었다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.

SVM을 이용한 VKOSPI 일 중 변화 예측과 실제 옵션 매매에의 적용 (VKOSPI Forecasting and Option Trading Application Using SVM)

  • 라윤선;최흥식;김선웅
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.177-192
    • /
    • 2016
  • 기계학습(Machine Learning)은 인공 지능의 한 분야로, 데이터를 이용하여 기계를 학습시켜 기계 스스로가 데이터 분석 및 예측을 하게 만드는 것과 관련한 컴퓨터 과학의 한 영역을 일컫는다. 그중에서 SVM(Support Vector Machines)은 주로 분류와 회귀 분석을 목적으로 사용되는 모델이다. 어느 두 집단에 속한 데이터들에 대한 정보를 얻었을 때, SVM 모델은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 집단에 속할지를 판단해준다. 최근 들어서 많은 금융전문가는 기계학습과 막대한 데이터가 존재하는 금융 분야와의 접목 가능성을 보며 기계학습에 집중하고 있다. 그러면서 각 금융사는 고도화된 알고리즘과 빅데이터를 통해 여러 금융업무 수행이 가능한 로봇(Robot)과 투자전문가(Advisor)의 합성어인 로보어드바이저(Robo-Advisor) 서비스를 발 빠르게 제공하기 시작했다. 따라서 현재의 금융 동향을 고려하여 본 연구에서는 기계학습 방법의 하나인 SVM을 활용하여 매매성과를 올리는 방법에 대해 제안하고자 한다. SVM을 통한 예측대상은 한국형 변동성지수인 VKOSPI이다. VKOSPI는 금융파생상품의 한 종류인 옵션의 가격에 영향을 미친다. VKOSPI는 흔히 말하는 변동성과 같고 VKOSPI 값은 옵션의 종류와 관계없이 옵션 가격과 정비례하는 특성이 있다. 그러므로 VKOSPI의 정확한 예측은 옵션 매매에서의 수익을 낼 수 있는 중요한 요소 중 하나이다. 지금까지 기계학습을 기반으로 한 VKOSPI의 예측을 다룬 연구는 없었다. 본 연구에서는 SVM을 통해 일 중의 VKOSPI를 예측하였고, 예측 내용을 바탕으로 옵션 매매에 대한 적용 가능 여부를 실험하였으며 실제로 향상된 매매 성과가 나타남을 증명하였다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.