• 제목/요약/키워드: K-fold 교차검증

검색결과 48건 처리시간 0.024초

희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정 (Optimal number of dimensions in linear discriminant analysis for sparse data)

  • 신가인;김재직
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.867-876
    • /
    • 2017
  • 오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.

데이터마이닝을 이용한 박스오피스 예측 (Prediction of box office using data mining)

  • 전성현;손영숙
    • 응용통계연구
    • /
    • 제29권7호
    • /
    • pp.1257-1270
    • /
    • 2016
  • 본 연구는 영화 흥행의 척도로서 총 관객수의 예측을 다루었다. 의사결정나무, MLP 신경망모형, 다항로짓모형, support vector machine과 같은 데이터마이닝 분류 기법들을 사용하여 개봉 전, 개봉 일, 개봉 1주 후, 그리고 개봉 2주 후 시점 별로 예측이 이루어진다. 국적, 등급, 개봉 월, 개봉 계절, 감독, 배우, 배급사, 관객수, 그리고 스크린 수와 같은 영화의 내재적인 속성을 나타내는 변수 뿐만 아니라 포털의 평점과 평가자 수, 블로그 수, 뉴스 수와 같은 온라인 구전 변수들이 예측변수로 사용되었다. 10-중 교차 검증에서 신경망모형의 정확도는 개봉 전 시점에서도 90% 이상의 높은 예측력을 보였다. 또한 최종 온라인 구전 변수의 추정치를 예측변수로 추가함으로서 예측의 정확도가 더 높아짐을 볼 수 있다.

EEG 신호 기반 경사도 방법을 통한 감정인식에 대한 연구 (A Novel Method for Emotion Recognition based on the EEG Signal using Gradients)

  • 한의환;차형태
    • 전자공학회논문지
    • /
    • 제54권7호
    • /
    • pp.71-78
    • /
    • 2017
  • 감정을 분류하는 대표적인 알고리즘에는 Support-vector-machine (SVM), Bayesian decision rule 등이 있다. 하지만 기존의 연구자들은 위와 같은 방법에는 문제점이 있다고 지적하였다. 이를 보완하기 위해 다른 연구자는 경사도를 이용하여 새로운 패턴인식 알고리즘을 제안하였다. 본 논문에서는 이 알고리즘을 통해 새로운 EEG 기반의 감정 인식 알고리즘을 제안하고 기존의 연구와 비교한다. 본 논문에서는 신뢰도 높은 자료를 얻기 위해 여러 논문에서 사용된 DEAP (a database for emotion analysis using physiological signals)를 사용하였다. 또한, 객관적인 검증을 위해 기존의 연구에서 사용된 4개의 뇌파 채널(Fz, Fp2, F3, F4)의 PSD (Power Spectral Density)를 특징으로 사용하여 감정의 2개 척도 (Arousal, Valence)를 분류하였다. 본 논문에서 실시한 교차검증 (4-fold)에 의하면 Valence 축에서 85%, Arousal 축에서 87.5의 정확도를 얻을 수 있었다.

인공지능 기반의 언어 생성 모델 분석 (AI-based language generation model analysis)

  • 이승철;장용훈;박창현;서영석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.519-522
    • /
    • 2020
  • 1989년에 WWW(World Wide Web)이 도입 되면서 세계적으로 인터넷의 보급이 시작되었다. 정보화 시대라고 알려진 3차 산업혁명 이후로 대량의 정보들이 소셜 미디어를 통하여 생산되었다. 소셜미디어는 2007년에 인터넷 사용자들 중 56%의 이용률을 보였지만 2008년 2분기에는 75%의 이용률로 증가함에 따라 대부분의 사용자들이 많이 사용하며 의존하게 되었다. 또한 소셜 미디어를 통해 발생 되는 데이터들을 이용하여 기업들은 이윤 창출을 할 수 있다. 하지만 이러한 소셜 미디어는 악의적인 목적을 통해 주가 조작, 정치적 선동 등을 할 수 있는 가짜 뉴스와 허위 정보들을 생성할 수 있으며 이에 따라 대책이 시급하다. 또한 가짜 뉴스는 사람이 글을 작성할 수도 있지만 최근 인공지능 기술의 발달에 따라 프로그램을 통해 자동적으로 생성 될 수도 있다. 본 논문에서는 이와 같은 실제 뉴스와 인공지능을 기반으로 한 뉴스를 분석한다. Kaggle에서 실제 뉴스 데이터를 수집하여 헤드라인을 OpenAI의 GPT-2 언어 모델을 통해 뉴럴 가짜 뉴스를 생성 하였다. 파이썬의 NLTK 모듈을 이용하여 전처리를 진행하였고 t-검정과 박스 플롯을 활용하여 분석을 진행하였다. 분석된 주요 속성들을 의사결정트리를 통해 모델 검증을 하였고 k-fold 교차검증을 통해 분류 모델을 평가하였다. 결과로 전체 분류 정확도 평균 89%의 성능을 보여주었다.

사례 기반 추론을 이용한 적조 예측 모니터링 시스템 구현 및 설계 (A Design and Implementation Red Tide Prediction Monitoring System using Case Based Reasoning)

  • 송병호;정민아;이성로
    • 한국통신학회논문지
    • /
    • 제35권12B호
    • /
    • pp.1219-1226
    • /
    • 2010
  • 적조 현상에 대한 판별, 예측 분석을 위한 시스템은 현재 개발이 아주 미흡한 상태이고 현재의 적조원인에 대한 연구는 화학 및 생물학적 원인의 규명에 대해 그 초점이 맞추어져 있어 지능적인 의사 결정 알고리즘을 갖는 시스템 구현이 필요하다. 본 논문에서는 사례 기반 추론 기법을 이용하여 적조 현상에 관한 사례를 지식 베이스로 구축하고 추론하는 시스템을 설계하였다. 가장 유사한 사례 추천을 위해 KNN 알고리즘을 이용하였고 적조 사례 베이스를 구축하기 위하여 375 건의 데이터를 입력 받아 실험하였다. 학습 데이터로부터의 영향을 최소화하고 신뢰성을 확보하기 위해 10-Fold 교차검증을 수행한 결과 적조 사례에 대한 평균 정확도는 약 84.2%를 나타냈고 유사도 분류 k 개수가 5인 경우에 최적의 수행 결과를 나타냈다. 또한, 추론된 결과를 이용하여 적조 모니터링 시스템을 구현하였다.

GLS와 Bass 모형을 결합한 하이브리드 모형을 이용한 영화 관객 수 예측 (Prediction of movie audience numbers using hybrid model combining GLS and Bass models)

  • 김보경;임창원
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.447-461
    • /
    • 2018
  • 국내 영화 산업 매출은 매년 증가하고 있다. 극장은 영화의 1차 판매 경로이며, 극장을 이용하는 관객 수는 부가판권에 영향을 준다. 따라서 극장을 이용하는 관객의 수는 영화 산업 매출에 직결되는 중요한 요소이다. 본 논문에서 특정일의 관객 수를 예측하기 위하여 다중선형회귀모형과 Bass 모형을 결합한 Hybrid 모형을 고려한다. 두 모형을 결합함으로써 회귀분석의 예측값을 Bass 모형의 예측값으로 보정하였다. 분석에는 개봉일이 모두 다른 세 영화를 이용하였다. All subset regression 방법을 이용해 모든 가능한 조합을 생성하고 5중 교차검증(5-fold cross validation)을 통해 5번 모형을 추정한다. 이 때 제곱근평균오차가 가장 작은 모형으로 예측값을 구한 뒤 Bass 모형의 예측값과 결합해 최종 예측값을 구하게 된다. 과거데이터가 존재할수록 Bass 모형의 가중치는 증가하면서 예측값에 보정효과를 준다는 것을 확인할 수 있었다.

딥러닝을 이용한 하천 유량 예측 알고리즘 (Groundwater Level Prediction using ANFIS Algorithm)

  • 박귀만;오세랑;박근호;배영철
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1239-1248
    • /
    • 2021
  • 본 논문은 학문적인 이해를 기반을 둔 예측을 수행하기 위해 FDNN(: Flood drought index neural network) 알고리즘을 제시한다. 데이터에 의존한 예측이 아닌 학문적인 이해를 기반을 둔 예측을 딥러닝에 적용하기 위해, 알고리즘을 수리, 수문학을 기반으로 구성하였다. 강수량의 입력으로 하천의 유량을 예측하는 모델을 구성하여 K-교차검증을 통해 모델의 성능을 측정한다. 제시한 알고리즘의 성능을 증명하기 위해 시계열 예측에서 가장 많이 사용되는 LSTM(: Long short term memory) 알고리즘의 예측 성능과 비교하여 제시한 알고리즘의 우수성을 나타낸다.

hERG 이온채널 저해제에 대한 2D-QSAR 분석 (2D-QSAR analysis for hERG ion channel inhibitors)

  • 전을혜;박지현;정진희;이성광
    • 분석과학
    • /
    • 제24권6호
    • /
    • pp.533-543
    • /
    • 2011
  • hERG (human ether-a-go-go related gene) 이온채널은 심장 재분극의 중요 요소이며 이 채널의 저해제는 부정맥과 돌연사를 유발할 수 있다. 따라서, 신약개발과정에서 후보물질이 hERG 이온채널의 잠재적인 저해제일 경우에는 심장독성 부작용을 유발하므로, 이를 최소화하고자 많은 노력이 집중되고 있다. 본 연구는 HEK(인간 배아 신장)세포에서 얻은 202개 유기화합물의 $IC_{50}$ 데이터를 이용하여 2차원 구조-활성의 정량적 관계(2D-QSAR)방법으로 예측하는 모델을 개발하였다. hERG이온채널 저해제의 기계 학습방법으로는 다중선형회귀(Multiple Linear Regression), 서포트 벡터 머신(Support Vector Machine: SVM)방법과 인공신경망(Artificial Neural Network)방법이며, 교차검증을 적용한 모집단 기반 전진선택(forward selection)방법과 결합하여 각 학습모델에 적합한 최적의 표현자들을 결정하였다. 가장 우수한 방법은 14종의 표현자를 사용한 인공신경망방법($R^2_{CV}$=0.617, RMSECV=0.762, MAECV=0.583)이었고, 다중선형회귀방법을 통해서 hERG이온채널 저해물질의 구조적 특징과 수용체와의 상호작용을 설명할 수 있다. QSAR모델의 검증은 교차검증과 Y-scrambling test방법으로 수행하였다.

FCM을 적용한 결함심각도 기반 앙상블 모델 (Defect Severity-based Ensemble Model using FCM)

  • 이나영;권기태
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권12호
    • /
    • pp.681-686
    • /
    • 2016
  • 소프트웨어 결함 예측은 프로젝트의 효율적인 관리와 성공에 있어 중요한 요소이다. 이 결함은 심각도에 따라 프로젝트에 영향을 미치는 정도가 다르다. 그러나 기존 연구는 결함 유무만 관심을 두고 심각도를 고려하지 않는다. 본 논문에서는 소프트웨어 관리 효율과 품질 향상을 위해 FCM을 적용한 결함 심각도 기반 앙상블 모델을 제안한다. 제안된 모델은 FCM으로 NASA PC4의 결함심각도를 재분류한다. 그리고 RF(Random Forest)로 심각도에 영향을 주는 입력 column을 선별하여 데이터 핵심 결함 요인을 추출한다. 또한 10-fold 교차검증으로 파라미터를 변경해 모델 성능을 평가한다. 실험 결과는 다음과 같다. 첫째, 결함심각도가 58,40,80에서 30,20,128로 재분류되었다. 둘째, 심각도에 영향을 주는 중요한 입력 column은 정확도와 노드 불순도 측면에서 BRANCH_COUNT였다. 셋째, 성능평가는 트리수가 작고 고려할 변수가 많을수록 좋은 성능을 보였다.

베이지안 최적화를 이용한 암상 분류 모델의 하이퍼 파라미터 탐색 (Hyperparameter Search for Facies Classification with Bayesian Optimization)

  • 최용욱;윤대웅;최준환;변중무
    • 지구물리와물리탐사
    • /
    • 제23권3호
    • /
    • pp.157-167
    • /
    • 2020
  • 최근 인공지능 기술의 발전과 함께 물리탐사의 다양한 분야에서도 인공지능의 핵심 기술인 머신러닝의 활용도가 증가하고 있다. 또한 머신러닝 및 딥러닝을 활용한 연구는 이미지, 비디오, 음성, 자연어 등 다양한 태스크의 추론 정확도를 높이기 위해 복잡한 알고리즘들이 개발되고 있고, 더 나아가 자료의 특성, 알고리즘 구조 및 하이퍼 파라미터의 최적화를 위한 자동 머신러닝(AutoML) 분야로 그 폭을 넓혀가고 있다. 본 연구에서는 AutoML 분야 중에서도 하이퍼 파라미터(hyperparameter) 자동 탐색을 위한 베이지안 최적화 기술에 중점을 두었으며, 본 기술을 물리탐사 분야에서도 암상 분류(facies classification) 문제에 적용했다. Vincent field의 현장 물리검층 및 탄성파 자료를 이용하여 암상 및 공극유체를 분류하는 지도학습 기반 모델에 적용하였고, 랜덤 탐색 기법의 결과와 비교하여 베이지안 최적화 기반 예측 프레임워크의 효율성을 검증하였다.