• 제목/요약/키워드: 10-fold Validation

검색결과 239건 처리시간 0.025초

유출예측을 위한 진화적 기계학습 접근법의 구현: 알제리 세이보스 하천의 사례연구 (Implementation on the evolutionary machine learning approaches for streamflow forecasting: case study in the Seybous River, Algeria)

  • 자크로프 마샵;보첼키아 하미드;스탬바울 마대니;김성원;싱 비제이
    • 한국수자원학회논문집
    • /
    • 제53권6호
    • /
    • pp.395-408
    • /
    • 2020
  • 본 연구논문은 북부아프리카의 알제리에 위치한 하천유역에서 다중선행일 유출량의 예측을 위하여 진화적 최적화기법과 k-fold 교차검증을 결합한 세 개의 서로 다른 기계학습 접근법 (인공신경망, 적응 뉴로퍼지 시스템, 그리고 웨이블릿 기반 신경망)을 개발하고 적용하는 것이다. 인공신경망과 적응 뉴로퍼지 시스템은 root mean squared error (RMSE), Nash-Sutcliffe efficiency (NSE), correlation coefficient (R), 그리고 peak flow criteria (PFC) 의 네 개의 통계지표를 기반으로 하여 모형의 훈련 및 테스팅 결과 유사한 모형수행결과를 나타내었다. 웨이블릿 기반 신경망모형은 하루선행일 테스팅의 결과 RMSE = 8.590 ㎥/sec 과 PFC = 0.252로 분석되어서 인공신경망의 RMSE = 19.120 ㎥/sec, PFC = 0.446 과 적응 뉴로퍼지 시스템의 RMSE = 18.520 ㎥/sec, PFC = 0.444 보다 양호한 결과를 나타내었고, NSE와 R의 값도 웨이블릿 기반 신경망모형이 우수한 것으로 나타났다. 그러므로 웨이블릿 기반 신경망은 알제리 세이보스 하천에서 다중선행일의 예측을 위하여 효율적인 도구로 사용할 수 있다.

GLS와 Bass 모형을 결합한 하이브리드 모형을 이용한 영화 관객 수 예측 (Prediction of movie audience numbers using hybrid model combining GLS and Bass models)

  • 김보경;임창원
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.447-461
    • /
    • 2018
  • 국내 영화 산업 매출은 매년 증가하고 있다. 극장은 영화의 1차 판매 경로이며, 극장을 이용하는 관객 수는 부가판권에 영향을 준다. 따라서 극장을 이용하는 관객의 수는 영화 산업 매출에 직결되는 중요한 요소이다. 본 논문에서 특정일의 관객 수를 예측하기 위하여 다중선형회귀모형과 Bass 모형을 결합한 Hybrid 모형을 고려한다. 두 모형을 결합함으로써 회귀분석의 예측값을 Bass 모형의 예측값으로 보정하였다. 분석에는 개봉일이 모두 다른 세 영화를 이용하였다. All subset regression 방법을 이용해 모든 가능한 조합을 생성하고 5중 교차검증(5-fold cross validation)을 통해 5번 모형을 추정한다. 이 때 제곱근평균오차가 가장 작은 모형으로 예측값을 구한 뒤 Bass 모형의 예측값과 결합해 최종 예측값을 구하게 된다. 과거데이터가 존재할수록 Bass 모형의 가중치는 증가하면서 예측값에 보정효과를 준다는 것을 확인할 수 있었다.

안드로이드 모바일 악성 앱 탐지를 위한 확률적 K-인접 이웃 분류기 (Probabilistic K-nearest neighbor classifier for detection of malware in android mobile)

  • 강승준;윤지원
    • 정보보호학회논문지
    • /
    • 제25권4호
    • /
    • pp.817-827
    • /
    • 2015
  • 현대인은 스마트폰과 매우 밀접한 관계를 가지고 있으며 이로 인한 수 많은 보안 위협에 노출되어 있다. 실제로 해커들은 스마트폰에 악성 프로그램을 은밀하게 설치하여 장치 이용 제한 및 개인정보 유출 등의 보안 위협을 야기하고 있다. 그리고 그러한 악성 프로그램은 일반적인 프로그램과 다르게 필요 이상의 권한을 요구한다. 본 논문에서는 이 같은 문제를 바탕으로 사용되는 안드로이드 기반 앱들이 요구하는 권한 데이터를 이용하여 주성분 분석(Principle Component Analysis:PCA)과 확률적 K-인접 이웃(Probabilistic K-Nearest Neighbor:PKNN) 방식을 사용하여 효과적으로 악성 프로그램과 일반 프로그램을 분류하고자 한다. 이뿐 아니라 이를 k-묶음 교차 검증(K-fold Croos Validation)을 통해 PKNN의 정확도를 측정하였다. 그리고 일반적으로 사용되는 K-인접 이웃(K-Nearest Neighbor:KNN) 방식과 비교하여, KNN이 분류하기 힘든 부분을 확률적으로 해결하는 PKNN방법을 제안한다. 최종적으로 제안한 방식을 최적화하는 ${\kappa}$${\beta}$ 파라미터를 구하는 것을 목표로 한다. 본 논문에서 사용된 악성 앱 샘플은 Contagio에 요청하여 이용하였다.

퍼지 AHP와 퍼지 연관규칙을 이용하여 고차원 데이터를 처리하는 영화 추천 시스템 (A Movie Recommendation System processing High-Dimensional Data with Fuzzy-AHP and Fuzzy Association Rules)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.347-353
    • /
    • 2019
  • 최근 추천 시스템들은 고차원 데이터를 사용할 수 있는 시스템으로 발전하고 있다. 그러나 고차원 데이터는 차원을 확장시켜 알고리즘 복잡도가 증가하여 추천 항목의 정확도를 저하시킬 수 있다. 또한 데이터의 희소성(Sparsity) 문제가 발생할 수 있어 사용자들에게 적합한 추천 항목을 제공하는 것이 어렵다. 본 연구에서는 Fuzzy-AHP를 이용하여 사용자들의 주관적 기준의 데이터를 객관적 기준으로 분류한 후, 퍼지 연관규칙 분석을 이용하여 반복적 패턴을 띄는 규칙들을 활용하는 알고리즘을 제안하였다. 본 연구에서 적용된 알고리즘이 고차원 데이터의 문제점들을 어떻게 완화하는지 확인하기 위해 사용자 수의 변화에 따른 5-fold Cross Validation을 진행하였다. 그 결과 본 알고리즘이 적용된 시스템의 정확도는 Fuzzy-AHP만을 적용한 시스템보다 12.5% 정도 정확도가 우수하였고, 데이터의 희소성 문제도 완화할 수 있다는 것을 확인하였다.

연관규칙을 이용한 상황인식 음악 추천 시스템 (A Music Recommendation System based on Context-awareness using Association Rules)

  • 오재택;이상용
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.375-381
    • /
    • 2019
  • 최근 추천 시스템은 패션, 동영상, 음악 등을 중심으로 맞춤형 추천 서비스가 제공되어 사용자들의 관심을 모으고 있다. 그러나 이러한 서비스들은 실시간으로 발생하는 상황 정보를 사용하지 않아 여러 상황에 따른 적합한 서비스를 사용자에게 제공하기가 어렵다. 또한 적용되는 상황 정보가 차원을 확장시킬 경우, 데이터 희소성(Data Sparsity)을 증가시켜 사용자들에게 적합한 음악들을 추천할 수 없는 문제가 발생한다. 본 연구에서는 이러한 문제점을 해소시키기 위해 연관규칙(Association Rules)을 적용하여 사용자의 현재 위치 정보와 시간 정보에 대한 관계성 및 규칙들을 이용하여 실시간 상황에서 적합한 음악을 추천하는 시스템을 제안하였다. 수집된 상황 정보를 바탕으로 5-fold Cross Validation을 진행하여 위치와 시간 정보에 따른 추천 시스템의 정확도를 측정하였다. 그 결과 상황 정보가 누적됨에 따라 추천 시스템의 정확도가 향상되는 것을 확인할 수 있었다.

빅 데이터 기반의 체납 수용가 예측 모델 (Prediction Model for Unpaid Customers Using Big Data)

  • 정재안;이규환;정회경
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.827-833
    • /
    • 2020
  • 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.

An Intelligent Gold Price Prediction Based on Automated Machine and k-fold Cross Validation Learning

  • Baguda, Yakubu S.;Al-Jahdali, Hani Meateg
    • International Journal of Computer Science & Network Security
    • /
    • 제21권4호
    • /
    • pp.65-74
    • /
    • 2021
  • The rapid change in gold price is an issue of concern in the global economy and financial markets. Gold has been used as a means for trading and transaction around the world for long period of time and it plays an integral role in monetary, business, commercial and financial activities. More importantly, it is used as economic measure for the global economy and will continue to play an important economic vital role - both locally and globally. There has been an explosive growth in demand for efficient and effective scheme to predict gold price due its volatility and fluctuation. Hence, there is need for the development of gold price prediction scheme to assist and support investors, marketers, and financial institutions in making effective economic and monetary decisions. This paper primarily proposed an intelligent based system for predicting and characterizing the gold market trend. The simulation result shows that the proposed intelligent gold price scheme has been able to predict the gold price with high accuracy and precision, and ultimately it has significantly reduced the prediction error when compared to baseline neural network (NN).

Development and Validation of Generalized Linear Regression Models to Predict Vessel Enhancement on Coronary CT Angiography

  • Masuda, Takanori;Nakaura, Takeshi;Funama, Yoshinori;Sato, Tomoyasu;Higaki, Toru;Kiguchi, Masao;Matsumoto, Yoriaki;Yamashita, Yukari;Imada, Naoyuki;Awai, Kazuo
    • Korean Journal of Radiology
    • /
    • 제19권6호
    • /
    • pp.1021-1030
    • /
    • 2018
  • Objective: We evaluated the effect of various patient characteristics and time-density curve (TDC)-factors on the test bolus-affected vessel enhancement on coronary computed tomography angiography (CCTA). We also assessed the value of generalized linear regression models (GLMs) for predicting enhancement on CCTA. Materials and Methods: We performed univariate and multivariate regression analysis to evaluate the effect of patient characteristics and to compare contrast enhancement per gram of iodine on test bolus (${\Delta}HUTEST$) and CCTA (${\Delta}HUCCTA$). We developed GLMs to predict ${\Delta}HUCCTA$. GLMs including independent variables were validated with 6-fold cross-validation using the correlation coefficient and Bland-Altman analysis. Results: In multivariate analysis, only total body weight (TBW) and ${\Delta}HUTEST$ maintained their independent predictive value (p < 0.001). In validation analysis, the highest correlation coefficient between ${\Delta}HUCCTA$ and the prediction values was seen in the GLM (r = 0.75), followed by TDC (r = 0.69) and TBW (r = 0.62). The lowest Bland-Altman limit of agreement was observed with GLM-3 (mean difference, $-0.0{\pm}5.1$ Hounsfield units/grams of iodine [HU/gI]; 95% confidence interval [CI], -10.1, 10.1), followed by ${\Delta}HUCCTA$ ($-0.0{\pm}5.9HU/gI$; 95% CI, -11.9, 11.9) and TBW ($1.1{\pm}6.2HU/gI$; 95% CI, -11.2, 13.4). Conclusion: We demonstrated that the patient's TBW and ${\Delta}HUTEST$ significantly affected contrast enhancement on CCTA images and that the combined use of clinical information and test bolus results is useful for predicting aortic enhancement.

fMRI 데이터를 이용한 알츠하이머 진행상태 분류 (Alzheimer progression classification using fMRI data)

  • 노주현;양희덕
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.86-93
    • /
    • 2024
  • 기능적 자기 공명영상(functional magnetic resonance imaging;fMRI)의 발전은 뇌 기능의 매핑, 휴식 상태에서 뇌 네트워크의 이해에 상당한 기여를 하였다. 본 논문은 알츠하이머의 진행상태를 분류하기 위해 CNN-LSTM 기반의 분류 모델을 제안한다. 첫 번째로 특징 추출 이전 fMRI 데이터에서 잡음을 제거하기 위해 4단계의 전처리를 수행한다. 두 번째, 전처리가 끝나면 U-Net 구조를 활용하여 공간적 특징을 추출한다. 세 번째, 추출된 공간적 특징은 LSTM을 활용하여 시간적 특징을 추출하여 최종적으로 분류하는 과정을 거친다. 실험은 데이터의 시간차원을 조절하여 진행하였다. 5-fold 교차 검증을 사용하여 평균 96.4%의 정확도를 달성하였고 이러한 결과는 제안된 방법이 fMRI 데이터를 분석하여 알츠하이머의 진행을 식별하는데 높은 잠재력을 가지고 있음을 보여준다.

발성역치능력(Phonation Threshold Power, PTW)의 타당도 및 임상적 유용성 연구: 예비연구 (A Study on the Validation of Phonation Threshold Power and the Clinical Usefulness of PTW: A Preliminary Study)

  • 황영진;이인애
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.133-138
    • /
    • 2014
  • This study attempted to investigate the validation of Phonation Threshold Power of Patients who have Functional voice disorder. 50 subjects participated in the study (32 subjects were patients who had functional voice disorders and 20 subjects were normal adults). The PAS (Phonatory aerodynamic system, model 6600, KAY electronics, Inc.) was used to measure the data and to do the analysis. Data from the Phonation Threshold Power was measured multiplying Phonation Threshold Pressure and Phonation Threshold Airflow. Phonation Threshold Pressure and Phonation Threshold Airflow were measured by the PAS protocol. Those were used because of the ease of phonation. The results of this study showed that the differences in Phonation Threshold Power between patients who had functional voice disorder and normal adults could become a significant index. Patients who had functional voice disorder showed more higher figures than normal adults. The results of study showed that Phonation threshold Power is more sensitive than Phonation Threshold Pressure and Phonation Threshold Airflow. The measured data also provided useful information for diagnosing patients with vocal fold.