• Title/Summary/Keyword: Bayesian prediction model

검색결과 190건 처리시간 0.024초

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

Refractive-index Prediction for High-refractive-index Optical Glasses Based on the B2O3-La2O3-Ta2O5-SiO2 System Using Machine Learning

  • Seok Jin Hong;Jung Hee Lee;Devarajulu Gelija;Woon Jin Chung
    • Current Optics and Photonics
    • /
    • 제8권3호
    • /
    • pp.230-238
    • /
    • 2024
  • The refractive index is a key material-design parameter, especially for high-refractive-index glasses, which are used for precision optics and devices. Increased demand for high-precision optical lenses produced by the glass-mold-press (GMP) process has spurred extensive studies of proper glass materials. B2O3, SiO2, and multiple heavy-metal oxides such as Ta2O5, Nb2O5, La2O3, and Gd2O3 mostly compose the high-refractive-index glasses for GMP. However, due to many oxides including up to 10 components, it is hard to predict the refractivity solely from the composition of the glass. In this study, the refractive index of optical glasses based on the B2O3-La2O3-Ta2O5-SiO2 system is predicted using machine learning (ML) and compared to experimental data. A dataset comprising up to 271 glasses with 10 components is collected and used for training. Various ML algorithms (linear-regression, Bayesian-ridge-regression, nearest-neighbor, and random-forest models) are employed to train the data. Along with composition, the polarizability and density of the glasses are also considered independent parameters to predict the refractive index. After obtaining the best-fitting model by R2 value, the trained model is examined alongside the experimentally obtained refractive indices of B2O3-La2O3-Ta2O5-SiO2 quaternary glasses.

Prospective validation of a novel dosing scheme for intravenous busulfan in adult patients undergoing hematopoietic stem cell transplantation

  • Cho, Sang-Heon;Lee, Jung-Hee;Lim, Hyeong-Seok;Lee, Kyoo-Hyung;Kim, Dae-Young;Choe, Sangmin;Bae, Kyun-Seop;Lee, Je-Hwan
    • The Korean Journal of Physiology and Pharmacology
    • /
    • 제20권3호
    • /
    • pp.245-251
    • /
    • 2016
  • The objective of this study was to externally validate a new dosing scheme for busulfan. Thirty-seven adult patients who received busulfan as conditioning therapy for hematopoietic stem cell transplantation (HCT) participated in this prospective study. Patients were randomized to receive intravenous busulfan, either as the conventional dosage (3.2 mg/kg daily) or according to the new dosing scheme based on their actual body weight (ABW) ($23{\times}ABW^{0.5}mg\;daily$) targeting an area under the concentration-time curve (AUC) of $5924{\mu}M{\cdot}min$. Pharmacokinetic profiles were collected using a limited sampling strategy by randomly selecting 2 time points at 3.5, 5, 6, 7 or 22 hours after starting busulfan administration. Using an established population pharmacokinetic model with NONMEM software, busulfan concentrations at the available blood sampling times were predicted from dosage history and demographic data. The predicted and measured concentrations were compared by a visual predictive check (VPC). Maximum a posteriori Bayesian estimators were estimated to calculate the predicted AUC ($AUC_{PRED}$). The accuracy and precision of the $AUC_{PRED}$ values were assessed by calculating the mean prediction error (MPE) and root mean squared prediction error (RMSE), and compared with the target AUC of $5924{\mu}M{\cdot}min$. VPC showed that most data fell within the 95% prediction interval. MPE and RMSE of $AUC_{PRED}$ were -5.8% and 20.6%, respectively, in the conventional dosing group and -2.1% and 14.0%, respectively, in the new dosing scheme group. These findings demonstrated the validity of a new dosing scheme for daily intravenous busulfan used as conditioning therapy for HCT.

추천 시스템의 성능 안정성을 위한 예측적 군집화 기반 협업 필터링 기법 (Predictive Clustering-based Collaborative Filtering Technique for Performance-Stability of Recommendation System)

  • 이오준;유은순
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.119-142
    • /
    • 2015
  • 사용자의 취향과 선호도를 고려하여 정보를 제공하는 추천 시스템의 중요성이 높아졌다. 이를 위해 다양한 기법들이 제안되었는데, 비교적 도메인의 제약이 적은 협업 필터링이 널리 사용되고 있다. 협업 필터링의 한 종류인 모델 기반 협업 필터링은 기계학습이나 데이터 마이닝 모델을 협업 필터링에 접목한 방법이다. 이는 희박성 문제와 확장성 문제 등의 협업 필터링의 근본적인 한계를 개선하지만, 모델 생성 비용이 높고 성능/확장성 트레이드오프가 발생한다는 한계점을 갖는다. 성능/확장성 트레이드오프는 희박성 문제의 일종인 적용범위 감소 문제를 발생시킨다. 또한, 높은 모델 생성 비용은 도메인 환경 변화의 누적으로 인한 성능 불안정의 원인이 된다. 본 연구에서는 이 문제를 해결하기 위해, 군집화 기반 협업 필터링에 마르코프 전이확률모델과 퍼지 군집화의 개념을 접목하여, 적용범위 감소 문제와 성능 불안정성 문제를 해결한 예측적 군집화 기반 협업 필터링 기법을 제안한다. 이 기법은 첫째, 사용자 기호(Preference)의 변화를 추적하여 정적인 모델과 동적인 사용자간의 괴리 해소를 통해 성능 불안정 문제를 개선한다. 둘째, 전이확률과 군집 소속 확률에 기반한 적용범위 확장으로 적용범위 감소 문제를 개선한다. 제안하는 기법의 검증은 각각 성능 불안정성 문제와 확장성/성능 트레이드오프 문제에 대한 강건성(robustness)시험을 통해 이뤄졌다. 제안하는 기법은 기존 기법들에 비해 성능의 향상 폭은 미미하다. 또한 데이터의 변동 정도를 나타내는 지표인 표준 편차의 측면에서도 의미 있는 개선을 보이지 못하였다. 하지만, 성능의 변동 폭을 나타내는 범위의 측면에서는 기존 기법들에 비해 개선을 보였다. 첫 번째 실험에서는 모델 생성 전후의 성능 변동폭에서 51.31%의 개선을, 두 번째 실험에서는 군집 수 변화에 따른 성능 변동폭에서 36.05%의 개선을 보였다. 이는 제안하는 기법이 성능의 향상을 보여주지는 못하지만, 성능 안정성의 측면에서는 기존의 기법들을 개선하고 있음을 의미한다.

머신 러닝 기법을 이용한 PIC 범퍼 빔 설계 방법 (The PIC Bumper Beam Design Method with Machine Learning Technique)

  • 함석우;지승민;전성식
    • Composites Research
    • /
    • 제35권5호
    • /
    • pp.317-321
    • /
    • 2022
  • 본 연구에서는 머신 러닝을 통해 하중 유형에 따른 구간을 나누어 각 하중 유형에 강한 적층 각도 순서가 배치되는 PIC 설계 방법이 범퍼 빔에 적용되었다. 머신 러닝을 적용하기 위한 학습 데이터의 입력 값과 라벨은 각각 전체 요소 중 일부인 참조 요소의 좌표와 하중 유형으로 정의되었다. 좌표 값을 나타내는 방법인 2D 표현 방법과 3D 표현 방법을 비교하기 위하여 각각의 방법으로 학습 데이터 생성 및 머신 러닝 모델이 학습되었다. 2D 표현 방법은 유한요소 모델을 각 면으로 나누고 그에 따른 학습 데이터 생성 및 머신 러닝 모델을 학습시키는 방법이며, 3D 표현 방법은 유한요소 모델 전체에서 학습 데이터를 생성하여 하나의 머신 러닝 모델을 학습시키는 방법이다. 머신 러닝 모델의 성능에 영향을 미치는 하이퍼파라미터는 베이지안 알고리즘을 통해 최적 값으로 튜닝되었으며, 튜닝 된 모델 중 k-NN 분류 방법이 가장 높은 예측률과 AUC-ROC로 나타났다. 그리고 2D 표현 방법과 3D 표현 방법 중 3D 표현 방법이 더 높은 성능을 보였다. 튜닝 된 머신 러닝 모델을 통해 예측된 하중 유형 데이터가 유한요소 모델에 매핑되었으며, 유한요소 해석을 통해 비교 검증되었다. 3D 표현 방법의 머신 러닝 모델로 설계된 PIC 방법이 강도 측면에서 더 우수함이 검증되었다.

기후예측정보와 베이지안 기법을 활용한 가뭄전망기술 개발 및 평가 (Development and Evaluation of Drought Outlook method Using Climate Prediction with Bayesian method)

  • 손경환;배덕효
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.22-22
    • /
    • 2015
  • 가뭄은 적시에 경보해야 하는 홍수와 달리 진행속도가 느리고 시간적으로 대처할 여유가 있어 진행중일지라도 미리 감지만 한다면 그 피해를 최소화할 수 있다. 이로 인해 미국 등 수문기상 선진국에서는 수문기상 장기예보자료로부터 가뭄전망정보 생산기술을 개발하였으며, 특히 가뭄전망의 정확도 향상을 위해 여러 통계적 보정기법을 적용하고 있다. 국내의 경우 기상청에서 가뭄전망을 목적으로 2011년에 수치예보모델을 이용하여 가뭄전망정보를 생산한바 있으나, 전망정보의 불확실성 문제로 가뭄예보에 활용하는데 한계가 있어 이를 개선할 수 있는 기술개발이 요구되는 실정이다. 본 연구에서는 기후예측자료를 이용하여 가뭄전망정보 생산기술을 개발하고 정확도 개선을 위해 베이지안 기법을 연계하였다. GloSea5 (Global Seasonal forecast model 5) 장기예보자료를 이용하였으며, 베이지안 기법을 통해 과거 관측자료에 대한 사전분포, 모델의 전망정보로부터 우도함수를 유도하여 최종 사후분포를 추정하였다. 베이지안 기법 적용 전 후에 따른 가뭄지수를 산정하였다. 관측자료 기반의 가뭄지수와의 비교분석을 통해 선행기간 및 계절별 가뭄예측 성능을 평가하였으며, 실제 가뭄기간 동안에 가뭄의 재현성을 지역별로 분석하였다. 장기예보자료만을 활용한 기존 가뭄전망에서는 관측 자료가 포함된 1개월 전망에서도 불확실성이 매우 높았지만 베이지안 기법 적용으로 가뭄전망의 정확도가 크게 개선되었다. 특히, 1, 2개월 전망의 시계열 가뭄지수가 관측기반의 가뭄지수의 거동과 매우 유사하게 나타났으며, 지역별로도 베이지안 기법 적용시 실제 가뭄피해 상황을 적절히 재현하는 것으로 나타났다. 국내 가뭄예보에 있어 기후예측정보를 단순활용하기 보다는 베이지안과 같은 통계적 보정기법을 이용하여 가뭄전망정보를 생산하는 것이 바람직하며, 본 연구에서는 가뭄예보업무에 활용될 수 있도록 베이지안 기법에 대한 검증 및 평가를 지속적으로 수행할 계획이다.

  • PDF

Monte-Carlo expectation-maximaization 방법을 이용한 무응답 모형 추정방법 (An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm)

  • 최보승;유현상;윤용화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.587-598
    • /
    • 2016
  • 각종 선거를 앞두고 여러 여론조사 기관들은 다양한 방법으로 선거 결과를 예측한다. 조사를 통한 선거 예측을 수행하는 데 있어서 발생할 수 있는 문제점 중 하나는 무응답이며 무응답 대체 방법에 따라 예측 결과는 완전히 다른 결과를 생산해 낼 수 있다. 본 연구에서는 무응답 대체의 방법으로 모형을 기반으로 한 대체 방법에 대하여 연구하였다. 특히, 최대 우도 추정 방법을 적용했을 때 무시할 수 없는 무응답 (non-ignorable non-response) 체계 하에서 발생할 수 있는 변방 값 문제를 해결하기 위해 Wei와 Tanner (1990)가 제안한 Monte Carlo EM 알고리즘을 적용하였다. 모의 실험을 통하여 MCEM 방법과 기존의 최대 우도 추정 방법, 베이지안 추정 방법 사이의 비교 연구를 진행하였고 그 결과 MCEM 방법이 기존 방법들에 대한 대안 방법으로 이용될 수 있음을 보였다. 또한 2012년에 시행된 제18대 대통령 선거 당일의 출구조사 자료를 적용하여 실증 분석을 수행하였다. 예측 결과를 비교하기 위해 Bautista 등 (2007)이 제안한 MWPE (modified within precinct error)를 이용하였다.

충전 전압 특성을 이용한 리튬 이온 배터리의 잔존 수명 예측 (Remaining Useful Life Prediction of Li-Ion Battery Based on Charge Voltage Characteristics)

  • 심성흠;강진혁;안다운;김선일;김진영;최주호
    • 대한기계학회논문집B
    • /
    • 제37권4호
    • /
    • pp.313-322
    • /
    • 2013
  • 배터리는 최근 여러 분야에서 중요한 에너지원 역할을 하고 있는데, 사용 중 충방전을 거듭하면 용량이 점차 저하되며 초기 대비 80% 이하로 떨어지면 고장으로 간주되므로, 이를 예측하기 위한 수명 예측 기법이 활발히 개발되고 있다. 본 연구에서는 사용중인 배터리에 대해 충전곡선 기울기를 이용하여 배터리의 용량을 평가하고 이를 바탕으로 잔존수명을 예측하는 새로운 방법을 제안하였다. 이 과정에서 발생하는 여러 불확실성을 고려하기 위해 베이지안 접근법에 기반한 파티클 필터 방법을 활용하였고 그 결과 잔존수명을 확률분포로 구하였다. 개발된 방법을 미국 NASA Ames 연구소와 본 연구실에서 직접 수행한 배터리 충방전 시험 데이터에 대해 각각 적용한 결과 충전곡선 기울기가 용량 열화를 잘 나타내며 파티클 필터로 예측된 잔존수명 신뢰구간은 실제 수명을 잘 포함함을 확인할 수 있었다.

고속도로 네트워크에서 동적기종점수요 추정기법 비교연구 (Comparison of Dynamic Origin Destination Demand Estimation Models in Highway Network)

  • 이승재;조범철;김종형
    • 대한교통학회지
    • /
    • 제18권5호
    • /
    • pp.83-97
    • /
    • 2000
  • 직접적인 신호제어 및 정보제공을 이용한 교통혼잡의 완화는 링크수준(Link-level)의 자료와 통행수준(Trip-level)의 자료를 동시에 이용하는 것이 효율적이나, 통행수준의 자료인 교통수요의 기점과 종점, 그리고 출발시간 등이 검지체계를 통해서 직접적으로 얻을 수 없어 이를 간접적으로 추정하는 것이 필요하다. 따라서, 본 연구의 목적은 기존의 기종점 추정 모형과는 달리, 교통류 시뮬레이션 모형이나 기종점 수요에 대한 시계열자료 등의 사전정보 없이도 링크교통량만을 가지고도 해당 네트워크에 가능한 모든 O-D조합에 대한 분할비를 동시에 시간 효율적으로 추정 가능한 모형을 개발, 비교하는 것이다 이 모형에는 비통행배정기반 모형에 적합한 칼만필터를 베이지안 갱신법에 기초하여 개발하고 최소자승법과 이를 토대로한 정규화 최소자승법도 함께 제시하였다. 본 연구에서 개발한 3가지의 모형을 가상의 고속도로 네트워크에 적용한 결과, 갑작스러운 수요 변화를 가지는 교통수요 패턴과 첨두를 3개 가지는 하루 24시간 교통수요 패턴에도 적응성 있는 결과를 보였다. 따라서, 본 모형은 연속류에서 수요관리 및 제어, 여행시간 예측과 동적통행배정, 차종분류 등의 기초적인 자료획득을 위해 사용될 수 있을 것으로 판단된다.

  • PDF

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.