• 제목/요약/키워드: bayesian network

검색결과 510건 처리시간 0.028초

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.

엔트로피를 이용한 분산 서비스 거부 공격 탐지에 효과적인 특징 생성 방법 연구 (An Effective Feature Generation Method for Distributed Denial of Service Attack Detection using Entropy)

  • 김태훈;서기택;이영훈;임종인;문종섭
    • 정보보호학회논문지
    • /
    • 제20권4호
    • /
    • pp.63-73
    • /
    • 2010
  • 최근 분산 서비스 거부 공격의 근원인 악성 봇 프로그램이 널리 유포되고 있으며 보안이 유지되지 않는 PC를 통하여 악성 봇이 설치된 PC의 수가 기하급수적으로 증가하고 있다. 이를 통한 분산 서비스 거부 공격이 계속적으로 발생하고 있으며 최근 금품을 요구하는 사례도 발견되었다. 따라서 분산 서비스 거부 공격에 대응하기 위한 연구가 필요하며 본 논문에서는 네트워크 패킷 헤더의 속성에 대해 불확실성을 나타내는 척도인 엔트로피를 이용하는, 분산 서비스 거부 공격 탐지에 효과적인 특정 생성 방법을 제안한다. DARPA 2000 데이터셋과 직접 실험을 통해 구성한 분산 서비스 거부 공격 데이터셋에 대해 향상된 엔트로피 수식과 효율적인 엔트로피 계산 기법, 다양한 엔트로피 특징 값을 사용하는 제안 기법을 적용해보고 베이지안 네트워크 분류기를 이용하여 분류함으로써 제안하는 방법이 효과적인지를 검증해 본다.

자료기반 물환경 모델의 현황 및 발전 방향 (Data-Driven Modeling of Freshwater Aquatic Systems: Status and Prospects)

  • 차윤경;신지훈;김영우
    • 한국물환경학회지
    • /
    • 제36권6호
    • /
    • pp.611-620
    • /
    • 2020
  • Although process-based models have been a preferred approach for modeling freshwater aquatic systems over extended time intervals, the increasing utility of data-driven models in a big data environment has made the data-driven models increasingly popular in recent decades. In this study, international peer-reviewed journals for the relevant fields were searched in the Web of Science Core Collection, and an extensive literature review, which included total 2,984 articles published during the last two decades (2000-2020), was performed. The review results indicated that the rate of increase in the number of published studies using data-driven models exceeded those using process-based models since 2010. The increase in the use of data-driven models was partly attributable to the increasing availability of data from new data sources, e.g., remotely sensed hyperspectral or multispectral data. Consistently throughout the past two decades, South Korea has been one of the top ten countries in which the greatest number of studies using the data-driven models were published. Among the major data-driven approaches, i.e., artificial neural network, decision tree, and Bayesian model, were illustrated with case studies. Based on the review, this study aimed to inform the current state of knowledge regarding the biogeochemical water quality and ecological models using data-driven approaches, and provide the remaining challenges and future prospects.

OGLE-2017-BLG-1049: ANOTHER GIANT PLANET MICROLENSING EVENT

  • Kim, Yun Hak;Chung, Sun-Ju;Udalski, A.;Bond, Ian A.;Jung, Youn Kil;Gould, Andrew;Albrow, Michael D.;Han, Cheongho;Hwang, Kyu-Ha;Ryu, Yoon-Hyun;Shin, In-Gu;Shvartzvald, Yossi;Yee, Jennifer C.;Zang, Weicheng;Cha, Sang-Mok;Kim, Dong-Jin;Kim, Hyoun-Woo;Kim, Seung-Lee;Lee, Chung-Uk;Lee, Dong-Joo
    • 천문학회지
    • /
    • 제53권6호
    • /
    • pp.161-168
    • /
    • 2020
  • We report the discovery of a giant exoplanet in the microlensing event OGLE-2017-BLG-1049, with a planet-host star mass ratio of q = 9.53 ± 0.39 × 10-3 and a caustic crossing feature in Korea Microlensing Telescope Network (KMTNet) observations. The caustic crossing feature yields an angular Einstein radius of θE = 0.52 ± 0.11 mas. However, the microlens parallax is not measured because the time scale of the event, tE ≃ 29 days, is too short. Thus, we perform a Bayesian analysis to estimate physical quantities of the lens system. We find that the lens system has a star with mass Mh = 0.55+0.36-0.29 M⊙ hosting a giant planet with Mp = 5.53+3.62-2.87 MJup, at a distance of DL = 5.67+1.11-1.52 kpc. The projected star-planet separation is a⊥ = 3.92+1.10-1.32 au. This means that the planet is located beyond the snow line of the host. The relative lens-source proper motion is μrel ~ 7 mas yr-1, thus the lens and source will be separated from each other within 10 years. After this, it will be possible to measure the flux of the host star with 30 meter class telescopes and to determine its mass.

베이지안 네트워크 모형 기반의 환경적 가뭄의 민감도 평가: 낙동강 유역을 대상으로 (Sensitivity assessment of environmental drought based on Bayesian Network model in the Nakdong River basin)

  • 유지영;김태웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.79-79
    • /
    • 2021
  • 기상학적 측면에서 강수 부족으로 인한 수생태환경(하천), 호소환경(저수지) 및 유역환경(중권역)으로 미치는 환경학적 가뭄의 영향을 평가하기 위한 시도는 매우 중요하다. 만약 동일한 규모의 강수부족 현상이 발생할지라도, 환경적 측면에서의 수질 및 수생태에 미치는 영향이 매우 큰 유역이 있고, 반면 어느 정도의 복원력을 유지할 수 있는 유역이 있을 것이다. 즉, 서로 다른 유역환경에 따라 가뭄으로 인한 환경적 영향은 달라질 가능성이 크며, 이처럼 환경적 가뭄에 취약한 지역을 위해서는 지속적인 환경가뭄 모니터링이 중요하다. 환경적 측면에서 가뭄의 영향을 평가하기 위해서는 다양한 수질 관련 항목을 연계한 환경가뭄 감시가 중요하며, 이와 더불어 가뭄과 관련한 다양한 이해관계자 간의 효율적인 의사결정 도구가 필요하다. 따라서 본 연구에서는 다양한 시나리오 정보를 제공할 수 있는 베이지안 네트워크 모형을 적용하여 환경가뭄 민감도 평가 방안을 제시하고자 한다. 본 모형에서는 수질 문제가 가장 심하게 대두되고 있는 낙동강 유역을 대상으로, 기상학적 가뭄에 의한 수생태 및 환경 관련 변수들(BOD, T-P, TOC)의 복잡한 상호의존성을 파악할 수 있는 베이지안 네트워크 모형을 활용하였다. 또한, 기상학적 가뭄에 의한 상류와 하류 간의 환경적 영향을 연계하여 해석하기 위한 모형을 구축하였다. 그 결과, 기상학적 가뭄으로 인한 환경적 민감도가 크게 나타나는 중권역(예: 임하댐유역)과 이와 반대인 중권역(예: 병성천유역)의 구분이 가능하였다. 또한, 상류에서 발생한 심한 기상학적 가뭄이 하류 지역 내 환경적인 영향을 지속할 가능성이 있음을 확인되었다. 따라서 본 연구에서 제안한 방법은 환경적 가뭄의 취약지역을 우선 선정하고, 나아가 상-하류 간의 환경적 가뭄을 감시하는 데 있어 활용도가 있을 것으로 기대된다.

  • PDF

Real-time prediction on the slurry concentration of cutter suction dredgers using an ensemble learning algorithm

  • Han, Shuai;Li, Mingchao;Li, Heng;Tian, Huijing;Qin, Liang;Li, Jinfeng
    • 국제학술발표논문집
    • /
    • The 8th International Conference on Construction Engineering and Project Management
    • /
    • pp.463-481
    • /
    • 2020
  • Cutter suction dredgers (CSDs) are widely used in various dredging constructions such as channel excavation, wharf construction, and reef construction. During a CSD construction, the main operation is to control the swing speed of cutter to keep the slurry concentration in a proper range. However, the slurry concentration cannot be monitored in real-time, i.e., there is a "time-lag effect" in the log of slurry concentration, making it difficult for operators to make the optimal decision on controlling. Concerning this issue, a solution scheme that using real-time monitored indicators to predict current slurry concentration is proposed in this research. The characteristics of the CSD monitoring data are first studied, and a set of preprocessing methods are presented. Then we put forward the concept of "index class" to select the important indices. Finally, an ensemble learning algorithm is set up to fit the relationship between the slurry concentration and the indices of the index classes. In the experiment, log data over seven days of a practical dredging construction is collected. For comparison, the Deep Neural Network (DNN), Long Short Time Memory (LSTM), Support Vector Machine (SVM), Random Forest (RF), Gradient Boosting Decision Tree (GBDT), and the Bayesian Ridge algorithm are tried. The results show that our method has the best performance with an R2 of 0.886 and a mean square error (MSE) of 5.538. This research provides an effective way for real-time predicting the slurry concentration of CSDs and can help to improve the stationarity and production efficiency of dredging construction.

  • PDF

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

경남지역 수달(Lutra lutra)의 mitochondrial DNA D-loop지역과 microsatellite marker를 이용한 계통유전학적 유연관계 분석 (A Phylogenetic Analysis of Otters (Lutra lutra) Inhabiting in the Gyeongnam Area Using D-Loop Sequence of mtDNA and Microsatellite Markers)

  • 박문성;임현태;오기철;문영록;김종갑;전진태
    • 생명과학회지
    • /
    • 제21권3호
    • /
    • pp.385-392
    • /
    • 2011
  • 국내에 서식하는 수달의 경우 멸종 위기 I 급 종으로 지정되어 국가적인 차원에서 관리하고 있는 보호종이다. 수달의 유전자원 보호 및 체계적인 관리를 위한 기초자료로 활용하기 위해 경남지역에 서식하는 수달의 계통유전학적 유연관계를 mtDNA D-loop 지역의 염기서열분석과 MS marker 분석을 통하여 실시하였다. 그 결과 mtDNA D-loop 지역의 676 bp 부분만 보았을 때 5개의 SNP가 확인되었으며, 6개의 haplotype이 추정되었다. 진주 인근 지역과 거제도 인근 지역에서 수집한 시료는 지역 내 유전적 거리가 지역 간의 유전적 거리보다는 가까운 것을 확인 할 수 있었고, 진주와 거제도 지역 간의 유전적 거리는 확연히 구분이 되었다. MrBays의 Bayesian Markov chain Monte Carlo 분석법을 이용하여 추정한 phylogeny 분석결과 뚜렷한 2개 그룹(진주와 거제/창녕 그룹)으로 분류 되었다. Parsimonious median-joining network [5] 분석의 결과 또한 2개의 뚜렷한 그룹으로 분류되어 phylogeny 분석결과와 일치하는 결과를 보였다. MS marker를 이용하여 추정한 유전적 거리지수를 활용하여 추정한 consensus tree의 결과 또한 크게 2개의 그룹으로 분류 되며, 첫 번째 그룹에는 거제도지역 시료, 진주인근지역 시료 일부 그리고 창녕 우포늪에서 채취한 시료가 하나의 그룹으로 나뉘어 졌으며, 두 번째 그룹에는 진주인근 지역에서 채취한 시료만이 포함되어 하나의 그룹을 형성하여, mtDNA를 이용하여 분석한 것과 일부 다른 결과를 보였다. 이러한 결과의 차이는 모계를 추정하는 mtDNA와 상염색체 상의 MS marker의 특성에 기인한 것으로 보이나, 경상남도에 서식하는 수달을 크게 진주와 거제지역의 수달로 구분하는 것에는 유사한 결과를 보여 서식지 별 유전적 고정현상이 있음을 확인할 수 있었다. 하지만 좀 더 정확한 검증을 위해서는 수달의 full mtDNA 분석 및 국내에서 서식하는 수달에 적합한 MS marker발굴을 통한 대립유전자형을 분석하는 추가 연구가 필요하며, 전국 단위의 수달 시료를 확보하여 유전적 유연관계 분석을 실시한다면 한국 내 수달의 보전 및 보호에 도움이 될 것으로 사료되어 진다.

베이지안 네트워크 기반에 자가관리를 위한 결함 지역화 (Fault Localization for Self-Managing Based on Bayesian Network)

  • 박순선;박정민;이은석
    • 정보처리학회논문지B
    • /
    • 제15B권2호
    • /
    • pp.137-146
    • /
    • 2008
  • 결함 지역화는 관찰된 결함의 근본 원인을 자동 인식 하는 것이 가능하기 때문에 규모가 큰 분산시스템에서 중요 역할 수행하며 시스템의 신뢰성 개선을 위해 시스템의 관리와 제어가 가능한 자가 관리를 지원한다. 결함 지역화를 지원하는 기존 연구들은 유비쿼터스 환경에서 베이지안 네트워크와 같은 인공지능 기술들을 주로 사용하여 진단과 예측 기능 중 하나만을 고려하고 있다. 따라서, 본 논문에서는 시스템의 신뢰성 개선을 위해 실시간 시스템 성능 스트림에 대한 학습을 통해 자가관리를 위한 확률적 의존 분석을 기반으로 하는 결함 지역화 방법을 제안하여 진단과 예측기능을 동시 제공한다. 학습 방법으로 베이지안 네트워크 알고리즘을 사용하여 각종 관련된 요소들을 연결함으로써 네트워크를 생성하고 확률적 의존 관계를 통해 귀납적과 연역적 추론기능을 제공한다. 베이지안 네트워크의 구성은 노드들간의 연관성을 찾아내는 것이 중요하기 때문에 그것을 구성하는 인자의 개수가 많은 경우 노드 순서 리스트를 추출하는 사전처리 과정이 필요하다. 따라서 전체 모델링 프로세스에 대한 개선이 요구된다. 이러한 문제를 해결하기 위해 발생한 문제와 관련성이 높은 노드 순서 리스트를 추출하는 방법을 제공한다. 구조 학습을 지원 하는 사전처리 방법을 통해 다양한 문제 영역에서의 학습 효율성을 높이며 학습에 필요로 되는 시간을 줄인다. 제안 방법론을 통해서 시스템의 자원 문제를 신속하고 정확하게 진단하는 것이 가능하며, 관찰된 정보를 기반으로 실행 중에 발생되는 잠재적인 문제를 예측하는 것이 가능하다. 시스템 성능 평가 영역에서 제안 방법론을 적용한 시스템 성능 분석을 기반으로 진단, 예측의 효율성과 정확성을 평가하여 제안 방법론의 유효성을 입증하였다.

고속도로 네트워크에서 동적기종점수요 추정기법 비교연구 (Comparison of Dynamic Origin Destination Demand Estimation Models in Highway Network)

  • 이승재;조범철;김종형
    • 대한교통학회지
    • /
    • 제18권5호
    • /
    • pp.83-97
    • /
    • 2000
  • 직접적인 신호제어 및 정보제공을 이용한 교통혼잡의 완화는 링크수준(Link-level)의 자료와 통행수준(Trip-level)의 자료를 동시에 이용하는 것이 효율적이나, 통행수준의 자료인 교통수요의 기점과 종점, 그리고 출발시간 등이 검지체계를 통해서 직접적으로 얻을 수 없어 이를 간접적으로 추정하는 것이 필요하다. 따라서, 본 연구의 목적은 기존의 기종점 추정 모형과는 달리, 교통류 시뮬레이션 모형이나 기종점 수요에 대한 시계열자료 등의 사전정보 없이도 링크교통량만을 가지고도 해당 네트워크에 가능한 모든 O-D조합에 대한 분할비를 동시에 시간 효율적으로 추정 가능한 모형을 개발, 비교하는 것이다 이 모형에는 비통행배정기반 모형에 적합한 칼만필터를 베이지안 갱신법에 기초하여 개발하고 최소자승법과 이를 토대로한 정규화 최소자승법도 함께 제시하였다. 본 연구에서 개발한 3가지의 모형을 가상의 고속도로 네트워크에 적용한 결과, 갑작스러운 수요 변화를 가지는 교통수요 패턴과 첨두를 3개 가지는 하루 24시간 교통수요 패턴에도 적응성 있는 결과를 보였다. 따라서, 본 모형은 연속류에서 수요관리 및 제어, 여행시간 예측과 동적통행배정, 차종분류 등의 기초적인 자료획득을 위해 사용될 수 있을 것으로 판단된다.

  • PDF