• 제목/요약/키워드: Ensemble model

검색결과 622건 처리시간 0.031초

비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측 모델 (A Recidivism Prediction Model Based on XGBoost Considering Asymmetric Error Costs)

  • 원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.127-137
    • /
    • 2019
  • 재범예측은 70년대 이전부터 전문가들에 의해서 꾸준히 연구되어온 분야지만, 최근 재범에 의한 범죄가 꾸준히 증가하면서 재범예측의 중요성이 커지고 있다. 특히 미국과 캐나다에서 재판이나 가석방심사 시 재범 위험 평가 보고서를 결정적인 기준으로 채택하게 된 90년대를 기점으로 재범예측에 관한 연구가 활발해졌으며, 비슷한 시기에 국내에서도 재범요인에 관한 실증적인 연구가 시작되었다. 지금까지 대부분의 재범예측 연구는 재범요인 분석이나 재범예측의 정확성을 높이는 연구에 집중된 경향을 보이고 있다. 그러나 재범 예측에는 비대칭 오류 비용 구조가 있기 때문에 경우에 따라 예측 정확도를 최대화함과 동시에 예측 오분류 비용을 최소화하는 연구도 중요한 의미를 가진다. 일반적으로 재범을 저지르지 않을 사람을 재범을 저지를 것으로 오분류하는 비용은 재범을 저지를 사람을 재범을 저지르지 않을 것으로 오분류하는 비용보다 낮다. 전자는 추가적인 감시 비용만 증가되는 반면, 후자는 범죄 발생에 따른 막대한 사회적, 경제적 비용을 야기하기 때문이다. 이러한 비대칭비용에 따른 비용 경제성을 반영하여, 본 연구에서 비대칭 오류 비용을 고려한 XGBoost 기반 재범 예측모델을 제안한다. 모델의 첫 단계에서 최근 데이터 마이닝 분야에서 높은 성능으로 각광받고 있는 앙상블 기법, XGBoost를 적용하였고, XGBoost의 결과를 로지스틱 회귀 분석(Logistic Regression Analysis), 의사결정나무(Decision Trees), 인공신경망(Artificial Neural Networks), 서포트 벡터 머신(Support Vector Machine)과 같은 다양한 예측 기법과 비교하였다. 다음 단계에서 임계치의 최적화를 통해 FNE(False Negative Error)와 FPE(False Positive Error)의 가중 평균인 전체 오분류 비용을 최소화한다. 이후 모델의 유용성을 검증하기 위해 모델을 실제 재범예측 데이터셋에 적용하여 XGBoost 모델이 다른 비교 모델 보다 우수한 예측 정확도를 보일 뿐 아니라 오분류 비용도 가장 효과적으로 낮춘다는 점을 확인하였다.

공간분포모델을 활용한 사료작물 이탈리안 라이그라스(Lolium multiflorum L.)의 재배적지 변동예측연구 (A Study on the Prediction of Suitability Change of Forage Crop Italian Ryegrass (Lolium multiflorum L.) using Spatial Distribution Model)

  • 김현애;현신우;김광수
    • 한국농림기상학회지
    • /
    • 제16권2호
    • /
    • pp.103-113
    • /
    • 2014
  • 우리나라에서의 사료작물 생산면적이 제한적이기 때문에 미래의 기후조건에서 최적 재배 가능 지역을 중심으로 이탈리안 라이그라스와 같은 사료작물의 생산체계를 설계하는 것이 필요하다. 특히, 한반도를 대상으로 이탈리안 라이그라스의 재배 가능지역을 파악하는 것이 미래를 대비한 정책 결정에 도움을 줄 수 있다. 이번 연구에서는 기후자료를 기반으로 작물의 재배적합도를 예측하는 EcoCrop 모델을 사용하여 현재(1950~2000), 2020년대(2010~2039), 2050년대(2040~2069), 2080년대(2070~2099)의 이탈리안 라이그라스의 재배 가능지역을 분석하였다. 또한, 전구 기후모델인 CCCMA, CSIRO, UKMO-HadCM3, UKMO-HadGEM1, 그리고 NCAR 모델 등으로부터 얻어진 규모축소 기후자료를 활용한 앙상블 예측기법을 재배적합도 예측에 적용하여 미래 기후변화 조건에서의 불확실도를 낮추는 것을 시도하였다. 2050년대까지 이탈리안 라이그라스의 재배적합도는 남한과 북한 모두 크게 상승할 것으로 예측되었다. 예를 들어, 현재 기후조건에서 충청북도와 강원도에서 평균적인 재배적합도가 76.75와 44.77으로 낮게 예측되었지만 2020년대에 각각 16.2% 및 46.1% 증가하여 2080년대에는 모든 행정구역에서 평균적인 재배적합도가 90이상으로 나타날 것으로 예측되었다. 반면, 2080년대에 16개의 시 도 중 11개의 지역에서 재배적합도가 감소할 것으로 예측되었다. 북한의 경우 현재 기후조건에서 평균적인 재배적합도는 28.40으로 평균적인 재배적합도가 낮았다. 그러나 기후변화가 진행되면서 재배적합도가 크게 증가하여 2080년대에는 14개 행정구역 중 10곳에서 평균적인 재배적합도가 80 이상일 것으로 예측되었다. 특히 나선, 신의주 및 개성 인근 지역의 재배적합도가 크게 증가할 것으로 예측되어 이를 중심으로 수출을 위한 사료 생산단지 및 축산단지 조성이 가능할 것으로 예상되었다. 현재, 내한성 향상을 중심으로 이탈리안 라이그라스의 새로운 품종들이 개발 및 보급되고 있어 이러한 신품종을 대상으로 한 이모작 가능지를 구분하기 위해 품종별로 최적화된 모수를 활용한 재배적합도 예측지도를 작성연구가 연구가 필요할 것으로 사료되었다.

이차원 고객충성도 세그먼트 기반의 고객이탈예측 방법론 (A Methodology of Customer Churn Prediction based on Two-Dimensional Loyalty Segmentation)

  • 김형수;홍승우
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.111-126
    • /
    • 2020
  • CRM의 하위 연구 분야로 진행되었던 고객이탈예측은 최근 비즈니스 머신러닝 기술의 발전으로 인해 빅데이터 기반의 퍼포먼스 마케팅 주제로 더욱 그 중요도가 높아지고 있다. 그러나, 기존의 관련 연구는 예측 모형 자체의 성능을 개선시키는 것이 주요 목적이었으며, 전체적인 고객이탈예측 프로세스를 개선하고자 하는 연구는 상대적으로 부족했다. 본 연구는 성공적인 고객이탈관리가 모형 자체의 성능보다는 전체 프로세스의 개선을 통해 더 잘 이루어질 수 있다는 가정하에, 이차원 고객충성도 세그먼트 기반의 고객이탈예측 프로세스 (CCP/2DL: Customer Churn Prediction based on Two-Dimensional Loyalty segmentation)를 제안한다. CCP/2DL은 양방향, 즉 양적 및 질적 로열티 기반의 고객세분화를 시행하고, 고객세그먼트들을 이탈패턴에 따라 2차 그룹핑을 실시한 뒤, 이탈패턴 그룹별 이질적인 이탈예측 모형을 독립적으로 적용하는 일련의 이탈예측 프로세스이다. 제안한 이탈예측 프로세스의 상대적 우수성을 평가하기 위해 기존의 범용이탈예측 프로세스와 클러스터링 기반 이탈예측 프로세스와의 성능 비교를 수행하였다. 글로벌 NGO 단체인 A사의 협력으로 후원자 데이터를 활용한 분석과 검증을 수행했으며, 제안한 CCP/2DL의 성능이 다른 이탈예측 방법론보다 우수한 성능을 보이는 것으로 나타났다. 이러한 이탈예측 프로세스는 이탈예측에도 효과적일 뿐만 아니라, 다양한 고객통찰력을 확보하고, 관련된 다른 퍼포먼스 마케팅 활동을 수행할 수 있는 전략적 기반이 될 수 있다는 점에서 연구의 의의를 찾을 수 있다.

지식 누적을 이용한 실시간 주식시장 예측 (A Real-Time Stock Market Prediction Using Knowledge Accumulation)

  • 김진화;홍광헌;민진영
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.109-130
    • /
    • 2011
  • 연속발생 데이터는 데이터의 원천으로부터 데이터 저장소로 연속적으로 축적이 되는 데이터를 말한다. 이렇게 축적된 데이터의 크기는 시간이 지남에 따라 점점 커진다. 또한 이러한 대용량 데이터에서 정보를 추출하기 위해서는 저장공간, 시간, 그리고 많은 자원이 필요하다. 이러한 연속발생 데이터의 특성은 시간이 지남에 따라 축적된 대용량 데이터의 이용을 어렵고 고비용이 되게 한다. 만약 정보나 패턴을 추출할 때 누적된 전체 발생 데이터 중에서 최근의 일부만 사용 한다면 적은 일부 표본의 사용의 문제로 인하여 전체 데이터 사용에서 발견될 수 있는 유용한 정보의 유실이 있을 수 있다. 이러한 문제점을 해결하기 위해서 본 연구는 연속발생 데이터를 발생 시점에서 계속 모으기 보다 이러한 발생되는 데이터에서 규칙을 추출하여 효율적으로 지식을 관리하고자 한다. 이 방법은 기존의 방법에 비하여 적은 양의 데이터 저장공간을 필요로 한다. 또한 이렇게 축적된 규칙집합은 미래에 예측을 위해서 언제든 실시간 예측을 할 수 있게 준비가 된다. 여러 예측 모델을 결합시키는 방법인 앙상블 이론에 의하면 본 연구가 제시하는 데로 체계적으로 규칙집합을 시간에 따라 융합시킬 경우 더 나은 예측 성과가 가능하다. 본 연구는 주식시장의 변동성을 예측하기 위하여 주식시장 데이터를 사용하였다. 본 연구는 이 데이터를 이용해 본 연구가 제시하는 방법과 기존의 방법의 예측 정확도를 비교 하였다.

아시아 대륙, 동아시아, 대한민국을 대상으로 다른 공간적 규모의 기후변화시나리오 예측 비교 (Comparing climate projections for Asia, East Asia and South Korea)

  • 최혜영;;이동근
    • 환경영향평가
    • /
    • 제26권2호
    • /
    • pp.114-126
    • /
    • 2017
  • 우리나라의 많은 기후변화 관련 영향 평가 연구들이 기상청에서 제공하는 기후변화 시나리오를 이용하고 있지만, 하나의 기후 시나리오로 기후변화의 잠정적인 영향을 정확히 예측하기에는 한계가 있다. 본 연구는 세 가지의 지역적 스케일 - 아시아 대륙, 동아시아 6개국, 대한민국- 을 대상으로 두 가지 대표농도경로 시나리오에서 17개의 지역기후모델을 이용하여 현재와 2070년의 연간 최저 온도와 연간 강수량의 차이를 확인하였다. 대한민국의 경우 최저온도 증가량의 범위는 아시아 규모보다 작았으며 강수량 차이에 대한 편차는 아시아 규모보다 컸다. 최저온도 증가범위는 $1.3^{\circ}C$에서 $5.2^{\circ}C$이며, 연간 강수량 차이는 -42.4 mm (-3.2%) 에서 +389.8 mm (+ 29.6%) 로 기상청의 기후변화 시나리오는 긍정적 기후 시나리오의 예측값에 가까운 것으로 나타났다. 따라서 기후변화 및 관련 영향 평가 연구들은 다양한 기후변화 시나리오를 이용하여 그 예측 범위에 대비할 필요가 있으며, 본 연구 결과에 따라 GFDL-CM3와 INMCM4의 두 가지 기후모델을 이용하여 우리나라의 지구 온난화에 대한 잠정적인 영향을 평가하기를 권한다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

산물벼 함수율 측정을 위한 $2{\times}2$ 마이크로스트립 패치 안테나 개발 (A $2{\times}2$ Microstrip Patch Antenna Array for Moisture Content Measurement of Paddy Rice)

  • 김기복;김종헌;노상하
    • Journal of Biosystems Engineering
    • /
    • 제25권2호
    • /
    • pp.97-106
    • /
    • 2000
  • To develop the grain moisture meter using microwave free space transmission technique, a 10.5GHz microwave signal with the power of 11mW generated by an oscillar with a dielectric resonator is transmitted to an isolator and radiated from a transmitting $2{\times}2$ microstrip patch array antenna into the sample holder filled with the 12 to 26%w.b. of Korean Hwawung paddy rice. the microwave signal, attenuated through the grain with moisture, is collected by a receiving $2{\times}2$ microstrip patch array antenna and detected using a Shottky diode with excellent high frequency characteristic. A pair of light and simple microstrip patch array antenna for measurement of grain moisture content is designed and implemented on atenflon substrate with trleative dielectric constant of 2.6 and thickness of 0.54 by using Ensemble ver. 4.02 software. The aperture of microstrip patch arrays is 41 mm width and 24mm high. The characteristics of microstrip patch antenna such as grain. return loss, and bandwidth are 11.35dBi, -38dB and 0.35GHz($50^{\circ}$ at far-field pattern of E and H plane. The width of the sample holder is large enough to cover the signal between the antennas temperature and bulk density respectively. The calibration model for measurement of grain moisture content is proposed to reduce the effects of fluectuations in bulk density and temperature which give serious errors for the measurements . From the results of regression analysis using the statistically analysis method, the moisture content of grain samples (MC(%)) is expressed in terms of the output voltage(v), temperature (t), and bulk density of samples(${\rho}b$)as follows ;$$MC(%)\;=\;(-3.9838{\times}10^{-8}{\times}v^{3}+8.023{\times}10^{-6}{\times}v^{2}-0.0011{\times}v-0.0004{\times}t+0.1706){\frac{1}{{\rho}b}}{\times}100$ Its determination coefficient, standard error of prediction(SEP) and bias were found to be 0.9855, 0.479%w.b. and -0.0.369 %w.b. respectively between measured and predicted moisture contents of the grain samples.

  • PDF

Use of the Quantitatively Transformed Field Soil Structure Description of the US National Pedon Characterization Database to Improve Soil Pedotransfer Function

  • Yoon, Sung-Won;Gimenez, Daniel;Nemes, Attila;Chun, Hyen-Chung;Zhang, Yong-Seon;Sonn, Yeon-Kyu;Kang, Seong-Soo;Kim, Myung-Sook;Kim, Yoo-Hak;Ha, Sang-Keun
    • 한국토양비료학회지
    • /
    • 제44권5호
    • /
    • pp.944-958
    • /
    • 2011
  • Soil hydraulic properties such as hydraulic conductivity or water retention which are costly to measure can be indirectly generated by soil pedotransfer function (PTF) using easily obtainable soil data. The field soil structure description which is routinely recorded could also be used in PTF as an input to reduce the uncertainty. The purposes of this study were to use qualitative morphological soil structure descriptions and soil structural index into PTF and to evaluate their contribution in the prediction of soil hydraulic properties. We transformed categorical morphological descriptions of soil structure into quantitative values using categorical principal component analysis (CATPCA). This approach was tested with a large data set from the US National Pedon Characterization database with the aid of a categorical regression tree analysis. Six different PTFs were used to predict the saturated hydraulic conductivity and those results were averaged to quantify the uncertainty. Quantified morphological description was successively used in multiple linear regression approach to predict the averaged ensemble saturated conductivity. The selected stepwise regression model with only the transformed morphological variables and structural index as predictors predicted the $K_{sat}$ with $r^2$ = 0.48 (p = 0.018), indicating the feasibility of CATPCA approach. In a regression tree analysis, soil structure index and soil texture turned out to be important factors in the prediction of the hydraulic properties. Among structural descriptions size class turned out to be an important grouping parameter in the regression tree. Bulk density, clay content, W33 and structural index explained clusters selected by a two step clustering technique, implying the morphologically described soil structural features are closely related to soil physical as well as hydraulic properties. Although this study provided relatively new method which related soil structure description to soil structure index, the same approach should be tested using a datasets containing the actual measurement of hydraulic properties. More insight on the predictive power of soil structure index to estimate hydraulic properties would be achieved by considering measured the saturated hydraulic conductivity and the soil water retention.

공공연구성과 실용화를 위한 데이터 기반의 기술 포트폴리오 분석: 빅데이터 및 인공지능 분야를 중심으로 (Data-Driven Technology Portfolio Analysis for Commercialization of Public R&D Outcomes: Case Study of Big Data and Artificial Intelligence Fields)

  • 전은지;이채원;류제택
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.71-84
    • /
    • 2021
  • 빅데이터 및 인공지능 기술은 4차 산업혁명에 핵심적인 기술이나, 국내 중소·중견 기업의 빅데이터 분석 활용과 복합 인공지능 분야의 기술경쟁력 확보가 미흡한 상황이다. 따라서 빅데이터 및 인공지능 분야의 기술사업화를 통해 산업군 전반의 경쟁력을 강화하는 것이 중요하다. 본 연구에서는 기술 포트폴리오 분석을 통해 공공연구성과 실용화 우선순위를 평가하고자 한다. 우선 공공연구성과 정보에 대해 앙상블 기법을 적용한 딥러닝 모델을 사용하여 과제의 6T 분류 결측값을 개선하였다. 이후 6T 분야별 빅데이터 및 인공지능융합 분야를 대상으로 토픽 모델링을 진행하여 10개의 세부기술분야를 도출하였다. 세부기술분야별 기술사업화 가능성을 판단하기 위해 기술활동성과 기술효율성을 새롭게 정의하고 측정하였다. 두 축을 기반으로 포트폴리오를 4가지의 유형으로 구분하여 기술사업화 최우선 고려 대상, 장기 투자가 필요한 기술분야 등을 제안하였다. '영상 및 이미지 기반의 진단 기술'은 기술활동성 및 기술효율성이 높아 시장의 수요와 사업화 역량 모두 이상적인 수준으로 나타났다. 이처럼 체계적인 산업·기술시장 분석을 통해 공공연구성과 창출 기술의 활용을 활성화할 수 있으며 중소·중견으로의 효율적인 기술 이전 및 사업화 추진이 가능하다.

PNU/CME CGCM을 이용한 엘니뇨/라니냐 장기 예측성 연구 (Long-term Predictability for El Nino/La Nina using PNU/CME CGCM)

  • 정혜인;안중배
    • 한국해양학회지:바다
    • /
    • 제12권3호
    • /
    • pp.170-177
    • /
    • 2007
  • 본 연구에서는 기상청 연구개발 사업을 통해 개발된 PNU/CME 접합대순환 모형(CGCM)을 이용하여 적도 태평양에서의 엘니뇨 및 라니냐 현상에 대한 장기 예측성을 해수면온도 상관관계와 숙련도를 통해 살펴보았다. 이를 위하여 PNU/CME CGCM을 활용한 전구규모의 기후 예측을 위하여 1979년부터 2004년까지 매해 1월, 4월, 7월, 10월초를 초기조건으로 하여 12개월 후보 적분을 수행했다(각 적분은 APR RUN, JUL RUN, OCT RUN, JAN RUN 이라 명명한다). 또한 각 12개월 후보 적분은 5개의 앙상블로 구성되었다. 4계절로부터 출발한 모든 적분에서 12개월의 리드가 지난 이후에도 상대적으로 높은 상관이 적도 태평양에서 유지되었다. 특히, 본 연구에서 사용된 모형의 적도 해수면온도 아노말리 예측성은 6개월의 리드까지 뛰어나다는 것을 알 수 있었다. 엘니뇨와 라니냐에 대한 예측성을 평가하기 위해서 Hit rate와 False alarm rate 등의 다양한 숙련도를 구해본 결과, PNU/CME CGCM은 적도 태평양 지역에서의 온난 아노말리와 한랭 아노말리를 예측하는데 있어서는 좋은 예측성을 보였다. 그러나 보통 상태에 대한 예측성은 상대적으로 다소 낮았다. 또한 본 연구에 사용한 모형 결과를 DEMETER 사업에 참여하고 있는 다른 접합대순환 모형들의 예측성과도 비교해 보았을 때, 본 연구에 사용한 모형은 DEMETER 사업에 참여한 모형들에 견줄 수 있는 장기 예측 능력을 갖고 있음을 알 수 있었다. 결론적으로 Nino3.4 지역의 해수면온도 아노말리를 예측할 수 있는 능력을 통해서 살펴볼 때 PNU/CME CGCM은 엘니뇨 및 라니냐 해에 대해서는 6개월까지는 높은 예측성이 있다고 판단되며 최장 12개월 정도의 장기 예측 능력이 있다는 결론을 얻었다.