• 제목/요약/키워드: 회귀나무모형

검색결과 110건 처리시간 0.023초

GDP갭의 물가영향력 변화 분석 (An analysis of changes in the influence of GDP gap on inflation)

  • 장영재
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1377-1386
    • /
    • 2015
  • 한 나라 전체의 경제활동 수준을 나타내는 경기의 변동과 밀접한 관계를 지닌 지표로서 GDP갭을 꼽을 수 있다. GDP갭은 초과수요압력이나 고용사정에 대한 정보를 제공하기 때문에 중앙은행의 통화정책 수행시 중요한 고려변수로 꼽히고 있다. 그러나, GDP갭 총량만으로는 최근의 경제구조 변화라든지 대내외 경제여건의 영향 등을 살펴볼 수 없는 등 제한적인 부분이 있다. 본 논문에서는 통계적 필터링 기법에 의해 새로운 갭을 추정하고 다양한 물가영향 모형을 설정하여 각 요인들이 인플레이션에 미치는 영향력을 추정하는 한편 동 요인들의 영향력이 시간에 따라 변화하는지도 분석하였다. 분석결과, GDP갭의 물가영향력이 2000년대 들어 대체로 그 영향력이 축소되는 것으로 추정된 반면, 글로벌갭이 국내 물가에 미치는 영향력은 증대된 것으로 나타났다. 이러한 변화는 최근의 저물가 현상이 국내요인과 더불어 세계 경기침체에서 비롯된 수출의 둔화와 같은 국외여건에 영향을 받았다는 것을 의미한다.

공작기계의 절삭용 인서트의 잔여 유효 수명 예측 모형 (Machine Learning Model for Predicting the Residual Useful Lifetime of the CNC Milling Insert)

  • 최원근;김흥섭;고봉진
    • 한국항행학회논문지
    • /
    • 제27권1호
    • /
    • pp.111-118
    • /
    • 2023
  • 스마트팩토리의 구축을 위해서는 제조환경에서 여러 센서 및 기기 등을 연결하여 데이터를 수집하고, 데이터 분석을 통해 생산설비 등의 장애를 진단하거나 예측하여야 한다. 본 논문에서는 공작기계에서 제품을 가공하기 위해 사용되는 절삭용 인서트의 잔여 유효 수명을 예측하기 위해 진동 신호를 기반으로 한 가중화 k-최근접이웃(Weighted k-NN) 알고리즘, 의사결정나무(Decision Tree), 서포트벡터회귀(SVM), XGBoost, 랜덤포레스트(Random forest), 1차원 합성곱신경망(1D-CNN), 그리고 진동 신호를 FFT한 주파수 스펙트럼에 대해 알아보았다. 연구결과, 주파수 스펙트럼으로는 잔여 유효수명의 정확한 예측에 대해서는 신빙성있는 기준을 제공하지 못한다는 것을 알수 있었고, 예측 모델 중 가중화 k-최근접이웃 알고리즘이 MAE가 0.0013, MSE가 0.004, RMSE가 0.0192로 가장 우수한 성능을 나타내었다. 이는 가중화 k-최근접이웃 알고리즘에 의해 예측되는 인서트의 잔여 유효 수명의 오차가 0.001초 수준으로 평가되어, 실제 산업현장에 적용이 가능한 수준으로 사료된다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

융복합 기반의 지역간 흡연율의 변이 분석 (Convergence-based analysis on geographical variations of the smoking rates)

  • 임지혜;강성홍
    • 디지털융복합연구
    • /
    • 제13권8호
    • /
    • pp.375-385
    • /
    • 2015
  • 본 연구의 목적은 흡연율의 지역간 변이 정도와 흡연율에 영향을 미치는 요인을 살펴보는 데 있다. 분석을 위해 2009-2011년 질병관리본부의 지역사회건강조사 자료와 국민건강보험공단의 자료를 사용하였다. 흡연율에 영향을 미치는 요인을 파악하기 위해 상관분석, 다중회귀분석을 이용하였으며, 지역간 변이 분석을 위해 의사결정나무 모형을 이용하였다. 연구결과, 지역간 흡연율의 변이요인은 고위험음주율, 고혈압관리교육 이수율, 금연캠페인 경험율, 스트레스 인지율, 고혈압 유병률, 건강보험료, 당뇨병 유병률, 비만율, 근력운동 실천율로 나타났다. 융복합 기반으로 지역별 흡연율의 변이를 파악하는 것은 흡연율을 감소시키기 위한 지역별 맞춤형 보건프로그램을 수행하는데 매우 중요하다. 향후 흡연율이 높은 지역의 원인과 대상에 맞는 구체적인 관리방안을 모색하는 노력이 필요할 것이다. 본 연구의 결과는 효과적인 흡연관리사업 방안을 도출하는 데 필요한 기초자료로 의미있게 활용될 수 있으리라 여겨진다.

Support Vector Machine 기법을 이용한 고객의 구매의도 예측 (Forecasting of Customer's Purchasing Intention Using Support Vector Machine)

  • 김진화;남기찬;이상종
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.137-158
    • /
    • 2008
  • 기업 경쟁력 강화의 중요한 이슈인 대량 개별화(mass-customization)의 실행을 위하여 통합 고객관계 관리 프로세스로서의 CRM(customer relationship management)에 대한 관심과 활용에 대한 필요성은 점점 더 높아지고 있다. 특히, 기존 고객들의 구매 정보를 기반으로 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘날 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다. 고객의 구매의도 예측에는 대량의 데이터로부터 과거에 인지하지 못했던 의미 있고, 근거 있는 정보를 추출하는 데이터마이닝(datamining)이 주로 사용되고 있다. 기존의 구매의도 예측에 사용된 데이터마이닝 기법들은 주로 신경망(neural networks)과 로지스틱 회귀분석(logistic regression analysis)이었는데, 예측 정확성 및 모형 구축의 어려움으로 인한 다양한 문제점들이 제기되고 있는 실정이다. 따라서, 본 논문에서는 기존의 기법들이 가지고 있는 단점들을 개선하기 위하여 신경망과 로지스틱 회귀분석 외에 연관규칙(association rule), 연관성 매트릭스(association matrix), 의사결정 나무(decision tree), 베이지안 망(bayesian network), SVM(support vector machine) 기법들을 추가로 제안하였다. 본 연구의 목적은 고객의 특정 상품에 대한 구매의도 예측을 위하여 새로운 알고리즘을 제시하기보다는 기존의 다양한 데이터마이닝 기법들을 적용시켜 봄으로써, 가장 우수한 예측성과를 나타내는 기법을 발견하는 것이다. 연구에 사용된 자료는 기존의 연구에서는 적용되지 않았던 편의점의 영수증 데이터이다. 예측 목표상품은 카테고리화 된 '우유'와 '냉동식품'이며, 제안된 기법들의 신뢰성을 위하여 전체 데이터를 10개의 training과 test 셋으로 중복되지 않게 구분함과 동시에 10번의 교차 검증(cross validation)을 실시하였다. 실험 결과 SVM이 영수증 데이터를 이용한 고객의 특정 상품에 대한 구매의도 예측에서 가장 우수한 성과를 나타내는 것을 확인하였다.

비대칭 오류비용을 고려한 분류기준값 최적화와 SVM에 기반한 지능형 침입탐지모형 (An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost)

  • 이현욱;안현철
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.157-173
    • /
    • 2011
  • 최근 인터넷 사용의 증가에 따라 네트워크에 연결된 시스템에 대한 악의적인 해킹과 침입이 빈번하게 발생하고 있으며, 각종 시스템을 운영하는 정부기관, 관공서, 기업 등에서는 이러한 해킹 및 침입에 의해 치명적인 타격을 입을 수 있는 상황에 놓여 있다. 이에 따라 인가되지 않았거나 비정상적인 활동들을 탐지, 식별하여 적절하게 대응하는 침입탐지 시스템에 대한 관심과 수요가 높아지고 있으며, 침입탐지 시스템의 예측성능을 개선하려는 연구 또한 활발하게 이루어지고 있다. 본 연구 역시 침입탐지 시스템의 예측성능을 개선하기 위한 새로운 지능형 침입탐지모형을 제안한다. 본 연구의 제안모형은 비교적 높은 예측력을 나타내면서 동시에 일반화 능력이 우수한 것으로 알려진 Support Vector Machine(SVM)을 기반으로, 비대칭 오류비용을 고려한 분류기준값 최적화를 함께 반영하여 침입을 효과적으로 차단할 수 있도록 설계되었다. 제안모형의 우수성을 확인하기 위해, 기존 기법인 로지스틱 회귀분석, 의사결정나무, 인공신경망과의 결과를 비교하였으며 그 결과 제안하는 SVM 모형이 다른 기법에 비해 상대적으로 우수한 성과를 보임을 확인할 수 있었다.

일개 종합병원의 민간 건강검진 수검자의 검진이용 특성, 건강행태 및 건강관리 수준 분석 (Analysis of Utilization Characteristics, Health Behaviors and Health Management Level of Participants in Private Health Examination in a General Hospital)

  • 김유미;박종호;김원중
    • 한국산학기술학회논문지
    • /
    • 제14권1호
    • /
    • pp.301-311
    • /
    • 2013
  • 본 연구의 목적은 2차 종합병원급 건강검진센터를 이용한 민간 종합검진 환자의 검진 이용특성과 이들의 건강행태 및 건강관리 수준을 분석하는 것이다. 이를 위해 대전지역 일개 2차 종합병원급 건강검진센터의 2011년 20,696명의 민간 건강검진 수검자를 대상으로 이들의 2001년에서 2011년까지 11년간의 수검자료 150,501건을 분석하였다. 민간 종합검진 수검자의 검진군 분류를 위한 군집분석은 K-means기법의 z-score표준화 방법을 이용하여 분류하였으며, 정기/비정기 검진 분류모형 개발을 위해 로지스틱회귀분석, 의사결정나무, 신경망 분석을 이용하였다. 개발된 비정기 검진군 분류 모형에 따라 신규 검진군 중 비정기 검진군이 될 확률이 높은 1,000명을 추출하여 고객관리사업 대상자로 하였다. 분석결과, 수검자는 신규 검진군, 정기 검진군, 비정기 검진군으로 분류하였다. 신규 검진군은 30대가 많고, 신장질환 의심자의 비율이 높았다. 정기 검진군은 남자, 이상지혈증 의심 비율이 높았다. 비정기 검진군은 흡연율과 운동부족 비율이 높았고, 빈혈 및 당뇨의심 비율이 높았다. 의사결정나무 분석결과 비정기 검진환자의 특성에 영향을 미치는 변수로는 성별, 연령, 거주지, 운동, 빈혈, 이상지혈증, 당뇨, 비만, 간질환 등이었다. 특히 여자 수검자로서 빈혈 검사는 정상, 운동을 하지 않는 군이면서 비만이 의심되는 수검자의 비정기적 수검율은 71.4%에 달하였다. 이러한 연구결과 토대로 맞춤형 고객관리 사업을 진행한다면 건강검진센터 효율적인 운영에 기여할 수 있을 것이다.

SVM과 meta-learning algorithm을 이용한 고지혈증 유병 예측모형 개발과 활용 (Development and application of prediction model of hyperlipidemia using SVM and meta-learning algorithm)

  • 이슬기;신택수
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.111-124
    • /
    • 2018
  • 본 연구는 만성질환 중의 하나인 고지혈증 유병을 예측하는 분류모형을 개발하고자 한다. 이를 위해 SVM과 meta-learning 알고리즘을 이용하여 성과를 비교하였다. 또한 각 알고리즘에서 성과를 향상시키기 위해 변수선정 방법을 통해 유의한 변수만을 선정하여 투입하여 분석하였고 이 결과 역시 각각 성과를 비교하였다. 본 연구목적을 달성하기 위해 한국의료패널 2012년 자료를 이용하였고, 변수 선정을 위해 세 가지 방법을 사용하였다. 먼저 단계적 회귀분석(stepwise regression)을 실시하였다. 둘째, 의사결정나무(decision tree) 알고리즘을 사용하였다. 마지막으로 유전자 알고리즘을 사용하여 변수를 선정하였다. 한편, 이렇게 선정된 변수를 기준으로 SVM, meta-learning 알고리즘 등을 이용하여 고지혈증 환자분류 예측모형을 비교하였고, TP rate, precision 등을 사용하여 분류 성과를 비교분석하였다. 이에 대한 분석결과는 다음과 같다. 첫째, 모든 변수를 투입하여 분류한 결과 SVM의 정확도는 88.4%, 인공신경망의 정확도는 86.7%로 SVM의 정확도가 좀 더 높았다. 둘째, stepwise를 통해 선정된 변수만을 투입하여 분류한 결과 전체 변수를 투입하였을 때보다 각각 정확도가 약간 높았다. 셋째, 의사결정나무에 의해 선정된 변수 3개만을 투입하였을 때 인공신경망의 정확도가 SVM보다 높았다. 유전자 알고리즘을 통해 선정된 변수를 투입하여 분류한 결과 SVM은 88.5%, 인공신경망은 87.9%의 분류 정확도를 보여 주었다. 마지막으로, 본 연구에서 제안하는 meta-learning 알고리즘인 스태킹(stacking)을 적용한 결과로서, SVM과 MLP의 예측결과를 메타 분류기인 SVM의 입력변수로 사용하여 예측한 결과, 고지혈증 분류 정확도가 meta-learning 알고리즘 중에서는 가장 높은 것으로 나타났다.

데이터마이닝을 활용한 사랑의 형태에 따른 연인관계 몰입수준 및 관계 지속여부 예측 (Prediction of commitment and persistence in heterosexual involvements according to the styles of loving using a datamining technique)

  • 박윤주
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.69-85
    • /
    • 2016
  • 연인과의 성공적인 관계형성은 인생의 만족감을 결정짓는 핵심적인 요소 중 하나이다. 기존에 심리학 분야에서는 성공적인 연인관계에 영향을 미치는 요인들에 대한 다양한 연구가 수행되어 왔으나, 주로 통계적인 분석기법에 기반하고 있기 때문에 복잡한 비선형의 관계를 분석하고, 특징을 추출하는 데에는 한계가 있었다. 이에, 본 연구는, 기존의 통계적인 분석 기법과 더불어, 데이터마이닝의 의사결정나무 분석기법을 활용하여 사랑의 형태에 따른 연인관계의 몰입(commitment) 수준과 관계지속 여부를 분석하였다. 특히, 기존 연구에서 도출된 주요 변인들 이외에 사랑의 여섯 가지 형태인 에로스(eros), 루두스(ludus), 스트로게(storge), 매니아(mania), 프래그마(pragma) 그리고 아가페(agape)를 추가적으로 고려하여, 이들이 연인관계에서 서로에 대한 몰입수준 및 연인관계 지속여부에 어떠한 영향을 미치는지 분석하고, 예측하는 모형을 수립하였다. 본 연구에는 실제 남녀커플 105쌍, 총 210명에 대한 데이터가 활용되었다. 본 연구결과 연인관계 몰입수준 및 관계 지속여부의 영향요인으로, 기존에 심리학 분야에서 제시된 변수들 이외에, 에로스, 아가페, 프래그마 등이 유의한 영향을 미친다는 것을 확인하였다. 특히, 남성은 아가페적 사랑의 형태가 몰입에 중요한 영향을 미치는 반면, 여성은 에로스적 사랑의 형태가 더욱 중요한 영향을 미치는 것으로 나타났다. 또한, 연인관계 지속여부에는 남성의 나르시시즘, 만족, 투자 및 매니아적 성향이 영향을 주고 있는 것으로 나타난 반면, 여성의 경우, 여성이 남성을 매니아적으로 사랑하는 정도만이 영향을 주고 있어, 남성이 관계의 지속 또는 결별에 더욱 결정적인 영향을 미치고 있는 것을 알 수 있었다. 이러한 연구는 데이터마이닝의 적용분야를 심리학 영역으로 확장한 융합연구로, 연인관계에 대한 새로운 분석을 시도하였다는 점에서 의의가 있으며, 조화로운 연인관계를 형성하는데 실질적인 시사점을 제공할 수 있을 것으로 기대된다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.