• 제목/요약/키워드: Decision Tree analysis

검색결과 723건 처리시간 0.027초

낙동강의 중·하류 4개보에서 남조류 우점 환경 요인 분석 (Factors analysis of the cyanobacterial dominance in the four weirs installed in of Nakdong River)

  • 김성진;정세웅;박형석;조영철;이희숙
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.413-413
    • /
    • 2019
  • 하천과 호수에서 남조류의 이상 과잉증식 문제(이하 녹조문제)는 담수생태계의 생물다양성을 감소시키며, 음용수의 이취미 원인물질을 발생시켜 물 이용에 장해가 된다. 또한 독소를 생산하는 유해남조류가 대량 증식할 경우에는 가축이나 인간의 건강에 치명적 해를 끼치기도 한다. 그 동안 국내에서 녹조문제는 댐 저수지와 하구호와 같은 정체수역에서 간헐적으로 문제를 일으켰으나, 4대강사업(2010-2011)으로 16개의 보가 설치된 이후 낙동강, 금강, 영산강 등 대하천에서도 광범위하게 발생되고 있어 중요한 사회적 환경적 이슈로 대두되었다. 한편, 대하천에 설치된 보 구간에서 빈번히 발생하는 녹조현상의 원인에 대해서는 전 지구적 기온상승에 따른 기후변화의 영향이라는 주장과 유역으로부터 영양염류의 과도한 유입, 가뭄에 따른 유량감소, 보 설치에 따른 체류시간 증가 등 다양한 의견이 제시되고 있으나, 대상 유역과 수체의 특성에 따라 녹조 발생의 원인이 상이하거나 또는 다양한 요인이 복합적으로 작용하기 때문에 보편적 해석(universal interpretation)이 어려운 것이 현실이다. 따라서 각 수계별, 보별 녹조현상에 대한 정확한 원인분석과 효과적인 대책 마련을 위해서는 집중된 실험자료와 데이터마이닝 기법에 근거로 한 보다 과학적이고 객관적인 접근이 이루어져야 한다. 본 연구에서는 2012년 보 설치 이후 남조류에 의한 녹조현상이 빈번히 발생하고 있는 낙동강 4개보(강정고령보, 달성보, 합천창녕보, 창녕함안보)를 대상으로 집중적인 현장조사와 실험분석을 수행하고, 수집된 기상, 수문, 수질, 조류 자료에 대해 통계분석과 다양한 데이터모델링 기법을 적용하여 보별 남조류 우점 환경조건과 이를 제어하기 위한 주요 조절변수를 규명하는데 있다. 연구대상 보 별 수질과 식물플랑크톤의 정성 및 정량 실험은 2017년 5월부터 2018년 11월까지 2년에 걸쳐 실시하였으며, 남조류 세포수 밀도와 환경요인과의 상관성 분석을 실시하고, 단계적 다중회귀모델(Step-wise Multiple Linear Regressions, SMLR), 랜덤포레스트(Random Forests, RF) 모델과 재귀적 변수 제거 기법(Recursive Feature Elimination using Random Forest, RFE-RF)을 이용한 변수중요도 평가, 의사결정나무(Decision Tree, DT), 주성분분석(Principal Component Analysis, PCA) 기법 등 다양한 모수적 및 비모수적 데이터마이닝 결과를 바탕으로 각 보별 남 조류 우점 환경요인을 종합적으로 해석하였다.

  • PDF

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

하이테크 공장의 효율적 건설 사업비 분석 및 예측을 위한 WBS·CBS 기반 건설정보 분류체계 구축 (Establishment of WBS·CBS-based Construction Information Classification System for Efficient Construction Cost Analysis and Prediction of High-tech Facilities)

  • 최성훈;김진철;권순욱
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.356-366
    • /
    • 2021
  • 국가 경제를 이끌고 있는 하이테크 산업은 일반 건축물에 비해 투자비 규모가 크고 공사 기간이 짧으며 지속적인 투자가 필요한 특성으로 인하여 정확한 공사비 예측과 빠른 의사결정은 효율적인 비용 및 공정 관리를 위한 중요한 요소이다. 국외의 경우, 1980년부터 건설정보 분류체계 표준화를 시행하고 지속적인 발전을 이루어, 체계적으로 프로젝트 전 생애 주기 정보를 수집·활용하는 등 건설 생산성을 향상시키고 있다. 반면, 국내의 건설 현장에서는 건설정보 분류체계의 표준화를 위한 시도들이 있었으나, 표준화 주체의 부재, 건설사별 비용 및 공정관리 방식의 차이로 인한 지속적인 표준화 및 체계화가 이루어지는 데 어려움을 겪고 있다. 특히 하이테크 산업의 경우, 큰 규모, 수많은 공종, 복잡한 공사, 보안 등의 문제로 인하여 하이테크 공장 건설을 위한 건설정보 분류체계 표준화·체계화 수준이 매우 낮다. 따라서 본 연구의 목적은 국내 건설된 관련 프로젝트 데이터를 수집·분류·분석을 통하여 하이테크 공장 건설에 적합한 건설정보 분류체계를 구성하는 데 있다. 본 연구를 통해 분류·분석된 WBS(Work Breakdown Structure)·CBS(Cost Breakdown Structure)를 기반으로 계층적 구분을 통한 코드체계를 제안하였고, WBS와 CBS를 연계를 통한 건축물의 비용 모델을 입체화 및 활용 방법을 제시하였다. 이를 통하여, 일반적인 건설정보 구분 체계인 일 방향의 트리구조를 벗어나 상호 관계성을 기반으로 한 정보 분류체계가 가능하여, 공사 기간 단축 및 비용 절감 등 효과를 극대할 수 있을 것이다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.

SVM을 이용한 VKOSPI 일 중 변화 예측과 실제 옵션 매매에의 적용 (VKOSPI Forecasting and Option Trading Application Using SVM)

  • 라윤선;최흥식;김선웅
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.177-192
    • /
    • 2016
  • 기계학습(Machine Learning)은 인공 지능의 한 분야로, 데이터를 이용하여 기계를 학습시켜 기계 스스로가 데이터 분석 및 예측을 하게 만드는 것과 관련한 컴퓨터 과학의 한 영역을 일컫는다. 그중에서 SVM(Support Vector Machines)은 주로 분류와 회귀 분석을 목적으로 사용되는 모델이다. 어느 두 집단에 속한 데이터들에 대한 정보를 얻었을 때, SVM 모델은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 집단에 속할지를 판단해준다. 최근 들어서 많은 금융전문가는 기계학습과 막대한 데이터가 존재하는 금융 분야와의 접목 가능성을 보며 기계학습에 집중하고 있다. 그러면서 각 금융사는 고도화된 알고리즘과 빅데이터를 통해 여러 금융업무 수행이 가능한 로봇(Robot)과 투자전문가(Advisor)의 합성어인 로보어드바이저(Robo-Advisor) 서비스를 발 빠르게 제공하기 시작했다. 따라서 현재의 금융 동향을 고려하여 본 연구에서는 기계학습 방법의 하나인 SVM을 활용하여 매매성과를 올리는 방법에 대해 제안하고자 한다. SVM을 통한 예측대상은 한국형 변동성지수인 VKOSPI이다. VKOSPI는 금융파생상품의 한 종류인 옵션의 가격에 영향을 미친다. VKOSPI는 흔히 말하는 변동성과 같고 VKOSPI 값은 옵션의 종류와 관계없이 옵션 가격과 정비례하는 특성이 있다. 그러므로 VKOSPI의 정확한 예측은 옵션 매매에서의 수익을 낼 수 있는 중요한 요소 중 하나이다. 지금까지 기계학습을 기반으로 한 VKOSPI의 예측을 다룬 연구는 없었다. 본 연구에서는 SVM을 통해 일 중의 VKOSPI를 예측하였고, 예측 내용을 바탕으로 옵션 매매에 대한 적용 가능 여부를 실험하였으며 실제로 향상된 매매 성과가 나타남을 증명하였다.

재가장애인 사례관리의 욕구사정 정확도 향상을 위한 사정도구 개발과 욕구추출 알고리즘 과정 연구 - 데이터 마이닝 분석기법을 활용하여 - (Development of Needs Assessment tool and Extraction Algorithm Fitting for Individuals in Care Management for the disabled in Home)

  • 김영숙;정국인
    • 한국사회복지학
    • /
    • 제60권2호
    • /
    • pp.155-173
    • /
    • 2008
  • 본 연구는 지역사회 내에 거주하는 재가 장애인의 신체적, 심리적, 사회 환경적 상황을 종합적으로 평가하여 그에 적합한 서비스를 제공하기 위한 욕구 중심의 사정도구를 개발하고, 개발된 도구를 활용하여 재가 장애인 200명의 사정 데이터를 수집한 후 데이터마이닝의 의사결정 나무분석 기법을 활용하여 욕구에 적합한 서비스제공을 위한 욕구 추출 알고리즘을 구성하였다. 본 연구는 2006년 6월부터 10월까지 5개월간 이루어졌으며, 크게 사정도구 개발과 개발된 도구를 활용한 욕구추출 과정으로 나뉠 수 있다. 도구개발은 문헌고찰을 통하여 기본적인 틀을 구성하였고, 포커스집단과 전문가들을 통하여 사정도구의 주관적 호소와 욕구 문항을 개발하였으며, 도구의 타당도를 확인하기 위해 통계적인 검증과정을 거쳤다. 검증결과 본 도구는 <표 2>와 <표 3>의 결과처럼 타당도와 신뢰도를 확보하였으며, 이 도구를 활용하여 욕구추출 알고리즘 요약을 <표 5>와 같이 제시하였다. 본 연구의 결과로 제시한 사정도구와 알고리즘은 재가 장애인의 객관적 욕구를 사정하고 확인함으로써 체계적인 사례관리를 수행하는 자료로 활용될 수 있다.

  • PDF

산림기반형 한방치유 관광상품의 선호도에 관한 연구 (A Research on Consumer Preference for a Forest based Korean Medical Healing Tourism Product)

  • 김정민
    • 한국환경생태학회지
    • /
    • 제26권3호
    • /
    • pp.463-471
    • /
    • 2012
  • 본 연구는 산림기반형 한방치유 관광상품에 대한 수요자 욕구와 선호를 파악하여 향후 보다 표적화되고 차별화된 산림치유 관련 정책 수립과 한방치유 관련 프로그램의 개발을 위한 기초자료 제공을 목적으로 실시되었다. 서울에 거주하는 30대 이상 성인남녀 400명을 조사대상으로 성과 연령별, 거주지역별로 비례할당 표본추출법을 사용, 인터넷조사(CAWI)를 실시하여 총 317부가 최종 분석에 이용되었다. 산림기반형 한방치유 관광상품에 대한 이미지는 '산림욕, 숲속 걷기, 나무'가 다수(61.5%)를 차지했고, 선호 의견과 이용 의향은 각각 72.9%와 67.5%로 긍정적인 경향이 높았다. 단지 조성에 적합한 지역으로는 수도권이 53.6%, 강원도가 38.8%로 나타났다. 이용목적은 '스트레스 해소와 재충전', '산림휴양활동', '건강 유지 및 체력 증진'의 순이었다. 선호 치유요법은 '트래킹, 산책 등 걷기요법'이 가장 많았으며 '피트니스, 기체조 등 운동요법'이 그 뒤를 이었다. 상품선택 시 주요 고려 요인은 '이용 비용의 적정성', '음식과 이용 식자재의 적절성', '의료진 및 직원들의 친절성' 등으로 나타났으나 이용편의성과 의료서비스의 질, 관광활동 관련 요인 등 전 요인에 걸쳐 높은 점수를 기록하여 상품에 대한 수요자의 높은 기대수준을 보여주고 있다. 또한 인구통계학적 세분시장 별로 이용관련 요인들에 대한 선호에 차이점을 보이고 있어 관련 상품의 기획과 운영 시 차별화 되고 세분화된 수요자 욕구를 반영하는 것이 필요할 것으로 보인다. 그러나 본 연구는 상이한 수요자 선호를 파악함에 있어 인구통계학적 세분 시장만을 규명함으로써 가장 기초적인 단계에 머무른 한계점을 지니고 있어 후속연구에서는 다차원적이고 복합적인 수요자 욕구에 대한 보다 정교화된 규명이 요망된다.

지역사회 건강행태, 고혈압, 당뇨병 유병률 변화와 변이 요인 (Changes and determinants affecting on geographic variations in health behavior, prevalence of hypertension and diabetes in Korean)

  • 김유미;강성홍
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.241-254
    • /
    • 2015
  • 본 연구의 목적은 지역의 건강행태, 고혈압, 당뇨병 유병률의 변화와 변화율의 지역 간 변이에 영향을 미치는 요인을 분석하는 것이다. 이를 위해 2008년과 2013년 지역사회건강조사 결과를 이용하였으며, 5년간 지역 간 건강행태 변화와 고혈압 및 당뇨병 유병률 변화의 지역 간 변이 정도, 변이의 요인을 확인하기 위해 지리정보시스템, 의사결정나무 등 융복합적 분석을 하였다. 지난 5년간 현재 흡연율과 월간 음주율의 증가는 남서부 지역에서 높았고, 걷기 실천율의 증가는 서부 지역에서 다소 높게 나타났다. 고혈압은 서부와 남부, 당뇨병은 동부와 북부 지역에서 증가율이 높았다. 고혈압 및 당뇨병 유병률 변화의 지역 간 변이 요인은 고혈압 및 당뇨병 이외에 음주, 신체활동, 비만, 관절염, 우울증상 및 스트레스로 나타났다. 우울증상이 증가하는 지역에서 고혈압과 당뇨병의 유병률의 증가는 중요한 영향을 미치는 것으로 나타났다. 따라서 고혈압과 당뇨병의 유병률을 감소시키기 위해서는 지역특성에 기반한 주민 정신건강 관리 프로그램을 개발할 필요가 있다.

한국과 미국 의료기관의 중증도 보정 사망률 비교 (The Comparison of Risk-adjusted Mortality Rate between Korea and United States)

  • 정태경;강성홍
    • 디지털융복합연구
    • /
    • 제11권5호
    • /
    • pp.371-384
    • /
    • 2013
  • 본 연구에서는 한국 및 미국의 퇴원환자 자료를 이용하여 한국 및 미국의 중증도 보정 사망 모형을 개발하고 개발된 중증도 보정 사망모형에 따라 중증도 보정 사망률 지표를 산출 및 비교한 다음 이를 통해 국내 의료기관 사망률 관리 방안을 제시하고자 하였다. 한국 및 미국 의료기관의 중증도 보정 사망 모형은 데이터마이닝기법인 다중 로지스틱회귀분석 기법, 의사결정나무분석 기법을 이용하여 개발하였다. 개발된 의료기관의 중증도 보정 사망모형에 따라 한국 및 미국 의료기관의 중증도 보정 사망률을 산출한 결과 한국은 매년 증가하고 있는 반면 미국은 매년 감소하고 있는 것으로 나타나 한국과 미국간에 차이가 있었다. 의료기관의 병상규모별 중증도 보정 사망률의 변이 또한 한국이 미국보다 높았다. 국내 의료기관의 사망률 관리를 위해서는 의료기관 자체내에서 사망환자 관리가 가능한 대형 의료기관들의 경우 의료기관 중증도 보정 사망률 평가 결과 공개를 통해 지속적으로 사망률 관리를 유도하고, 의료기관 자체내에서 사망률 관리가 힘든 중소병원들은 국가 차원에서 파악한 국내 의료기관 사망환자 관리의 문제점 및 이를 개선할 수 있는 개선방안을 토대로 사망률 관리 컨설팅을 시행하는 등 의료기관 사망환자 관리 사업을 진행하여야 한다.