• 제목/요약/키워드: Classification and Regression tree

검색결과 209건 처리시간 0.028초

우리나라 저수지에서 지형, 수문, 수질 및 호안 토양 환경요인의 분석 (Analysis of Environmental Factors of Geomorphology, Hydrology, Water Quality and Shoreline Soil in Reservoirs of Korea)

  • 조현석;조강현
    • 생태와환경
    • /
    • 제46권3호
    • /
    • pp.343-359
    • /
    • 2013
  • 우리나라 저수지에서 호안 환경의 특성을 파악하기 위하여, 수위변동폭과 이용 목적에 따라서 35개 저수지를 선정하여 지형, 수문, 수질 및 토양 환경요인을 조사하여 이들 사이의 관계를 분석하고 환경 특성에 따라 저수지의 유형을 구분하였다. 저수지의 지형적, 수문적 특성은 그 조성된 곳의 환경과 크기에 따라서 다양하였다. 저수지의 연수위변동폭은 1~27 m로서 변이가 컸다. 저수지의 수질은 대부분 중영양 혹은 부영양 상태이었다. 호안의 토양 환경은 모래 함량이 많았다. 저수지의 수위변동폭, 빈도 및 기간은 저수지의 이용 목적에 따라서 독특한 특성을 보였다. 홍수조절용 저수지는 수위변동 폭이 크고 빈도는 낮았으며 수력발전용 저수지는 수위변동 폭이 크고 빈도가 높았다. 회귀분류 나무(CART) 분석 결과에 의하면 저수지의 수질은 수심, 수위변동폭 및 고도에 의하여 구분되었다. 주요인분석(PCA)의 결과에 의하면 환경요인에 의하면 저수지의 유형은 저수지의 크기, 수위변동폭, 수질 및 토양의 토성과 유기물 함량에 의하여 구분되었다. 이상의 결과를 종합하면, 우리나라 저수지의 호안에서 저수지의 크기, 수위변동폭, 수질 및 호안 토양의 특성이 중요한 환경요인인 것으로 판단되었다.

데이터마이닝을 활용한 이직의도와 조직몰입의 결정요인에 대한 연구 (A Study of The Determinants of Turnover Intention and Organizational Commitment by Data Mining)

  • 최영준;심원술;백승현
    • 한국시뮬레이션학회논문지
    • /
    • 제23권1호
    • /
    • pp.21-31
    • /
    • 2014
  • 본 논문에서는 조직관련 변수들의 연구를 위해 이직의도와 조직몰입을 목표(종속)변수로서 데이터마이닝 시뮬레이션을 실시하여 접근 방법을 찾고 분석결과 도출을 목적으로 하였다. 데이터마이닝 분석방법 중 CART 앙상블 기법을 활용하였다. 자료는 한국직업능력개발원의 인적자본기업패널조사 1차~3차(2005~2009)데이터를 사용하였다. 조직몰입 변수는 다항목 측정 사항에 대해 신뢰성, 단일차원성 검토를 실행 후 합산척도 변수를 생성하여 분석하였다. 본 연구 결과는 다음과 같다. 첫째, 이직의도에 대한 주요 결정요인은 신뢰, 커뮤니케이션, 인재 중시 풍조 아이템으로 나타났다. 둘째, 조직몰입에 대한 주요 결정요인은 신뢰, 근속기간, 혁신, 커뮤니케이션 아이템으로 나타났다. 데이터마이닝 방법의 CART 앙상블 방법으로 Bagging과 Arcing 알고리즘을 적용한 결과 Arc-x4 방법이 매우 높은 결정계수를 나타낸 시나리오를 추출했다. 본 연구에서는 데이터마이닝 방법 중 하나인 CART 앙상블 시뮬레이션을 통해 최대치의 결정계수, 최소치의 오류를 산출한 시나리오 모델을 도출하고 실무적 시사점을 제시하였으며 한계점 및 향후 연구에 대해 논의되었다.

시뮬레이티드 어니일링 기반의 랜덤 포레스트를 이용한 기업부도예측 (Predicting Corporate Bankruptcy using Simulated Annealing-based Random Fores)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.155-170
    • /
    • 2018
  • 기업의 금융 부도를 예측하는 것은 전통적으로 비즈니스 분석에서 가장 중요한 예측문제 중 하나이다. 선행연구에서 예측모델은 통계 및 기계학습 기반의 기법을 적용하거나 결합하는 방식으로 제안되었다. 본 논문에서는 잘 알려진 최적화기법 중 하나인 시뮬레이티드 어니일링에 기반한 새로운 지능형 예측모델을 제안한다. 시뮬레이티드 어니일링은 유전자알고리즘과 유사한 최적화 성능을 가진 것으로 알려져 있다. 그럼에도 불구하고, 시뮬레이티드 어니일링을 사용한 비즈니스 의사결정 문제의 예측과 분류에 관한 연구가 거의 없었기 때문에, 비즈니스 분석에서의 유용성을 확인하는 것은 의미가 있다. 본 연구에서는 시뮬레이티드 어니일링과 기계학습의 결합 모델을 사용하여 부도예측모델의 입력 특징을 선정한다. 최적화 기법과 기계학습기법을 결합하는 대표적인 유형은 특징 선택, 특징 가중치 및 사례 선택이다. 이 연구에서는 선행연구에서 가장 많이 연구된 특징 선택을 위한 결합모델을 제안한다. 제안하는 모델의 우수성을 확인하기 위하여 본 연구에서는 한국 기업의 실제 재무데이터를 이용하여 그 결과를 분석한다. 분석결과는 제안된 모델의 예측 정확도가 단순한 모델의 예측 정확성보다 우수하다는 것을 보여준다. 특히 기존의 의사결정나무, 랜덤포레스트, 인공신경망, SVM 및 로지스틱 회귀분석에 비해 분류성능이 향상되었다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

의사결정나무 CART 알고리즘을 이용한 청소년 아침결식 예측 모형: 제7기 (2016-2018년) 국민건강영양조사 자료분석 (A prediction model for adolescents' skipping breakfast using the CART algorithm for decision trees: 7th (2016-2018) Korea National Health and Nutrition Examination Survey)

  • 최선아;정성석;노정옥
    • Journal of Nutrition and Health
    • /
    • 제56권3호
    • /
    • pp.300-314
    • /
    • 2023
  • 본 연구는 2016-2018년 국민건강영양조사 자료를 이용하여 청소년의 아침결식과 관련된 요인을 찾고 아침결식 예측모형을 분석하여 청소년의 아침결식 예방 교육 및 정책 수립에 기초 자료를 제공하고자 하였다. 2016-2018년 국민건강영양조사의 참여자는 총 24,269명으로 12-18세의 청소년 중 변수 결측자를 제외한 대상자는 1,024명이며, 이중 아침식사 섭취자 579명, 결식자 445명이었다. 남학생의 49.1%, 여학생의 50.9%가 아침결식자였다. 연령은 아침식사 결식군이 유의적으로 높으며, 결식군의 고등학생 비율이 높았다. 가구소득 4분위수는 아침식사 섭취군의 9.1%, 결식군의 15.4%가 '하'로 유의적인 차이를 보였다. 조사대상자의 신체적 요인은 유의적인 차이를 보이지 않았으나 체중감소를 위해 결식을 하는 경우는 아침식사 결식군의 25.3%, 섭취군의 10.4%로 유의적인 차이를 보였다. 조사대상자의 식습관과 정신건강에서 아침식사 결식군이 섭취군보다 1일 1회이상 외식횟수가 유의적으로 높았으며, 최근 1년간 1주 동안 5-7회 이상의 저녁식사 섭취빈도는 아침섭취군이 유의적으로 높았다. 또한, 아침식사 섭취군은 결식군보다 영양교육 경험이 유의적으로 높았으며, 아침식사 섭취군이 결식군보다 에너지, 단백질, 지방, 탄수화물, 식이섬유, 콜레스테롤, 비타민 A, 비타민 B1, 비타민 B2, 니아신, 비타민 C, 칼슘, 인, 나트륨, 칼륨, 철의 섭취율 및 탄수화물, 단백질, 지방의 섭취비율도 유의적으로 높았다. 아침결식 예측 모형을 도출하기 위해 CART 알고리즘을 사용한 의사결정나무 분석결과, 아침식사 섭취여부를 결정하는 주요인은 투입된 7개의 변수 중 교육수준과 영양교육 경험을 제외한 결식을 통한 체중조절, 가구소득 4분위수, 저녁식사 빈도, 연령, 외식 횟수였다. 체중조절을 위하여 결식을 하는 경우는 아침식사 결식군에서 높았다. 체중조절을 위하여 결식을 하지 않는 대상자는 가구소득 4분위수의 수준에서 소득이 '하', '중하'일 때 아침결식 비율이 높았다. 가구소득수준이 '상', '중상' 대상자의 경우는 저녁식사 빈도가 주 3-4회 이하인 경우 아침결식 비율이 높았다. 저녁식사 빈도가 주 5-7회이더라도 연령이 14.5세 초과인 경우 아침결식을 하고 있으며, 연령이 14.5세 미만인 대상자들은 외식횟수가 일 1회 이상인 경우, 주 6회 이하인 경우 아침결식을 하고 있었다. 따라서 아침결식을 감소시키기 위해서 청소년 대상의 각 그룹의 결식 주요인에 따라 올바른 체중조절 방법, 아침식사 배달, 건강정보에 대한 접근성 높이기, 아침결식과 질병과의 관련성 교육을 위한 토론수업 및 역할놀이 등과 같은 맞춤형 교육이 필요하며, 향후 청소년의 저녁식사 결식 감소 방안에 대한 연구가 추가적으로 진행되어야 하겠다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

추천시스템관련 학술논문 분석 및 분류 (A Literature Review and Classification of Recommender Systems on Academic Journals)

  • 박득희;김혜경;최일영;김재경
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.139-152
    • /
    • 2011
  • 1990년대 중반에 협업 필터링의 출현으로 인하여 추천시스템에 관련된 연구가 늘어나게 되었다. 협업 필터링의 출현 이후 내용 기반 필터링, 협업 필터링과 내용 기반 필터링이 혼합된 하이브리드 필터링 등 새로운 기법들이 출현함으로써 2000년대에는 추천시스템의 연구가 눈에 띄게 증가하였다. 하지만 현재까지 추천시스템에 관련된 문헌들에 대한 리뷰와 분류가 체계적으로 되어있지 않다. 이와 같은 문제에 대한 해결방안으로써, 본 연구에서는 2001년부터 2010년도까지의 추천시스템에 관련된 문헌들 중 MIS Journal Ranking의 125개의 저널에서 추천시스템(Recommender system, Recommendation system), 협업 필터링(Collaborative Filtering), 내용 기반 필터링(Content based Filtering), 개인화 시스템(Personalized system) 등의 5가지 키워드로 제한하여 조사하였다. 총 37개의 저널에서 논문을 검색하였으며, 검색되어진 논문을 분석한 결과 추천시스템과 관련이 없는 논문을 제외한 총 187개의 논문을 선정하여 분석하였다. 이 연구에서는 그러나 컨퍼런스 논문, 석사, 박사학위 논문, 영어로 작성되지 않은 논문, 완성되지 않은 논문 등은 제외하였다. 본 연구에서는 187개의 논문을 분석하여 2001년부터 2010년까지의 각각의 년도 별 추천시스템의 연구에 대한 동향 분석, Journal별 추천시스템의 게재 분류, 추천시스템 어플리케이션의 사용 분야(책, 문서, 이미지, 영화, 음악, 쇼핑, TV 프로그램, 기타)별 분류 및 분석, 추천시스템에 사용된 데이터마이닝 기술(연관 규칙, 군집화, 의사 결정나무, 최근접 이웃 기법, 링크 분석 기법, 신경망, 회귀분석, 휴리스틱 기법)별 분류 및 분석을 수행하였다. 따라서 본 연구에서 제안한 각각의 분류 및 분석 결과들을 통하여 현재까지 추천시스템의 연구에 대한 연구 동향을 파악 할 수 있었으며, 분석결과를 통해 추천시스템에 관심이 있는 연구자와 전문가에게 미래의 추천시스템의 연구에 대한 가이드라인을 제시 할 수 있을 것이라고 기대한다.

SVM을 이용한 VKOSPI 일 중 변화 예측과 실제 옵션 매매에의 적용 (VKOSPI Forecasting and Option Trading Application Using SVM)

  • 라윤선;최흥식;김선웅
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.177-192
    • /
    • 2016
  • 기계학습(Machine Learning)은 인공 지능의 한 분야로, 데이터를 이용하여 기계를 학습시켜 기계 스스로가 데이터 분석 및 예측을 하게 만드는 것과 관련한 컴퓨터 과학의 한 영역을 일컫는다. 그중에서 SVM(Support Vector Machines)은 주로 분류와 회귀 분석을 목적으로 사용되는 모델이다. 어느 두 집단에 속한 데이터들에 대한 정보를 얻었을 때, SVM 모델은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 집단에 속할지를 판단해준다. 최근 들어서 많은 금융전문가는 기계학습과 막대한 데이터가 존재하는 금융 분야와의 접목 가능성을 보며 기계학습에 집중하고 있다. 그러면서 각 금융사는 고도화된 알고리즘과 빅데이터를 통해 여러 금융업무 수행이 가능한 로봇(Robot)과 투자전문가(Advisor)의 합성어인 로보어드바이저(Robo-Advisor) 서비스를 발 빠르게 제공하기 시작했다. 따라서 현재의 금융 동향을 고려하여 본 연구에서는 기계학습 방법의 하나인 SVM을 활용하여 매매성과를 올리는 방법에 대해 제안하고자 한다. SVM을 통한 예측대상은 한국형 변동성지수인 VKOSPI이다. VKOSPI는 금융파생상품의 한 종류인 옵션의 가격에 영향을 미친다. VKOSPI는 흔히 말하는 변동성과 같고 VKOSPI 값은 옵션의 종류와 관계없이 옵션 가격과 정비례하는 특성이 있다. 그러므로 VKOSPI의 정확한 예측은 옵션 매매에서의 수익을 낼 수 있는 중요한 요소 중 하나이다. 지금까지 기계학습을 기반으로 한 VKOSPI의 예측을 다룬 연구는 없었다. 본 연구에서는 SVM을 통해 일 중의 VKOSPI를 예측하였고, 예측 내용을 바탕으로 옵션 매매에 대한 적용 가능 여부를 실험하였으며 실제로 향상된 매매 성과가 나타남을 증명하였다.

텍스트 마이닝을 활용한 지역 특성 기반 도시재생 유형 추천 시스템 제안 (Suggestion of Urban Regeneration Type Recommendation System Based on Local Characteristics Using Text Mining)

  • 김익준;이준호;김효민;강주영
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.149-169
    • /
    • 2020
  • 현 정부의 주요 국책사업 중 하나인 도시재생 뉴딜사업은 매년 100 곳씩, 5년간 500곳을대상으로 50조를 투자하여 낙후된 지역을 개발하는 것으로 언론과 지자체의 높은 이목이 집중되고 있다. 그러나, 현재 이 사업모델은 면적 규모에 따라 "우리동네 살리기, 주거정비지원형, 일반근린형, 중심시가지형, 경제기반형" 등 다섯 가지로 나뉘어 추진되어 그 지역 본래의 특성을 반영하지 못하고 있다. 국내 도시재생 성공 키워드는 "주민 참여", "지역특화" "부처협업", "민관협력"이다. 성공 키워드에 따르면 지자체에서 정부에게 도시재생 사업을 제안할 때 지역주민, 민간기업의 도움과 함께 도시의 특성을 정확히 이해하고 도시의 특성에 어울리는 방향으로 사업을 추진하는 것이 가장 중요하다는 것을 알 수 있다. 또한 도시재생 사업 후 발생하는 부작용 중 하나인 젠트리피케이션 문제를 고려하면 그 지역 특성에 맞는 도시재생 유형을 선정하여 추진하는 것이 중요하다. 이에 본 연구는 '도시재생 뉴딜 사업' 방법론의 한계점을 보완하기 위해, 기존 서울시가 지역 특성에 기반하여 추진하고 있는 "2025 서울시 도시재생 전략계획"의 도시재생 유형을 참고하여 도시재생 사업지에 맞는 도시재생 유형을 추천하는 시스템을 머신러닝 알고리즘을 활용하여 제안하고자 한다. 서울시 도시재생 유형은 "저이용저개발, 쇠퇴낙후, 노후주거, 역사문화자원 특화" 네 가지로 분류된다 (Shon and Park, 2017). 지역 특성을 파악하기 위해 총 4가지 도시재생 유형에 대해 사업이 진행된 22개의 지역에 대한 뉴스 미디어 10만여건의 텍스트 데이터를 수집하였다. 수집된 텍스트를 이용하여 도시재생 유형에 따른 지역별 주요 키워드를 도출하고 토픽모델링을 수행하여 유형별 차이가 있는 지 탐색해 보았다. 다음 단계로 주어진 텍스트를 기반으로 도시재생 유형을 추천하는 추천시스템 구축을 위해 텍스트 데이터를 벡터로 변환하여 머신러닝 분류모델을 개발하였고, 이를 검증한 결과 97% 정확도를 보였다. 따라서 본 연구에서 제안하는 추천 시스템은 도시재생 사업을 진행하는 과정에서 신규 사업지의 지역 특성에 기반한 도시재생 유형을 추천할 수 있을 것으로 기대된다.