• 제목/요약/키워드: 의사결정나무알고리즘

검색결과 106건 처리시간 0.028초

머신러닝기반 범죄발생 위험지역 예측 (Predicting Crime Risky Area Using Machine Learning)

  • 허선영;김주영;문태헌
    • 한국지리정보학회지
    • /
    • 제21권4호
    • /
    • pp.64-80
    • /
    • 2018
  • 우리나라의 시민들은 범죄에 대한 일반적인 사항만을 알 수 있을 뿐, 자신이 범죄위험에 얼마나 노출되어 있는지를 파악하기 어렵다. 경찰의 입장에서도 범죄발생 지역을 예측할 수 있다면 경찰력이 부족한 상황에서 효율성 있게 범죄에 대처 가능할 것이지만 아직 우리나라에서는 예측시스템이 없고, 관련 연구도 매우 부족한 실정이다. 이에 본 연구에서는 범죄발생 위험지역 예측 자동화 시스템 개발의 첫 번째 단계로 빅데이터로 구축 가능한 범죄정보와 도시지역 자료를 바탕으로 머신러닝 방식을 통해 한국형 범죄발생 위험지역 예측 모형을 개발하고자 한다. 또한 시나리오를 가정하여 범죄발생 확률을 지도로 시각화함으로써 사용자의 이해도를 높이도록 하였다. 선행 연구 및 사례에서 범죄발생에 영향을 미치는 요인 중 빅데이터로 구축 가능한 범죄정보, 날씨정보(기온, 강수량, 풍속, 습도, 일조, 일사, 적설, 전운량), 지역정보(평균 건폐율, 평균 용적율, 평균 높이, 총 건축물수, 평균 공시지가, 평균 주거용도면적, 평균 지상층수)를 머신러닝에 활용할 수 있도록 데이터를 사전 처리하였다. 머신러닝 알고리즘으로서 지도학습 모형 중 다양한 분야에서 활용되며 정확도가 높다고 알려진 의사결정나무모형, 랜덤포레스트모형, Support Vector Machine(SVM)모형을 활용하여 범죄 예측 모형을 구축하고 비교 분석하였다. 그 결과 평균 제곱근 오차(Root Mean Square Error, RMSE)가 낮아 예측력이 높은 의사결정나무모형을 최적모형으로 선정하였다. 이를 바탕으로 가장 빈번하게 발생하는 절도와 폭력범죄를 대상으로 시나리오를 작성하여 범죄 발생 위험지역을 예측한 결과, 사례도시 J시는 위험지역이 3가지 패턴으로 발생하는 것으로 나타났으며, 각각 발생확률을 3 등급으로 구분하여 $250{\times}250m$ 단위의 지도형태로 시각화할 수 있었다. 본 연구는 향후 자동화 시스템으로 개발하여 시시각각으로 변하는 도시 상황에 따라 실시간으로 예측 결과를 시각화하여 제공함으로써 보다 범죄로부터 안전한 도시환경 조성에 기여하고자 한다.

속성 값 빈도 기반의 전문가 다수결 분류기 (Committee Learning Classifier based on Attribute Value Frequency)

  • 이창환;정인철;권영식
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권4호
    • /
    • pp.177-184
    • /
    • 2010
  • 센서 정보, 물류/유통정보, 신용 정보, 주식 정보 등이 과거보다 다양하면서 대용량의 연속 발생 형태 데이터가 발생하고 있다. 이러한 데이터는 대용량의 특의 변화가 빠른 특징들을 가지고 있기 때문에 학습이 어렵다. 이러한 문제점을 해결하기 위해 일정 윈도우 크기의 최근 데이터를 연속적으로 학습시킴으로써 전체 모형을 새롭게 만들거나 모형의 일부분을 대체 하는 방법을 사용하여 왔다. 그러나 이러한 방법은 계속해서 새로운 학습모형을 만들어야 하므로 대용량의 연속 데이터를 학습시키는데 많은 시간과 비용이 든다. 따라서, 이러한 특성에 대비하기 위하여 추가적인 학습 데이터가 발생할 때 마다, 점진적이며 지속적으로 학습을 할 수 있는 학습 기법이 필요하다. 보다 빠른 속도로 학습 모형의 변화 없이 분류를 하기 위하여 대표적인 점진적 학습 방법으로 베이지안 분류기를 사용할 수 있지만, 사전확률을 알고 있다는 가정으로부터 시작을 하게 되어 일정량 이상의 학습데이터가 필요하다. 따라서 본 연구에서는 베이지안 분류기와 같이 점진적으로 학습을 할 수 있지만, 사전 확률을 알지 못하더라고 학습을 할 수 있는 새로운 점진적 학습 알고리즘을 제안하고자 한다. 본 연구에서 제안하는 알고리즘의 기본 개념은 여러 전문가의 의견을 종합하는 방식이다. 여기서는 속성값(attribute value)을 한명의 전문가로 보고 전문가 집단의 의사 결정이 맞을 경우에는 가점을 주고 틀릴 경우에는 감점을 하는 방식으로 학습을 하게 된다. 실험결과 이 방법은 의사결정나무나 베이지언 분류기와 비교해 비슷한 성능을 나타내었으며, 향후에 스트림 데이터 분석에 사용할 가능성을 보였다.

의사결정나무 분석을 통한 세계핸드볼 승패결정요인 분석 (A Study of Influencing Factors on World Handball Win-Loss using the Decision Tree Analysis)

  • 김현철
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.461-468
    • /
    • 2021
  • 이 연구는 2019년 남녀 핸드볼 세계선수권대회에 참가하는 모든 국가를 대상으로 국제핸드볼연맹이 제공한 공식 기록을 수집해 팀 경기 기록의 승패를 가리는 중요한 슈팅 변수를 규명하는 데 목적이 있다. 이 연구의 목적을 달성하기 위해 2019 핸드볼 세계선수권대회에 참가한 24개국 남녀대표팀의 총 192경기를 수집해 승패 그룹에 따른 대회 기록의 차이를 검증한 이후 8가지 슈팅 변수에 따라 승패요인을 분류하기 위해 데이터마이닝 기법의 하나인 의사결정 트리 방식(CART 알고리즘)을 적용해 분석했다. 분석 결과 9m 슈팅성공률과 Near 슈팅성공률이 남녀 모두에게 가장 중요한 요인으로 평가됐다. 남자는 9m 슈팅성공률이 32.5% 이상, Near 슈팅성공률이 67.5% 이상이면 83.3% 승리하며, 여자는 9m 슈팅성공률이 75%이상, Near 슈팅성공률이 51% 이상이면 75%를 승리한다. 또한, 여자팀은 페널티 요인 중 옐로카드는 승패를 결정짓는 중요 변수로 판단된다. 결론적으로 본 연구를 통하여 국제핸드볼 경기에서 승리와 패배 팀의 기록 특성 차이와 승패를 구분하는 중요 슈팅 변수를 남녀 모두에서 확인 할 수 있었다.

CRT 알고리즘을 이용한 우리나라 노인의 사회활동 영향요인 예측 모형 개발 (Development of Predictive Model of Social Activity for the Elderly in Korea using CRT Algorithm)

  • 변해원
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.243-248
    • /
    • 2018
  • 노년기의 사회참여는 사회적 상호작용의 기회를 제공하여 삶의 만족감을 고취시키기 때문에 성공적인 노화를 달성하기 위해서 중요하다. 이 연구는 우리나라 지역사회 노인을 대상으로 노년기 사회 활동의 관련요인과 사회 참여를 예측하는 통계적 분류 모형을 구축하였다. 분석 대상은 2015년도 지역사회 건강조사를 완료한 60세 이상 노인 1,864명(남 829명, 여 1,035명)이었다. 결과 변수는 지난 1달 간 사회 활동 경험(있음, 없음)으로 정의하였다. 예측모형은 Classification and Regression Trees(CRT) 알고리즘 기반 의사결정나무모형을 이용하여 구축하였다. 연구결과, 사회참여의 유의미한 분류 변수는 주관적 건강, 이웃과의 만남빈도, 친척과의 만남빈도, 배우자 동거여부이었고, 그 중에서도 가장 우선적으로 관여하는 예측 요인은 주관적 건강수준이었다. 본 연구의 결과를 기초로 도래하는 초고령사회의 성공적인 노화를 대비하기 위해서 노인의 사회 활동에 대한 사회적 관심과 지원이 요구된다.

기계학습을 이용한 문서 자동분류에 관한 연구 (A Study on the Documents's Automatic Classification Using Machine Learning)

  • 김성희;엄재은
    • 정보관리연구
    • /
    • 제39권4호
    • /
    • pp.47-66
    • /
    • 2008
  • 본 논문에서는 수작업 분류 시 초래하는 여러 가지 한계점을 극복하고, 이용자에게 보다 빠르고 정확한 분류 서비스를 제공하기 위해 4개의 다양한 기계학습 알고리즘을 적용하였다. 연구대상으로는 MeSH의 8개의 주제별 범주로 각각 100개의 문헌 타이틀을 선정하였으며, 4개의 기계학습 알고리즘으로 실험을 수행하였다. 그 결과 신경망 기법과 C5.0 기법을 병행하여 사용했을 경우 단일 기법을 사용했을 경우보다 2.5%, 3.75%가 상승하여 분류 효율이 83.75%로 측정되었다. 이 수치는 4개의 분류 실험 결과 중 가장 높은 정확률을 나타내었다. 따라서 신경망 기법과 C5.0 기법의 장점을 이용하여 분류 서비스를 실행하면 단일 기법을 사용한 경우보다 높은 정확률을 나타낼 수 있을 것이라 기대된다.

퍼지이론과 SVM 결합을 통한 기업부도예측 최적화 (Optimized Bankruptcy Prediction through Combining SVM with Fuzzy Theory)

  • 최소윤;안현철
    • 디지털융복합연구
    • /
    • 제13권3호
    • /
    • pp.155-165
    • /
    • 2015
  • 기업부도예측은 재무 분야에 있어 중요한 연구주제 중 하나로 1960년대 이후부터 꾸준히 연구되어져 왔다. 국내의 경우, IMF 사태 이후 기업부도예측에 관한 중요성이 강조되고 있다. 이에 본 연구에서는 보다 정확한 기업부도예측을 위해 높은 예측력과 동시에 과적합화의 문제를 해결한다고 알려진 SVM(Support Vector Machine)을 기반으로 퍼지이론(fuzzy theory)을 활용해 입력변수를 확장하고, 유전자 알고리즘(GA, Genetic Algorithm)을 이용해 유사 혹은 유사최적의 입력변수집합과 파라미터를 탐색하는 새로운 융합모형을 제시한다. 제안모형의 유용성을 검증하기 위하여 H은행의 비외감 중공업 기업 데이터를 이용하여 실험을 수행하였으며, 비교모형으로는 로짓분석, 판별분석, 의사결정나무, 사례기반추론, 인공신경망, SVM을 선정하였다. 실험결과, 제안모형이 모든 비교모형들에 비해 우수한 예측력을 보이는 것으로 나타났다. 본 연구는 우수한 예측 성능을 가진 다기법 융합 모형을 새롭게 제안하여, 부도예측 분야에 학술적, 실무적으로 기여할 수 있을 것으로 기대된다.

Naive Bayes 분석기법을 이용한 유방암 진단 (Breast Cancer Diagnosis using Naive Bayes Analysis Techniques)

  • 박나영;김장일;정용규
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.87-93
    • /
    • 2013
  • 선진국형 질병으로만 알려져 있던 유방암이 우리나라 현대 여성들에게 발병률이 꾸준히 증가하고 있다. 유방암은 보통 50대 이상의 여성에서 발병하는 병으로 알려져 있지만 우리나라의 경우 40대의 서양보다 젊은 여성들에게 발병률이 꾸준히 증가하고 있다. 따라서 우리나라 성인여성을 기준으로 유방암에 대한 정확한 진단을 할 수 있는 매뉴얼을 구축하는 것이 시급한 과제이다. 본 논문에서는 데이터마이닝기법을 이용하여 유방암을 예측하는 방법을 제시한다. 데이터마이닝이란 데이터베이스 내에 숨어 있는 일정한 패턴이나 변수들 간의 관계를 정교한 분석모형을 이용하여 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정을 말한다. 실험을 통하여 Deicion Tree와 Naive Bayes 분석기법을 사용하여 유방암을 진단하는 분석기법을 비교분석을 하였다. Deicison Tree는 C4.5 알고리즘을 적용하여 분석하였고 두 알고리즘이 상당히 좋은 분류 정확도를 나타냈다. 그러나 Naive Bayes 분류방법이 Decision Tree방법보다 더 상회하는 정확도를 보였고 이는 의료데이터의 특성에 많이 기인한다고 볼 수 있다.

  • PDF

협업 필터링 기법을 활용한 개인화된 상품 추천 방법론 개발에 관한 연구 (A Personalized Recommendation Methodology based on Collaborative Filtering)

  • Kim, Jae-Kyeong;Suh, Ji-Hae;Ahn, Do-Hyun;Cho, Yoon-Ho
    • 지능정보연구
    • /
    • 제8권2호
    • /
    • pp.139-157
    • /
    • 2002
  • 본 연구에서는 기존 협업 필터링의 문제점을 해결할 수 있는 효율적인 상품추천 방법론을 제시하고자 한다. 연구에서 제시하는 상품추천 방법론은 기존 협업 필터링 알고리즘의 데이터 희박성 문제 및 동의어 문제를 극복하기 위하여 판매 데이터로 구성된 제품 계층도(Product Taxonomy)를 이용하며, 이 계층도를 기반으로 한 연관 규칙(association rule)과 의사결정 나무를 사용한다. 본 연구에서는 제시한 방법론을 단계별로 설명하였을 뿐만 아니라, 실제 H 백화점 데이터를 이용하여 적용하였다. 다양한 경우에 대하여 실험을 한 결과, 기존의 협업 필터링 알고리즘이 갖고있는 문제점을 상당히 해결하였음을 제시하였다. 이 연구에서 제시한 상품 추천 방법론은 현재 기업이 직면한 경쟁환경 하에서 고객이 과연 누구이며, 고객이 진정 무엇을 원하고 있는지를 파악하는데 도움을 줄 것이며, 고객관계관리 (CRM)를 효율적으로 구현하는 방법론으로 사용될 것으로 기대된다.

  • PDF

CART 알고리즘을 이용한 지역별 주택 및 주거환경 만족도 영향 요인의 비교 (Comparison of factors affecting residential and residential environment satisfaction by region using the CART algorithm)

  • 정수은
    • 문화기술의 융합
    • /
    • 제9권4호
    • /
    • pp.707-715
    • /
    • 2023
  • 본 연구는 주택 및 주거환경 만족도 영향 요인의 지역별 특성 비교 분석하기 위해서, 2020년 국토교통부 주거실태조사 데이터를 활용하여 Decision Tree 분석 중 CART 알고리즘을 적용하였다. 연구 결과는 첫째, 주거환경 만족도에서 의료복지시설 만족도, 교육시설 접근성 만족도가 광역시 및 수도권에서 높은 중요도를 보이지만 변의 사고 및 범죄로부터 안전한 환경 만족도 요인이 그 이외의 지역에서 더 높은 중요도를 보여, 권역에 따른 차이가 두드러졌다. 둘째, 주택 만족도에서는 주택 특성 요인이 중요하고 실내 환경 수준 만족도와 실내 안전 및 위생 상태 만족도가 대부분의 시도에서 중요도를 보였지만 주거환경 만족도에서는 주거 외부 정주 환경 특성 요인의 중요도가 더 높고 영향 요인이 상대적으로 균등하게 분포하여 종속변수에 따른 차이를 보였다. 이러한 권역별 특성의 일반화를 위해서는 시계열 데이터를 활용한 연구가 추후에 진행될 필요가 있다.

6차산업 경영체 성장단계별 핵심경영요소 탐색 (Exploring the Management Component of Rural Small Business in the 6th Industry at Each Stage of Growth)

  • 김정태
    • 벤처창업연구
    • /
    • 제12권6호
    • /
    • pp.123-138
    • /
    • 2017
  • 본 연구는 6차산업 경영체의 성장단계별 유형특징을 살펴보고, 각 단계별 경영전략의 핵심요소를 찾는데 목적을 두었다. 2015년 6차산업으로 인증된 752개 경영체 자료를 의사결정나무구조 분석의 CART 알고리즘으로 분석하였다. 분석결과 6차산업 유형결정에 초기 성장단계에서는 농산물가공유형, 성장기에는 농산물가공유형, 서비스유형, 지역, 매출액이 작용하고, 성숙기에는 서비스전략, 농산물가공유형이 작용하였다. 이 같은 결과는 6차산업 경영체의 성장단계별 지원될 핵심적 경영요소를 실증적으로 규명하여, 6차산업 지원방향을 제시하고 있다.

  • PDF