• 제목/요약/키워드: 의사결정나무 분석

검색결과 409건 처리시간 0.026초

GOCI 영상과 기계학습 기법을 이용한 Cochlodinium polykrikoides 적조 탐지 기법 연구 (Study on Detection for Cochlodinium polykrikoides Red Tide using the GOCI image and Machine Learning Technique)

  • 엥흐자리갈 운자야;박수호;황도현;정민지;김나경;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제15권6호
    • /
    • pp.1089-1098
    • /
    • 2020
  • 본 연구에서는 적조 Cochlodinium Polykrikoide를 기계학습 방법과 정지궤도 해색위성 영상을 활용하여 탐지하는 방법을 제안한다. 기계학습 모형을 학습시키기 위해 GOCI Level2 자료를 활용하였으며, 국립수산과학원의 적조 속보 자료를 활용하였다. 기계학습 모델은 로지스틱 회귀모형, 의사결정나무 모형, 랜덤포래스트 모형을 사용하였다. 성능 평가 결과 기계학습을 사용하지 않은 전통적인 GOCI 영상 기반 적조 탐지 알고리즘(Son et al.,2012) (75%)과 비교해보았을 때 약 13~22%p (88~98%)의 정확도 향상을 확인할 수 있었다. 또한 기계학습 모형 간 탐지 성능을 비교 분석해본 결과 랜덤 포레스트 모형(98%)이 가장 높은 탐지 정확도를 보였다. 이러한 기계학습 기반 적조 탐지 알고리즘은 향후 적조를 조기에 탐지하고 그 이동과 확산을 추적 모니터링하는데 활용될 수 있을 것이라고 판단된다.

한국관광 실태조사 빅 데이터 분석을 통한 관광산업 활성화 방안 연구 (A Study on the Revitalization of Tourism Industry through Big Data Analysis)

  • 이정미;류미나;임규건
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.149-169
    • /
    • 2018
  • 본 연구에서는 한국문화관광연구원에서 조사된 "2013년~2015년 외래 관광객 실태조사"의 약 36,000개 데이터에 대한 빅 데이터 분석을 통해 관광산업 활성화 방안을 도출해 보고자 한다. 이를 위해서 외래 관광객들의 '전반적 만족도', '재방문 의사', '추천의사' 변수에 가장 많은 영향을 끼치는 요인을 분석하고 해당 요인들의 각각에 대한 영향력에 대해 파악 하였다. 본 연구에서는 SPSS IBM Modeler 16.0의 의사결정나무(C5.0, CART, CHAID, QUEST), 인공신경망, 로지스틱 회귀분석의 데이터마이닝 기법을 이용하여 종속변수에 가장 큰 영향을 미치는 상위 변수 7개씩을 각각 도출하였고, 추가적으로 각 독립변수들의 영향력을 심도 있게 파악하기 위하여 R프로그래밍을 활용하여 SPSS IBM Modeler 16.0을 통해 도출된 각 독립변수들의 영향력을 파악하였다. 데이터 분석 결과 '전반적 만족도'에 가장 영향을 미치는 상위 변수 7개는 관광지매력도, 음식만족도, 숙박만족도, 교통수단만족도, 안내서비스만족도, 방문관광지수, 국가로 나타났으며 가장 큰 영향력을 미친 변수는 음식만족도와 관광지매력도로 분석되었다. '재방문 의사'에 가장 영향을 미치는 상위 변수 7개로는 국가, 여행 동기, 활동, 음식만족도, 제일 좋았던 활동, 관광안내서비스만족도, 관광지매력도로 나타났으며 그중 가장 큰 영향력을 미친 변수는 음식만족도와 여행 동기로 분석되었다. 마지막으로 '추천의사'에 영향을 미치는 상위 변수 7개로는 국가, 관광지매력도, 방문관광지수, 음식만족도, 활동, 관광안내서비스만족도, 비용으로 나타났으며 가장 큰 영향력을 미친 변수는 국가, 관광지매력도, 음식만족도로 분석되었다. 따라서 세 변수에 공통적으로 영향을 끼치는 요인은 음식만족도, 관광지매력도로 분석되었으며 해당 요인들이 공통적으로 한국여행에 대한 전반적 만족도와 재방문 의사, 추천의사에 미치는 영향이 크다는 것을 확인할 수 있었다. 본 연구는 외래 관광객들의 한국관광에 대한 활성화 방안을 "외래 관광객 실태조사" 빅 데이터 분석을 통해 규명함으로써 한국 관광 데이터 분석의 활용과 관광 정책 수립의 기초자료로 활용될 수 있을 것으로 기대되며 향후 기업 및 국가차원에서 한국 관광발전에 기여할 수 있는 활성화 방안을 마련하는 자료로 사용될 수 있을 것으로 기대한다.

대형건설공사의 리스크 분석에 관한 사례적용연구 (A Case Study on Risk Analysis of Large Construction Projects)

  • 강인석;김창학;손창백;박홍태
    • 한국건설관리학회논문집
    • /
    • 제2권2호
    • /
    • pp.98-108
    • /
    • 2001
  • 본 연구에서는 프로젝트의 성공적 이행을 보장하기 위하여 리스크분석모델을 제안하였다. 리스크분석 모델은 CRAS라 칭하였으며, 시공자가 RBS를 통해서 리스크를 체계적으로 확인하고 분석하고 관리하는데 도움을 줄 수 있도록 설계되었다. 제안된 CRAS모델은 크게 3단계의 분석과정으로 이루어진다. 첫 단계는 시공자가 프로젝트와 관련된 리스크를 확인하고 분석해서 입찰여부를 판단하는 것이다. 두 번째 단계는 영향도, 의사결정나무, Monte Carlo 시뮬레이션을 이용하여 리스크를 정량적으로 평가하여 예비비를 산정하는 것이며, 세 번째 단계는 확률 노드, 확률 칼렌다 등의 일정관리기법과 시뮬레이션을 통해 공사일정상의 리스크를 파악하여 프로젝트의 성공여부를 판단하는 것이다. 결과적으로 본 모델은 시공자로 하여금 프로젝트에 내재된 리스크가 프로젝트의 공기와 공사비에 미치는 영향을 정량적으로 평가할 수 있도록 함으로서 시공자가 이들 리스크를 제거하는데 필요한 여러 대안을 고려할 수 있도록 하였다.

  • PDF

Naive Bayes 분석기법을 이용한 유방암 진단 (Breast Cancer Diagnosis using Naive Bayes Analysis Techniques)

  • 박나영;김장일;정용규
    • 서비스연구
    • /
    • 제3권1호
    • /
    • pp.87-93
    • /
    • 2013
  • 선진국형 질병으로만 알려져 있던 유방암이 우리나라 현대 여성들에게 발병률이 꾸준히 증가하고 있다. 유방암은 보통 50대 이상의 여성에서 발병하는 병으로 알려져 있지만 우리나라의 경우 40대의 서양보다 젊은 여성들에게 발병률이 꾸준히 증가하고 있다. 따라서 우리나라 성인여성을 기준으로 유방암에 대한 정확한 진단을 할 수 있는 매뉴얼을 구축하는 것이 시급한 과제이다. 본 논문에서는 데이터마이닝기법을 이용하여 유방암을 예측하는 방법을 제시한다. 데이터마이닝이란 데이터베이스 내에 숨어 있는 일정한 패턴이나 변수들 간의 관계를 정교한 분석모형을 이용하여 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정을 말한다. 실험을 통하여 Deicion Tree와 Naive Bayes 분석기법을 사용하여 유방암을 진단하는 분석기법을 비교분석을 하였다. Deicison Tree는 C4.5 알고리즘을 적용하여 분석하였고 두 알고리즘이 상당히 좋은 분류 정확도를 나타냈다. 그러나 Naive Bayes 분류방법이 Decision Tree방법보다 더 상회하는 정확도를 보였고 이는 의료데이터의 특성에 많이 기인한다고 볼 수 있다.

  • PDF

악성코드 분류를 위한 중요 연산부호 선택 및 그 유용성에 관한 연구 (A Study on Selecting Key Opcodes for Malware Classification and Its Usefulness)

  • 박정빈;한경수;김태근;임을규
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.558-565
    • /
    • 2015
  • 최근 새롭게 제작되는 악성코드 수의 증가와 악성코드 변종들의 다양성은 악성코드 분석가의 분석에 소요되는 시간과 노력에 많은 영향을 준다. 따라서 효과적인 악성코드 분류는 악성코드 분석가의 악성코드 분석에 소요되는 시간과 노력을 감소시키는 데 도움을 줄 뿐만 아니라, 악성코드 계보 연구 등 다양한 분야에 활용 가능하다. 본 논문에서는 악성코드 분류를 위해 중요 연산부호를 이용하는 방법을 제안한다. 중요 연산부호란 악성코드 분류에 높은 영향력을 가지는 연산부호들을 의미한다. 실험을 통해서 악성코드 분류에 높은 영향력을 가지는 상위 10개의 연산부호들을 중요 연산부호로 선정할 수 있음을 확인하였으며, 이를 이용할 경우 지도학습 알고리즘의 학습시간을 약 91% 단축시킬 수 있었다. 이는 향후 다량의 악성코드 분류 연구에 응용 가능할 것으로 기대된다.

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

개인정보보호법에 따른 가명처리로 인한 데이터 손실이 데이터 분석의 정확도에 미치는 영향 (Pseudonymization's effect on data quality: A study under personal information protection act)

  • 김민정;유재근
    • 응용통계연구
    • /
    • 제37권3호
    • /
    • pp.381-393
    • /
    • 2024
  • 이 연구는 개인정보의 가명처리와 이것이 데이터 분석의 정확도에 미치는 영향을 조사하였다. 로지스틱 회귀 모델, 의사결정나무 및 랜덤 포레스트를 사용하여 가명처리의 적용 정도와 가명처리된 데이터 분석의 정확도 간의 관계를 정량적으로 평가하였으며, 이를 통해 민감한 정보의 가명처리가 데이터 분석의 정확도를 크게 손상시키지 않으면서도 개인정보보호를 실현할 수 있음을 확인하였다. 그러나, 단일한 샘플 데이터, 일관된 가명처리 비율의 적용 등의 한계가 있음을 인지하였다. 이러한 한계를 극복하기 위해, 다양한 데이터에 대한 추가적인 연구를 통하여 결과의 일반성을 강화하는 것이 필요하다. 또한, 개별 변수에 대해 최적의 가명처리 비율을 찾는 방법론을 개발하고 적용해 볼 것을 제안한다. 이 연구 결과는 규제 준수와 개인정보 보호를 달성하면서도 데이터의 활용성을 유지하는 방법에 대한 새로운 통찰을 제공한다.

청소년 지위비행의 위험군 탐색에 관한 연구 (Identifying High Risk Group of Adolescent Status Delinquency and Factors Associated with the Group)

  • 박영미;이혜경;백수연
    • 한국응용과학기술학회지
    • /
    • 제39권6호
    • /
    • pp.892-905
    • /
    • 2022
  • 본 연구는 한국청소년정책연구원에서 실시한 한국아동·청소년 패널조사의 초등학교 4학년 패널의 7차년도 자료인 고등학교 1학년에 재학중인 청소년을 대상으로 의사결정나무분석을 통하여 청소년 지위비행의 고위험군의 특성을 파악하고, 그 영향요인을 확인하였다. 본 연구의 대상자 1,979명 중 지위비행 집단은 264명으로 전체의 13.3%로 나타났다. 청소년 지위비행의 고위험군은 남자이면서 긍정적 양육방식을 낮게 인식하는 군이었다. 긍정적 양육방식이 가장 중요한 영향요인으로 나타났으며, 그 다음으로 성별, 정서문제, 교사관계, 성취가치 순이었다. 청소년 지위비행을 예방하기 위해 양육방식에 대한 부모교육 프로그램, 남자 청소년에게 특화된 중재 프로그램의 개발이 필요하다. 또한 공격성에 초점을 두었던 그 동안의 중재에서 더 나아가, 우울, 사회적 위축 등의 정서문제를 포괄적으로 다루는 중재가 요구된다. 특히 청소년에게 중요한 학교환경에서 교사관계가 가장 중요한 영향요인으로 밝혀진 바, 청소년 지위비행의 원인과 결과에 대한 교육, 상담기법에 대한 훈련을 통한 교사와의 관계 증진이 청소년 지위비행을 예방하는 보호요인으로 작용할 것이다.

위계적 선형모형을 이용한 강의평가 결정요인 분석 (Determinants of student course evaluation using hierarchical linear model)

  • 조장식
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1285-1296
    • /
    • 2013
  • 강의평가 결과에 영향을 미치는 특성변수로는 교과목 수준의 다양한 강좌특성 변수들과 수강생 수준의 다양한 인적특성 변수들이 있다. 특정 수강생은 다수의 교과목을 이수하기 때문에 다수의 교과목들은 동일한 수강생 안에 속하게 됨으로써 공유되는 특성이 있게 된다. 즉 강의평가 결과는 교과목 수준의 강좌특성 (1-수준)과 수강생 수준의 인적특성 (2-수준)에 의해 영향을 받는 다층구조 (multilevel)를 가지게 되며, 위계적 자료 특성을 가지는 복수의 분석단위의 구조가 된다. 따라서 전통적인 회귀분석에서와 같이 개별 교과목들이 독립이라는 가정을 할 수 없게 된다. 본 논문에서는 강의평가결과에 영향을 미치는 다층구조의 특성을 가진 변수들의 영향력을 보다 타당하게 분석하기 위한 방법으로 위계선형모형 (HLM; hierarchical linear model)을 이용하였다. 분석결과는 다음과 같다. 먼저 교과목 수준의 특성변수들 중에 강좌규모, 개설학년, 담당교수의 전임여부, 해당 교과목의 총 평균평점, 원어강좌 여부가 통계적으로 유의하게 강의평가 결과에 영향을 미친 것으로 나타났다. 또한 수강생 수준의 인적특성 변수들 중에는 성별, 학과계열, 대입당시 전형방법, 평균평점 등이 유의하게 강의평가 결과에 영향을 미친 것으로 나타났다.

상관분석 및 의사결정나무분석을 통한 하수처리시설의 에너지 소비량과 운영인자의 관계 분석 (Relationship between Energy Consumption and Operational Variables at Wastewater Treatment Plant)

  • 정용준;김예진
    • 한국물환경학회지
    • /
    • 제32권3호
    • /
    • pp.253-260
    • /
    • 2016
  • To reduce energy consumption in wastewater treatment plants (WWTPs), renewable energy applications such as small hydropower, solar energy, and wind energy are popular. However, it should be noticed that energy originated from operation of wastewater treatment process can be reduced through optimized operation based on analysis of factors affecting energy. In this research, the relationship to the various operational variables and influent factors was explored using correlation analysis and decision tree algorithm. Due to the non-linear characteristics of the process, it was difficult to find clear linear patterns through correlation analysis. However, decision tree algorithm showed its usefulness in uncovering hidden patterns that consume energy. As operational factors, influent flowrate, the amount of aeration, nitrate recycling pumping rate, and sludge wasting pumping rate were selected as important factors. For environmental factors associated with influent compositions and removal rate, BOD and T-N removal rate were selected as significant factors.