• 제목/요약/키워드: CHAID 분석

검색결과 36건 처리시간 0.023초

스마트 팩토리를 위한 센서 데이터 분석과 제품 불량 개선 연구 (A Study on Sensor Data Analysis and Product Defect Improvement for Smart Factory)

  • 황세웅;김종혁;황보현우
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.95-103
    • /
    • 2018
  • ICT 기술의 발전에 따라 제조 산업은 공정 상에서 생성되는 제조 데이터를 분석하여 효율을 높이고자 많은 노력을 하고 있다. 본 논문에서는 스마트 공장의 일환으로 의사결정나무 알고리즘(CHAID)을 이용한 데이터 마이닝 기반 제조공정을 제안한다. 약 5개월간 수집된 실제 제조 공정의 432개 센서 데이터를 활용하여 불량률이 낮은 안정적인 공정 기간과 불량률이 높은 불안정한 공정 기간 간에 유의미한 차이를 보이는 변수를 찾아냈다. 선정된 최종 변수가 불량률 개선에 실제로 효과가 있는지를 측정하기 위해 해당 변수의 안정 값 범위를 설정하여 14일 간 공정에서 해당 센서가 안정 값의 범위를 벗어나지 않도록 공정 설정 값을 조절했고, 불량률 개선의 효과를 측정하였다. 이를 통해 제조 산업에서 생성되는 공정 센서 데이터를 활용 및 분석하여 불량률을 개선할 수 있는 실증적인 가이드라인을 제시할 수 있을 것으로 기대한다.

산업재해 예방을 위한 최적 알고리즘 선정 (Selection of an Optimal Algorithm for Prevention of Industrial Accidents)

  • 임영문;황영섭
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2005년도 추계학술대회
    • /
    • pp.328-331
    • /
    • 2005
  • 산업재해 통계분석의 커다란 목적은 각 산업별로 주 위험요인을 도출하고 이에 따른 안전교육의 실시 또는 안전장치 등을 보완함으로써 산업재해를 줄이거나 예방하는데 있다고 볼 수 있다. 그러나 일반 제조업이나 건설업 등에서는 아직까지도 정량적 위험성 평가 기법이 개발되어 있지 않은 실정이다. 따라서 효율적인 위험성 평가 기법의 개발이 필요하다. 본 연구에서는 데이터마이닝 기법을 이용한 산업재해 예방을 위한 최적 알고리즘 선정 방법을 제시한다.

  • PDF

치과 무면허 불법시술 경험 패턴 연구 : 2006 국민 구강건강 실태조사 자료 (The Model Predicting Unqualified Dental Practitioners Experience Pattern)

  • 김은엽;임근옥;함승우;박래웅
    • 한국산학기술학회논문지
    • /
    • 제11권10호
    • /
    • pp.3839-3845
    • /
    • 2010
  • 본 연구는 치과 무면허 불법시술을 받은 사람들의 특성 및 패턴을 파악하고자 하였다. 2006년 국민구강건강 실태조사 자료를 이용하였다. 본 연구 대상자는 4,543명으로 치과 무면허 불법시술 경험 유무에 따라 그룹을 나누었다. 치과 무면허 불법시술 패턴을 기 분석에서 살아남은 변수로 조사하였다. 패턴 분석은 CHAID로 하였다. 연령은 68세 이상에 해당하는 사람들은 39%가 치과 무면허 불법시술 경험을 한 것으로 나타났으나, 33세 이하는 3%가 치과 무면허 불법시술을 경험을 한 것으로 나타났다. 연령이 55 또는 68세이면서 여성인 경우 45%가 치과 무면허 불법시술 경험을 한 것으로 나타났으나, 남성은 32%가 치과 무면허 불법시술을 경험을 한 것으로 나타났다. 최근 들어 건강에 대한 관심이 높아지고 있는 시점에서 의료비 등으로 인한 심적 부담도 많이 늘어나고 있는 실정이다. 그러나, 올바르지 못한 무면허 불법시술자에게 의술을 받고 부작용을 초래하는 경우가 종종 발생하고 있는 시점에서 무면허 불법시술에 노출될 위험이 높은 그룹의 특성 및 패턴을 사전에 파악하여 올바른 교육과 홍보를 통하여 건강을 효과적이고 효율적으로 관리할 수 있도록 하여야 할 것이다.

의사결정나무 모형을 이용한 주관적 음성장애 예측모형 (The Prediction Model for Self-Reported Voice Problem Using a Decision Tree Model)

  • 변해원
    • 한국산학기술학회논문지
    • /
    • 제14권7호
    • /
    • pp.3368-3373
    • /
    • 2013
  • 본 연구에서는 주관적 음성문제의 위험요인으로 구명된 주요 변수를 기반으로 주관적 음성장애를 예측할 수 있는 모형을 개발 하였다. 연구자료는 2008년도 국민건강영양조사이며, 이비인후검진을 완료한 전국의 19세 이상 지역사회 성인 3,600명(남 1,501명, 여 2,099명)을 분석대상으로 하였다. 분석방법은 주관적 음성장애 여부를 결과변수로 성, 연령, 흡연, 음주, 교육수준, 직업, 갑상선장애, 최근 2주간 급성 및 만성질환으로 인한 통증 및 불편감을 설명변수로 사용하였고, 예측모형은 의사결정나무 모형(Decision Tree)의 exhaustive CHAID(Chi Squared Automatic Interaction Detection) 알고리즘을 이용하였다. 주관적 음성 장애와 관련된 통계학적 분류 모형을 구축한 결과, 유의미한 예측 변수는 연령, 교육수준, 최장 직업, 갑상선 장애, 최근 2주 동안의 신체 불편 및 통증경험 여부였다. 이 연구의 모형을 기초로 음성장애 예방을 위해서 음성장애 고위험군에 대한 조기 관리의 필요성이 제기된다.

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

아파트 매매가 추이 예측에 관한 연구: 정부 정책, 경제, 수요·공급 속성을 중심으로 (A Study on the Forecasting Trend of Apartment Prices: Focusing on Government Policy, Economy, Supply and Demand Characteristics)

  • 이중목;최수안;우수한;김성훈;김태준;우종필
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.91-113
    • /
    • 2021
  • 한국 자산 시장에서 부동산이 가지는 영향력에도 불구하고 시장 추이 예측은 쉽지 않으며, 그중 아파트는 주거 공간인 동시에 투자 속성을 내포하고 있어 더욱 예측이 쉽지 않다. 아파트 가격에 영향을 주는 요인은 다양하며 지역적 특성 또한 고려되어야 한다. 본 연구는 서울시 전체, 강남 3구, 노원, 도봉, 강북, 금천, 관악, 구로구의 아파트 매매가에 영향을 미치는 요인과 특성을 비교하고 이를 기반으로 가격 예측의 가능성을 파악하기 위해 수행되었다. 분석에는 신경망, CHAID, 선형회귀, 랜덤포레스트 등 머신러닝 알고리즘이 사용되었다. 서울시 전체 아파트 평균 매매가에 가장 중요한 영향을 미치는 요소는 정부 정책 요소였으며, 거래규제 완화, 금융규제 완화 등의 완화 정책이 영향력이 높게 도출되었다. 강남 3구의 경우 정책의 영향력이 낮은 것으로 파악되었으며 강남구의 경우 주택 공급량이 가장 중요한 요인이었다. 반면 6개의 중·하위구들은 정부 정책이 중요 변수로 작용하였으며 공통적으로 금융규제 정책이 영향을 끼치는 요인이었다.

비신호 횡단보도에서의 어린이 횡단행태 분석 연구 (A Study on Analyzing Children's Crossing Behaviors on Non-signalized Crosswalk)

  • 이덕환;이윤석;김원호;이백진
    • 대한교통학회지
    • /
    • 제31권3호
    • /
    • pp.19-32
    • /
    • 2013
  • 본 연구의 목적은 그간 교통안전 정책에서 간과되어온 어린이 보행자 횡단행태에 대한 분석을 통해 향후 어린이 교통안전 정책을 개선하기 위한 기초자료를 제공함에 있다. 어린이 횡단행태 분석은 물리적 형태와 사고발생빈도가 상이한 어린이 보호구역에서의 횡단행태 및 패턴의 차이를 비교하는 부분에 초점을 두고 이루어졌다. 자료는 경기도 7개 초등학교 비신호 횡단보도를 대상으로 현장관찰과 비디오 녹화를 통해 수집하였으며, 통계분석, CHAID 알고리즘 분석, 통행 패턴비교를 실시하였다. 분석결과, 사고발생 빈도와 유의한 관계가 있는 횡단특성은 대기유무, 주의유무, 특이행동 유무 순으로 나타났다. 구체적으로 사고발생빈도가 낮은 지점에서 대기후 횡단하는 비율이 69.1%인 반면, 사고다발지점에서 대기를 하지 않고 횡단하는 경우가 83.6%로 상이함을 확인하였다. 횡단 전 대기 및 주의 정도는 횡단 시작부 보도폭이 넓고 학교 출구에서 횡단보도까지 거리가 일정규모 이상일 때 높게 나타났다. 한편, 횡단패턴과 사고발생빈도의 관계성은 뚜렷하게 나타나지 않았다. 향후 어린이 보호구역의 안전성 개선을 위해서는 대기 후 통행이 이루어질 수 있도록 각 보호구역에서의 어린이 횡단특성에 기반한 차별화된 맞춤형 접근이 긴요할 것으로 판단된다.

의사결정나무분석을 이용한 심혈관질환자의 재입원 위험 요인에 대한 융합적 분석 (Convergence Analysis of Risk factors for Readmission in Cardiovascular Disease: A Machine Learning Approach)

  • 김현수
    • 융합정보논문지
    • /
    • 제9권12호
    • /
    • pp.115-123
    • /
    • 2019
  • 본 연구는 의사결정나무 통계분석법을 톨해 국민건강영양조사 자료를 2차 분석하여 심혈관질환자의 재입원 위험 요인을 확인하는 기초자료를 마련하고자 하였다. 연구대상자는 국민건강영양조사 4-6기 자료대상자 총 65,973명 중 협심증이나 심근경색 진단 병력이 있는 총 1,037명의 성인이며, SPSS window 21 Program을 이용하여 분류 분석 중 CHAID 의사결정나무 방법으로 분석하였다. 뿌리 마디(Root node)는 경제활동상태((χ2=12.063, p=.001), 자식 마디(Child node)는 개인 소득수준(χ2=6.575, p=.031), 최근 1년간 체중 변화(χ2=12.758, p=.001), 거주지역(χ2=4.025, p=.045), 직접흡연(χ2=3.884, p=.049), 교육수준(χ2=9.630, p=.024)으로 확인되었다. 끝마디(Terminal node)는 고혈압(χ2=3.854, p=.050), 당뇨(χ2=6.056, p=.014), 직업형태(χ2=7.799, p=.037)로 분석되었다. 이를 통해 심혈관질환자의 재입원 관리를 위해 다양한 요인의 통합적 접근을 고려한 프로그램의 개발 및 운영이 필요함을 제언한다.

산업재해 데이터의 분석 및 분류를 위한 정확도 성능 평가 (Evaluation on Performance of Accuracy for Analysis and Classification of Data Related to Industrial Accidents)

  • 임영문;유창현
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2006년도 춘계공동학술대회
    • /
    • pp.51-56
    • /
    • 2006
  • Recently data mining techniques have been used for analysis and classification of data related to industrial accidents. The main objective of this study is to compare performance of algorithms for data analysis of industrial accidents and this paper provides a comparative analysis of 5 kinds of algorithms including CHAID, CART, C4.5, LR (Logistic Regression) and NN (Neural Network) with ROC chart, lift chart and response threshold. In this study, data on 67,278 accidents were analyzed to create risk groups for a number of complications, including the risk of disease and accident. The sample for this work chosen from data related to manufacturing industries during three years $(2002\sim2004)$ in korea. According to the result analysis, NN has excellent performance for data analysis and classification of industrial accidents.

  • PDF

건설업의 산업재해 특성분석을 위한 의사결정나무 기법의 상용 최적 알고리즘 선정 (Selection of an Optimal Algorithm among Decision Tree Techniques for Feature Analysis of Industrial Accidents in Construction Industries)

  • 임영문;최요한
    • 대한안전경영과학회지
    • /
    • 제7권5호
    • /
    • pp.1-8
    • /
    • 2005
  • The consequences of rapid industrial advancement, diversified types of business and unexpected industrial accidents have caused a lot of damage to many unspecified persons both in a human way and a material way Although various previous studies have been analyzed to prevent industrial accidents, these studies only provide managerial and educational policies using frequency analysis and comparative analysis based on data from past industrial accidents. The main objective of this study is to find an optimal algorithm for data analysis of industrial accidents and this paper provides a comparative analysis of 4 kinds of algorithms including CHAID, CART, C4.5, and QUEST. Decision tree algorithm is utilized to predict results using objective and quantified data as a typical technique of data mining. Enterprise Miner of SAS and AnswerTree of SPSS will be used to evaluate the validity of the results of the four algorithms. The sample for this work chosen from 19,574 data related to construction industries during three years ($2002\sim2004$) in Korea.