• 제목/요약/키워드: Decision-Tree-Model

검색결과 723건 처리시간 0.026초

데이터마이닝 기법을 활용한 대학수학능력시험 영어영역 정답률 예측 및 주요 요인 분석 (Prediction of Correct Answer Rate and Identification of Significant Factors for CSAT English Test Based on Data Mining Techniques)

  • 박희진;장경애;이윤호;김우제;강필성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.509-520
    • /
    • 2015
  • 대학수학능력시험(수능)은 고등학교 3년간의 학업 성취도를 측정하는 대표적인 평가 도구로서 대한민국 대학 입시에 있어 매우 중요한 역할을 하는 시험이다. 응시생들의 학업 성취도를 효과적으로 평가하기 위해서는 수능의 난이도가 적절하게 조절되어야 하나 지금까지는 수능 난이도의 편차가 매우 크게 나타나 매 입시연도마다 여러 가지 문제점을 야기해왔다. 본 연구에서는 전문가의 판단에 의존한 기존 방식에서 벗어나 지금까지 시행된 모의고사 및 실제 시험을 통해 축적된 자료를 바탕으로 데이터마이닝 기법을 적용하여 영어영역 문제의 난이도를 예측하는 모델을 구축하고 난이도 예측에 영향을 미치는 요소를 판별하고자 한다. 이를 위해 각 문항의 특성을 판별할 수 있는 여러 지표와 함께 지문, 문제, 답안 등에 나타난 단어들의 특징을 토픽 모델링(topic modeling) 기법을 이용하여 정량화하고 이를 바탕으로 선형회귀분석 및 의사결정나무 기법을 이용하여 각 문항의 난이도를 예측하는 모델을 구축하였다. 구축된 예측 모델을 실제 문제에 적용한 결과 난이도의 상/하 구분에 대한 예측 정확도는 90% 수준으로 나타났으며, 실제 정답률 대비 오차 비율은 약 16% 이내인 것으로 나타났다. 또한 배점 및 문제 유형이 문제의 난이도에 큰 영향을 미치며 지문이 특정 주제에 관련된 경우에도 난이도에 영향을 미치는 것을 확인하였다. 본 연구에서 제시된 방법론을 이용하여 영어영역 각 문제들에 대한 기대 정답률의 범위를 추정할 수 있으며 이를 종합하여 영어영역 전체 문제에 대한 정답률 예측을 통해 적절한 난이도의 문제를 출제하는 데 기여할 수 있을 것으로 기대한다.

데이터 마이닝을 이용한 서울시교직원의 피로요인 탐색연구 (An Exploratory Study of Fatigue Related Factors among School Personnelin Seoul by Data mining)

  • 이희우;신선미
    • 한국학교보건학회지
    • /
    • 제19권1호
    • /
    • pp.79-88
    • /
    • 2006
  • Purpose : To identify general characteristics of school personnel with recent fatigue which was the most frequent symptom among subjective symptoms and to explore fatigue-related factors by evaluating physical and perceived health status, life style, and symptoms through data mining techniques. Methods : We collected a data of the 1,147(male 545, female 602) who were elementary, middle, or high school personnel, answered a questionnaire, and received physical examination in Seoul School Health Center from September to November in 2000. And we investigated the differences between fatigue group and non-fatigue group for demographic characteristics, physical health status, perceived health status, symptoms, and laboratory values by frequency, chi-square test, t-test, or simple logistic regression analysis by SAS package 8.1, and then selected significant variables as input variables of a decision tree analysis of CART model by SAS E-miner. Results : In general characteristics, the fatigue consisted of 41.1%(male 35.2%, female 46.4%) among 1,147 school personnel. In classical statistics, factors related with fatigue were female, lower means of systolic and diastolic pressure, young age, personnel in middle school, irregular eating habit, no exercise a week or less than 30minutes exercise a day, perception of unhealthy status, and subjective symptoms including short of breath at exercise. In simple logistic regression to examine the relationship between selected independent variables and fatigue as a dependent variable, the odds ratio of gender (female vs male) was 1.58 times, and young age ( 20s vs 60s) 20.67 times, and middle vs high school personnel 1.86 times. However, we mined combined several characteristics by SAS-E miner. In CART model, if health perception was healthy, and age was >= 37.5 years, the proportion of the fatigue was only 19.3%. but if health perception was not healthy and symptom was severe 'short of breath' during exercise and age was < 53.5 years, and BMI was >= 22.69, the proportion of the fatigue was up to 84.8%. Conclusions : The fatigue consisted of 41.1%(male 35.2%, female 46.4%). In classical statistics, fatigue-related factors among school personnel were young age, female gender, perceived unhealthy status, subjective physical symptoms, poor life-style, and lower blood pressure rather than only physical health status. However, in data mining, if health perception was healthy and age was >= 37.5 years, the proportion of the fatigue was only 19.3%. but if health perception was not healthy and symptom was severe 'short of breath' during exercise and age was < 53.5 years, and BMI was >= 22.69, the proportion of the fatigue was up to 84.8%.

일부 한국 노인 구강건강 관련 삶의 질 평가를 위한 핵심 음식 선택 (Key Food Selection for Assessement of Oral Health Related Quality of Life among Some Korean Elderly)

  • 황수정
    • 치위생과학회지
    • /
    • 제16권5호
    • /
    • pp.361-369
    • /
    • 2016
  • 본 연구는 구강건강과 구강건강 관련 삶의 질을 파악할 수 있는 핵심 음식 문항을 선택하기 위해 대전 동구보건소 노인 불소도포 스케일링 사업에 참가한 503명의 설문조사 결과를 이용하였다. Kim 등에 의한 저작능력평가 한국음식 30종류 문항 중에서 한국 음식 섭취 빈도, 내적 일치도, 상관분석, 의사결정나무, 주성분분석, 요인분석 등을 통해서 13개의 문항으로 축약하였으며 원문항과 핵심 문항을 성별, 연령대, 치아수, OHIP-14에 따른 분석을 시행한 결과 원문항과 핵심 문항은 유사한 결과를 나타냄을 보여주었다. 구강건강과 구강건강 관련 삶의 질을 파악할 수 있는 13개의 핵심 문항은 단단한 음식군으로 단감, 땅콩, 깍두기, 캐러멜 4문항, 중강도 음식군으로 삼겹살, 찹쌀떡, 배추김치, 사과, 참외, 삶은 닭으로 6문항, 연한 음식군으로 생선조림, 귤, 국수 3문항이 선정되었으며, 본 문항을 구강건강관련 삶의 질 설문조사와 함께 이용할 수 있을 것으로 생각된다.

데이터마이닝 기법을 활용한 불법주차 영향요인 분석 (A Study on the Analysis Effect Factors of Illegal Parking Using Data Mining Techniques)

  • 이창희;김명수;서소민
    • 한국ITS학회 논문지
    • /
    • 제13권4호
    • /
    • pp.63-72
    • /
    • 2014
  • 우리나라는 급속한 경제발전과 고속성장으로 생활수준이 향상되면서 자동차 수요가 급격히 증가함에 따라 교통혼잡, 교통사고, 주차문제 등의 문제가 발생되고 있다. 자동차 증가로 인한 주차문제 중 불법주차는 교통혼잡을 야기하고 주차공간으로 인한 이웃간 분쟁의 원인이 되어 사회적 문제로 대두되고 있다. 이에 본 연구에서는 지방 광역시중 승용차 수단분담률이 높음에도 불구하고 불법주차 단속건수가 상대적을 적은 대전광역시를 대상으로 주차조사를 실시하였으며 불법주차에 대한 원론적인 문제를 파악하기 위해 의사결정나무모형 Exhaustive CHAID분석을 통하여 운전자들의 주차행위에 있어 불법주차를 선택하는 과정과 그에 따른 영향요인을 탐색하여 불법주차의 원인을 파악하고 해결하는 방안을 제시하고자 한다. 분석결과 불법주차를 선택하는 영향요인으로는 거리, 단속경험, 직업, 이용시간대 순으로 영향을 미치는 것으로 나타났으며 예측 모형은 최종적으로 4가지 노드가 도출되었다. 분석결과에 따른 불법주차의 해결방안으로는 공영주차장의 추가설치와 생계유지 및 조업차량의 주차공간 확보가 우선되어야 하고 불법주차 단속강화와 시민의식 고취를 위한 캠페인의 활성화가 필요하다.

기계학습법을 통한 압축 벤토나이트의 열전도도 추정 모델 평가 (Evaluation of a Thermal Conductivity Prediction Model for Compacted Clay Based on a Machine Learning Method)

  • 윤석;방현태;김건영;전해민
    • 대한토목학회논문집
    • /
    • 제41권2호
    • /
    • pp.123-131
    • /
    • 2021
  • 완충재는 고준위 방사성 폐기물을 처분하기 위한 공학적 방벽 시스템에서 중요한 구성요소 중 하나이며 사용 후 핵연료가 담긴 처분용기와 암반사이에 채워지는 물질이기 때문에 지하수 유입으로부터 처분용기를 보호하고, 방사성 핵종 유출을 저지하는 중요한 역할을 수행한다. 따라서 공학적 방벽 시스템의 처분용기로부터 발생하는 고온의 열량은 완충재를 통하여 전파되기에 완충재의 열전도도는 처분시스템의 안전성 평가에 매우 중요하다. 본 연구에서는 국내에서 생산되는 압축 벤토나이트 완충재의 열전도도 예측을 위한 경험적 회귀 모델의 정합성을 검증하고 정확도를 높이기 위해 예측모델의 구축에 기계학습법을 적용해 보았다. 벤토나이트의 건조밀도, 함수비 및 온도 값을 바탕으로 열전도도를 예측하고자 하였으며, 이때 다항 회귀, 결정 트리, 서포트 벡터 머신, 앙상블, 가우시안 프로세스 회귀, 인공신경망, 심층 신뢰 신경망, 유전 프로그래밍과 같은 기계학습 기법을 적용하였다. 기계학습 기법을 이용하여 예측한 결과, 부스팅 기반의 앙상블 기법, 유전 프로그래밍, 3차 함수 기반의 SVM, 가우시안 프로세스 회귀의 기계학습기법을 활용한 모델이 선형 회귀 분석 기법에 비해 좋은 성능을 보였으며, 특히 앙상블의 부스팅 기법과 가우시안 프로세스 회귀 기법을 사용한 모델들이 가장 좋은 성능을 보였다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

기계학습을 이용한 식품위생점검 체계의 효율성 개선 연구 (Improving Efficiency of Food Hygiene Surveillance System by Using Machine Learning-Based Approaches)

  • 조상구;조승용
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.53-67
    • /
    • 2020
  • 본 연구는 가공식품의 제조·가공 업소를 대상으로 기계학습 분야의 지도학습(Supervised Learning) 예측 모형을 적용하여 부적합이 예상되는 업체를 사전에 적발하는 단속 선별시스템을 마련하여 단속 활동의 효율성을 높이고자 하였다. 본 연구에서는 머신러닝의 예측 모델링을 위한 목적 정의, 데이터의 기초 분석과 시각화, 특성 변수 도출 및 예측 모형의 선정 및 예측 등으로 기계학습 수행의 표준적인 절차에 따라 연구를 수행하였다. 종속변수는 2014년도부터 2018년까지 과거 5년 동안 지도점검 적발 건수로 설정하였고, 목적함수는 실제 부적합업체를 사전에 판정하여 단속활동이 이루어지는 것을 최대화하는 것으로 하였다. 제조가공업소의 매출액, 영업일수, 종업원 수 등 기본속성뿐만 아니라 과거 지도점검 단속 이력 정보를 반영하여 자료를 재구성하였다. 특성 변수 추출 방법을 적용하여 부적합 판정에 영향을 미치는 업체 위험, 품목 위험, 환경 위험 및 과거 위반 이력 등을 특성 변수로 도출하여 머신러닝 알고리즘을 데이터에 적용하였다. 랜덤포레스트 모형이 식품의약품안전처 지도점검 업무 목적에 가장 적합한 것으로 나타났다. 본 연구결과를 바탕으로 식품안전 관리 국가 사무가 데이터기반의 과학적인 행정 체계로 발전할 수 있는 기반이 되기를 기대한다.

인공위성 원격 탐사 정보가 자료 기반 모형의 미계측 유역 하천유출 예측성능에 미치는 영향 분석 (Analysis of the Impact of Satellite Remote Sensing Information on the Prediction Performance of Ungauged Basin Stream Flow Using Data-driven Models)

  • 서지유;정하은;원정은;최시중;김상단
    • 한국습지학회지
    • /
    • 제26권2호
    • /
    • pp.147-159
    • /
    • 2024
  • 부족한 하천유출 관측 데이터는 모델 보정 작업을 어렵게 만들어 모델의 성능 향상을 제한한다. 위성 기반 원격탐사 자료는 수문 관련 데이터의 확보에 적극적으로 활용될 수 있으므로 새로운 대안이 될 수 있다. 최근에는 여러 연구를 통하여 기존의 개념적/물리적 모델보다는 인공지능을 이용한 해법이 더 적절하다는 평가를 받고 있다. 본 연구에서는 다양한 순환 신경망들과 의사결정나무 기반 알고리즘들을 결합한 자료 기반 접근 방식을 제안하였다. 또한 인공지능 학습을 위하여 인공위성 원격탐사 정보의 활용성을 조사하였다. 본 연구에서 위성영상은 MODIS와 SMAP의 자료가 사용된다. 공적으로 공개된 25개 유역의 자료를 사용하여 제안된 접근 방식을 검증하였다. 전통적인 지역화 접근법에서 착안하여 모든 유역의 자료를 통합하여 하나의 자료 기반 모델을 학습하는 전략을 채택하였으며, Leave-one-out cross-validation 지역화 설정을 이용하여 하나의 모델이 다양한 유역의 하천유출을 예측함으로써 제안된 접근 방식의 잠재력을 평가하였다. GRU + Light GBM 모델이 대상 유역에 적합한 모델 조합으로 판명되었으며(25개 미계측 유역 일 하천유량 예측 모형효율계수 평균 0.7187) 하천유출이 매우 작은 시기를 제외하면 우수한 미계측 유역의 하천유출 예측 성능을 보여주었다. 인공위성 원격탐사 정보의 영향력은 최대 10% 정도로 파악되었으며, 위성 정보의 추가 적용이 풍수기 또는 평수기보다는 저수기 또는 갈수기의 하천유출 예측에 더 큰 영향을 미쳤다.

도시 미세먼지 저감 식재를 위한 수종 선정 기준의 우선순위 도출 (Prioritization of Species Selection Criteria for Urban Fine Dust Reduction Planting)

  • 조동길
    • 한국환경생태학회지
    • /
    • 제33권4호
    • /
    • pp.472-480
    • /
    • 2019
  • 도심지 내 미세먼지 저감 식재를 위한 식물 소재 선정 시에는 식물의 흡착 기능에 영향을 미치는 식물의 잎 모양, 질감, 수피의 형태 등 형태적 특성을 종합적으로 고려하여 선정하여야 한다. 그러나 지금까지 식물을 통한 미세먼지 저감에 대한 연구는 식물의 흡착 기능보다 흡수 기능에 대한 연구가, 실외식물보다 실내식물인 관엽식물을 대상으로 한 연구가 주로 진행되어 왔다. 특히, 미세먼지 저감 수종 선정 기준이 구체적이지 않아 미세먼지 저감 식재를 위한 식물 소재 선정 기준에 대한 연구가 필요한 실정이다. 본 연구는 퍼지다기준 의사결정법(Fuzzy MCDM)을 활용하여 미세먼지 저감에 영향을 미치는 8가지 지표 항목에 대한 우선순위를 도출하고 도심 내 미세먼지 저감 식재를 위한 수종 선정 기준을 마련하였다. 이를 위하여 미세먼지 관련 분야 전공자와 미세먼지 관련 연구 경험자들을 대상으로 설문 조사를 실시하였다. 설문 조사 분석 결과, 미세먼지 저감에 영향을 미치는 지표 항목 중 잎 면적과 수종의 종류가 가장 높은 순위를 나타냈다. 그리고 잎 표면의 거칠기, 수고, 성장 속도, 잎의 복잡성, 잎 가장자리 형태, 수피 특징 순서로 우선순위가 높게 나타났다. 잎 표면이 거친 수종을 선정할 경우에는 잎에 털이 있고, 광택이 나며, 왁스층이 있는 수종을 우선적으로 선정하는 것이 좋다. 잎의 형태를 고려할 경우, 단일 잎보다 3종 혹은 2종 잎과 손바닥 형태의 잎을 선정하고, 잎의 가장자리는 밋밋한 모양보다는 톱니 모양의 잎을 선별하여 공기 중의 미세먼지가 잎의 표면에 흡착되는 표면적 비율을 높아지게 할 필요가 있다. 수피의 특성을 고려할 경우에는 피목이나 무늬종보다는 코르크층이 있고 껍질이탈이나 갈라짐이 관찰되거나, 앞으로 관찰될 가능성이 높은 수종을 선정하는 것이 바람직하다. 본 연구는 도심 내 미세먼지 저감을 위한 식재계획 시 식물의 미세먼지 흡착 기능에 영향을 미치는 식물의 형태적 특성을 중심으로 식물 소재 선정 기준에 대한 우선순위를 제시하였다는 것에 의의가 있다. 본 연구에서 도출한 결과는 도심지 내 수목 식재 계획을 위한 수종 선정 시 기초 자료로서 활용될 수 있을 것이다.

1시간 호우피해 규모 예측을 위한 AI 기반의 1ST-모형 개발 (Development of 1ST-Model for 1 hour-heavy rain damage scale prediction based on AI models)

  • 이준학;이하늘;강나래;황석환;김형수;김수전
    • 한국수자원학회논문집
    • /
    • 제56권5호
    • /
    • pp.311-323
    • /
    • 2023
  • 집중호우, 홍수 및 도시침수와 같은 재해를 저감시키기 위하여 자연 재난으로 인한 재해의 발생 여부를 사전에 파악하는 것은 중요하다. 현재 국내는 기상청에서 운영하고 있는 호우주의보 및 호우경보를 발령하고 있지만, 이는 전국에 일괄적인 기준으로 적용하고 있어 사전에 호우로 인한 피해를 명확하게 인지하지 못하고 있는 실정이다. 따라서, 일괄된 기준을 지역적 특성을 반영한 호우특보 기준으로 재설정하고 1시간 후에 강우로 발생할 수 있는 피해의 규모를 예측하고자 하였다. 연구 대상 지역으로는 호우피해가 가장 빈번하게 발생하였던 경기도 지역으로 선정하였고, 강우량 및 호우 피해액 자료를 활용하여 지역적 특성을 고려한 시간단위 재해 유발 강우를 설정하였다. 강우에 의한 호우피해 발생 여부를 예측하는 모형을 개발하기 위해 재해 유발 강우 및 강우 자료를 활용하였으며, 머신러닝 기법인 의사 결정 나무 모형과 랜덤 포레스트 모형을 활용하여 분석 및 비교하였다. 또한 1시간 후의 강우를 예측하기 위한 모형으로는 장단기 메모리, 심층 신경망 모형을 활용하여 분석 및 비교하였다. 최종적으로 예측 모형을 통해 예측된 강우를 훈련된 분류 모형에 적용하여 1시간 후 호우에 의한 규모별 피해 발생 여부를 예측하였고, 이를 1ST-모형이라고 정의하였다. 본 연구를 통해 개발된 1ST-모형을 활용하여 예방 및 대비 차원의 재난관리를 실시한다면 호우로 인한 피해를 저감하는데 기여 할 수 있을 것으로 판단된다.