• 제목/요약/키워드: Decision Tree analysis

검색결과 723건 처리시간 0.026초

기계 학습을 활용한 논증 수준 자동 채점 및 논증 패턴 분석 (Automated Scoring of Argumentation Levels and Analysis of Argumentation Patterns Using Machine Learning)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제41권3호
    • /
    • pp.203-220
    • /
    • 2021
  • 이 연구는 과학적 논증 담화에 대한 자동 채점의 성능 개선 방향을 탐색하였으며, 자동 채점 모델을 활용하여 논증 담화의 양상과 패턴을 분석하였다. 이를 위해 과학적 논증 수업에서 발생한 학생 발화를 대상으로 논증 수준을 평가하는 자동 채점을 수행하였다. 이 자동 채점의 데이터셋은 4가지 단위의 논증 피처와 논증 수준 평가틀로 구성되었다. 특히, 자동 채점에 논증 패턴을 반영하기 위하여 논증 클러스터와 n-gram을 활용하였다. 자동 채점 모델은 3가지의 지도 학습 기법으로 구성되었으며, 그 결과 총 33개의 자동 채점 모델이 구성되었다. 자동 채점의 결과, 최대 85.37%, 평균 77.59%의 채점 정확도를 얻었다. 이 과정에서 논증 담화의 패턴이 자동 채점의 성능을 개선하는 주요한 피처임을 확인하였다. 또한, 의사결정 나무와 랜덤 포레스트의 모델을 통하여 과학적 논증 수준에 따른 논증의 양상과 패턴을 분석하였다. 이를 통하여 주장, 자료와 함께 정당화가 체계적으로 구성된 과학적 논증과 자료에 대한 활발한 상호작용이 이루어진 과학적 논증이 논증 수준의 발달을 이끈다는 점 등을 확인하였다. 이와 같은 자동 채점 모델의 해석은 논증 패턴을 분석하는 새로운 연구 방법을 제언하는 것이다.

사이버대학 중도탈락 개선을 위한 예측모형 개발 (Development of Prediction Model to Improve Dropout of Cyber University)

  • 박철
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.380-390
    • /
    • 2020
  • 사이버대학교는 20대 중심의 일반대학교 학생보다 사회적 배경, 경제적 요인, IT 지식 및 활용능력 등. 복잡한 교육환경의 변화 요인으로 신입생들의 중도탈락이 높은 실정이다. 따라서 사이버대학교 학생은 일반대학교와 다른 중도탈락 방지 대책과 개선 방법이 필요하다. 본 연구에서는 A 사이버대학의 2017년 및 2018년 1학기 중도탈락에 영향을 미치는 요인을 추출하고 '의사결정트리모델'을 통하여 중점관리 및 상담기준을 분류하여 주요 요인을 도출하였다. 각 주요 요인에 대하여 의사결정 적용기준과 주차별 추진방법을 제시하여 '중도탈락개선모형'으로 구현하였다. 그리고 2019년 1학기 신입생을 대상으로 실제로 운영되고 있는 사이버대학 강의운영에 적용하였다. 그 결과 '중도탈락개선모형'을 적용한 신입생의 중도탈락률은 4.2% 감소하였고 학업지속비율은 11.4% 증가하였다. 본 연구의 주요한 의미는 설문지 조사와 사이버대학 LMS(Learning Management System) 학습활동 결과를 동시에 적용하여 객관적인 분석을 하였다는 것이다. 그러나 학생 자료에 대한 정량적인 요인분석은 되었지만, 정성적인 요인분석이 반영되지 못하였고 연구의 구조적인 한계점이 있어 후속연구가 필요하다. 본 연구에서 구현된 개선모형은 사이버대학의 중도탈락률 및 학업지속비율 개선에 유효하게 적용될 것으로 기대한다.

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.

의사결정나무 CART 알고리즘을 이용한 청소년 아침결식 예측 모형: 제7기 (2016-2018년) 국민건강영양조사 자료분석 (A prediction model for adolescents' skipping breakfast using the CART algorithm for decision trees: 7th (2016-2018) Korea National Health and Nutrition Examination Survey)

  • 최선아;정성석;노정옥
    • Journal of Nutrition and Health
    • /
    • 제56권3호
    • /
    • pp.300-314
    • /
    • 2023
  • 본 연구는 2016-2018년 국민건강영양조사 자료를 이용하여 청소년의 아침결식과 관련된 요인을 찾고 아침결식 예측모형을 분석하여 청소년의 아침결식 예방 교육 및 정책 수립에 기초 자료를 제공하고자 하였다. 2016-2018년 국민건강영양조사의 참여자는 총 24,269명으로 12-18세의 청소년 중 변수 결측자를 제외한 대상자는 1,024명이며, 이중 아침식사 섭취자 579명, 결식자 445명이었다. 남학생의 49.1%, 여학생의 50.9%가 아침결식자였다. 연령은 아침식사 결식군이 유의적으로 높으며, 결식군의 고등학생 비율이 높았다. 가구소득 4분위수는 아침식사 섭취군의 9.1%, 결식군의 15.4%가 '하'로 유의적인 차이를 보였다. 조사대상자의 신체적 요인은 유의적인 차이를 보이지 않았으나 체중감소를 위해 결식을 하는 경우는 아침식사 결식군의 25.3%, 섭취군의 10.4%로 유의적인 차이를 보였다. 조사대상자의 식습관과 정신건강에서 아침식사 결식군이 섭취군보다 1일 1회이상 외식횟수가 유의적으로 높았으며, 최근 1년간 1주 동안 5-7회 이상의 저녁식사 섭취빈도는 아침섭취군이 유의적으로 높았다. 또한, 아침식사 섭취군은 결식군보다 영양교육 경험이 유의적으로 높았으며, 아침식사 섭취군이 결식군보다 에너지, 단백질, 지방, 탄수화물, 식이섬유, 콜레스테롤, 비타민 A, 비타민 B1, 비타민 B2, 니아신, 비타민 C, 칼슘, 인, 나트륨, 칼륨, 철의 섭취율 및 탄수화물, 단백질, 지방의 섭취비율도 유의적으로 높았다. 아침결식 예측 모형을 도출하기 위해 CART 알고리즘을 사용한 의사결정나무 분석결과, 아침식사 섭취여부를 결정하는 주요인은 투입된 7개의 변수 중 교육수준과 영양교육 경험을 제외한 결식을 통한 체중조절, 가구소득 4분위수, 저녁식사 빈도, 연령, 외식 횟수였다. 체중조절을 위하여 결식을 하는 경우는 아침식사 결식군에서 높았다. 체중조절을 위하여 결식을 하지 않는 대상자는 가구소득 4분위수의 수준에서 소득이 '하', '중하'일 때 아침결식 비율이 높았다. 가구소득수준이 '상', '중상' 대상자의 경우는 저녁식사 빈도가 주 3-4회 이하인 경우 아침결식 비율이 높았다. 저녁식사 빈도가 주 5-7회이더라도 연령이 14.5세 초과인 경우 아침결식을 하고 있으며, 연령이 14.5세 미만인 대상자들은 외식횟수가 일 1회 이상인 경우, 주 6회 이하인 경우 아침결식을 하고 있었다. 따라서 아침결식을 감소시키기 위해서 청소년 대상의 각 그룹의 결식 주요인에 따라 올바른 체중조절 방법, 아침식사 배달, 건강정보에 대한 접근성 높이기, 아침결식과 질병과의 관련성 교육을 위한 토론수업 및 역할놀이 등과 같은 맞춤형 교육이 필요하며, 향후 청소년의 저녁식사 결식 감소 방안에 대한 연구가 추가적으로 진행되어야 하겠다.

중소기업 프로파일링 분석을 통한 기술유출 방지 및 보호 모형 연구 (A Study on Empirical Model for the Prevention and Protection of Technology Leakage through SME Profiling Analysis)

  • 유인진;박도형
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권1호
    • /
    • pp.171-191
    • /
    • 2018
  • Purpose Corporate technology leakage is not only monetary loss, but also has a negative impact on the corporate image and further deteriorates sustainable growth. In particular, since SMEs are highly dependent on core technologies compared to large corporations, loss of technology leakage threatens corporate survival. Therefore, it is important for SMEs to "prevent and protect technology leakage". With the recent development of data analysis technology and the opening of public data, it has become possible to discover and proactively detect companies with a high probability of technology leakage based on actual company data. In this study, we try to construct profiles of enterprises with and without technology leakage experience through profiling analysis using data mining techniques. Furthermore, based on this, we propose a classification model that distinguishes companies that are likely to leak technology. Design/methodology/approach This study tries to develop the empirical model for prevention and protection of technology leakage through profiling method which analyzes each SME from the viewpoint of individual. Based on the previous research, we tried to classify many characteristics of SMEs into six categories and to identify the factors influencing the technology leakage of SMEs from the enterprise point of view. Specifically, we divided the 29 SME characteristics into the following six categories: 'firm characteristics', 'organizational characteristics', 'technical characteristics', 'relational characteristics', 'financial characteristics', and 'enterprise core competencies'. Each characteristic was extracted from the questionnaire data of 'Survey of Small and Medium Enterprises Technology' carried out annually by the Government of the Republic of Korea. Since the number of SMEs with experience of technology leakage in questionnaire data was significantly smaller than the other, we made a 1: 1 correspondence with each sample through mixed sampling. We conducted profiling of companies with and without technology leakage experience using decision-tree technique for research data, and derived meaningful variables that can distinguish the two. Then, empirical model for prevention and protection of technology leakage was developed through discriminant analysis and logistic regression analysis. Findings Profiling analysis shows that technology novelty, enterprise technology group, number of intellectual property registrations, product life cycle, technology development infrastructure level(absence of dedicated organization), enterprise core competency(design) and enterprise core competency(process design) help us find SME's technology leakage. We developed the two empirical model for prevention and protection of technology leakage in SMEs using discriminant analysis and logistic regression analysis, and each hit ratio is 65%(discriminant analysis) and 67%(logistic regression analysis).

국고채, 금리 스왑 그리고 통화 스왑 가격에 기반한 외환시장 환율예측 연구: 인공지능 활용의 실증적 증거 (A Study on Foreign Exchange Rate Prediction Based on KTB, IRS and CCS Rates: Empirical Evidence from the Use of Artificial Intelligence)

  • 임현욱;정승환;이희수;오경주
    • 지식경영연구
    • /
    • 제22권4호
    • /
    • pp.71-85
    • /
    • 2021
  • 본 연구는 채권시장과 금리시장의 지표를 이용한 외환시장 환율예측 모델을 만드는데 있어 어떤 인공지능 방법론이 가장 적합한지 밝혀내는데 그 목적이 있다. 채권시장의 대표 상품인 국고채와 통안채는 위험회피 상황이 올 때 대규모로 매도되어지고 그런 경우 환율이 상승하는 모습을 자주 보여주었고, 금리시장에서 통화 스왑 (Cross Currency Swap) 가격은 달러 유동성 문제가 생길 때 주로 하락하였으며, 그 움직임은 환율의 상승에 직간접적인 영향을 미쳐온 점 등을 고려하면, 채권시장과 금리시장에서 거래되는 상품의 가격과 움직임은 외환시장에도 직간접적인 영향을 주고 있으며, 세 시장 사이엔 상호 유기적이고 보완적인 관계가 있다고 볼 수 있다. 지금까지 채권시장, 금리시장, 그리고 외환시장 사이의 관계와 연관성을 밝히는 연구는 있어왔으나, 과거 많은 환율예측 연구들이 주로 GDP, 경상수지 흑자/적자, 인플레이션 등 거시적인 지표를 기반으로 한 연구에 집중되어 왔으며, 채권시장과 금리시장 지표를 기반으로 인공지능을 활용하여 외환시장의 환율을 예측하는 적극적인 연구는 아직 진행되지 않았다. 본 연구는 채권시장 지표와 금리시장 지표를 기반으로, 비선형데이터 분석에 적합한 인공신경망(Artificial Neural Network) 모델과, 선형데이터 분석에 적합한 로지스틱 회귀분석 (Logistic regression), 그리고 비선형/선형데이터 분석에 활용 가능한 의사결정나무 (Decision Tree)를 각각 사용하여 환율예측 모델을 만들고 그 수익률을 비교하여 어떤 모델이 가장 외환시장 환율 예측을 하는데 적합한지 알려준다. 또한, 본 연구는 주식시장, 금리시장, 오일시장, 그리고 외환시장 환율 등 비선형적 시계열 데이터 분석에 많이 사용되어진 인공신경망 모델이 채권시장과 금리시장 지표를 기반으로 한 외환시장 환율예측 모델에 가장 적합한 방법론을 제공하고 있다는 것을 증명한다. 채권시장, 금리시장, 그리고 외환시장 간의 단순한 연관성을 밝히는 것을 넘어, 세 시장 간의 거래 신호를 포착하여 적극적인 상관관계를 밝히고 상호 유기적인 움직임을 증명하는 것은 단순히 외환시장 트레이더 들에게 새로운 트레이딩 모델을 제시하는 것뿐만 아니라 금융시장 전체의 효율성을 증가시키는데 기여할 것이라 기대한다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

통계와 시각화를 결합한 데이터 분석: 예측모형 대한 시각화 검증 (Data analysis by Integrating statistics and visualization: Visual verification for the prediction model)

  • 문성민;이경원
    • 디자인융복합연구
    • /
    • 제15권6호
    • /
    • pp.195-214
    • /
    • 2016
  • 예측 분석은 패턴인식(Pattern recognition) 혹은 기계학습(Machine learning)으로 불리는 확률적 학습 알고리즘을 기반으로 하기 때문에 사용자가 분석 과정에 개입하여 더 많은 정보를 얻어내기 위해서는 높은 통계적 지식수준이 요구된다. 또한 사용자는 분석 결과외의 다른 정보를 확인 할 수 없고 데이터의 특성 변화와 데이터 하나하나의 특징을 파악하기 힘들다는 단점이 있다. 본 연구는 이러한 예측분석의 단점을 보완하고자 통계적인 데이터 분석 방법과 시각화 분석 방법을 결합하여 데이터 분석을 진행하였으며 통계적인 분석 방법만을 진행 할 경우 발생하는 단점을 보완하고 데이터에서 더 많은 정보를 도출해 내기 위한 방법론을 제시 하고자하였다. 이를 위해 본 연구는 영화 리뷰에서 추출한 감정 어휘가 독립변인이고 영화의 흥행 값이 종속변인인 데이터를 예제 데이터로 활용하여 진행하였다. 본 연구의 연구 방법론을 적용하였을 때의 이점은 다음과 같다. 첫째, 의사결정나무 분석에서 제시된 분할 기준이 적용될 때 마다 변하는 데이터의 패턴을 파악할 수 있다. 둘째, 제시된 최종 예측모형에 포함된 데이터들의 특성을 확인 할 수 있다. 본 연구의 시사점은 예측모형의 단점을 보완하고 데이터로부터 더 많은 정보를 추출하기 위해 통계적인 데이터 분석과 시각적인 데이터 분석을 결합하여 시행하였다는 것이다. 통계적인 분석 방법을 통해 각 변수의 관계를 파악하고 높은 예측 값을 가지는 모형을 도출하였으며, 시각화 분석에서는 인터랙션 기능을 제공함으로서 통계적으로 제시된 예측모형을 검증하고 더 다양한 정보를 도출 할 수 있게 하였다.

청각장애인의 취업결정요인 분석 연구 -데이터마이닝 기법(Exhaustive CHAID)의 적용 (Analyzing vocational outcomes of people with hearing impairments : A data mining approach)

  • 신현욱
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.449-459
    • /
    • 2015
  • 본 연구의 목적은 청각장애인의 취업결정요인을 데이터마이닝 기법을 적용하여 분석 제공함으로서, 장애인의 취업 성공률을 높임과 동시에 직업재활 개입의 효율성을 극대화할 수 있는 방안을 제시하는데 있다. 자료 분석을 위해 2013년 장애인고용패널조사의 제6차년도 자료를 이용하여, 전체 패널 데이터 중 청각장애인이면서 전체연령 20세 이상 65세 미만의 422명을 의사결정나무 기법의 하나인 Exhaustive CHAID 알고리즘을 적용하여 분석하였다. 본 연구를 통해서 얻어진 주요한 사실의 하나는 국민기초생활수급여부, 일상생활 도움필요 여부, 그리고 자격증 고용서비스 요인간의 상호작용(interaction)에 관한 패턴 분석이 청각장애인의 취업 예측에 주요한 역할을 할 수 있다는 것으로, 향후 직업재활 개입의 효과성을 높이기 위해 효과적인 취업결정요인, 즉 높은 학력 수준, 자격증 보유, 높은 일상생활 독립성을 가지고 있는 장애인을 적극적으로 발굴하여 집중적인 재활 서비스를 제공할 필요가 있을 것으로 사료된다.