• 제목/요약/키워드: decision tree technique

검색결과 207건 처리시간 0.024초

아시아 지역 지면피복자료 비교 연구: USGS, IGBP, 그리고 UMd (A Comparison of the Land Cover Data Sets over Asian Region: USGS, IGBP, and UMd)

  • 강전호;서명석;곽종흠
    • 대기
    • /
    • 제17권2호
    • /
    • pp.159-169
    • /
    • 2007
  • A comparison of the three land cover data sets (United States Geological Survey: USGS, International Geosphere Biosphere Programme: IGBP, and University of Maryland: UMd), derived from 1992-1993 Advanced Very High Resolution Radiometer(AVHRR) data sets, was performed over the Asian continent. Preprocesses such as the unification of map projection and land cover definition, were applied for the comparison of the three different land cover data sets. Overall, the agreement among the three land cover data sets was relatively high for the land covers which have a distinct phenology, such as urban, open shrubland, mixed forest, and bare ground (>45%). The ratios of triple agreement (TA), couple agreement (CA) and total disagreement (TD) among the three land cover data sets are 30.99%, 57.89% and 8.91%, respectively. The agreement ratio between USGS and IGBP is much greater (about 80%) than that (about 32%) between USGS and UMd (or IGBP and UMd). The main reasons for the relatively low agreement among the three land cover data sets are differences in 1) the number of land cover categories, 2) the basic input data sets used for the classification, 3) classification (or clustering) methodologies, and 4) level of preprocessing. The number of categories for the USGS, IGBP and UMd are 24, 17 and 14, respectively. USGS and IGBP used only the 12 monthly normalized difference vegetation index (NDVI), whereas UMd used the 12 monthly NDVI and other 29 auxiliary data derived from AVHRR 5 channels. USGS and IGBP used unsupervised clustering method, whereas UMd used the supervised technique, decision tree using the ground truth data derived from the high resolution Landsat data. The insufficient preprocessing in USGS and IGBP compared to the UMd resulted in the spatial discontinuity and misclassification.

전문가의 형태소 분류를 활용한 과학 논증 자동 채점 (Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제40권3호
    • /
    • pp.321-336
    • /
    • 2020
  • 본 연구는 실제 교실에서 이루어진 학생의 과학 논증과정을 기계학습을 활용한 자동 채점에 적용함으로써, 논증 자동 채점의 가능성 및 개선 방향을 탐색한다. 분자 구조에 대한 고등학생의 과학 논증수업 중 발생한 2,605개의 모든 발화를 대상으로 연구를 진행하였다. 지도 학습을 위해 5가지의 논증 요소로 발화를 분류하였고, 분류된 발화를 대상으로 텍스트 전처리를 수행하였다. 전처리된 학생 발화를 활용하여 서포트 벡터 머신, 의사결정나무, 랜덤 포레스트, 인공신경망의 기계 학습 방법으로 자동 채점 모델을 구성하였다. 불용어 처리가 되지 않은 학생 발화를 활용한 자동 채점의 결과 랜덤 포레스트의 정확도는 65.96%, kappa는 0.5298의 유미한 결과를 얻었다. 불용어 처리를 수행한 학생 발화를 활용한 새로운 채점 모델의 결과 채점의 정확도가 크게 변화하지 않음에도 논증 발화 중 과학 용어 및 논증 요소의 담화표지가 채점 모델의 분류 기준이 되는 결과를 얻었다. 또한 인간 전문가의 논증 채점 과정을 분석하여 얻어진 전문가 형태소를 자동 채점 모델에 생성 규칙 알고리즘으로 적용하였다. 그 결과 의사결정나무에서 반박에 대한 재현율(recall)이 21.74% 증가하였다. 이에 본 연구 결과는 과학 교육 연구에서 기계 학습 및 논증에 대한 자동 채점의 활용 가능성과 연구 방향성을 제안하였다.

청각장애인의 취업결정요인 분석 연구 -데이터마이닝 기법(Exhaustive CHAID)의 적용 (Analyzing vocational outcomes of people with hearing impairments : A data mining approach)

  • 신현욱
    • 디지털융복합연구
    • /
    • 제13권11호
    • /
    • pp.449-459
    • /
    • 2015
  • 본 연구의 목적은 청각장애인의 취업결정요인을 데이터마이닝 기법을 적용하여 분석 제공함으로서, 장애인의 취업 성공률을 높임과 동시에 직업재활 개입의 효율성을 극대화할 수 있는 방안을 제시하는데 있다. 자료 분석을 위해 2013년 장애인고용패널조사의 제6차년도 자료를 이용하여, 전체 패널 데이터 중 청각장애인이면서 전체연령 20세 이상 65세 미만의 422명을 의사결정나무 기법의 하나인 Exhaustive CHAID 알고리즘을 적용하여 분석하였다. 본 연구를 통해서 얻어진 주요한 사실의 하나는 국민기초생활수급여부, 일상생활 도움필요 여부, 그리고 자격증 고용서비스 요인간의 상호작용(interaction)에 관한 패턴 분석이 청각장애인의 취업 예측에 주요한 역할을 할 수 있다는 것으로, 향후 직업재활 개입의 효과성을 높이기 위해 효과적인 취업결정요인, 즉 높은 학력 수준, 자격증 보유, 높은 일상생활 독립성을 가지고 있는 장애인을 적극적으로 발굴하여 집중적인 재활 서비스를 제공할 필요가 있을 것으로 사료된다.

유사 시계열 데이터 분석에 기반을 둔 교육기관의 전력 사용량 예측 기법 (Power Consumption Forecasting Scheme for Educational Institutions Based on Analysis of Similar Time Series Data)

  • 문지훈;박진웅;한상훈;황인준
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.954-965
    • /
    • 2017
  • 안정적인 전력 공급은 전력 인프라의 유지 보수 및 작동에 매우 중요하며, 이를 위해 정확한 전력 사용량 예측이 요구된다. 대학 캠퍼스는 전력 사용량이 많은 곳이며, 시간과 환경에 따른 전력 사용량 변화폭이 다양하다. 이러한 이유로, 전력계통의 효율적인 운영을 위해서는 전력 사용량을 정확하게 예측할 수 있는 모델이 요구된다. 기존의 시계열 예측 기법은 학습 시점과 예측 시점 간의 차이가 클수록 예측 구간이 넓어짐으로 예측 성능이 크게 떨어진다는 단점이 있다. 본 논문은 이를 보완하려는 방안으로, 먼저 의사결정나무를 이용해 날짜, 요일, 공휴일 여부, 학기 등을 고려하여 시계열 형태가 유사한 전력 데이터를 분류한다. 다음으로 분류된 데이터 셋에 각각의 자기회귀누적이동평균모형을 구성하여, 예측 시점에서 시계열 교차검증을 적용해 대학 캠퍼스의 일간 전력 사용량 예측 기법을 제안한다. 예측의 정확성을 평가하기 위해, 성능 평가 지표를 이용하여 제안한 기법의 타당성을 검증하였다.

데이터마이닝을 이용한 설문조사의 심층 분석 (An In-depth Survey Analysis Applying Data Mining Techniques)

  • 김완섭;이수원
    • 공학교육연구
    • /
    • 제9권4호
    • /
    • pp.71-82
    • /
    • 2006
  • 학과의 교육목표 달성을 위해서는 순환형 자율 개선 구조를 운영하기 위한 시스템이 필요하며, 설문조사 분석을 통한 교육시스템의 개선은 교육목표 달성을 위한 중요한 요소 중의 하나이다. 일반적으로 설문조사 분석에서는 항목별로 통계적인 분포를 조사하거나 두 개의 항목간의 연관성을 조사하는 분석 방법이 주로 사용된다. 그러나 이러한 분석 방법은 다양한 항목들 간의 상호 연관성을 분석하지 못하는 한계가 있으므로 보다 심층적인 분석방법이 필요하다. 본 논문에서는 데이터마이닝 기법을 적용한 심층적인 분석 기법을 제시한다. 데이터마이닝이란 대용량의 데이터에 숨겨져 있는 지식을 추출해 내는 기법으로 설문분석에도 효과적으로 이용될 수 있다. 본 분석에서는 Clementine 데이터마이닝 도구를 사용하여 숭실대학교 컴퓨터학과의 재학생에 대한 설문자료에 대한 심층 분석을 수행하였다. 분석의 결과로 '학점'과 다른 항목들과의 연관성을 계층적으로 분석할 수 있었으며, '학점'에 대한 학생상담과 학과의 교육 프로그램 개선에 실제적으로 사용할 수 있는 유용한 정보들을 획득할 수 있었다.

관상동맥우회술 시행환자의 중증도 보정 재원일수 변이에 관한 연구 (The Variation Factors of Severity-Adjusted Length of Stay in CABG)

  • 김선자;강성홍;김원중;김유미
    • 품질경영학회지
    • /
    • 제39권3호
    • /
    • pp.391-399
    • /
    • 2011
  • Our study was carried out to analyze the variation factors of severity-adjusted length of stay(LOS) in coronary artery bypass graft(CABG). The subjects were 932 CABG inpatients of the Korean National Hospital Discharge In-depth Injury Survey from 2004 through 2008. The data were analyzed using $x^2$ test and the severity-adjusted model was developed using data mining technique. The results of the study were as follows: male(71.1%), older than 61 years of age(61.6%), more than 500 beds(92.8%) and admitting via ambulatory care(70.0%) appeared to have higher rate than otherwise. In-hospital mortality of CABG inpatients was 2.8%. In addition, 46.4% of the patients received their care in other residence. The angina pectoris(45.6%) was found to be the highest in principle diagnosis, followed by chronic ischemic heart disease(36.9%) and acute myocardial infarction(12.0%). We developed severity-adjusted LOS model using the variables such as gender, age and comorbidity. Comparison of adjusted values in predicted LOS revealed that there were significant variations in LOS by location of hospital, bed size, and whether patients received the care in their residences. The variations of LOS can be explained as the indirect indicator for quality variation of medical process. It is suggested that the severity-adjusted LOS model developed in this study should be utilized as a useful method for benchmarking in hospital and it is necessary that national standard clinical practice guideline should be developed.

순환적 최적우선탐색을 이용한 배전계통의 정전복구 (Service Restoration In Distribution Networks Using Cyclic Best-First Search)

  • 최상열
    • 조명전기설비학회논문지
    • /
    • 제18권5호
    • /
    • pp.162-168
    • /
    • 2004
  • 정전복구 문제는 배전계통에서 고장이 발생한 겨우 사고 구간 이후의 비 고장 정전구간내의 부하를 적절한 스위칭을 통하여 인접된 건전피더로 빠른 시간 내에 절체 시키는 것이며 이때 방사상 선로구성, 전압, 전류 등의 제약조건들이 만족되어야 한다. 본 논문에서는 건전피더들이 고장 발생 직후 계통으로 공급하여야 할 부하의 총량을 규정하는 함수와 순환적 최적우선탐색을 이용하여 사고 발생 시 단지 정전의 복구뿐만 아니라 부하의 균등화까지도 함께 수행되는 효율적인 정전복구 알고리즘을 제시한다. 제시되는 알고리즘은 건전피더들이 고장 발생 직후 계통으로 공급하여야 할 부하의 총량을 규정하는 함수로부터 각 피더들이 공급하여야 할 목표치를 제안하고 또한 지수의 목적 값을 만족하는 스위칭을 찾기 위하여 순환적 최적우선 탐색법을 이용한다. 본 논문에서는 제시한 알고리즘을 실제로 서울의 K지사에서 윤용하고 있는 108모선에 적용하여 결과를 도출 했으며 그 결과 제안된 알고리즘을 이용할 경우에 적은 탐색 횟수로 정전이 복구됨과 동시에 건전 선로간의 부하가 균등화되었음을 입증하였다.

데이터마이닝 모형을 활용한 호흡기질환의 주요인 선별 (Identification of major risk factors association with respiratory diseases by data mining)

  • 이제영;김현지
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권2호
    • /
    • pp.373-384
    • /
    • 2014
  • 데이터 마이닝이란 대량의 데이터나 복잡한 구조의 데이터들을 정교한 통계분석과 모델링 테크닉을 이용하여 정확히 식별되지 않는 패턴이나 자료간의 상관관계를 밝혀내어 여러 가지 결과를 예측해 내는 통계적 기법이다. 이러한 데이터 마이닝 기법은 금융, 통신, 유통, 의학 등 다양한 분야에 활용되는데, 본 연구에서는 의학 분야에 적용하여 호흡기질환에 영향을 끼치는 요인을 선별하였다. 분석은 2012년도 경상북도 지역사회건강조사에 참여한 사람 중 의사에게서 폐결핵, 천식, 알레르기성 비염을 진단받은 경험이 있는 호흡기질환군과 건강군으로 정리한 자료를 대상으로 하였다. 호흡기질환이 영향을 끼치는 주요인을 선별하기 위해 인공신경망, 로지스틱 회귀모형, 베이지안 네트워크, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터와 검증용 데이터로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용하여 정확도를 비교하였다. 그 결과 CART가 최적 모형으로 선정되었으며 CART의 의사결정나무를 통하여 우울감 인지 여부, 현재 흡연여부, 스트레스 인지 여부 순으로 호흡기질환에 영향을 주는 것으로 나타났다. 그리고 호흡기질환의 주요인들에 대한 오즈비를 구하여 개별적인 영향력에 대해서도 밝혔다.

디지털 맘모그램을 위한 라플라시안 피라미드에서 대비 척도를 이용한 대비 향상 방법 (A Contrast Enhancement Method using the Contrast Measure in the Laplacian Pyramid for Digital Mammogram)

  • 전금상;이원창;김상희
    • 융합신호처리학회논문지
    • /
    • 제15권2호
    • /
    • pp.24-29
    • /
    • 2014
  • X-선 유방촬영술은 유방암의 조기발견을 위해 가장 일반적으로 이용되고 있다. 유방암의 조기 발견과 진단의 효율성을 증가시키기 위하여 많은 영상향상 방법들이 연구개발 되었다. 본 논문은 디지털 맘모그램을 위하여 라플라시안 피라미드에서 대비척도를 이용한 다중 스케일 대비 향상 방법을 제안한다. 제안한 방법은 입력 영상을 가우시안 피라미드와 라플라시안 피라미드로 분해하고, 분해된 다해상도 영상의 피라미드 계수들은 저주파수 성분들과 고주파수 성분들의 비율로 대역 제한된 국부 대비척도를 정의한다. 대비 향상을 위하여 정의된 대비척도를 이용하여 분해된 피라미드 계수들을 수정하고, 수정된 계수들로 피라미드 복원 과정을 거처 최종 향상된 영상을 얻는다. 제안된 방법의 성능은 실험을 통하여 기존 방법들과 향상결과를 비교하고, 대비 측정 알고리즘을 이용한 정량적인 평가결과에서 우수한 성능을 확인하였다.

웹 기반의 도시철도 전문가시스템 개발에 관한 연구 (A Study on the Development of Web-based Expert System for Urban Transit)

  • 김현준;배철호;김성빈;이호용;김문현;서명원
    • 한국자동차공학회논문집
    • /
    • 제13권5호
    • /
    • pp.163-170
    • /
    • 2005
  • Urban transit is a complex system that is combined electrically and mechanically, it is necessary to construct maintenance system for securing safety accompanying high-speed driving and maintaining promptly. Expert system is a computer program which uses numerical or non-numerical domain-specific knowledge to solve problems. In this research, we intend to develop the expert system which diagnose failure causes quickly and display measures. For the development of expert system, standardization of failure code classification system and creation of BOM(Bill Of Materials) have been first performed. Through the analysis of failure history and maintenance manuals, knowledge base has been constructed. Also, for retrieving the procedure of failure diagnosis and repair linking with the knowledge base, we have built RBR(Rule Based Reasoning) engine by pattern matching technique and CBR(Case Based Reasoning) engine by similarity search method. This system has been developed based on web to maximize the accessibility.