• 제목/요약/키워드: Decision Tree analysis

검색결과 725건 처리시간 0.021초

유사 시계열 데이터 분석에 기반을 둔 교육기관의 전력 사용량 예측 기법 (Power Consumption Forecasting Scheme for Educational Institutions Based on Analysis of Similar Time Series Data)

  • 문지훈;박진웅;한상훈;황인준
    • 정보과학회 논문지
    • /
    • 제44권9호
    • /
    • pp.954-965
    • /
    • 2017
  • 안정적인 전력 공급은 전력 인프라의 유지 보수 및 작동에 매우 중요하며, 이를 위해 정확한 전력 사용량 예측이 요구된다. 대학 캠퍼스는 전력 사용량이 많은 곳이며, 시간과 환경에 따른 전력 사용량 변화폭이 다양하다. 이러한 이유로, 전력계통의 효율적인 운영을 위해서는 전력 사용량을 정확하게 예측할 수 있는 모델이 요구된다. 기존의 시계열 예측 기법은 학습 시점과 예측 시점 간의 차이가 클수록 예측 구간이 넓어짐으로 예측 성능이 크게 떨어진다는 단점이 있다. 본 논문은 이를 보완하려는 방안으로, 먼저 의사결정나무를 이용해 날짜, 요일, 공휴일 여부, 학기 등을 고려하여 시계열 형태가 유사한 전력 데이터를 분류한다. 다음으로 분류된 데이터 셋에 각각의 자기회귀누적이동평균모형을 구성하여, 예측 시점에서 시계열 교차검증을 적용해 대학 캠퍼스의 일간 전력 사용량 예측 기법을 제안한다. 예측의 정확성을 평가하기 위해, 성능 평가 지표를 이용하여 제안한 기법의 타당성을 검증하였다.

데이터마이닝기법을 활용한 강남구 중소형 오피스빌딩의 매매가격 결정요인 분석 (An Analysis for Price Determinants of Small and Medium-sized Office Buildings Using Data Mining Method in Gangnam-gu)

  • 문근식;최재규;이현석
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.414-427
    • /
    • 2015
  • 본 연구는 오피스시장의 흐름을 고려하여 대형오피스빌딩 중심의 기존연구에서 벗어나, 중소형오피스빌딩에 대한 다양한 분석을 통해 모형별 중요변수 도출 및 예측력을 검증하여, 중소형 오피스를 대상으로 투자를 하고자 하는 투자자들에게 정보를 제공함이 목적이다. 중소형오피스빌딩은 대형오피스빌딩과 달리 규모에 대한 기준이 불명확하고, 주거용과 상업용이 혼재되어 있는 경우가 많기 때문에 자료수집의 한계가 있기 때문에 기존 연구는 대형오피스빌딩을 대상으로 변수간의 인과관계 추정에 탁월한 회귀모형에 편중되었다. 본 연구에서는 강남구 중소형오피스빌딩을 직접 전수조사하고 최종 1,056개의 자료를 추출하여 인과관계 과정을 추정하는 선형회귀모형외에, 반복학습을 통해 최적의 결과를 만들어내는 신경망모형 및 의사결정나무모형을 통해 매매가격 결정요인을 추가로 분석하였으며, 이를 통해 대형오피스빌딩과의 차별점을 비교하였다.

토지특성 고저조사를 위한 공간정보 데이터 구축과 데이터 마이닝 분석 (Spatial Information Data Construction and Data Mining Analysis for Topography Investigation of Land Characteristics)

  • 최진호;김준현
    • 한국측량학회지
    • /
    • 제37권6호
    • /
    • pp.507-516
    • /
    • 2019
  • 토지특성조사는 토지가격비준표 작성 및 표준지와 개별지의 특성차이 비교를 통한 지가 산정 과정에서 매우 중요한 과정이다. 따라서 토지특성조사는 최대한 객관적이고 합리적이며 일관성 있게 이루어져야 한다. 그러나 현재 토지특성조사는 지자체 공무원과 감정평가사의 경험이 상당수 반영되고 있기 때문에 객관성과 일관성을 보장하기 어렵다. 본 연구에서는 현행 토지특성조사 항목 중 고저의 조사방식을 분석하여 문제를 정의하고, 고저 분류를 위해 토지의 고저 정보를 공간정보 기술 기반으로 수치화하여 이를 데이터 마이닝 기법 중 하나인 C4.5을 적용하여 고저를 분류하는 방법을 제시하였다. 서울시의 표준지 고저 조사 결과와 필지의 공간정보를 C4.5 모델에 적용한 결과에서는 기존 감정평가사의 조사 결과 약 93.5% 일치 하는 것으로 나타났다.

디지털 병원시대의 급성심근경색증 환자 재원일수의 효율적 관리 방안 (The effective management of length of stay for patients with acute myocardial infarction in the era of digital hospital)

  • 최희선;임지혜;김원중;강성홍
    • 디지털융복합연구
    • /
    • 제10권1호
    • /
    • pp.413-422
    • /
    • 2012
  • 본 연구는 급성심근경색증 입원환자를 대상으로 중증도가 보정된 적정 재원일수 예측모형을 개발하여 의료의 질 관리 및 정책 개발에 필요한 기초자료를 제시하고자 하였다. 2004-2006년 퇴원손상심층조사 자료 중 급성심근경색증 입원환자 2,309명을 대상으로 급성심근경색증 입원환자의 적정 재원일수 예측모형은 데이터마이닝을 이용하여 개발하였다. 의사결정나무 모형에 따라 급성심근경색증 입원환자의 평균재원일수에 가장 큰 영향을 미치는 변수는 관상동맥우회술(CABG)과 동반질환 건수로 나타났다. 앙상블 모형을 이용하여 개발된 급성심근경색증 입원환자의 중증도 보정 재원일수 모형 결과, 적정 재원일수와 실제 재원일수의 차이는 보험유형과 의료기관 소재지가 통계적으로 유의하게 나타났다. 따라서 재원일수의 변이를 줄이고 효율적으로 관리하기 위해 의료기관에서는 다빈도 질환에 대한 중증도 보정 적정 재원일수 예측모형을 개발하여 이를 의료정보시스템에 적용하고 관리하는 활동을 전개해야 할 것이다.

HACCP의 적용을 위한 피자 전문 레스토랑의 위생관리 기준 설정 -피자생산을 중심으로- (Establishment of Hygienic Standards for Pizza Restaurant Based on HACCP Concept -Focused on Pizza Production-)

  • 이복희;허경숙;김인호
    • 한국식품과학회지
    • /
    • 제36권1호
    • /
    • pp.174-182
    • /
    • 2004
  • Hygienic standards for pizza specialty restaurant located in Seoul during summer, 2000 were established based on HACCP concept by measuring temperature, time, pH, $A_{w}$ and microbiological assessments of pizza, and evaluation of hygienic conditions of kitchens and workers. Kitchen and worker conditions were average 1.2 and 1.0 (3 point Sly's scale), respectively, Microbial contaminations occurred at $5-60^{\circ}C$, pH above 5.0, and $A_{w}$ (0.93-0.98). Microbial assessments for pizza processing revealed $1.5{\times}10^{2}-3.9{\times}10^{8}\;CFU/g$ of TPC and $0.5{\times}10^{1}-1.6{\times}10^{7}\;CFU/g$ of coliforms, exceeding standards ($TPC\;10^{6}\;CFU/g\;and\;coliform\;10^{3}\;CFU/g$) established by Solberg et al., although significantly decreased after baking. S. aureus was not discovered, but Salmonella was found in onions. Tools and containers such as pizza cutting knife, topping container, serving bowl, pizza plate, working board, and dough kneading board contained $6.2{\times}10^{2}-1.1{\times}10^{9}\;CFU/g$ of TPC, $2.0{\times}10^{1}-6.2{\times}10^{3}\;CFU/g$ of coliforms. Workers' hands contained $3.1{\times}10^{4}\;CFU/g$ of TPC and S. aureus as compared to safety standards of Harrigan and McCance (500 and 10 CFU/g of TPC and coliforms per $100cm^{2}$). CCPs (critical control points) were determined as receiving, topping, and baking according to CCP decision tree analysis. Results suggest purchase of quality materials, careful monitoring of time and temperature, hygienic use of tools and utensils, and sanitary practicer by workers are recommended as control points for safe pizza production.

Cost-Effectiveness Analysis of Breast Cancer Screening in Rural Iran

  • Zehtab, Nooshin;Jafari, Mohammad;Barooni, Mohsen;Nakhaee, Nouzar;Goudarzi, Reza;Zadeh, Mohammad Hassan Larry
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제17권2호
    • /
    • pp.609-614
    • /
    • 2016
  • Background: Although breast cancer is the most common cancer in women, economic evaluation of breast cancer screening is not fully addressed in developing countries. The main objective of the present study was to analyze the cost-effectiveness of breast cancer screening using mammography in 35-69 year old women in an Iranian setting. Materials and Methods: This was an economic evaluation study assessing the cost-effectiveness of a population-based screening program in 35-69 year old women residing in rural areas of South east Iran. The study was conducted from the perspective of policy-makers of insurance. The study population consisted of 35- to 69-year old women in rural areas of Kerman with a population of about 19,651 in 2013. The decision tree modeling and economic evaluation software were used for cost-effectiveness and sensitivity analyses of the interventions. Results: The total cost of the screening program was 7,067.69 US$ and the total effectiveness for screening and no-screening interventions was 0.06171 and 0.00864 disability adjusted life years averted, respectively. The average cost-effectiveness ratio DALY averted US$ for screening intervention was 7,7082.5 US$ per DALY averted and 589,027 US $ for no-screening intervention. The incremental cost-effectiveness ratio DALY averted was 6,264 US$ per DALY averted for screening intervention compared with no-screening intervention. Conclusions: Although the screening intervention is more cost-effective than the alternative (noscreening) strategy, it seems that including breast cancer screening program in health insurance package may not be recommended as long as the target group has a low participation rate.

농어가경제조사에서 가중핫덱 무응답 대체법의 활용 (Weighted Hot-Deck Imputation in Farm and Fishery Household Economy Surveys)

  • 김규성;이기재;김진
    • 응용통계연구
    • /
    • 제18권2호
    • /
    • pp.311-328
    • /
    • 2005
  • 본 논문은 농어가경제조사에서 발생하는 무응답을 처리하는 방법에 관한 것이다. 농어가경제조사는 모두 층화다단표집을 한 후 가중평균으로 모평균을 추정하므로 이에 적합한 대체법으로 가중핫덱 대체법을 고려하여 가중핫덱 대체 절차와 모평균 추정법, 그리고 대응되는 분산추정법을 고찰하였다. 그리고 모의실험을 통하여 가중핫덱 대체가 두 조사에 적용될 수 있음을 보였고 수정된 잭나이프 분산추정법을 사용하면 추정치의 신뢰도도 효과적으로 나타낼 수 있음을 보였다. 또한 두 조사에 적용할 수 있는 대체군 형성 절차를 제시하고, 예로써 각각 4가지 방안을 비교, 분석하였다. 그리고 그 중 가장 효율적인 방안을 결과로써 제시하였다.

딥러닝을 활용한 개인정보 처리방침 분석 기법 연구 (Privacy Policy Analysis Techniques Using Deep Learning)

  • 조용현;차영균
    • 정보보호학회논문지
    • /
    • 제30권2호
    • /
    • pp.305-312
    • /
    • 2020
  • 개인정보보호법에서는 정보 주체의 권리보장을 위해 개인정보보호 정책문서인 개인정보 처리방침을 공개하도록 규정하고 있고 공정거래위원회에서는 개인정보 처리방침을 약관으로 보고 약관규제법에 따라 불공정약관심사를 하고 있다. 그러나, 정보 주체는 개인정보 처리방침이 복잡하고 이해하기 어려워 읽지 않는 경향이 있다. 개인정보 처리방침의 내용을 간단하고 읽기 쉽게 한다면 온라인 거래에 참여할 확률이 증가하여 기업의 매출 증가에 기여하고, 사업자와 정보주체간의 정보 비대칭성 문제 해결에 기여할 것이다. 본 연구에서는 복잡한 개인정보 처리방침을 딥러닝을 이용하여 분석하여 정보주체로 하여금 가독성 높은 단순화된 개인정보처리 방침을 구현하기 위한 모델을 제시한다. 모델을 제시하기 위해 국내 258개 기업의 개인정보 처리방침을 데이터셋으로 구축하고 딥러닝 기술을 활용하여 분석하는 방안을 제안하였다.

머신러닝 기법을 활용한 낙동강 중류 지역의 Chl-a 예측 알고리즘 비교 연구(수질인자 및 수량 중심으로) (Comparison of machine learning algorithms for Chl-a prediction in the middle of Nakdong River (focusing on water quality and quantity factors))

  • 이상민;박경덕;김일규
    • 상하수도학회지
    • /
    • 제34권4호
    • /
    • pp.277-288
    • /
    • 2020
  • In this study, we performed algorithms to predict algae of Chlorophyll-a (Chl-a). Water quality and quantity data of the middle Nakdong River area were used. At first, the correlation analysis between Chl-a and water quality and quantity data was studied. We extracted ten factors of high importance for water quality and quantity data about the two weirs. Algorithms predicted how ten factors affected Chl-a occurrence. We performed algorithms about decision tree, random forest, elastic net, gradient boosting with Python. The root mean square error (RMSE) value was used to evaluate excellent algorithms. The gradient boosting showed 10.55 of RMSE value for the Gangjeonggoryeong (GG) site and 11.43 of RMSE value for the Dalsung (DS) site. The gradient boosting algorithm showed excellent results for GG and DS sites. Prediction value for the four algorithms was also evaluated through the Receiver operating characteristic (ROC) curve and Area under curve (AUC). As a result of the evaluation, the AUC value was 0.877 at GG site and the AUC value was 0.951 at DS site. So the algorithm's ability to interpret seemed to be excellent.

분류모형을 이용한 여신회사 고객대출 분석에 관한 연구 (A study on the analysis of customer loan for the credit finance company using classification model)

  • 김태형;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.411-425
    • /
    • 2013
  • 데이터마이닝이란 대용량의 자료로부터 의미있는 패턴과 규칙을 찾기 위해서 자동화되거나 반자 동화된 도구를 이용하여 데이터를 탐색하고 분석하는 과정이다. 이러한 데이터마이닝 기법을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 합리적인 의사 결정이 가능하게 된다. 금융분야에서도 데이터베이스 마케팅, 신용평가, 서비스 품질개선, 부정행위 적발 등에 데이터마이닝 기법이 다양하게 사용되고 있다. 금융거래에서 대출의 중요도와 필요성이 시간이 지날수록 점점 높아지고 있으나, 대출을 이용하는 사람과 대출건수가 증가할수록 부실대출의 위험이 함께 증가하기 때문에 대출을 해주는 여신기관의 손실을 막기 위해서는 대출여부를 정확하게 예측할 필요성이 존재한다. 본 연구에서는 국내 A 여신기관의 실제 데이터를 사용하여 대출심사에 관한 연구를 진행하였으며, 모형 구축에 있어서 안정적이고 정확한 예측을 보이는 모형을 찾기 위하여 원 데이터에서의 샘플 정제와 여러가지 모형, 데이터마이닝 기법 등을 사용하여 다양한 모형을 구축하고 비교, 평가하였다.