• 제목/요약/키워드: 다변량 목표변수

검색결과 6건 처리시간 0.01초

다변량 목표변수를 갖는 의사결정나무의 노드분리에 관한 연구 (A Study on the Node Split in Decision Tree with Multivariate Target Variables)

  • 김성준
    • 한국지능시스템학회논문지
    • /
    • 제13권4호
    • /
    • pp.386-390
    • /
    • 2003
  • 데이터마이닝은 많은 양의 데이터로부터 의사결정에 유용한 패턴을 발견하는 과정으로서 최근 경영 및 공학 분야의 폭넓은 영역에서 많은 관심을 모으고 있다. 어떤 그룹을 여러 하위그룹으로 분류해내는 일은 데이터마이닝의 주요 내용 중 하나이다. 의사결정나무로 알려진 트리기반 기법은 그러한 분류모형을 수립하는 데 효율적인 방안을 제공한다 트리학습에 있어서 우선적인 관건은 목표변수에 의해 측정되는 노드불순도를 최소화하는 것이다. 하지만 공정관측, 마케팅과학, 임상분석 등과 같은 문제에서는 여러 목표변수를 동시에 고려해야 하는 상황이 쉽게 등장하는 데, 본 논문의 목적은 이처럼 다변량 목표변수를 갖는 데이터셋에서 활용할 수 있는 노드불순도 측정방안을 제시하는 데 있다. 아울러 수치 예를 이용하여 적용결과에 대해 논의한다.

Copula 함수 기반의 이변량 가뭄빈도 해석 (Bivariate drought frequency analysis using copula function)

  • 이정주;김하영;권문혁;권현한
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.309-309
    • /
    • 2022
  • 특정 극치사상 자료에 대한 특성 분석 시 수문자료에 대한 빈도해석은 일반적으로 단일 확률 변수를 기준으로 이루어지는 단변량 해석 방법이 활용된다. 그러나 두 가지 이상의 변량이 서로 상관성을 가지는 경우 다변량 빈도해석이 요구되며, 이를 단변량으로 해석하는 경우 재현기간의 과소추정 등의 문제점이 발생할 수 있다. 최근 이러한 점을 개선하기 위하여 다변량 빈도해석에 관한 연구가 지속적으로 진행되고 있다(Kwon and Lall, 2016; Vaziri et al., 2018). 특히, 가뭄의 경우, 강도(intensity)뿐만 아니라 지속기간, 심도도 매우 중요한 인자로 고려되고 있다. 특히, 가뭄지속기간과 심도의 경우 두 인자 간의 상관성이 매우 크기 때문에 단변량(univariate) 가뭄빈도해석 보다 다변량으로(multivariate) 가뭄빈도해석을 수행하는 것이 가뭄위험도 평가 측면에서 유리하다고 알려져 있다(Shiau and Shen, 2001; Kim et al., 2017). 따라서 이 둘을 결합한 빈도 해석을 위해 Copula Function을 이용한 다변량 빈도 해석에 관한 연구들이 활발히 진행되고 있다. 홍수의 경우 지속시간별 연최대강수량 계열을 이용한 빈도해석 과정이 지침으로 정립되어 수자원 설계 실무에서 활용되고 있으나, 가뭄은 실무에서 활용할 수 있는 지침 및 분석 도구가 없는 실정이다. 이에 환경부와 국가가뭄정보분석센터에서는 '20년도에 단변량 가뭄빈도 해석을 위한 프로그램을 제작·배포하였다. 본 연구에서는 가뭄의 특성을 대변하는 상관도 높은 두 인자인 가뭄 심도(severity)와 가뭄 지속기간(duration)이라는 두 가지 특성을 함께 고려해 이변량(bivariate) 가뭄 빈도를 해석할 수 있는 도구를 개발하는 것을 목표로, 다양한 확률분포형을 이용한 최적 주변 확률분포형 선정과 최신 Copula Function들을 이용한 최적 결합확률분포 추정을 통해 신뢰도 높은 2변량 가뭄빈도 해석을 수행할 수 있는 프로그램을 제작하였으며, 테스트 버전 배포 등을 거쳐 누구나 사용할 수 있도록 공개할 예정이다.

  • PDF

투자용 기술평가 결과에 따른 중소기업의 고용효과 분석 (Analysis of Employment Effect of SMEs According to the Results of Technology Appraisal for Investment)

  • 이준원
    • 벤처창업연구
    • /
    • 제18권4호
    • /
    • pp.77-88
    • /
    • 2023
  • 본 연구는 가젤기업의 특성 중 하나인 매출액 고성장 기업 판별을 목표변수로 설계된 현재의 투자용 기술평가 모형이 가젤기업의 또 다른 특성인 고용효과에 대해서도 확장 가능성이 있는지를 확인하는데 목적이 있다. 2016년~2018년 투자용 기술평가를 통해 기술투자 적합기업(TI1~TI6등급)으로 분류된 중소기업을 대상으로 공분산 분석과 다변량 회귀분석을 통해 절대적 고용효과와 상대적 고용효과를 구분하여 분석하였다. 공분산 분석 결과 기술투자등급(TI등급)이 우수할수록 절대적 고용효과와 상대적 고용효과가 우수한 것으로 확인되었다. 그러나 다변량 회귀분석 결과 절대적 고용효과에 대해서는 혁신 특성으로 정의한 투자용 기술평가 항목이 고용효과에 유의한 영향을 미치지 못하는 것으로 나타났다. 반면, 상대적 고용효과와 관련해서는 혁신 특성 중 기술성이 유의한 영향을 미치는 것으로 확인되었으며, 이는 기술성이 평가 대상기업의 미래 성장성을 기준으로 평가하는 특성이 반영된 것에 기인한다고 판단된다. 특히, 상대적 고용효과의 경우 업력에 따른 체감효과로 인한 왜곡이 적은 실질적 고용효과라는 점에서 의미가 있으며, 현재의 투자용 기술평가 모형은 평가항목의 가중치 조정 등을 통해 향후 상대적 고용효과의 관점에서 확장 가능성이 있는 평가모형이라는 결론을 도출하였다.

  • PDF

건강신념모형에 기초한 고지혈증 환자의 건강행태 관련요인 (Related Factors to Health Behavior by Patients With Hyperlipidemia Based on Health Belief Model)

  • 이은선;나백주;이무식;이진용;홍지영;임영실
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 춘계학술논문집 2부
    • /
    • pp.1057-1060
    • /
    • 2011
  • 본 연구는 건강신념모형의 주요 변수와 고지혈증 환자의 건강행태와의 관계를 파악하여 고지혈증 환자의 건강행태를 촉진하고 더 나아가 만성질환 보건사업 및 교육프로그램을 계획하는데 기초 자료를 제공하고자 시도되었다. 자료는 2009년 07월부터 2010년 9월까지 총콜레스테롤이 240mg/dl 이상이고, 중성지방이 200mg/dl 이상으로 고지혈증을 진단받은 20세 이상의 성인 남녀 146명을 대상으로 구조화된 설문지를 이용하여 조사하였으며, SPSS WIN(14.0 한글판) 프로그램을 이용하여 Chronbach's alpha의 신뢰성 분석, 요인분석, 단변량 및 다변량 분석을 시행하였다. 본 연구의 결과는 다음과 같다. 첫째, 본 연구에서는 LDL-cholesterol, HDL-cholesterol, TG에 대한 인지수준 중 TG에 대한 인지가 가장 높았고, 3가지 모두를 인지한 경우는 28.08%였다. 또한 9가지 항목에 대한 고지혈증 지식수준은 9점 만점에 평균 6.51이었으며, 지식수준이 높을수록 건강행태수준도 높았다. 둘째, 요인분석을 통하여 10개의 건강행태를 2개 요인으로 재분류 하였다. 그 결과, 건강행태 요인 1은 '식이, 운동 습관 및 고지혈증 검사 및 관련 검사요인', 건강행태 요인 2는 '흡연, 음주 습관 및 고지혈증 치료 관련 요인'이었다. 건강행태 요인1에 유의한 관련성이 있는 건강신념변수는 심각성, 이득, 장애로 나타났고, 취약성은 상관 관계가 없는 것으로 나타났다. 각 신념 요인들과 건강행태 간의 상관되는 순서는 이득(r =.455), 심각성 (r=.38), 장애(r=-.244) 순으로 나타나 고지혈증에 대한 이득 인식이 건강행태 요인1과 가장 관련성이 높은 것으로 파악되었다. 그러나, 건강행태 요인2는 건강신념변수와 관련성이 없는 것으로 나타났다. 셋째, 행동계기에 따른 건강행태의 관계를 살펴보면, 교육을 받았을 때 건강행태 요인1과 요인2에 모두 유의한 차이를 보이는 것으로 나타나, 교육이 고지혈증 환자의 건강행태에 중요한 영향을 미치는 것을 보여 주었다. 넷째, 다중회귀분석 결과 고지혈증 건강행태 요인1에 영향을 미치는 요인 중 유의한 요인으로 인지된 심각성 및 이점 신념요인, 교육여부, 보건소 교육정도 이었다. 건강행태 요인2에서는 성별, 연령, 교육여부가 유의한 영향을 미치는 요인으로 나타났다. 이상의 결과를 종합하면 건강신념모형이 고지혈증 건강행태를 예측하는데 적합한 모형이라고 판단 할 수 있으며, 건강행태 요인 특성에 따라 건강신념변수 중 고지혈증 예방에 대한 이득을 높이 인식할 수 있도록 프로그램과 교육목표를 설정하면 보다 효과적인 교육이 될 것이라 생각된다.

  • PDF

농업환경 분야에서 토양 리질리언스 분야별 평가 방법 (Evaluation Methods of Soil Resilience Related to Agricultural Environment)

  • 김민석;민현기;현승훈;김정규
    • Ecology and Resilient Infrastructure
    • /
    • 제7권2호
    • /
    • pp.97-113
    • /
    • 2020
  • 토양은 인간의 삶의 터전이자 식량안보를 책임질 수 있는 근간으로, UN의 지속가능한 개발 목표에서도 중요하게 다루고 있다. 농업환경에서 토양 리질리언스는, 불확실성과 예측불가능성이 높은 시대에 건전하고 지속가능한 토양 관리를 위해 반드시 필요한 연구분야이다. 토양 리질리언스의 정의는 연구자들마다 조금씩 다르나 교란에 대한 회복과 저항 개념을 공통적으로 포함하고 있다. 본 연구에서는 다양한 종류의 교란에 대한 토양 리질리언스의 반응을 평가하기 위하여 사용된 토양의 물리적, 화학적, 생물학적 특성들을 정리하였다. 이어서 토양 리질리언스 연구의 시공간적 범위가 넓은 것에 기인한 다양한 통계 처리 기법들과 리질리언스 정량화 방법들을 정리하였다. 또한 많은 토양 리질리언스 연구들은 공통적으로 (1) 토양 및 부지 선정 (2) 스트레스 및 교란 (독립변수) 설정 (3) 토양 특성 및 지표 (종속변수) 설정 (4) 다양한 시공간적 규모 (scale) 실험 수행 (5) 데이터 통계분석 등 5단계에 걸쳐 수행되어왔음을 확인할 수 있었다. 선행 및 이번 연구를 통해 토양 리질리언스의 일반적 개론을 다루었으며, 이를 바탕으로 국내 농업 환경을 고려한 실질적인 연구가 수행되어야 할 것이다.

딥러닝 시계열 알고리즘 적용한 기업부도예측모형 유용성 검증 (Corporate Default Prediction Model Using Deep Learning Time Series Algorithm, RNN and LSTM)

  • 차성재;강정석
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.1-32
    • /
    • 2018
  • 본 연구는 경제적으로 국내에 큰 영향을 주었던 글로벌 금융위기를 기반으로 총 10년의 연간 기업데이터를 이용한다. 먼저 시대 변화 흐름에 일관성있는 부도 모형을 구축하는 것을 목표로 금융위기 이전(2000~2006년)의 데이터를 학습한다. 이후 매개 변수 튜닝을 통해 금융위기 기간이 포함(2007~2008년)된 유효성 검증 데이터가 학습데이터의 결과와 비슷한 양상을 보이고, 우수한 예측력을 가지도록 조정한다. 이후 학습 및 유효성 검증 데이터를 통합(2000~2008년)하여 유효성 검증 때와 같은 매개변수를 적용하여 모형을 재구축하고, 결과적으로 최종 학습된 모형을 기반으로 시험 데이터(2009년) 결과를 바탕으로 딥러닝 시계열 알고리즘 기반의 기업부도예측 모형이 유용함을 검증한다. 부도에 대한 정의는 Lee(2015) 연구와 동일하게 기업의 상장폐지 사유들 중 실적이 부진했던 경우를 부도로 선정한다. 독립변수의 경우, 기존 선행연구에서 이용되었던 재무비율 변수를 비롯한 기타 재무정보를 포함한다. 이후 최적의 변수군을 선별하는 방식으로 다변량 판별분석, 로짓 모형, 그리고 Lasso 회귀분석 모형을 이용한다. 기업부도예측 모형 방법론으로는 Altman(1968)이 제시했던 다중판별분석 모형, Ohlson(1980)이 제시한 로짓모형, 그리고 비시계열 기계학습 기반 부도예측모형과 딥러닝 시계열 알고리즘을 이용한다. 기업 데이터의 경우, '비선형적인 변수들', 변수들의 '다중 공선성 문제', 그리고 '데이터 수 부족'이란 한계점이 존재한다. 이에 로짓 모형은 '비선형성'을, Lasso 회귀분석 모형은 '다중 공선성 문제'를 해결하고, 가변적인 데이터 생성 방식을 이용하는 딥러닝 시계열 알고리즘을 접목함으로서 데이터 수가 부족한 점을 보완하여 연구를 진행한다. 현 정부를 비롯한 해외 정부에서는 4차 산업혁명을 통해 국가 및 사회의 시스템, 일상생활 전반을 아우르기 위해 힘쓰고 있다. 즉, 현재는 다양한 산업에 이르러 빅데이터를 이용한 딥러닝 연구가 활발히 진행되고 있지만, 금융 산업을 위한 연구분야는 아직도 미비하다. 따라서 이 연구는 기업 부도에 관하여 딥러닝 시계열 알고리즘 분석을 진행한 초기 논문으로서, 금융 데이터와 딥러닝 시계열 알고리즘을 접목한 연구를 시작하는 비 전공자에게 비교분석 자료로 쓰이기를 바란다.