• 제목/요약/키워드: 인과확률

검색결과 83건 처리시간 0.029초

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

공학교육에서 귀납법 추론을 위한 변수 통제 (Variable Control in Inductive Inference for Engineering Education)

  • 황운학
    • 실천공학교육논문지
    • /
    • 제6권1호
    • /
    • pp.1-7
    • /
    • 2014
  • 이 연구는 귀납법적 확증(confirmation)을 위해서 실행하는 실험이 확률론적 추론임을 밝히고 이의 단점을 보완하기 위해서 적용된 확률적 확인론에 따라서 수행하는 실험에서 통제하는 절차와 방법을 다루었다. 이 통제란 알려진 조건과 상황들을 인위적으로 조작하되 가설에서 명시된 특정조건(즉 독립변수) 이외의 조건(기타 변수)이 작용하여 현상이 발생(종속변수)될 가능성을 막는 것이다. 특정조건에 의하여 현상이 발생할 가능성을 극대화 시키고 기타 조건에 의하여 현상이 발생할 가능성을 최소화시키는 것이다. 그렇게 함으로써 특정 선행사건(독립변수)과 후행사건(종속변수) 사이의 진정한 인과관계성(the causal relationship)을 객관적으로 정확하게 추론하도록 보장하는 방법이 통제인 것이다. 이 연구에서는 변수통제에 대해 좀 더 구체적으로 다루기 위해 대표적인 헬스기구인 Elliptical Trainer (ET)와 Tread Mill (TM)를 이용한 실험에서 변수통제를 가하여 운동속도(독립변수)에 따른 에너지 소비량 변화(종속변수)와 운동속도(독립변수)에 따른 호흡교환율(RER)과 심장 박동율(HR)의 변화(종속변수)를 얻었다. 마지막으로 이 통제를 통해 얻어진 실험결과들을 그래프로 그려 그 결과에 따라 연구의 결론이 다루어졌다.

파산위험을 이용한 기업의 재무성과와 환경성과의 관계 분석 (An Empirical Analysis on the Relation of Environmental and Financial Performances: Default Risk Approach)

  • 홍정훈;이수경
    • 환경정책연구
    • /
    • 제5권3호
    • /
    • pp.1-24
    • /
    • 2006
  • 최근 들어 기업의 사회적 책임이 강조되면서 환경보전을 위한 기업의 노력이 확대되고 있다. 과거에는 기업의 환경투자는 비용요인으로 기업의 재무성과에 악영향을 미친다고 생각되어 왔으나 최근에 환경투자는 기업가치 제고의 수단으로 인식되고 있기도 하다. 이러한 상황에서 본 연구에서는 기업의 경영성과와 환경성과 사이에는 어떤 관계가 있는가를 탐구하였다. 본 연구에서는 기업의 재무성과를 기존 연구에서 이용하였던 수익성 지표뿐만 아니라 기업의 파산위험이라는 측면에서 측정하였다. 그 결과 환경성과는 기업의 수익성 지표인 ROE와 양의 상관관계에 있을 뿐만 아니라 기업의 위험지표인 부도확률과 음의 상관관계가 있는 것으로 나타났다. 본 연구의 결과는 기업들이 기업지속가능성(corporate sustainability) 차원에서 환경투자가 필수불가결하다는 것을 시사하고 있다. 물론 탁월한 환경성과가 높은 재무성과를 보장하는 충분조건은 아니나 적어도 높은 재무성과를 위한 필요조건이라 할 수 있다. 따라서 기업은 환경투자를 단순한 비용으로 인식하지 말고 미래의 수익성 제고를 위한 투자로 인식하여야 할 것이다.

  • PDF

동일 데이터의 비교분석에 관한 연구 (회귀분석모형과 구조방정식모형) (The Study on Comparative Analysis of the Same Data through Regression Analysis Model and Structural Equation Model)

  • 최창호;유연우
    • 디지털융복합연구
    • /
    • 제14권6호
    • /
    • pp.167-175
    • /
    • 2016
  • 본 연구는 인과관계 분석에서 주로 활용되는 SPSS statistic(회귀분석)과 구조방정식모델을 구현하는 프로그램 중 하나인 AMOS 프로그램을 각각 활용하여 동일한 데이터에 대하여 실증분석을 실시하였다. 실증분석 결과, 회귀계수 및 유의확률에서 서로 다른 결과값이 나왔으며, 특히 매개효과 검정에서 귀무가설 기각역 근처의 유의확률값(즉, t값 및 C.R.값의 절대값이 1.96 근처)을 보이는 상황에서 SPSS statistic(회귀분석)에서는 매개효과가 있는 반면, AMOS 프로그램(구조방정식)에서는 매개효과가 없는 것으로 나타났다. 결국, 동일한 데이터임에도 불구하고 어떤 통계프로그램을 활용하느냐에 따라 다른 결과값(특히, 측정오차가 클수록 결과값이 크게 달라짐)이 나올 수 있음을 알 수 있다.

Copula Bayesian networks를 활용한 수문학적 가뭄에 대한 사회경제적 인자들의 영향 평가 : 충주댐 유역을 중심으로 (Socio-eoconomic impacts on human-modified hydrological drought using Copula Bayesian networks : a case study of Chungju Dam basin)

  • 신지예;손호준;권현한;김태웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.343-343
    • /
    • 2021
  • 최근 국내외적으로 발생되는 대규모의 가뭄에 대하여 여러 과학자들은 자연적인 현상의 가뭄이 아니라 인간의 영향으로 변형된 유역 상황으로 증발산과 토양수분량 그리고 하천유량 등이 자연적인 상태와 다르게 변화되면서 지속된 가뭄으로 평가하고 있다. 우리나라는 대부분의 지역에서 댐과 저류지를 중심으로 수자원 관리가 이루어지고 있으며, 자연적인 수문과정에 의한 유출에 따른 수문학적 가뭄과는 차이가 존재한다. 사회경제적 인자(인구밀도, 농업 및 산업 경제규모 등)는 댐 및 저수지의 용수사용에 큰 영향을 미치며, 저류지의 저류량을 활용하여 판단한 인위적 용수사용이 고려된 수문학적 가뭄(인위적 수문학적 가뭄)과 자연 상태로의 수문학적 가뭄의 특성은 크게 다를 수 있다. 하지만, 사회경제적 인자들이 수문학적 가뭄에 미치는 영향에 대하여 비교한 연구는 상관성 분석을 토대로한 연구가 대부분이다. 본 연구에서는 인자들이 인위적 수문학적 가뭄에 미치는 정도를 정량적으로 비교하기 위하여 베이지안 네크워크 모형을 활용하여 사회경제적 인자와 인위적 수문학적 가뭄과의 관계를 분석하였다. 해당 관계를 바탕으로 코플라 함수를 활용함으로써 베이지안 네트워크 내의 결합확률을 산정하였다. 다양한 사회경제적 인자들에 중에서 인과지도를 바탕으로 활용 가능한 인자로 농업용수 사용량, 생공용수 사용량 자료를 구축하였으며, 기상학적 가뭄지수를 추가적으로 고려하여 한강유역 충주댐 유역에 적용하였다. 그 결과 기상학적 가뭄과 농업용수 사용량과 생공용수 사용량은 값이 증가함에 따라 인위적 수문학적 가뭄의 발생확률이 증가하였다. 사회경제적 인자 중에서는 생공용수 사용량(0.39~0.49)이 전반적으로 농업용수 사용량(0.36~0.48)보다 인위적 수문학적 가뭄에 보다 큰 영향을 미치고 있으며, 값이 적을수록 생공용수 사용량의 영향이 보다 더 크다는 것이 확인되었다. 이를 바탕으로 인위적 수문학적 가뭄의 대응을 위해서는 농업용수 사용량보다 생공용수 사용량의 감축이 우선적으로 이루어져야 그 효과가 클 것으로 판단된다. 본 연구에서 제시한 모형은 베이지안 네트워크를 기반으로 하므로, 둘 이상의 인자에 대하여 복합적으로 가뭄에 영향을 미치는 영향에 대한 추가적인 연구가 가능하다.

  • PDF

연구개발 기업에 대한 창업 성공 요인 분석 - 국내 사례를 중심으로 (Research for Key Success Factors about Technological Entrepreneurs - Case in Korea)

  • 신유섭;최명길
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2009년도 춘계학술발표논문집
    • /
    • pp.554-560
    • /
    • 2009
  • 연구개발 자원을 활용하여 창업하는 경우 초기 연구개발에 대한 투자가 선행되어야 하며 이에 따라 물적, 인적 자원 등의 투입 여부, 규모와 시기, 방법의 적절성 등이 성공적인 창업 단계로 발전 할 수 있는 중요한 요소라 할 수 있다. 또한 세계적인 기술의 흐름과 시장의 흐름을 파악하여 시장을 선도할 수 있는 제품과 서비스의 개발이 이루어져야 창업 단계로의 성공적인 발전에 대한 확률이 높아 질 수 있을 것이다. 이 밖에도 관련 있는 여러 요소가 있을 수 있다고 가정한다면, 이 여러 가지 요인들 중 초기 단계의 연구개발 기업의 경우 성공적인 창업단계에 이를 수 있는 주요한 요소들의 특성과 외부의 환경적인 영향이라 할 수 있는 변수들은 무엇이며 각 요소 및 변수들의 성공적인 창업 단계로의 발전과의 상관, 인과 관계를 연구, 고찰해 보며 주요한 요소들 각각의 상관관계를 연구하여 이를 토대로 초기 단계의 연구개발 창업 기업에 있어서 성공적인 창업 단계로의 발전에 대한 주요 성공 요인을 해외에서의 창업 성공 요인에 대한 비교 연구와 국내의 사례에 대한 연구를 통하여 고찰하여보고자 한다.

  • PDF

베이지안 추론을 이용한 컴퓨터 오락추구 행동 예측 분석 (An Analysis on Prediction of Computer Entertainment Behavior Using Bayesian Inference)

  • 이혜주;정의현
    • 컴퓨터교육학회논문지
    • /
    • 제21권3호
    • /
    • pp.51-58
    • /
    • 2018
  • 본 연구에서는 컴퓨터 오락추구 행동의 예측 분석을 목적으로 한국아동 청소년패널조사(KCYPS) 데이터를 대상으로 베이지안 추론을 사용하여 컴퓨터 오락추구 행동과 관련 변수들의 상호의존성과 인과관계를 조사하였다. 이를 위해 일반 베이지안 네트워크를 통한 마코프 블랭킷(Markov Blanket)을 추출하였다. 또한 변수들의 확률을 변화시켜 컴퓨터 오락추구 행동에 대한 변수들의 영향 정도를 분석하였다. 연구결과, 컴퓨터 오락추구 행동은 관련 변수들(학교학습활동, 비행-흡연, 비행-조롱, 팬덤활동, 학교규칙)의 값을 조정하였을 때 유의미하게 변화되는 것으로 나타났다. 본 연구의 결과로 베이지안 추론은 청소년의 컴퓨터 오락추구 행동을 예측하고 조절하는 등 교육 분야에서 활용될 수 있음을 제시하였다.

밀도 기반 공간 군집체계를 반영한 해양사고 위험 예측 모델 개발에 관한 연구

  • 양지민;최충정;백연지;임광현;노유나
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.146-147
    • /
    • 2023
  • 해양사고는 도로교통과 달리 지속적으로 증가하고 있으며, 인명피해가 주로 발생하는 주요 사고의 치사율은 도로교통의 11.7배 이상이다. 해양사고는 외부 환경에 따라 사고 위치가 변하고 즉각적인 조치가 어려워 타 교통에 비해 대형 사고로 이어질 가능성이 매우 크다. 그러나 여전히 사고가 발생하고 난 후 대응하는 등 사후적 관리 단계에 무르고 있어 사고의 주요 요인을 사전에 식별·관리하는 선제적 관리단계로의 전환 필요성이 대두되고 있다. 따라서 본 연구에서는 해양사고 발생 지점 밀도 기반의 가변 공간 군집체계를 반영한 해양사고 예측모델을 개발하였다. 반복적인 공간 가산분석을 통해 밀도가 높을수록 작은 규모의 격자 체계를 가질 수 있도록 상세한 공간 군집체계를 구성하였으며, 단순 사고 위험도 예측뿐만 아닌 사고 인과관계를 설명할 수 있는 BN(Bayesian Network) 기반의 모형을 사용하여 해양사고 위험예측 모델을 개발하였다. 또한, Cost-of-Omission을 통해 해양사고 예측확률의 변화와 각 변수들의 영향력을 확인하였으며, 월별 해양사고예측 결과를 GIS를 활용하여 2D/3D 기반으로 시각화하였다.

  • PDF

사고 데이터의 주요 원인을 이용한 어선 해양사고 분석에 관한 연구 (A Study on the Analysis of Marine Accidents on Fishing Ships Using Accident Cause Data)

  • 박상아;박득진
    • 한국항해항만학회지
    • /
    • 제47권1호
    • /
    • pp.1-9
    • /
    • 2023
  • 해양사고 분석에 관한 많은 연구가 진행되고 있으며, 해양사고는 매년 업데이트되고 있어 주기적으로 원인을 분석하고 규명하는 것이 필요하다. 이 연구에서는 이전의 데이터와 새로운 데이터를 활용하여 해양사고를 파악·분석을 통해 어선 해양사고 원인을 규명하여 사고를 예방하는 것이다. 해양사고 데이터는 어선의 특수성을 고려하여 해양안전심판원의 어선에 대한 해양사고재결서 16년간의 1,921건을 수집하였으며, 해양수산부 종합상황실 사고알림문자 이력 3년간의 1,917건을 수집하였다. 재결서 데이터와 문자 데이터는 변수에 따라 분류하였으며, 수량화 작업을 수행하였다. 수량화 작업을 통한 데이터를 사용하여 베이지안 네트워크를 이용해 사전확률을 계산하였고, 후방 추론을 이용하여 어선 해양사고를 예측하였다. 두 가지 수집한 데이터 중 해양사고재결서는 모든 어선의 사고가 재결서에 포함되지 않았기 때문에 해양수산부 사고알림문자를 선택하였다. 분류한 데이터를 베이지안 네트워크를 사용하여 어선 해양사고의 사전 확률을 계산하였다. 후방 추론으로 계산한 기관손상이 서해 연안에서 발생할 어선 해양사고의 확률은 0.0000031%였다. 이 연구의 기대효과는 어선 해양사고를 분석하기 위하여 새로운 사고알림문자 데이터를 활용하여 실제 어선 특성에 맞는 해양사고를 분석할 수 있다는 것이다. 추후에는 어선 해양사고에 영향을 미치는 변수들 간의 인과관계에 관한 연구를 수행할 예정이다.

산업의 주식시장 선행성에 관한 실증분석 : 정보의 점진적 확산과 자산간 수익률 예측 가능성 (A study on Industries's Leading at the Stock Market in Korea : Gradual Diffusion of Information and Cross-Asset Return Predictability)

  • 이해영;김종권
    • 재무관리연구
    • /
    • 제25권1호
    • /
    • pp.23-49
    • /
    • 2008
  • 본 논문의 목적은 과거의 산업 포트폴리오 수익률이 확률추세로부터 어떻게 전체 주식시장과 두 가지 거시경제 변수인 경기동행지수와 산업생산 등을 예측할 수 있는 지를 알아보는 데에 있다. 이를 위하여 본 연구에서는 연구모형을 설정한 후 세 가지 검정절차를 제시하고 이를 실증적으로 분석하였다. 당월의 전체 주식시장 수익률은 과거의 시차를 지닌 특정 산업부문 포트폴리오 수익률에 대하여 양(+)의 상관관계를 유지하고 있다는 '예측 1'과 전체 주식시장의 수익률은 특정산업부문의 수익률에 대하여 선행성을 지닐 수 없다는 '예측 2'에 대한 검정 결과는 '예측 1'과 '예측 2'가 지지되고 있음을 파악할 수 있었다. 그리고 산업별 포트폴리오 수익률과 거시경제변수 간의 높은 상관관계를 토대로 하여 전체 주식시장 수익률 예측을 가능하게 하는 업종 정보의 점진적 확산 현상이 발생하게 되는가를 검토하기 위하여 각 산업들의 포트폴리오 수익률과 전체 주식시장 수익률이 VAR 모형을 토대로 볼 경우 Granger 인과관계를 갖고 있는 지를 분석하였다. 분석결과 21개 업종은 각 산업별 포트폴리오 수익률이 전체 주식시장 수익률을 5% 수준에서 통계적으로 유의한 영향을 주고 있음을 알 수 있었다. 이들 21개의 산업별 포트폴리오 수익률은 경제적으로도 중요한 의미를 지니고 있어 산업제품의 가격 상승과 하락이 경제에 미치는 영향을 파악할 수 있다. 특히 음료 업종에서 전체 주식시장 수익률과 상호간의 인과성을 나타내었으며, 인터넷과 화장품 업종에서는 전체 주식시장 수익률이 이들 업종에 대하여 일방적인 영향을 보이고 있음을 알 수 있었다.

  • PDF