• 제목/요약/키워드: bayesian network

검색결과 509건 처리시간 0.026초

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

Exploring the Feature Selection Method for Effective Opinion Mining: Emphasis on Particle Swarm Optimization Algorithms

  • Eo, Kyun Sun;Lee, Kun Chang
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.41-50
    • /
    • 2020
  • 감성분석 연구에서는 문장에 내포된 감성을 결정짓는 단어를 찾는 것으로부터 시작된다. 경영자는 소비자가 주로 사용하는 단어를 분석함으로써 시장의 반응을 이해할 수 있다. 본 연구에서는 감성분류의 성능에 영향을 미치는 단어를 찾기 위하여 입자군집최적화 탐색방법과 다목적진화 알고리즘이 적용된 속성선택 방법을 제안한다. 속성선택 방법은 기존 머신러닝 분류기를 벤치마킹함으로써 성능이 비교된다. 벤치마킹된 분류기는 의사결정나무, 나이브 베이지안 네트워크, 서포터 벡터 머신, 랜덤포레스트, 배깅, 랜덤 서브스페이스, 로테이션 포레스트이다. 연구결과에 따르면, 입자군집 최적화 알고리즘이 적용된 속성선택방법으로 선택된 속성을 사용한 경우에 속성의 수를 상당히 줄일 수 있었고, 분류기의 성능을 유지시킬 수 있었다. 특히, 정확도 결과에서는 입자군집 최적화 탐색방법으로 선택된 속성을 사용한 경우의 서포터 벡터 머신의 성능이 가장 높게 나타났다. AUC 결과에서는 랜덤 서브스페이스가 가장 높게 나타났다. 본 연구의 결과는 해당 탐색방법과 분류기를 적용함으로써 오피니언 마이닝 모델의 성능을 효율적으로 유지 및 개선시키도록 도움을 준다.

스마트폰상의 지능형 개인화 서비스를 위한 강인한 파티클 필터 기반의 사용자 경로 예측 (Robust Particle Filter Based Route Inference for Intelligent Personal Assistants on Smartphones)

  • 백혜정;박영택
    • 정보과학회 논문지
    • /
    • 제42권2호
    • /
    • pp.190-202
    • /
    • 2015
  • 스마트폰내 GPS 및 다양한 센서 데이터를 이용하여 스마트폰 사용자의 이동 패턴을 학습하고, 이를 기반으로 사용자 목적지와 경로를 예측하여 사용자의 의도에 맞는 서비스를 제공하는 위치기반 지능형 개인화 서비스(Intelligent personal assistant) 연구가 활발히 진행 되고 있다. 위치기반 개인화 서비스의 지능성은 불완전한 센서 데이터로부터 사용자 이동 정보를 처리하여, 실시간으로 사용자의 경로를 예측하는 정확성과 효율성에 좌우된다. 본 논문은 불완전한 정보로부터 사용자의 경로와 목적지를 추론하는 동적 베이지안 네트워크 기반의 강인한 파티클 필터(Robust particle filter)를 제안한다. 제안한 강인한 파티클 필터 방법은 부정확하고, 불완전한 센서 정보를 보완할 수 있는 파티클 생성, 실시간에 계산 복잡도를 감소시키는 효율적인 스위칭 함수와 가중치 함수, 파티클의 정확도를 향상시키는 재표본화로 구성되며, 사용자의 목적지와 경로의 예측 정확성과 효율성의 성능을 향상시켰다.

Gesture based Input Device: An All Inertial Approach

  • Chang Wook;Bang Won-Chul;Choi Eun-Seok;Yang Jing;Cho Sung-Jung;Cho Joon-Kee;Oh Jong-Koo;Kim Dong-Yoon
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제5권3호
    • /
    • pp.230-245
    • /
    • 2005
  • In this paper, we develop a gesture-based input device equipped with accelerometers and gyroscopes. The sensors measure the inertial measurements, i.e., accelerations and angular velocities produced by the movement of the system when a user is inputting gestures on a plane surface or in a 3D space. The gyroscope measurements are integrated to give orientation of the device and consequently used to compensate the accelerations. The compensated accelerations are doubly integrated to yield the position of the device. With this approach, a user's gesture input trajectories can be recovered without any external sensors. Three versions of motion tracking algorithms are provided to cope with wide spectrum of applications. Then, a Bayesian network based recognition system processes the recovered trajectories to identify the gesture class. Experimental results convincingly show the feasibility and effectiveness of the proposed gesture input device. In order to show practical use of the proposed input method, we implemented a prototype system, which is a gesture-based remote controller (Magic Wand).

지능형로봇 행동의 능동적 계획수립을 위한 온톨로지 기반 사용자 의도인식 (Ontology-based User Intention Recognition for Proactive Planning of Intelligent Robot Behavior)

  • 전호철;최중민
    • 한국지능시스템학회논문지
    • /
    • 제21권1호
    • /
    • pp.86-99
    • /
    • 2011
  • 사용자의 행동에 따른 의도 인식의 불확실성 때문에 사용자가 동일한 행동을 하더라도 상황에 따라 그 의도는 다르게 해석되며, 불확실성을 최소화함으로써 사용자 의도 인식의 정확성을 향상 시킬 수 있다. 본 논문에서는 사용자 의도 인식을 위한 온톨로지 기반의 새로운 방법을 제안하고, 불확실성을 최소화하는 방법을 제안한다. 제안하는 방법은 사용자 의도에 대한 온톨로지를 생성하고, 사용자 의도간 계층적 구조와 관계를 RuleML과 동적 베이지안 네트워크를 이용해서 정의하며, 온도, 습도, 시각 등의 수집된 센서 데이터와 정의된 RuleML을 통해 사용자 의도 인식을 보다 정확하게 하는 것이다. 로봇의 능동적 계획수립 방법의 성능을 평가하기 위해 시뮬레이터를 개발했고, 밝생 가능한 모든 상황에 대해 의도인식의 정확도를 측정하는 실험을 했으며, 이에 대한 결과를 제시하였다. 실험결과 비교적 높은 수준의 의도인식 정확도를 나타냈다. 그러나 불확실성을 내재한 행동이 보다 정확한 의도 인식을 방해한다는 것을 알 수 있었다.

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

Human Error Probability Assessment During Maintenance Activities of Marine Systems

  • Islam, Rabiul;Khan, Faisal;Abbassi, Rouzbeh;Garaniya, Vikram
    • Safety and Health at Work
    • /
    • 제9권1호
    • /
    • pp.42-52
    • /
    • 2018
  • Background: Maintenance operations on-board ships are highly demanding. Maintenance operations are intensive activities requiring high man-machine interactions in challenging and evolving conditions. The evolving conditions are weather conditions, workplace temperature, ship motion, noise and vibration, and workload and stress. For example, extreme weather condition affects seafarers' performance, increasing the chances of error, and, consequently, can cause injuries or fatalities to personnel. An effective human error probability model is required to better manage maintenance on-board ships. The developed model would assist in developing and maintaining effective risk management protocols. Thus, the objective of this study is to develop a human error probability model considering various internal and external factors affecting seafarers' performance. Methods: The human error probability model is developed using probability theory applied to Bayesian network. The model is tested using the data received through the developed questionnaire survey of >200 experienced seafarers with >5 years of experience. The model developed in this study is used to find out the reliability of human performance on particular maintenance activities. Results: The developed methodology is tested on the maintenance of marine engine's cooling water pump for engine department and anchor windlass for deck department. In the considered case studies, human error probabilities are estimated in various scenarios and the results are compared between the scenarios and the different seafarer categories. The results of the case studies for both departments are also compared. Conclusion: The developed model is effective in assessing human error probabilities. These probabilities would get dynamically updated as and when new information is available on changes in either internal (i.e., training, experience, and fatigue) or external (i.e., environmental and operational conditions such as weather conditions, workplace temperature, ship motion, noise and vibration, and workload and stress) factors.

데이터 마이닝 기법을 이용한 소규모 악성코드 탐지에 관한 연구 (A Study on Detection of Small Size Malicious Code using Data Mining Method)

  • 이택현;국광호
    • 융합보안논문지
    • /
    • 제19권1호
    • /
    • pp.11-17
    • /
    • 2019
  • 최근 인터넷 기술을 악용하는 행위로 인하여 경제적, 정신적 피해가 증가하고 있다. 특히, 신규로 제작되거나 변형된 악성코드는 기존의 정보보호 체계를 우회하여 사이버 보안 위협의 기본 수단으로 활용되고 있다. 이를 억제하기 위한 다양한 연구가 진행되었지만, 실제 악성코드의 많은 비중을 차지하는 소규모 실행 파일에 대한 연구는 미진한 편이다. 본 연구에서는 기존에 알려진 소규모 실행 파일의 특징을 데이터마이닝 기법으로 분석하여 알려지지 않은 악성코드 탐지에 활용할 수 있는 모델을 제안한다. 데이터 마이닝 분석 기법에는 나이브베이지안, SVM, 의사결정나무, 랜덤포레스트, 인공신경망 등 다양하게 수행하였으며, 바이러스토탈의 악성코드 검출 수준에 따라서 개별적으로 정확도를 비교하였다. 결과적으로 분석 파일 34,646개에 대하여 80% 이상의 분류 정확도를 검증하였다.

전투 시스템의 신뢰성 분석을 위한 FTA와 BBN을 이용한 2계층 접근에 관한 연구 (Two-Layer Approach Using FTA and BBN for Reliability Analysis of Combat Systems)

  • 강지원;이장세
    • 한국정보통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.333-340
    • /
    • 2019
  • 전투 시스템은 다양한 적대적 환경에서 주어진 임무를 수행한다. 주어진 임무를 수행하는 능력을 높이기 위하여 전투 시스템의 신뢰성을 분석하는 연구가 중요하다. 대부분의 기존 연구에서는 위협을 고려하지 않거나 하나의 위협을 고려하며 구성 요소간의 종속적 관계를 고려하고 있지 않다. 본 논문에서는 전투 시스템의 기능에 대한 상실 확률을 도출하며, 이를 이용하여 신뢰성 분석을 진행한다. 제안하는 방법은 하위, 상위의 두 계층으로 나누어 분석한다. 하위 계층에서는 다양한 위협을 동시에 고려하기 위하여 FTA 기법을 이용하여 구성 요소별 고장 확률을 도출한다. 상위 계층에서는 하위 계층에서 도출된 구성 요소의 고장 확률을 이용하며 구성 요소간의 종속적 관계를 고려하기 위해 BBN을 이용하여 기능의 상실 확률을 분석한다. 제안하는 방법을 이용하면 다양한 위협을 동시에 고려하면서 구성 요소간의 종속적 관계에 대한 분석이 가능하다.

환자 IQR 이상치와 상관계수 기반의 머신러닝 모델을 이용한 당뇨병 예측 메커니즘 (Diabetes prediction mechanism using machine learning model based on patient IQR outlier and correlation coefficient)

  • 정주호;이나은;김수민;서가은;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권10호
    • /
    • pp.1296-1301
    • /
    • 2021
  • 최근 전 세계적으로 당뇨병 유발률이 증가함에 따라 다양한 머신러닝과 딥러닝 기술을 통해 당뇨병을 예측하려고 는 연구가 이어지고 있다. 본 연구에서는 독일의 Frankfurt Hospital 데이터로 머신러닝 기법을 활용하여 당뇨병을 예측하는 모델을 제시한다. IQR(Interquartile Range) 기법을 이용한 이상치 처리와 피어슨 상관관계 분석을 적용하고 Decision Tree, Random Forest, Knn, SVM, 앙상블 기법인 XGBoost, Voting, Stacking로 모델별 당뇨병 예측 성능을 비교한다. 연구를 진행한 결과 Stacking ensemble 기법의 정확도가 98.75%로 가장 뛰어난 성능을 보였다. 따라서 해당 모델을 이용하여 현대 사회에 만연한 당뇨병을 정확히 예측하고 예방할 수 있다는 점에서 본 연구는 의의가 있다.