• 제목/요약/키워드: 의사결정트리

검색결과 242건 처리시간 0.034초

확장 베이지안망을 적용한 고위험성 HRCT 영상 분류 (Classification of Very High Concerns HRCT Images using Extended Bayesian Networks)

  • 임채균;정용규
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.7-12
    • /
    • 2012
  • 최근 의료분야에서는 방대한 양의 정보를 효과적으로 처리하기 위하여 의사결정트리, 신경망, 베이지안망 등을 비롯한 각종 데이터마이닝 기법의 적용 방안을 연구하고 있다. 또한 환자의 기본적인 신상정보나 과거력, 가족력과 같은 정보 이외에도 MRI, HRCT 등의 영상정보를 추가적으로 수집하고 진단에 활용함으로써 질병진단의 정확도 향상을 도모하는 것이 일반적인 현황이다. 하지만 실제 상황에서는 결과에 영향을 미치는 다량의 변수가 존재하므로 특정 데이터마이닝 기법을 통하여 얻을 수 있는 정보가 상당히 제한적이라고 볼 수 있다. 그뿐만 아니라 촬영된 의료영상도 부수적으로 진단에 긍정적인 영향을 줄 수는 있지만, 주관적인 판단 비중이 높아 자동화된 시스템으로 처리하기가 난해한 문제이다. 이에 따라 현실의 복잡한 상황에서 상대적으로 대처가 유리하고 다변량 확률적인 모델을 기반으로 하는 베이지안망에서 K2나 TAN 등으로 탐색 알고리즘을 개선한 확장 모델이 제안되었다. 이 때, 적용되는 탐색 알고리즘의 종류에 따라 그 성능이 크게 좌우되는 확장 베이지안망의 특성상, 각 기법에 대한 성능과 적합성의 사실적인 평가가 요구된다. 따라서 본 논문에서는 확장 베이지안망에서 질병 진단에 대한 동일한 데이터를 이용하여 실험을 수행하였으며, K2, TAN과 같은 탐색 알고리즘에 변화를 주며 분류 정확도를 측정하였다. 실험에서는 10-fold 교차검증을 수행한 결과분석을 기반으로 성능을 비교평가하고, 발병 위험성이 높은 환자에 대한 HRCT 영상을 분류하여 고위험성의 데이터를 식별 가능하도록 하였다.

생활 습관, 주거지 주변 녹지 비율 및 지하수 내 라돈 농도 따른 실내 라돈 농도 영향 모델 (Affected Model of Indoor Radon Concentrations Based on Lifestyle, Greenery Ratio, and Radon Levels in Groundwater)

  • Lee, Hyun Young;Park, Ji Hyun;Lee, Cheol-Min;Kang, Dae Ryong
    • Journal of health informatics and statistics
    • /
    • 제42권4호
    • /
    • pp.309-316
    • /
    • 2017
  • 라돈 및 그 자손은 폐암을 일으키는 환경적 위험인자로, 일상 활동 및 수면 등으로 많은 시간을 보내는 실내 라돈 농도 관리는 필수적이다. 이를 위해서는, 주거지를 둘러싼 개인적, 사회적, 환경적 요소에 대한 총체적 접근이 필요하다. 따라서 본 연구는 실내 라돈 농도에 영향을 미치는 다양한 인자를 찾아내고, 이를 활용한 포괄적 모델을 구축하고자 한다. 건축 자재 및 생활 양식을 포함한 주거 환경에 대한 자료를 얻기 위해 설문을 실시하였고, 의사결정트리 및 구조 방정식 모델링을 활용하였다. 그 결과 주거지 주변 녹지 비율, 불 투과성 층 비율, 주택과 지면의 맞닿은 상태, 매일 환기 습관, 난방 습관, 측정 장치 주위의 균열 및 침실여부는 실내 라돈 농도와 유의한 연관성을 보였다. 매일 환기 습관을 가질 경우 실내 라돈 농도가 $200Bq/m^3$ 이상인 비율이 11.6%로 줄었다. 한편 매일 환기습관이 없는 주거자의 주거지 주변 녹지 비율이 65% 이상이면 매일 환기 습관이 있는 주거자와 비교하여 15.3%의 비율이 증가하였다. 구축된 포괄적 모델의 실내 라돈 농도에 직접 영향을 미치는 인자는 주거지 주변 녹지 비율과 환기율이었다. 제시된 모델로 국내 라돈 농도에 대한 개인의 지리적 특성, 지하수 및 생활 양식 요소의 결합된 영향을 확인할 수 있었다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

머신러닝을 활용한 자동차 시트용 폴리우레탄 발포공정의 불량 예측 모델 개발 (A Development of Defeat Prediction Model Using Machine Learning in Polyurethane Foaming Process for Automotive Seat)

  • 최낙훈;오종석;안종록;김기선
    • 한국산학기술학회논문지
    • /
    • 제22권6호
    • /
    • pp.36-42
    • /
    • 2021
  • 최근 4차 산업혁명으로 인해 제조업계에서는 제조업의 인공지능을 접목시켜 효율성을 극대화하는 스마트 팩토리 붐이 일어나고 있다. 특히 자동차 부품 제조 및 생산에 널리 적용되어 불량을 낮추는 연구들이 활발히 진행되고 있다. 이에 본 연구에서는 머신러닝을 통한 불량예측을 시트 폼 발포공정에 접목시켜 발포공정의 효율성을 극대화하는 연구를 진행하였다. 자동차 시트폼 에서 주로 사용되는 폴리우레탄 폼(polyurethane foam)은 폴리올(polyol, 이하 POL)과 이소시아네이트(isocyanate, 이하 ISO)를 혼합 및 발포하는 공정으로 제조되며, 각 원료의 혼합비율과 온도의 변화에 따라 제품의 특성이 변화한다. 이에 본 연구에서는 발포공정에서 수집되는 인자별 데이터값을 머신러닝에 적용하여 불량을 예측하고자 한다. 머신러닝에 사용되는 알고리즘으로는 의사결정트리, kNN, 앙상블 알고리즘을 사용하였으며 학습은 5,147개의 데이터를 사용하였으며, 학습된 결과를 1,000개의 검증용 데이터에 적용한 결과, 세 알고리즘 중 앙상블 알고리즘에서 최대 98.5 %의 정확도를 확인할 수 있었다. 이러한 결과를 통해 발포공정에서 실시간으로 수집되는 데이터를 통해 현재 생산되는 부품의 불량 여부를 확인할 수 있으며, 나아가 각 인자를 조절하여 불량률을 개선할 수 있음을 짐작할 수 있다고 사료된다.

점진적 기계학습 기반의 레이더 위협체 역추정 모델 생성 및 갱신 (Managing the Reverse Extrapolation Model of Radar Threats Based Upon an Incremental Machine Learning Technique)

  • 김철표;노상욱
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권4호
    • /
    • pp.29-39
    • /
    • 2017
  • 다양한 전자전 상황에서 단위 위협체에 대하여 전자전 모델링과 시뮬레이션을 수행할 수 있는 통합 전자전 시뮬레이터의 개발 필요성이 대두되고 있다. 본 논문에서는 전자전 상황에서 전자정보 수집신호의 변수를 기반으로 전자파 신호를 발산하는 레이더 위협을 역추정하기 위한 시뮬레이션 시스템의 구성요소를 분석하고, 역추정 모델을 점진적으로 유지할 수 있는 방법을 제안한다. 또한, 실험을 통하여 점진적 역추정 모델 갱신 기법의 유효성 및 개별 역추정 결과의 통합 기법을 평가한다. 개별 역추정 모델의 생성을 위하여 의사결정트리, 베이지안 분류기, 인공신경망 및 유클리디안 거리 측정방식과 코사인 유사도 측정방식을 활용하는 군집화 알고리즘을 이용하였다. 첫 번째 실험에서 레이더 위협체에 대한 역추정 모델을 구축하기 위한 위협 예제의 크기를 점진적으로 증가시키면 역추정 모델의 정확도는 향상되었으며, 이러한 과정이 반복되면 역추정 모델에 대한 정확도는 일정한 값으로 수렴하였다. 두 번째 실험에서는 개별 역추정 모델의 결과를 통합하기 위하여 투표, 가중투표 및 뎀스터-쉐이퍼 알고리즘을 이용하였으며, 역추정 모델의 통합 결과는 뎀스터-쉐이퍼 알고리즘에 의한 역추정 정확도가 가장 좋은 성능을 보였다.

머신러닝 기법을 이용한 유량 자료 생산 방법 (Estimation of River Flow Data Using Machine Learning)

  • 강노을;이지훈;이정훈;이충대
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.261-261
    • /
    • 2020
  • 물관리의 기본이 되는 연속적인 유량 자료 확보를 위해서는 정확도 높은 수위-유량 관계 곡선식 개발이 필수적이다. 수위-유량 관계곡선식은 모든 수문시설 설계의 기초가 되며 홍수, 가뭄 등 물재해 대응을 위해서도 중요한 의미를 가지고 있다. 그러나 일반적으로 유량 측정은 많은 비용과 시간이 들고, 식생성장, 단면변화 등의 통제특성(control)이 변함에 따라 구간분리, 기간분리와 같은 비선형적인 양상이 나타나 자료 해석에 어려움이 존재한다. 특히, 국내 하천의 경우 자연적 및 인위적인 환경 변화가 다양하여 지점 및 기간에 따라 세밀한 분석이 요구된다. 머신러닝(Machine Learning)이란 데이터를 통해 컴퓨터가 스스로 학습하여 모델을 구축하고 성능을 향상시키는 일련의 과정을 뜻한다. 기존의 수위-유량 관계곡선식은 개발자의 판단에 의해 데이터의 종류와 기간 등을 설정하여 회귀식의 파라미터를 산출한다면, 머신러닝은 유효한 전체 데이터를 이용해 스스로 학습하여 자료 간 상관성을 찾아내 모델을 구축하고 성능을 지속적으로 향상 시킬 수 있다. 머신러닝은 충분한 수문자료가 확보되었다는 전제 하에 복잡하고 가변적인 수자원 환경을 반영하여 유량 추정의 정확도를 지속적으로 향상시킬 수 있다는 이점을 가지고 있다. 본 연구는 머신러닝의 대표적인 알고리즘들을 활용하여 유량을 추정하는 모델을 구축하고 성능을 비교·분석하였다. 대상지역은 안정적인 수량을 확보하고 있는 한강수계의 거운교 지점이며, 사용자료는 2010~2018년의 시간, 수위, 유량, 수면폭 등 이다. 프로그램은 파이썬을 기반으로 한 머신러닝 라이브러리인 사이킷런(sklearn)을 사용하였고 알고리즘은 랜덤포레스트 회귀, 의사결정트리, KNN(K-Nearest Neighbor), rgboost을 적용하였다. 학습(train) 데이터는 입력자료 종류별로 조합하여 6개의 세트로 구분하여 모델을 구축하였고, 이를 적용해 검증(test) 데이터를 RMSE(Roog Mean Square Error)로 평가하였다. 그 결과 모델 및 입력 자료의 조합에 따라 3.67~171.46로 다소 넓은 범위의 값이 도출되었다. 그 중 가장 우수한 유형은 수위, 연도, 수면폭 3개의 입력자료를 조합하여 랜덤포레스트 회귀 모델에 적용한 경우이다. 비교를 위해 동일한 검증 데이터를 한국수문조사연보(2018년) 내거운교 지점의 수위별 수위-유량 곡선식을 이용해 유량을 추정한 결과 RMSE가 3.76이 산출되어, 머신러닝이 세분화된 수위-유량 곡선식과 비슷한 수준까지 성능을 내는 것으로 확인되었다. 본 연구는 양질의 유량자료 생산을 위해 기 구축된 수문자료를 기반으로 머신러닝 기법의 적용 가능성을 검토한 기초 연구로써, 국내 효율적인 수문자료 측정 및 수위-유량 곡선 산출에 도움이 될 수 있을 것으로 판단된다. 향후 수자원 환경 및 통제특성에 영향을 미치는 다양한 영향변수를 파악하기 위해 기상자료, 취수량 등의 입력 자료를 적용할 필요가 있으며, 머신러닝 내 비지도학습인 딥러닝과 같은 보다 정교한 모델에 대한 추가적인 연구도 수행되어야 할 것이다.

  • PDF

초분광 영상을 이용한 의사결정 트리 기반 봄감자(Solanum tuberosum)의 염해 판별 (Application of Hyperspectral Imagery to Decision Tree Classifier for Assessment of Spring Potato (Solanum tuberosum) Damage by Salinity and Drought)

  • 강경석;유찬석;장시형;강예성;전새롬;박준우;송혜영;이수환
    • 한국농림기상학회지
    • /
    • 제21권4호
    • /
    • pp.317-326
    • /
    • 2019
  • 본 연구는 초분광 영상을 이용하여 간척지에서 주로 발생하는 염해 및 한해를 봄감자의 주요 생육단계에서 판별할 수 있는지를 검토하는 것이다. 영양생장기(VP), 괴경형성기(RFP) 및 괴경비대기(RGP)에 취득한 초분광 영상 내 봄감자 캐노피 영역의 반사율과 반사율의 불균일성을 최소화하기 위해 밴드 비로 변환하였다. 소형 다중분광 영상센서 개발을 고려하여 FWHM 5 nm의 단일 밴드를 상용화되어있는 밴드패스필터 기준으로 10 nm, 25 nm와 50 nm 평준화한 후 똑같이 밴드 비로 변화하였다. 의사결정트리법을 이용하여 각 FWHM에서 염해 판별에 유의한 단일 밴드 및 밴드 비를 추출하였고 그 분류 정확도는 OA와 KC로 나타내어졌다. 염해, 한해 및 정상 여부를 분류하기 위해 선택된 밴드는 최소 3개에서 최대 13개로 모든 FWHM에서 OA 66.7%와 KC 40.8% 이하의 정확도를 나타내었다. 괴경비대기(RGP)에서만 공통으로 440 nm가 선택되었고 동일 밴드는 아니지만 영양생장기(VP)에는 530 nm 또는 540 nm, 괴경비대기(RGP)에서는 추가로 710 nm 또는 720 nm가 선택되었다. 영양생장기(VP)에 비해 생식생장기(RFP 및 RGP)에 분류 정확도가 높지만 상용화가 용이한 10nm 이상의 FWHM에서 OA 및 KC값이 각각 78.7%, 57.7% 이하로 나타났다. 밴드 비를 이용하여 염해, 한해 및 정상을 분류하기 위해 선택된 밴드 비는 최소 2개에서 최대 6개로 원래 밴드(5 nm FWHM)의 비를 이용할 경우 생육 시기 및 FWHM에 관계없이 OA 및 KC가 95% 이상으로 나타났다. 영양생장기에서 FWHM에 관계없이 790 nm와 800 nm의 비가 선택되었고 동일 밴드는 아니지만 각 생육단계에서 Red, Red-edge 및 NIR 영역에서 유사밴드가 선택되었다. 모든 생육 시기에서 10 nm의 FWHM을 가진 3개 이하의 밴드 비를 이용한다면 OA 91.3%와 KC 85.0% 이상의 분류 정확도로 봄감자의 염해, 한해 및 정상여부판별이 가능할 것으로 판단된다. 이 결과는 넓은 면적에서 염해 및 한해 피해를 받은 작물 필지를 소형 다중 분광 카메라로 판별하여 빠르고 유연하게 제염기술을 투입하거나 그 피해 대책을 위한 정책 활용에 이용될 수 있을 것이다.

지식 데이타베이스를 적용한 효율적인 세균 의료영상 검색 시스템의 구현 (Implementation of an Efficient Microbial Medical Image Retrieval System Applying Knowledge Databases)

  • 신용원;구봉오
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.93-100
    • /
    • 2005
  • 본 연구는 신규 임상병리사로 하여금 보다 정확한 의사결정과 효율적인 교육에 이용할 수 있는 지식 및 내용 기반 의료 세균화상 검색 시스템을 설계 및 구현하는 것이다. 이를 위해, 먼저 알고리듬방식의 검색 이전에 경험적 지식을 바탕으로 세균동정단계 중 가장 빠른 경로를 탐색하여 원인균 동정에 소요되는 시간을 줄일 수 있도록 룰 베이스를 근거로 유연성 있는 탐색경로를 설정하여 전체적인 추론을 수행한다. 다음으로, 색상 모델 중에서 HSV 컬러 모델을 이용하여 세균화상 중에서도 특히 세균화상으로부터 시각정보의 색상 특징 벡터를 추출할 수 있는 색상 특징 추출방법을 제안한다. 아울러 대용량 세균화상 데이터베이스를 기반으로 보다 빠른 검색 성능을 위해, 배지, 검체, 부서, 세균명과 같은 단순속성들에 대해서는 B+-트리, 세균화상에 대한 부가적인 설명 정보로부터 추출한 키워드들에 대해서는 역화일기법, 그리고 화상으로부터 추출한 고차원 색상 특징벡터에 대해서는 스캔-기반 필터링(Scan-Based Filtering:SBF) 기법을 결합한 통합 색인기법을 기술한다. 마지막으로 구현된 시스템은 시각적인 내용 자체의 정보와 지식을 이용하여 효과적으로 복잡한 세균화상을 검색 및 관리할 수 있는 가능성을 보인다. 아울러 구현한 지식 및 내-용기반 세균화상 검색 시스템을 통해 임상분야의 지식을 잘 구조화함으로써 초보적인 임상병리사의 학습기간을 현저히 단축시킬 수 있을 것으로 기대된다.

  • PDF

PGA 투어의 골프 스코어 예측 및 분석 (Prediction of golf scores on the PGA tour using statistical models)

  • 임정은;임영인;송종우
    • 응용통계연구
    • /
    • 제30권1호
    • /
    • pp.41-55
    • /
    • 2017
  • 최근 골프는 많은 사람들의 취미 생활로서 자리를 잡아가고 있으며 골프와 관련된 연구도 다양하게 이루어지고 있다. 본 연구에서는 데이터 마이닝 기법을 사용하여 PGA 투어에 참여하는 선수들의 평균스코어를 예측하고 스코어에 유의한 영향을 미치는 변수들을 제시하고자 한다. 그리고 추가적으로 4개의 PGA 투어 플레이오프에 대해 상위 10명, 상위 25명의 선수들을 예측하는 것을 목표로 한다. 우리는 다양한 선형/비선형 회귀분석 방법을 이용하여 평균스코어를 예측하는데, 선형회귀분석 방법으로는 단계적 선택법, 모든 가능한 회귀모형, 라소(LASSO), 능형회귀, 주성분회귀분석을 사용하였으며 비선형회귀분석 방법으로는 트리(CART), 배깅, 그래디언트 부스팅, 신경망 모형, 랜덤 포레스트, 최근접이웃방법(KNN)을 사용하였다. 대부분의 모형에서 공통적으로 선택된 변수들을 살펴보면 페어웨이의 단단함와 그린의 풀의 높이, 평균최대풍속이 높을수록 선수들의 평균스코어는 높아지며 반대로 한 번에 퍼팅을 성공시키는 횟수와 그린적중률 실패 후 버디나 이글로 점수를 만드는 scrambling 변수들, 그리고 공을 멀리 보낼 수 있는 능력을 나타내는 longest drive는 그 값이 높아짐에 따라 선수들의 평균스코어가 낮아지는 경향이 있음을 알 수 있었다. 11가지 모형 모두 테스트 데이터인 2015년 경기 결과를 예측하는데 낮은 오류율을 보였으나 배깅과 랜덤 포레스트의 예측률이 가장 좋았으며 두 모형 모두 상위 10명과 상위 25명의 랭킹을 예측할 때 상당히 높은 적중률을 보였다.

하이테크 공장의 효율적 건설 사업비 분석 및 예측을 위한 WBS·CBS 기반 건설정보 분류체계 구축 (Establishment of WBS·CBS-based Construction Information Classification System for Efficient Construction Cost Analysis and Prediction of High-tech Facilities)

  • 최성훈;김진철;권순욱
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.356-366
    • /
    • 2021
  • 국가 경제를 이끌고 있는 하이테크 산업은 일반 건축물에 비해 투자비 규모가 크고 공사 기간이 짧으며 지속적인 투자가 필요한 특성으로 인하여 정확한 공사비 예측과 빠른 의사결정은 효율적인 비용 및 공정 관리를 위한 중요한 요소이다. 국외의 경우, 1980년부터 건설정보 분류체계 표준화를 시행하고 지속적인 발전을 이루어, 체계적으로 프로젝트 전 생애 주기 정보를 수집·활용하는 등 건설 생산성을 향상시키고 있다. 반면, 국내의 건설 현장에서는 건설정보 분류체계의 표준화를 위한 시도들이 있었으나, 표준화 주체의 부재, 건설사별 비용 및 공정관리 방식의 차이로 인한 지속적인 표준화 및 체계화가 이루어지는 데 어려움을 겪고 있다. 특히 하이테크 산업의 경우, 큰 규모, 수많은 공종, 복잡한 공사, 보안 등의 문제로 인하여 하이테크 공장 건설을 위한 건설정보 분류체계 표준화·체계화 수준이 매우 낮다. 따라서 본 연구의 목적은 국내 건설된 관련 프로젝트 데이터를 수집·분류·분석을 통하여 하이테크 공장 건설에 적합한 건설정보 분류체계를 구성하는 데 있다. 본 연구를 통해 분류·분석된 WBS(Work Breakdown Structure)·CBS(Cost Breakdown Structure)를 기반으로 계층적 구분을 통한 코드체계를 제안하였고, WBS와 CBS를 연계를 통한 건축물의 비용 모델을 입체화 및 활용 방법을 제시하였다. 이를 통하여, 일반적인 건설정보 구분 체계인 일 방향의 트리구조를 벗어나 상호 관계성을 기반으로 한 정보 분류체계가 가능하여, 공사 기간 단축 및 비용 절감 등 효과를 극대할 수 있을 것이다.