• 제목/요약/키워드: Machine Learning

검색결과 5,378건 처리시간 0.029초

환자의 주관적 증상 텍스트에 대한 진료과목 분류 모델 구축 (Classification Modeling for Predicting Medical Subjects using Patients' Subjective Symptom Text)

  • 이서희;강주영
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.51-62
    • /
    • 2021
  • 의료 인공지능 분야에서 의사의 판단에 도움을 줄 수 있는 질환 예측 및 분류 알고리즘에 대해선 많은 연구가 이뤄져왔지만, 의료 소비자의 정보 획득과 판단에 도움을 줄 수 있는 인공지능에 대해선 상대적으로 관심이 적다. 네이버 지식인에 지난 1년 간 자신의 증상엔 어떤 병원을 가야할 지 질문하는 질문 건수만 해도 15만 건이 넘는다는 사실은 의료소비자들에게 적합한 의료정보의 제공이 필요하다는 반증이기도 하다. 따라서 본 연구에선 의료소비자들이 자신의 증상에 대한 진료과목을 선택하는데 도움을 줄 수 있도록 네이버 지식인에서 환자들이 직접 서술한 증상 텍스트를 수집하여 8개 진료과목을 분류하는 분류모델을 구축했다. 우선 환자의 주관이 개입된 데이터의 타당성과 객관성을 확보하기 위해 객관적 증상 텍스트(서울응급의료 정보센터에서 정리한 진료과목 별 주요 질환 증상)와 주관적 증상 텍스트(지식인 데이터) 간 유사도 측정을 수행하였다. 유사도 측정 결과, 두 텍스트가 동일한 진료과목의 증상일 경우 상이한 진료과목의 증상 텍스트에 비해 상대적으로 높은 유사성을 가진다는 것을 입증했다. 상기 절차를 따라 타당성을 확보한 주관적 증상 텍스트를 대상으로 릿지회귀모델을 사용하여 분류모델을 구축한 결과 0.73의 정확도를 확보할 수 있었다.

아파트 매매가 추이 예측에 관한 연구: 정부 정책, 경제, 수요·공급 속성을 중심으로 (A Study on the Forecasting Trend of Apartment Prices: Focusing on Government Policy, Economy, Supply and Demand Characteristics)

  • 이중목;최수안;우수한;김성훈;김태준;우종필
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.91-113
    • /
    • 2021
  • 한국 자산 시장에서 부동산이 가지는 영향력에도 불구하고 시장 추이 예측은 쉽지 않으며, 그중 아파트는 주거 공간인 동시에 투자 속성을 내포하고 있어 더욱 예측이 쉽지 않다. 아파트 가격에 영향을 주는 요인은 다양하며 지역적 특성 또한 고려되어야 한다. 본 연구는 서울시 전체, 강남 3구, 노원, 도봉, 강북, 금천, 관악, 구로구의 아파트 매매가에 영향을 미치는 요인과 특성을 비교하고 이를 기반으로 가격 예측의 가능성을 파악하기 위해 수행되었다. 분석에는 신경망, CHAID, 선형회귀, 랜덤포레스트 등 머신러닝 알고리즘이 사용되었다. 서울시 전체 아파트 평균 매매가에 가장 중요한 영향을 미치는 요소는 정부 정책 요소였으며, 거래규제 완화, 금융규제 완화 등의 완화 정책이 영향력이 높게 도출되었다. 강남 3구의 경우 정책의 영향력이 낮은 것으로 파악되었으며 강남구의 경우 주택 공급량이 가장 중요한 요인이었다. 반면 6개의 중·하위구들은 정부 정책이 중요 변수로 작용하였으며 공통적으로 금융규제 정책이 영향을 끼치는 요인이었다.

표준유역단위 한계강우량 산정에 관한 연구 (A Study on the Estimation of the Threshold Rainfall in Standard Watershed Units)

  • 추경수;강동호;김병식
    • 한국방재안전학회논문집
    • /
    • 제14권2호
    • /
    • pp.1-11
    • /
    • 2021
  • 최근 우리나라에서는 기후변화로 인하여 기상재해의 위험성이 증가하고 있고 특히 강우로 인한 피해가 계속해서 강조되고 있다. 현재의 기상예보가 정량적 강우를 제시해주지만 피해 정도를 예상하는 데에는 여러 가지 어려움이 존재한다. 그래서 피해에 따른 영향을 파악하기 위해서는 유역별 한계강우량이 필요하다. 강우로 인한 피해는 지역별로 상이하게 일어나고 있고 각 유역의 특성인자가 고려된 분석은 한계가 존재한다. 또한 강우가 올 때마다 수문모델을 통한 강유-유출분석에는 시간이 많이 소모되고 단순 강우 데이터만 사용하여 분석되는 경우가 많다. 본 연구는 GIS데이터를 이용하였고 2개의 수문모델을 커플링하여 침수를 유발하는 한계유출량으로부터 한계강우량을 산정하였다. 산정결과는 실제사례와 비교하여 결과를 검증하였고 대체로 위험지역에 대해 피해가 난 것으로 분석되었다. 향후 본 연구를 통해 사전에 침수위험지역에 대해 대비를 할 수 있을 것이고 머신러닝 분석방법을 추가한다면 정확도가 높아질 것으로 예상된다.

CART알고리즘과 Landsat-8 위성영상 분석을 통한 계절별 지하수함양량 변화 (Variation of Seasonal Groundwater Recharge Analyzed Using Landsat-8 OLI Data and a CART Algorithm)

  • 박승혁;정교철
    • 지질공학
    • /
    • 제31권3호
    • /
    • pp.395-432
    • /
    • 2021
  • 지하수함양은 시공간적으로 다양하여 직접적으로 측정하기 어렵기 때문에 함양추정을 위해 수치모델이 널리 사용되고 있다. 이 연구에서는 지하수함양을 추정하기 위한 방법으로 기계학습법의 하나인 분류회귀트리(CART)모형을 적용하기 위해 수정된 수직식생지수(mPVI), 정규식생지수(NDVI), 정규경작지수(NDTI), 정규나지지수(NDRI) 같은 토양-식생관련 지수와 강우, 지형인자(고도, 경사, 경사방향)를 입력하고 김천지역 SWAT-MODFLOW의 함양량 결과를 추출 및 학습하여 함양량을 예측하였다. SWAT-MODFLOW의 함양량 분포에 대한 CART모형의 예측값의 전반적인 정확도는 0.5~0.7, 카파계수는 0.3~0.6으로 나타나 위성영상자료를 통해 토양-식생에 따른 함양량 변화를 합리적으로 예측할 수 있었다.

미래교육 혁신을 위한 트렌드 분석과 예측: 20년간의 문헌 연구 데이터를 기반으로 한 키워드 추출 분석을 중심으로 (Analysis and Prediction of Trends for Future Education Reform Centering on the Keyword Extraction from the Research for the Last Two Decades)

  • 조헌국
    • 과학교육연구지
    • /
    • 제45권2호
    • /
    • pp.156-171
    • /
    • 2021
  • 본 연구는 미래 교육에 관련된 선행 연구를 분석하여 그 시기별 변화의 특징을 파악하고, 최근 나타나는 뉴스 기사를 비교하여 미래 교육에 대한 예측과 전망이 얼마나 일치하는지 비교 분석함으로써 교육을 위한 예측 모형 수립을 위한 시사점을 제공하고자 하였다. 이에 Web of Science를 통해 미래교육을 키워드로 포함한 국제전문학술지의 1,222건의 학술논문의 상세 서지정보를 수집하였고, 이를 2000년대부터 5년 단위로 4개의 시기로 구분하여 각 시기별 키워드를 추출하였다. 또한 최근 1년간 발간된 뉴스를 토대로 키워드를 추출하고 두 결과를 비교하여 얼마나 예측한 결과가 일치하는지 살펴보았다. 연구 결과, 문헌 조사 결과를 통한 키워드는 교사 교육을 제외하면 공통적으로 나타나는 주제나 경향성을 발견하기 어려웠으며 교육과정, 학습자 특성, 협동학습, 컴퓨터 기반 학습 등 교육과정과 내용, 방법, 환경 등 전반을 제시하고 있었다. 이에 반해 뉴스를 통해 도출된 키워드는 혁신학교나 미래교육센터 등 정부의 주요 추진 정책이나 코로나19와 관련된 키워드들이 부각되어 나타났다. 또한 온라인 플랫폼이나 콘텐츠 개발, 클라우드, 빅데이터, 개별학습 등 교육환경과 방법에 초점이 맞춰지고 있음을 파악할 수 있다. 뉴스를 통해 나타나는 키워드를 살펴보면 장기적인 예측을 통해 나타난 키워드는 거의 없었고, 최근 5년 내에 제시되었던 단기적인 내용들이나 최근 5년에서도 언급되지 않는 새로운 주제들을 다루고 있었다. 이는 미래 교육에 대한 예측과 망에 대한 모형이 실제 중장기적 예측에서는 여러 요인의 불확실성으로 인해 정확성을 기대하기 어렵다는 점을 의미한다. 이에 본 연구에서는 미래 교육 예측을 위해 필요한 과제와 방향에 대해 시사점으로 제시하였다.

인공지능을 이용한 수도권 학교 미세먼지 취약성 평가: Part I - 미세먼지 예측 모델링 (Vulnerability Assessment for Fine Particulate Matter (PM2.5) in the Schools of the Seoul Metropolitan Area, Korea: Part I - Predicting Daily PM2.5 Concentrations)

  • 손상훈;김진수
    • 대한원격탐사학회지
    • /
    • 제37권6_2호
    • /
    • pp.1881-1890
    • /
    • 2021
  • 미세먼지는 인체에는 물론 생태계, 날씨 등에도 많은 영향을 끼치며, 인구와 건물, 차량 등이 밀집된 대도시에서의 미세먼지의 예측과 모니터링은 중요하다. 특히 자동차, 연소 등에서 발생하는 PM2.5 농도는 독성 물질을 포함할 수 있어 체계적인 관리가 필요하다. 따라서 본 연구는 화학 인자, 위성 기반의 aerosol optical depth (AOD), 기상 인자 등을 입력 자료로 하여 수도권PM2.5 농도를 예측하고자 한다. PM2.5 농도 예측을 위해 기계 학습 모델 중 PM 농도 예측에 우수한 성능을 보이는 random forest (RF) 모델을 선정하였으며, 모델 평가를 위해 통계 지표인 R2, RMSE, MAE, MAPE를 산출하였다. RF 모델의 모델 정확도는 R2, RMSE, MAE, MAPE는 각각 0.97, 3.09, 2.18, 13.31로 나타났으며, 예측 정확도는 각각 0.82, 6.03, 4.36, 25.79로 본 연구에서 사용한 인자들을 이용하여 PM2.5를 예측 시 높은 정확도와 상관성을 나타내었다. 따라서 향후 학교 미세먼지 예측 및 범주화를 위해 본 연구에서 사용한 인자들을 RF 모델에 적용하였을 때 신뢰할만한 결과를 도출할 수 있을 것으로 기대된다.

K-means clustering analysis and differential protection policy according to 3D NAND flash memory error rate to improve SSD reliability

  • Son, Seung-Woo;Kim, Jae-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.1-9
    • /
    • 2021
  • 3D-NAND 플래시 메모리는 평면적 구조인 2D-NAND 셀을 적층하는 방식으로 단위 면적당 고용량을 제공한다. 하지만 적층 공정의 특성상 각 레이어별 또는 물리적인 셀 위치에 따라 오류 발생 빈도가 달라질 수 있는 문제가 있다. 이와 같은 현상은 플래시 메모리의 쓰기/지우기(P/E) 횟수가 증가할수록 두드러진다. SSD와 같은 대부분의 플래시 기반 저장장치는 오류 교정을 위하여 ECC를 사용한다. 이 방법은 모든 플래시 메모리 페이지에 대하여 고정된 데이터 보호 강도를 제공하므로 물리적 위치에 따라 오류 발생률이 각기 다르게 나타나는 3D NAND 플래시 메모리에서는 한계를 보인다. 따라서 본 논문에서는 오류 발생률 차이를 보이는 페이지와 레이어를 K-means 머신러닝 알고리즘을 통해 군집으로 분류하고, 각 군집마다 차별화된 데이터 보호강도를 적용한다. 본 논문에서는 페이지와 레이어별로 오류 발생률이 현저하게 달라지는 내구성 테스트가 끝난 시점에서 측정된 오류 발생 횟수를 바탕으로 페이지와 레이어를 분류하고 오류에 취약한 영역에 대해서는 스트라이프에 패리티 데이터를 추가하여 차별화된 데이터 보호 강도 제공을 예시로 보인다. 본 논문에서는 기존의 ECC 또는 RAID 방식의 데이터 보호 구조와 비교하여 제안하는 차별화된 데이터 보호정책이 3D NAND 플래시 메모리의 신뢰성과 수명향상에 기여할 수 있음을 보인다.

제한된 모션 센서와 애니메이션 데이터를 이용한 캐릭터 동작 제어 (Character Motion Control by Using Limited Sensors and Animation Data)

  • 배태성;이은지;김하은;박민지;최명걸
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권3호
    • /
    • pp.85-92
    • /
    • 2019
  • 디지털 스토리텔링에 등장하는 3차원 가상 캐릭터에는 외형뿐만 아니라 자세나 동작에서도 캐릭터의 개성이 반영된 고유의 스타일이 부여된다. 그러나 사용자가 웨어러블 동작센서를 사용하여 직접 캐릭터의 신체 동작을 제어하는 경우 캐릭터 고유의 스타일이 무시될 수 있다. 본 연구에서는 가상 캐릭터를 위해 제작된 소량의 애니메이션 데이터만을 이용하는 검색 기반 캐릭터 동작 제어 기술을 사용하여 캐릭터 고유의 스타일을 유지하는 기술을 제시한다. 대량의 학습 데이터를 필요로하는 기계학습법을 피하는 대신 소량의 애니메이션 데이터로부터 사용자의 자세와 유사한 캐릭터 자세를 직접 검색하여 사용하는 기술을 제안한다. 제시된 방법을 검증하기 위해 전문가에 의해 제작된 가상현실 게임용 캐릭터 모델과 애니메이션 데이터를 사용하여 실험하였다. 평범한 사람의 모션캡쳐 데이터를 사용했을 때와의 결과를 비교하여 캐릭터 스타일이 보존됨을 증명하였다. 또한 동작센서의 개수를 달리한 실험을 통해 제시된 방법의 확장성을 증명하였다.

다층퍼셉트론 기법을 이용한 ECMWF 예측자료의 강수예측 정확도 향상 (Improvement of precipitation forecasting skill of ECMWF data using multi-layer perceptron technique)

  • 이승수;김가영;윤순조;안현욱
    • 한국수자원학회논문집
    • /
    • 제52권7호
    • /
    • pp.475-482
    • /
    • 2019
  • 2주에서 2개월까지 선행기간을 가지는 계절내-계절(Subseasonal-to-Seasonal, S2S) 예측결과는 산업전반에 걸쳐 다양한 분야에 활용이 가능할 것으로 기대되고 있으나, 일기예보나 중장기 예보대비 낮은 예측성으로 인하여 현재까지 활용성이 매우 낮은 실정이다. 본 연구에서는 기계학습 기법중 비선형회귀 분야에서 좋은 결과를 보여주는 다층퍼셉트론 기법을 이용하여 S2S 예측자료의 후처리를 통한 국내 영역에서의 강수예측성 향상에 관한 연구를 수행하였다. 후처리 모형의 학습을 위한 입력자료로는 ECMWF의 S2S 과거예측(Hindcast) 정보를 이용하였으며 양분예보기법에 기반하여 학습된 다층퍼셉트론 모델을 이용한 후처리 결과와의 비교 분석이 수행되었다. 비교분석 결과 편차도(Bias score)는 평균 59.7% 감소하였고, 정확도(Accuracy)는 124.3% 증가하였으며, 임계성공지수(Critical Success Index)는 88.5% 향상된 것으로 분석되었다. 탐지확률(Probability of detection)의 경우 원자료 대비 평균 9.5% 감소하였으나 이는 ECMWF의 예측모델이 강수의 발생일을 과도하게 예측하였기 때문인 것으로 분석되었다. 본 연구 수행 결과 비록 ECMWF의 S2S 예측자료의 예측성이 낮더라도 후처리를 통해 예측성을 향상 시킬 수 있음을 확인하였으며, 본 연구 결과는 향후 수자원과 농업 분야에서 S2S 자료의 활용성을 높이는데 도움이 될 수 있을 것으로 판단된다.

Prediction Model of User Physical Activity using Data Characteristics-based Long Short-term Memory Recurrent Neural Networks

  • Kim, Joo-Chang;Chung, Kyungyong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.2060-2077
    • /
    • 2019
  • Recently, mobile healthcare services have attracted significant attention because of the emerging development and supply of diverse wearable devices. Smartwatches and health bands are the most common type of mobile-based wearable devices and their market size is increasing considerably. However, simple value comparisons based on accumulated data have revealed certain problems, such as the standardized nature of health management and the lack of personalized health management service models. The convergence of information technology (IT) and biotechnology (BT) has shifted the medical paradigm from continuous health management and disease prevention to the development of a system that can be used to provide ground-based medical services regardless of the user's location. Moreover, the IT-BT convergence has necessitated the development of lifestyle improvement models and services that utilize big data analysis and machine learning to provide mobile healthcare-based personal health management and disease prevention information. Users' health data, which are specific as they change over time, are collected by different means according to the users' lifestyle and surrounding circumstances. In this paper, we propose a prediction model of user physical activity that uses data characteristics-based long short-term memory (DC-LSTM) recurrent neural networks (RNNs). To provide personalized services, the characteristics and surrounding circumstances of data collectable from mobile host devices were considered in the selection of variables for the model. The data characteristics considered were ease of collection, which represents whether or not variables are collectable, and frequency of occurrence, which represents whether or not changes made to input values constitute significant variables in terms of activity. The variables selected for providing personalized services were activity, weather, temperature, mean daily temperature, humidity, UV, fine dust, asthma and lung disease probability index, skin disease probability index, cadence, travel distance, mean heart rate, and sleep hours. The selected variables were classified according to the data characteristics. To predict activity, an LSTM RNN was built that uses the classified variables as input data and learns the dynamic characteristics of time series data. LSTM RNNs resolve the vanishing gradient problem that occurs in existing RNNs. They are classified into three different types according to data characteristics and constructed through connections among the LSTMs. The constructed neural network learns training data and predicts user activity. To evaluate the proposed model, the root mean square error (RMSE) was used in the performance evaluation of the user physical activity prediction method for which an autoregressive integrated moving average (ARIMA) model, a convolutional neural network (CNN), and an RNN were used. The results show that the proposed DC-LSTM RNN method yields an excellent mean RMSE value of 0.616. The proposed method is used for predicting significant activity considering the surrounding circumstances and user status utilizing the existing standardized activity prediction services. It can also be used to predict user physical activity and provide personalized healthcare based on the data collectable from mobile host devices.