• 제목/요약/키워드: RandomForest

검색결과 1,033건 처리시간 0.029초

SVM-기반 제약 조건과 강화학습의 Q-learning을 이용한 변별력이 확실한 특징 패턴 선택 (Variable Selection of Feature Pattern using SVM-based Criterion with Q-Learning in Reinforcement Learning)

  • 김차영
    • 인터넷정보학회논문지
    • /
    • 제20권4호
    • /
    • pp.21-27
    • /
    • 2019
  • RNA 시퀀싱 데이터 (RNA-seq)에서 수집된 많은 양의 데이터에 변별력이 확실한 특징 패턴 선택이 유용하며, 차별성 있는 특징을 정의하는 것이 쉽지 않다. 이러한 이유는 빅데이터 자체의 특징으로써, 많은 양의 데이터에 중복이 포함되어 있기 때문이다. 해당이슈 때문에, 컴퓨터를 사용하여 처리하는 분야에서 특징 선택은 랜덤 포레스트, K-Nearest, 및 서포트-벡터-머신 (SVM)과 같은 다양한 머신러닝 기법을 도입하여 해결하려고 노력한다. 해당 분야에서도 SVM-기반 제약을 사용하는 서포트-벡터-머신-재귀-특징-제거(SVM-RFE) 알고리즘은 많은 연구자들에 의해 꾸준히 연구 되어 왔다. 본 논문의 제안 방법은 RNA 시퀀싱 데이터에서 빅-데이터처리를 위해 SVM-RFE에 강화학습의 Q-learning을 접목하여, 중요도가 추가되는 벡터를 세밀하게 추출함으로써, 변별력이 확실한 특징선택 방법을 제안한다. NCBI-GEO와 같은 빅-데이터에서 공개된 일부의 리보솜 단백질 클러스터 데이터에 본 논문에서 제안된 알고리즘을 적용하고, 해당 알고리즘에 의해 나온 결과와 이전 공개된 SVM의 Welch' T를 적용한 알고리즘의 결과를 비교 평가하였다. 해당결과의 비교가 본 논문에서 제안하는 알고리즘이 좀 더 나은 성능을 보여줌을 알 수 있다.

심박변이도를 이용한 적응적 뉴로 퍼지 감정예측 모형에 관한 연구 (Implementing an Adaptive Neuro-Fuzzy Model for Emotion Prediction Based on Heart Rate Variability(HRV))

  • 박성수;이건창
    • 디지털융복합연구
    • /
    • 제17권1호
    • /
    • pp.239-247
    • /
    • 2019
  • 감정을 정확히 예측하는 것은 환자중심의 의료디바이스 개발 및 감성관련 산업에서 매우 중요한 이슈이다. 감정예측에 관한 많은 연구 중 감정 예측에 심박 변동성과 뉴로-퍼지 접근법을 적용한 연구는 없다. 본 연구는 HRV를 이용한 ANFEP(Adaptive Neuro Fuzzy system for Emotion Prediction)을 제안한다. ANFEP의 핵심 기능은 인공 신경망과 퍼지시스템을 통합해 예측 모델을 학습하는 ANFIS(Adaptive Neuro-Fuzzy Inference System)에 기반한다. 제안 모형의 검증을 위해 50명의 실험자를 대상으로 청각자극으로 감정을 유발하고, 심박변이도를 구하여 ANFEP 모형에 입력하였다. STDRR과 RMSSD를 입력으로 하고 입력변수 당 2개의 소속함수로 하는 ANFEP모형이 가장 좋은 결과를 나타났다. 제안한 감정예측 모형을 선형회귀 분석, 서포트 벡터 회귀, 인공신경망, 랜덤 포레스트와 비교한 결과 본 제안모형이 가장 우수한 성능을 보였다. 연구 결과는 보다 적은 입력으로 신뢰성 높은 감정인식이 가능함을 입증했고, 이를 활용해 보다 정확하고 신뢰성 높은 감정인식 시스템 개발에 대한 연구가 필요하다.

데이터마이닝 기법을 이용한 서울시 지하철역 승차인원 예측 (A study on the number of passengers using the subway stations in Seoul)

  • 조수진;김보경;김나현;송종우
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.111-128
    • /
    • 2019
  • 지하철은 많은 승객들을 원거리까지 안전하고, 신속 정확하게 원하는 지점으로 대량 수송할 수 있는 친환경적인 교통수단이다. 지하철의 공익성을 증대시키기 위해서는 정확한 승객 수요 예측이 이루어져야 한다. 본 연구는 정확한 지하철 수요예측을 위하여, 군집분석을 통해 서울시 1-9호선 지하철역들을 군집화 하였다. 그 후, 전체 역과 각 군집 별 최종 예측 모형을 제시하였다. 군집화 결과, 294개의 역이 3개로 군집화 되었으며 그룹 1은 상공업지구, 그룹 2는 주상복합지구, 그룹 3은 주거지구가 중심이 되는 역들로 나타났다. 그 후 각 군집 별로 다양한 데이터 마이닝 기법을 이용해 지하철 승차인원 예측 모형을 제시하고, 수요 예측에 중요한 영향을 미치는 요인들을 도출하였다. 그리고 최종 모형을 바탕으로 2018년 10월에 개통될 서울시 9호선 3단계 연장역인 8개 신설역의 3개월 수요를 예측하였다. 8개 신설역의 월평균 시간당 평균 승차인원은 약 241에서 452명, 월평균 시간당 최대 승차인원은 약 969에서 1,515명으로 추정되었다. 본 분석의 최종 모형을 활용한 신설역의 지하철 수요 예측은 대중교통 정책 결정을 위한 기초자료로 활용되어 효율적인 지하철 운영 방안 수립에 기여할 수 있을 것이다.

White striping degree assessment using computer vision system and consumer acceptance test

  • Kato, Talita;Mastelini, Saulo Martiello;Campos, Gabriel Fillipe Centini;Barbon, Ana Paula Ayub da Costa;Prudencio, Sandra Helena;Shimokomaki, Massami;Soares, Adriana Lourenco;Barbon, Sylvio Jr.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제32권7호
    • /
    • pp.1015-1026
    • /
    • 2019
  • Objective: The objective of this study was to evaluate three different degrees of white striping (WS) addressing their automatic assessment and customer acceptance. The WS classification was performed based on a computer vision system (CVS), exploring different machine learning (ML) algorithms and the most important image features. Moreover, it was verified by consumer acceptance and purchase intent. Methods: The samples for image analysis were classified by trained specialists, according to severity degrees regarding visual and firmness aspects. Samples were obtained with a digital camera, and 25 features were extracted from these images. ML algorithms were applied aiming to induce a model capable of classifying the samples into three severity degrees. In addition, two sensory analyses were performed: 75 samples properly grilled were used for the first sensory test, and 9 photos for the second. All tests were performed using a 10-cm hybrid hedonic scale (acceptance test) and a 5-point scale (purchase intention). Results: The information gain metric ranked 13 attributes. However, just one type of image feature was not enough to describe the phenomenon. The classification models support vector machine, fuzzy-W, and random forest showed the best results with similar general accuracy (86.4%). The worst performance was obtained by multilayer perceptron (70.9%) with the high error rate in normal (NORM) sample predictions. The sensory analysis of acceptance verified that WS myopathy negatively affects the texture of the broiler breast fillets when grilled and the appearance attribute of the raw samples, which influenced the purchase intention scores of raw samples. Conclusion: The proposed system has proved to be adequate (fast and accurate) for the classification of WS samples. The sensory analysis of acceptance showed that WS myopathy negatively affects the tenderness of the broiler breast fillets when grilled, while the appearance attribute of the raw samples eventually influenced purchase intentions.

기계학습을 활용한 주식 가격의 이동 방향 예측 (Prediction of the direction of stock prices by machine learning techniques)

  • 김용환;송성주
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.745-760
    • /
    • 2021
  • 금융시장에서 주식 가격 자체 또는 가격의 방향성에 대한 예측은 오래 전부터 관심의 대상이 되어 왔기에 여러 방면에서 다양한 연구가 이어져 왔다. 특히 1960년대에 들어서며 많은 연구가 진행되었고 예측가능성에 대해 찬반의 의견들이 있었는데, 1970년대에 나타난 효율적 시장 가설이 지지를 받으면서 주식 가격의 예측은 불가능하다는 의견이 주를 이루었다. 그러나 최근 기계학습 등 예측기술의 발달로 인해 주식 시장에서 미래를 예측해 보려는 새로운 시도가 이어져, 주식시장의 효율성을 부정하고 높은 예측력을 주장하는 연구들이 등장하고 있다. 이 논문에서는 과거 연구들을 평가방법 별로 정리하고, 새로운 주장의 신빙성을 확인하기 위해 이차판별분석, support vector machine, random forest, extreme gradient boost, 심층신경망 등 다양한 기계학습 모형을 적용하여 한국유가증권시장에 상장된 종목 중 삼성전자, LG화학, Naver 주식 가격의 방향성을 예측해보았다. 이때, 널리 사용되는 기술적 지표 변수들과 더불어 price earning ratio, price book-value ratio 등 회계지표를 활용한 변수와, 은닉마르코프모형의 출력값 변수를 사용하였다. 분석결과, 이번 연구의 조건 하에서는 통계적으로 유의미한 예측력을 제시하는 모형이 존재하지 않았고, 현 시점에서 단기 주가 방향성의 예측은 어렵다고 판단되었다. 비교적 단순한 이차판별분석 모형과 회계지표를 활용한 변수를 추가한 모형이 상대적으로 높은 예측력을 보였다는 점에서, 복잡한 모형을 시도하기 보다는 주식 가격에 대한 투자자들의 의견 및 심리가 반영될 수 있는 다양한 변수를 개발하여 활용한다면 향후 유의미한 예측이 가능할 수도 있을 것이다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

기계학습을 이용한 기업가적 혁신성 예측 모델에 관한 연구 (Machine Learning for Predicting Entrepreneurial Innovativeness)

  • 정두희;윤진섭;양성민
    • 벤처창업연구
    • /
    • 제16권3호
    • /
    • pp.73-86
    • /
    • 2021
  • 이 연구의 목적은 기업가적 혁신성을 정확하게 예측하는 고도화된 분석 모델을 탐색하는 것이다. 기업가정신 연구 분야에서는 최초로, 데이터 과학적 접근방식에 해당되는 기계학습(Machine learning)을 이용해 기업가적 혁신성(entrepreneurial innovativeness)을 예측하는 모델을 제시한다. 예측모델을 구축하기 위하여 Global Entrepreneurship Monitor(GEM)의 62개국 22,099건 데이터를 이용한다. 27개 설명변수로 이뤄진 데이터 셋을 토대로 전통적 통계방법인 다중회귀분석과, 회귀트리, 랜덤포레스트, XG부스트, 인공신경망 등 기계학습을 이용한 예측모델을 구축하고 각 모델의 성능을 비교한다. 모델의 성능 평가를 위해 RMSE(Root mean square error), MAE(Mean absolute error)와 상관관계(Correlation) 등 지표를 사용한다. 분석 결과 5가지 기계학습 기반 모델은 모두 전통적 방법에 비해 우수한 성능을 보였으며, 예측 성능이 가장 좋은 모델은 XG부스트였다. XG부스트를 통한 기업가적 혁신성 예측에 있어서 기여도가 높은 변수는 창업가의 기회인지 및 시장 확장의 교차항 변수이며, 이는 신시장에서 기회를 획득하고자 하는 유형의 창업기업이 높은 혁신성을 보인다는 점을 확인했다. 이 연구는 고도화된 분석방법인 기계학습을 이용해 새로운 예측모델을 제시, 기업가정신 연구의 시야를 확장했다는 점에서 의의를 지닌다.

컴퓨터 단층 촬영 영상에서의 전이성 척추 종양의 정량적 분류를 위한 라디오믹스 기반의 머신러닝 기법 (Radiomics-based Machine Learning Approach for Quantitative Classification of Spinal Metastases in Computed Tomography)

  • 이은우;임상헌;전지수;강혜원;김영재;전지영;김광기
    • 대한의용생체공학회:의공학회지
    • /
    • 제42권3호
    • /
    • pp.71-79
    • /
    • 2021
  • Currently, the naked eyes-based diagnosis of bone metastases on CT images relies on qualitative assessment. For this reason, there is a great need for a state-of-the-art approach that can assess and follow-up the bone metastases with quantitative biomarker. Radiomics can be used as a biomarker for objective lesion assessment by extracting quantitative numerical values from digital medical images. In this study, therefore, we evaluated the clinical applicability of non-invasive and objective bone metastases computer-aided diagnosis using radiomics-based biomarkers in CT. We employed a total of 21 approaches consist of three-classifiers and seven-feature selection methods to predict bone metastases and select biomarkers. We extracted three-dimensional features from the CT that three groups consisted of osteoblastic, osteolytic, and normal-healthy vertebral bodies. For evaluation, we compared the prediction results of the classifiers with the medical staff's diagnosis results. As a result of the three-class-classification performance evaluation, we demonstrated that the combination of the random forest classifier and the sequential backward selection feature selection approach reached AUC of 0.74 on average. Moreover, we confirmed that 90-percentile, kurtosis, and energy were the features that contributed high in the classification of bone metastases in this approach. We expect that selected quantitative features will be helpful as biomarkers in improving the patient's survival and quality of life.

GIS와 기계학습을 이용한 지하수 가능성도 작성 연구 현황 (Status of Groundwater Potential Mapping Research Using GIS and Machine Learning)

  • 이사로
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1277-1290
    • /
    • 2020
  • 지표수와 지하수로 이루어진 수자원은 세계적으로 가장 중요한 천연자원 중 하나로 여겨진다. 지난 세기 이후 급속한 산업화와 급증하는 인구로 인해, 생활용, 산업용, 농업용수 수요가 급증하고 있으며, 이에 대한 지하수 수요도 급증하고 있다. 따라서 지하수에 대한 지속 가능한 개발과 관리를 위해서는 정확한 위치기반의 지하수 가능성도 작성이 필수적이다. 최근에는 기계학습과 지리정보시스템 통합이 지하수 가능성도 작성에 효과적인 방법이 되고 있다. 이러한 통합접근법의 현황 파악을 위해 6년(2015~2020년) 동안 94편의 직접 관련 논문에 대한 체계적 검토를 실시했다. 문헌 검토에 따르면, 매년 발간되는 연구의 수는 시간이 지남에 따라 급격히 증가했다. 전체 연구 분야는 15개국에 걸쳐 있으며, 85%의 연구가 이란, 인도, 중국, 한국, 이라크에 집중되었다. 지하수 산출 가능성 조사에는 20개의 변수가 자주 사용된 것으로 조사되었으며, 이 중 지형고도, 경사, 경사방향, 지형습도지수, 지질, 토지 이용 피복, 하천 밀도, 강과의 거리, 강우량 등이 자주 사용되는 것으로 나타났다. 기계학습 모델에 있어 랜덤 포레스트, 서포트벡터머신, 부스트 회귀트리 등의 방법이 많이 사용되었다. 이러한 문헌 연구는 최적의 결과를 위해 지하수 가능성도를 저비용 대체물이 아닌 현장 작업을 보완하는 도구로 사용해야 한다는 것을 보여준다. 마지막으로, 향후, 지하수 가능성도 작성의 표준화 및 정확성을 개선하기 위해 더 많은 연구가 진행되어야 할 것이다.

분광분석과 기계학습기법을 활용한 조선누층군 타이타늄 함유 면산층 탐지 (Detection of Titanium bearing Myeonsan Formation in the Joseon Supergroup based on Spectral Analysis and Machine Learning Techniques)

  • 박찬혁;유재형;오민규;이길재;이기연
    • 자원환경지질
    • /
    • 제55권2호
    • /
    • pp.197-207
    • /
    • 2022
  • 본 연구는 조선누층군 내 타이타늄 광체의 모암이 되는 면산층 암석을 기계학습기법을 분광분석 결과에 적용하여 탐지하였다. 이를 위해 면산층과 타 층들의 구성 광물을 파악하고, 타이타늄 함량을 측정하였으며, 전자기파 반응 특성을 분석하였다. 면산층은 다른 층들에 비해 불투명 광물을 많이 함유하고, 석영 입자와 점토광물로 구성된다. X선 형광분석 결과, 면산층의 평균 타이타늄 함량은 타 층들에 비해 최소 10배 이상의 타이타늄 함량을 보이며 낮은 함량군과 높은 함량군의 다봉분포를 갖는다. 이는 면산층 내의 타이타늄이 함유되는 사질과 이질이 교호 반복되는데 사질 부분은 이질 부분보다 타이타늄의 함량이 상대적으로 높기 때문이다. 분광분석 결과, 면산층은 산화철의 흡광 특성이 근적외선 영역에서, 점토광물에 의한 흡광 특성이 단파적외선 영역에서 관찰되며, 풍화면의 경우 점토광물 특성이 보다 강해지는 경향을 보인다. 타이타늄 광화대의 탐지는 티탄철석 자체의 분광 특성이 특징적이지 않아 광체를 탐지의 대상으로 보기보다는 모암인 면산층을 탐지하는 것이 적절할 것으로 생각된다. 랜덤포레스트 기계학습 기법을 이용한 면산층의 탐지 정확도는 84%, 전체정확도 97%를 보였으며, 산화철의 분광 특성과 점토광물 분광 특성이 가장 중요한 역할을 하는 것으로 분석되었다. 이는 분광 특성이 타이타늄 모암인 면산층 암석을 효율적으로 탐지할 수 있음을 지시하고, 확대 적용 될경우 무인항공기반 타이타늄 광체 탐사에 적용할 수 있을 것으로 기대한다.