• 제목/요약/키워드: tree based learning

검색결과 418건 처리시간 0.027초

k-Nearest Neighbor와 Convolutional Neural Network에 의한 제재목 표면 옹이 종류의 화상 분류 (Visual Classification of Wood Knots Using k-Nearest Neighbor and Convolutional Neural Network)

  • Kim, Hyunbin;Kim, Mingyu;Park, Yonggun;Yang, Sang-Yun;Chung, Hyunwoo;Kwon, Ohkyung;Yeo, Hwanmyeong
    • Journal of the Korean Wood Science and Technology
    • /
    • 제47권2호
    • /
    • pp.229-238
    • /
    • 2019
  • 목재의 결점은 생장과정에서 또는 가공 중에 다양한 형태로 발생한다. 따라서 목재를 이용하기 위해서는 목재의 결점을 정확하게 분류하여 용도에 맞는 목재 품질을 객관적으로 평가할 필요가 있다. 하지만 사람에 의한 등급구분과 수종구분은 주관적 판단에 의해 차이가 발생할 수 있기 때문에 목재 품질의 객관적 평가 및 목재 생산의 고속화를 위해서는 컴퓨터 비전을 활용한 화상분석 자동화가 필요하다. 본 연구에서는 SIFT+k-NN 모델과 CNN 모델을 통해 옹이의 종류를 자동으로 구분하는 모델을 구현하고 그 정확성을 분석해보고자 하였다. 이를 위하여 다섯 가지 국산 침엽수종으로부터 다양한 형태의 옹이 이미지 1,172개를 획득하여 학습 및 검증에 사용하였다. SIFT+k-NN 모델의 경우, SIFT 기술을 이용하여 옹이 이미지에서 특성을 추출한 뒤, k-NN을 이용하여 분류를 진행하였으며, 최대 60.53%의 정확도로 분류가 가능하였다. 이 때 k-index는 17이었다. CNN 모델의 경우, 8층의 convolution layer와 3층의 hidden layer로 구성되어있는 모델을 사용하였으며, 정확도의 최대값은 1205 epoch에서 88.09%로 나타나 SIFT+k-NN 모델보다 높은 결과를 보였다. 또한 옹이의 종류별 이미지 개수 차이가 큰 경우, SIFT+k-NN 모델은 비율이 높은 옹이 종류로 편향되어 학습되는 결과를 보였지만, CNN 모델은 이미지 개수의 차이에도 편향이 심하지 않아 옹이 분류에 있어 더 좋은 성능을 보였다. 본 연구 결과를 통해 CNN 모델을 이용한 목재 옹이의 분류는 실용가능성에 있어 충분한 정확도를 보이는 것으로 판단된다.

기계학습과 GPT3를 시용한 조작된 리뷰의 탐지 (The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.347-364
    • /
    • 2022
  • 고객의 구매 의사결정에 영향을 주는 온라인 리뷰의 부적절한 조작을 통해 이익을 얻고자 하는 기업 또는 온라인 판매자들 때문에, 리뷰의 신뢰성은 온라인 거래에서 매우 중요한 이슈가 되었다. 온라인 쇼핑몰 등에서 온라인 리뷰에 대한 소비자들의 의존도가 높아짐에 따라 많은 연구들이 조작된 리뷰를 탐지하는 방법에 개발하고자 하였다. 기존의 연구들은 온라인 리뷰를 기반으로 정상 리뷰와 조작된 리뷰를 대상으로 기계학습으로 이용함으로써 조작된 리뷰를 탐지하는 모형을 제시하였다. 기계학습은 데이터를 이용하여 이진분류 문제에서 탁월한 성능을 보여왔으나, 학습에 충분한 데이터를 확보할 수 있는 환경에서만 이러한 성능을 기대할 수 있었다. 조작된 리뷰는 학습용으로 사용할 수 있는 데이터가 충분하지 못하며, 이는 기계학습이 충분한 학습을 할 수 없다는 치명적 약점으로 내포하게 된다. 본 연구에서는 기계학습이 불균형 데이터 셋으로 인한 학습의 저하를 방지할 수 있는 방안으로 부족한 조작된 리뷰를 인공지능을 이용하여 생성하고 이를 기반으로 균형된 데이터 셋에서 기계학습을 학습하여 조작된 리뷰를 탐지하는 방안을 제시하였다. 파인 튜닝된 GPT-3는 초거대 인공지능으로 온라인 플랫폼의 리뷰를 생성하여 데이터 불균형 문제를 해결하는 오버샘플링 접근방법으로 사용되었다. GPT-3로 생성한 온라인 리뷰는 기존 리뷰를 기반으로 인공지능이 작성한 리뷰로써, 본 연구에서 사용된 로짓, 의사결정나무, 인공신경망의 성능을 개선시키는 것을 SMOTE와 단순 오버샘플링과 비교하여 실증분석을 통해서 확인하였다.

기계학습법을 통한 압축 벤토나이트의 열전도도 추정 모델 평가 (Evaluation of a Thermal Conductivity Prediction Model for Compacted Clay Based on a Machine Learning Method)

  • 윤석;방현태;김건영;전해민
    • 대한토목학회논문집
    • /
    • 제41권2호
    • /
    • pp.123-131
    • /
    • 2021
  • 완충재는 고준위 방사성 폐기물을 처분하기 위한 공학적 방벽 시스템에서 중요한 구성요소 중 하나이며 사용 후 핵연료가 담긴 처분용기와 암반사이에 채워지는 물질이기 때문에 지하수 유입으로부터 처분용기를 보호하고, 방사성 핵종 유출을 저지하는 중요한 역할을 수행한다. 따라서 공학적 방벽 시스템의 처분용기로부터 발생하는 고온의 열량은 완충재를 통하여 전파되기에 완충재의 열전도도는 처분시스템의 안전성 평가에 매우 중요하다. 본 연구에서는 국내에서 생산되는 압축 벤토나이트 완충재의 열전도도 예측을 위한 경험적 회귀 모델의 정합성을 검증하고 정확도를 높이기 위해 예측모델의 구축에 기계학습법을 적용해 보았다. 벤토나이트의 건조밀도, 함수비 및 온도 값을 바탕으로 열전도도를 예측하고자 하였으며, 이때 다항 회귀, 결정 트리, 서포트 벡터 머신, 앙상블, 가우시안 프로세스 회귀, 인공신경망, 심층 신뢰 신경망, 유전 프로그래밍과 같은 기계학습 기법을 적용하였다. 기계학습 기법을 이용하여 예측한 결과, 부스팅 기반의 앙상블 기법, 유전 프로그래밍, 3차 함수 기반의 SVM, 가우시안 프로세스 회귀의 기계학습기법을 활용한 모델이 선형 회귀 분석 기법에 비해 좋은 성능을 보였으며, 특히 앙상블의 부스팅 기법과 가우시안 프로세스 회귀 기법을 사용한 모델들이 가장 좋은 성능을 보였다.

GIS와 기계학습을 이용한 지하수 가능성도 작성 연구 현황 (Status of Groundwater Potential Mapping Research Using GIS and Machine Learning)

  • 이사로
    • 대한원격탐사학회지
    • /
    • 제36권6_1호
    • /
    • pp.1277-1290
    • /
    • 2020
  • 지표수와 지하수로 이루어진 수자원은 세계적으로 가장 중요한 천연자원 중 하나로 여겨진다. 지난 세기 이후 급속한 산업화와 급증하는 인구로 인해, 생활용, 산업용, 농업용수 수요가 급증하고 있으며, 이에 대한 지하수 수요도 급증하고 있다. 따라서 지하수에 대한 지속 가능한 개발과 관리를 위해서는 정확한 위치기반의 지하수 가능성도 작성이 필수적이다. 최근에는 기계학습과 지리정보시스템 통합이 지하수 가능성도 작성에 효과적인 방법이 되고 있다. 이러한 통합접근법의 현황 파악을 위해 6년(2015~2020년) 동안 94편의 직접 관련 논문에 대한 체계적 검토를 실시했다. 문헌 검토에 따르면, 매년 발간되는 연구의 수는 시간이 지남에 따라 급격히 증가했다. 전체 연구 분야는 15개국에 걸쳐 있으며, 85%의 연구가 이란, 인도, 중국, 한국, 이라크에 집중되었다. 지하수 산출 가능성 조사에는 20개의 변수가 자주 사용된 것으로 조사되었으며, 이 중 지형고도, 경사, 경사방향, 지형습도지수, 지질, 토지 이용 피복, 하천 밀도, 강과의 거리, 강우량 등이 자주 사용되는 것으로 나타났다. 기계학습 모델에 있어 랜덤 포레스트, 서포트벡터머신, 부스트 회귀트리 등의 방법이 많이 사용되었다. 이러한 문헌 연구는 최적의 결과를 위해 지하수 가능성도를 저비용 대체물이 아닌 현장 작업을 보완하는 도구로 사용해야 한다는 것을 보여준다. 마지막으로, 향후, 지하수 가능성도 작성의 표준화 및 정확성을 개선하기 위해 더 많은 연구가 진행되어야 할 것이다.

Water Level Prediction on the Golok River Utilizing Machine Learning Technique to Evaluate Flood Situations

  • Pheeranat Dornpunya;Watanasak Supaking;Hanisah Musor;Oom Thaisawasdi;Wasukree Sae-tia;Theethut Khwankeerati;Watcharaporn Soyjumpa
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.31-31
    • /
    • 2023
  • During December 2022, the northeast monsoon, which dominates the south and the Gulf of Thailand, had significant rainfall that impacted the lower southern region, causing flash floods, landslides, blustery winds, and the river exceeding its bank. The Golok River, located in Narathiwat, divides the border between Thailand and Malaysia was also affected by rainfall. In flood management, instruments for measuring precipitation and water level have become important for assessing and forecasting the trend of situations and areas of risk. However, such regions are international borders, so the installed measuring telemetry system cannot measure the rainfall and water level of the entire area. This study aims to predict 72 hours of water level and evaluate the situation as information to support the government in making water management decisions, publicizing them to relevant agencies, and warning citizens during crisis events. This research is applied to machine learning (ML) for water level prediction of the Golok River, Lan Tu Bridge area, Sungai Golok Subdistrict, Su-ngai Golok District, Narathiwat Province, which is one of the major monitored rivers. The eXtreme Gradient Boosting (XGBoost) algorithm, a tree-based ensemble machine learning algorithm, was exploited to predict hourly water levels through the R programming language. Model training and testing were carried out utilizing observed hourly rainfall from the STH010 station and hourly water level data from the X.119A station between 2020 and 2022 as main prediction inputs. Furthermore, this model applies hourly spatial rainfall forecasting data from Weather Research and Forecasting and Regional Ocean Model System models (WRF-ROMs) provided by Hydro-Informatics Institute (HII) as input, allowing the model to predict the hourly water level in the Golok River. The evaluation of the predicted performances using the statistical performance metrics, delivering an R-square of 0.96 can validate the results as robust forecasting outcomes. The result shows that the predicted water level at the X.119A telemetry station (Golok River) is in a steady decline, which relates to the input data of predicted 72-hour rainfall from WRF-ROMs having decreased. In short, the relationship between input and result can be used to evaluate flood situations. Here, the data is contributed to the Operational support to the Special Water Resources Management Operation Center in Southern Thailand for flood preparedness and response to make intelligent decisions on water management during crisis occurrences, as well as to be prepared and prevent loss and harm to citizens.

  • PDF

이수식 TBM 데이터와 랜덤포레스트를 이용한 일축압축강도 분류 예측에 관한 연구 (A Study on the Prediction of Uniaxial Compressive Strength Classification Using Slurry TBM Data and Random Forest)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.547-560
    • /
    • 2023
  • 최근 국내외에서 기계학습 기법으로 TBM 굴진 데이터와 지반데이터를 분석하는 지반 분류예측 연구가 증가하고 있다. 본 연구에서는 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 의사결정트리 기반 랜덤포레스트 모델을 3곳의 이수식 TBM 현장에서 획득한 기계 데이터와 지반 데이터에 적용하여 일축압축강도에 대한 다중 분류예측 연구를 하였다. 일축압축강도의 다중 분류 예측을 위해서 학습과 테스트 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 의사 결정 트리를 기반으로 한 랜덤 포레스트를 사용하여 일축압축강도 분류 학습을 수행한 결과, 다중 분류 예측 모델의 정확도는 학습 세트와 테스트 세트에서 각각 0.983 및 0.982로 모두 높게 나타났다. 다만, 클래스 간 데이터 분포의 불균형으로 인하여 클래스 4에서는 재현율이 낮게 평가되었다. 다양한 현장에서 획득한 일축압축강도의 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

모바일 및 웨어러블 센서 데이터를 이용한 다양한 식사상황 인식 시스템 (A Context Recognition System for Various Food Intake using Mobile and Wearable Sensor Data)

  • 김기훈;조성배
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.531-540
    • /
    • 2016
  • 최근 모바일 환경의 다양한 센서 정보를 이용한 상황인지 서비스가 활발히 연구되고 있다. 본 논문에서는 모바일 및 웨어러블 센서 데이터를 사용해 다양한 맥락에서 나타날 수 있는 사용자의 식사상황을 효과적으로 인식할 수 있는 확률모델을 제안한다. 식사행위와 관련된 상황들을 체계적으로 모델링하기 위해 행위이론의 4가지 행위 요소 및 육하원칙의 5가지 구성 요소들을 모바일 및 웨어러블의 저수준 센서 데이터로 추론 가능한 범위에 맞게 통합하여 인식모델을 구축하고, 트리구조의 베이지안 네트워크 모델링 방식을 사용하여 인식의 경량화를 시도하였다. 제안하는 시스템의 유용성을 입증하기 위하여 1주일간 다양한 배경의 4명 사용자로부터 식사상황 및 일상생활에 대한 383분의 데이터를 수집하였다. 실험결과 기존의 대표적인 분류기들과 비교하여 상대적으로 우수한 인식률(93.21%)이 도출되는 것을 확인하였다. 또한 실제 시나리오를 통한 내부 분석을 수행하여 인식에 사용되는 각 요소들의 유용성을 검증하였다.

Development and application of a floor failure depth prediction system based on the WEKA platform

  • Lu, Yao;Bai, Liyang;Chen, Juntao;Tong, Weixin;Jiang, Zhe
    • Geomechanics and Engineering
    • /
    • 제23권1호
    • /
    • pp.51-59
    • /
    • 2020
  • In this paper, the WEKA platform was used to mine and analyze measured data of floor failure depth and a prediction system of floor failure depth was developed with Java. Based on the standardization and discretization of 35-set measured data of floor failure depth in China, the grey correlation degree analysis on five factors affecting the floor failure depth was carried out. The correlation order from big to small is: mining depth, working face length, floor failure resistance, mining thickness, dip angle of coal seams. Naive Bayes model, neural network model and decision tree model were used for learning and training, and the accuracy of the confusion matrix, detailed accuracy and node error rate were analyzed. Finally, artificial neural network was concluded to be the optimal model. Based on Java language, a prediction system of floor failure depth was developed. With the easy operation in the system, the prediction from measured data and error analyses were performed for nine sets of data. The results show that the WEKA prediction formula has the smallest relative error and the best prediction effect. Besides, the applicability of WEKA prediction formula was analyzed. The results show that WEKA prediction has a better applicability under the coal seam mining depth of 110 m~550 m, dip angle of coal seams of 0°~15° and working face length of 30 m~135 m.

컴퓨팅 사고 교육 게임 데이터를 사용한 게임 점수 예측 모델 성능 비교 연구 (A Comparative Study on Game-Score Prediction Models Using Compuational Thinking Education Game Data)

  • 양영욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.529-534
    • /
    • 2021
  • 컴퓨팅 사고는 21세기에 필요한 중요한 소양 중 하나로 여겨지면서 여러 국가에서 컴퓨팅 사고 교육 과정을 도입하여 시행하고 있다. 컴퓨팅 사고 교육 방법 중 교육용 게임 기반 방법은 학생들의 참여와 동기를 증대시키고 컴퓨팅 사고에 대한 접근성을 높여준다. Autothinking은 학습자들에게 컴퓨팅 사고 교육을 제공하기 위한 목적으로 개발한 교육용 게임으로 학습자들에게 동적으로 피드백을 제공하고, 학습자의 컴퓨팅 사고 능력에 따라서 난이도를 자동으로 조절하는 적응적 시스템이다. 하지만 규칙기반으로 게임을 디자인하여 지능적으로 학습자들의 컴퓨팅 사고를 고려하거나 피드백을 주지 못한다. 본 연구에서는 Autothikning을 통해 수집한 게임 데이터를 소개하고, 이를 활용하여 해당 게임의 적응성을 높이기 위해 컴퓨팅 사고를 반영하는 게임 점수의 예측을 수행한다. 이 문제를 해결하기 위해 회귀 문제에 가장 많이 사용되는 선형 회귀, 결정 트리, 렌덤 포레스트, 서포트 벡터 머신 알고리즘에 대한 비교연구를 수행하였다. 연구 수행결과 선형회귀 방법이 게임 점수 예측에 가장 좋은 성능을 보여주었다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.