• 제목/요약/키워드: Ensemble Learning

검색결과 387건 처리시간 0.023초

그래프 분류 기반 특징 선택을 활용한 작물 수확량 예측 (Crop Yield Estimation Utilizing Feature Selection Based on Graph Classification)

  • 옴마킨;이성근
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1269-1276
    • /
    • 2023
  • 작물 수확량 예측은 토양, 비, 기후, 대기 및 이들의 관계와 같은 다양한 측면으로 인해 다국적 식사와 강력한 수요에 필수적이며, 기후 변화는 농업 생산량에 영향을 미친다. 본 연구에서는 온도, 강수량, 습도 등의 데이터 세트를 운영한다. 현재 연구는 농부와 농업인을 지원하기 위해 다양한 분류기를 사용한 기능 선택에 중점을 두고 있다. 특징 선택 접근법을 활용한 작물 수확량 추정은 96% 정확도를 나타내었다. 특징 선택은 기계학습 모델의 성능에 영향을 미친다. 현재 그래프 분류기의 성능은 81.5%를 나타내며, 특징 선택이 없는 Random Forest 회귀 분석은 78%의 정확도를 나타냈다. 또한, 특징 선택이 없는 의사결정 트리 회귀 분석은 67%의 정확도를 유지하였다. 본 논문은 제시된 10가지 알고리즘을 대상으로 특징 선택 중요성에 대한 실험결과를 나타내었다. 이러한 결과는 작물 분류 연구에 적합한 모델을 선택하는 데 도움이 될 것으로 기대된다.

디지털 인문학에서 비정형 데이터 분석을 이용한 사조 분류 방법 (Mining Intellectual History Using Unstructured Data Analytics to Classify Thoughts for Digital Humanities)

  • 서한솔;권오병
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.141-166
    • /
    • 2018
  • 최근 디지털 인문학 (Digital humanities) 연구분야의 등장으로 정보기술을 활용하여 인문학 연구의 효율성 제고에 기여하고 있다. 특히 인문학 연구에서 특정한 인물 혹은 문서가 어떠한 사상 (idea)을 담고 있는지와 다른 사상과의 어떤 연결성을 가지는지를 자동적인 방법으로 분석하는 것은 지성사(intellectual history)를 파악하는 데 중요한 도전이 될 것이다. 본 연구의 목적은 책이나 논문, 기사와 같은 비정형 데이터 (unstructured data)에 포함된 주장을 파악하고 이를 다른 주장이나 사상과 어떠한 관련이 있는지를 자동으로 분석하는 방법을 제안하는 것이다. 특히 본 연구에서는 주장과 주장 사이의 영향관계를 밝히는 히스토리 마이닝 (History Mining)이라는 방법도 제안하였다. 이를 위해 딥러닝 기법 (deep learning method)을 포함한 분류알고리즘 기법 (classification algorithm)을 활용하였다. 본 연구가 제안하는 방법론의 성능을 검증하기 위하여 철학 사조 중에서 대표적으로 대비되는 경험주의와 합리주의 관련 철학자들을 선정하고 관련된 저서 혹은 인터넷 상의 글을 수집하였다. 분류 알고리즘의 성능은 Recall, Precision, F-Score 및 Elapsed Time으로 측정하였으며 DNN, Random Forest, 그리고 앙상블 등이 우수한 성능을 보였다. 선정된 분류 알고리즘으로 특정 철학자의 글에 대해 합리주의 혹은 경험주의로 분류하였으며, 그 철학자의 활동 연도를 고려하여 히스토리 맵을 생성할 수 있었다.

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구 (Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration)

  • 안동욱;임춘성
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.23-34
    • /
    • 2019
  • 최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

  • PDF

공공연구성과 실용화를 위한 데이터 기반의 기술 포트폴리오 분석: 빅데이터 및 인공지능 분야를 중심으로 (Data-Driven Technology Portfolio Analysis for Commercialization of Public R&D Outcomes: Case Study of Big Data and Artificial Intelligence Fields)

  • 전은지;이채원;류제택
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.71-84
    • /
    • 2021
  • 빅데이터 및 인공지능 기술은 4차 산업혁명에 핵심적인 기술이나, 국내 중소·중견 기업의 빅데이터 분석 활용과 복합 인공지능 분야의 기술경쟁력 확보가 미흡한 상황이다. 따라서 빅데이터 및 인공지능 분야의 기술사업화를 통해 산업군 전반의 경쟁력을 강화하는 것이 중요하다. 본 연구에서는 기술 포트폴리오 분석을 통해 공공연구성과 실용화 우선순위를 평가하고자 한다. 우선 공공연구성과 정보에 대해 앙상블 기법을 적용한 딥러닝 모델을 사용하여 과제의 6T 분류 결측값을 개선하였다. 이후 6T 분야별 빅데이터 및 인공지능융합 분야를 대상으로 토픽 모델링을 진행하여 10개의 세부기술분야를 도출하였다. 세부기술분야별 기술사업화 가능성을 판단하기 위해 기술활동성과 기술효율성을 새롭게 정의하고 측정하였다. 두 축을 기반으로 포트폴리오를 4가지의 유형으로 구분하여 기술사업화 최우선 고려 대상, 장기 투자가 필요한 기술분야 등을 제안하였다. '영상 및 이미지 기반의 진단 기술'은 기술활동성 및 기술효율성이 높아 시장의 수요와 사업화 역량 모두 이상적인 수준으로 나타났다. 이처럼 체계적인 산업·기술시장 분석을 통해 공공연구성과 창출 기술의 활용을 활성화할 수 있으며 중소·중견으로의 효율적인 기술 이전 및 사업화 추진이 가능하다.

기계학습 분류모델을 이용한 하천퇴적물의 중금속 오염원 식별 (Identifying sources of heavy metal contamination in stream sediments using machine learning classifiers)

  • 반민정;신상욱;이동훈;김정규;이호식;김영;박정훈;이순화;김선영;강주현
    • 한국습지학회지
    • /
    • 제25권4호
    • /
    • pp.306-314
    • /
    • 2023
  • 하천퇴적물은 유역내 다양한 오염원으로부터 발생하는 중금속, 유기물 등 오염물질의 수용체일 뿐만 아니라 수질 오염 및 수생태 악영향을 유발할 수 있는 2차적 오염원이기에 중요한 관리대상이라고 할 수 있다. 오염된 하천퇴적물의 효과적인 관리를 위해서는 오염원에 대한 식별과 이와 연계된 관리대책의 수립이 우선되어야 한다. 본 연구는 하천퇴적물내 측정된 다양한 이화학적 오염항목 분포 특성에 기반하여 퇴적물의 주요 오염원을 식별하기 위한 방법으로서 기계학습모델의 적용성을 평가하였다. 기계학습 모델의 성능 평가를 위해 전국 4대강 수계내 주요 폐금속광산 및 산업단지 인근에서 수집된 총 356개의 하천퇴적물에 대한 중금속 10개 항목(Cd, Cu, Pb, Ni, As, Zn, Cr, Hg, Li, Al)과 토양항목 3개(모래, 실트, 점토 비율) 수질항목 5개(함수율, 강열감량, 총유기탄소, 총질소, 총인)를 포함한 총 18개 오염항목에 대한 분석자료를 활용하였다. 기계학습 분류 모델로서 선형판별분석(linear discriminant analysis, LDA)과 서포트벡터머신(support vector machine, SVM) 분류기를 사용하여 폐금속광산('광산')과 산업단지('산단') 인근에서의 하천퇴적물 시료의 분류 성능을 평가한 결과, 채취 지점 및 시기별 4가지 경우(비강우시 광산, 강우시 광산, 비강우시 산단, 및 강우시 산단)에 대한 퇴적물 시료의 분류 성능이 우수하였으며, 특히 비선형 모델인 SVM(88.1%)이 선형모델인 LDA(79.5%) 보다 퇴적물을 분류하는데 있어 보다 우수한 성능을 나타냈다. SVM 앙상블 기반 비배타적 다중라벨분류기 모델을 이용하여 각 시료채취 지점 상류 유역 1km 반경 내 지배적인 토지이용 및 오염원을 다중 타겟값으로 다중분류 예측을 수행한 결과, 폐금속광산과 산업단지의 분류는 비교적 높은 정확도로 수행하였으나, 도시와 농업지역 등 다른 비점오염원에 대한 분류정확도는 56~60%범위로 비교적 낮게 나타났다. 이는 다중라벨 분류모델의 복잡성에 비해 데이터셋의 크기가 상대적으로 작아서 발생한 과적합에 기인한 것으로 향후 보다 많은 측정자료가 확보될 경우 기계학습 모델을 적용한 오염원 분류의 정확도를 보다 향상시킬 수 있을 것으로 판단된다.

머신러닝 기반 위성영상과 수질·수문·기상 인자를 활용한 낙동강의 Chlorophyll-a 농도 추정 (Estimation of Chlorophyll-a Concentration in Nakdong River Using Machine Learning-Based Satellite Data and Water Quality, Hydrological, and Meteorological Factors)

  • 박소련;손상훈;배재구;이도이;서동주;김진수
    • 대한원격탐사학회지
    • /
    • 제39권5_1호
    • /
    • pp.655-667
    • /
    • 2023
  • 전 세계적으로 녹조 대발생은 빈번하게 보고되고 있으며, 국내에서도 매년 녹조로 인한 심각한 수질 오염 문제가 발생하고 있다. 지속적인 관리와 신속한 대응을 통한 수생태계 보호가 필요하다. 녹조 발생의 지표인 chlorophyll-a (Chl-a) 농도를 예측하기 위해 위성 영상을 이용한 연구가 많이 이루어지고 있다. 하지만 수계에 따라 변하는 분광특성과 대기 보정 오류로 인해 정확한 Chl-a 산출에 어려움이 있어 최근 머신러닝 모델을 활용하고 있다. 위성 분광지수 뿐만 아니라 녹조에 영향을 미치는 인자들에 대한 복합적인 고려가 필요하다. 따라서, 본 연구는 수질, 수문 및 기상 인자와 Sentinel-2 영상을 복합적으로 고려하여 데이터셋을 구축하였다. 최근 5년간 낙동강에 위치한 8개 보 구간의 Chl-a 농도 예측에 대표적인 앙상블 모델 random forest (RF)와 extreme gradient boosting (XGBoost)을 활용하였다. 모델 평가 지표로 r-squared score (R2), root mean square errors(RMSE), mean absolute errors (MAE)를 사용하였으며, XGBoost의 R2가 0.810, RMSE가 6.612, MAE가 4.457로 유의미한 결과를 얻은 것을 확인하였다. Shapley additive explanations (SHAP) 분석을 통해 두 모델 모두 수질 인자 suspended solids (SS), biochemical oxygen demand (BOD), dissolved oxygen (DO)과 red edge 밴드를 활용한 밴드비가 높은 중요도를 보인 것을 알 수 있었다. 다양한 입력 데이터는 모델 성능 향상에 도움을 주는 것을 확인할 수 있었으며, 국내외 녹조 탐지에 적용될 수 있을 것으로 보인다.

수치 예측 알고리즘 기반의 풍속 예보 모델 학습 (Learning Wind Speed Forecast Model based on Numeric Prediction Algorithm)

  • 김세영;김정민;류광렬
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.19-27
    • /
    • 2015
  • 대체 에너지 기술 개발을 위해 지난 20년 동안 풍력 발전에 관련한 기술들이 축적되어왔다. 풍력 발전은 자연적으로 부는 바람을 에너지원으로 사용하므로 환경 친화적이며 경제적이다. 이러한 풍력 발전의 효율적인 운영을 위해서는 시시각각 변하는 자연 바람의 세기를 정확도 높게 예측할 수 있어야 한다. 풍속을 평균적으로 얼마나 정확하게 잘 예측하는지도 중요하지만 실제 값과 예측 값의 절대 오차의 최댓값을 최소화시키는 것 또한 중요하다. 발전 운영 계획 측면에서 예측 풍속을 통한 예측 발전량과 실제 발전량의 차이는 경제적 손실을 가져오는 원인이 되므로 유연한 운영 계획을 세우기 위해 최대 오차가 중요한 역할을 한다. 본 논문에서는 풍속 예측 방법으로 과거 풍속 변화 추세뿐만 아니라 기상청 예보와 시기적인 풍속의 특성을 고려하기 위한 경향 값을 반영하여 수치 예측 알고리즘으로 학습한 풍속 예보 모델을 제안한다. 기상청 예보는 풍력 발전 단지를 포함하는 비교적 넓은 지역의 풍속을 예보하지만 풍속을 예측하고자 하는 국소지점에 대한 풍속 예측의 정확도를 높이는데 상당히 기여한다. 또한 풍속 변화 추세는 긴 시간동안 관측한 풍속을 세세하게 반영할수록 풍속 예측의 정확도를 높인다.

진화하는 그래프 구조 학습을 위한 부스티드 DNA 컴퓨팅 (Boosted DNA Computing for Evolutionary Graphical Structure Learning)

  • 석호식;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.265-267
    • /
    • 2005
  • DNA 컴퓨팅은 분자 수준(molecular level)에서 연산을 수행한다. 따라서 일반적인 실리콘 기반의 컴퓨터에서와는 달리, 순차적인 연산 제어를 보장하기 어렵다는 특징이 있다. 그러나 DNA 컴퓨팅은 화학반응에 기초한 연산이기 때문에, 실험자가 의도한 연산을 많은 수의 분자에 동시에 적용할 수 있으므로 실리콘 기반의 컴퓨터와는 비교할 수 없는 병렬 연산을 구현할 수 있다. 병렬 연산을 구현하고자 할 때, 일반적으로 연산에 사용하는 모든 DNA 분자들을 대상으로 연산을 구현할 수도 있다. 그러나 전체가 아닌 일부의 분자들을 상대로 연산을 수행하는 것 역시 가능하며 이 때 자연스러운 방법으로 사용할 수 있는 방법이 배깅(Bagging)이나 부스팅(Boosting)과 같은 앙상블(ensemble) 계열의 학습 방법이다. 일반적인 부스팅과 달리 가중치를 부여하는 것이 아니라 특정 학습자(learner)를 나타내는 분자들을 증폭한다면 가중치를 분자의 양으로 표현하는 것이 가능하므로 분자 수준에서 앙상블 계열의 학습을 구현하는 것이 가능하다. 본 논문에서는 앙상블 계열의 학습 방법 중 특히 부스팅의 효과를 DNA 컴퓨팅에 응용하고자 할 때, 어떤 방법이 가능하며, 표현 과정에서 고려해야 할 사항은 어떠한 것들이 있는지 고려하고자 한다. 본 논문에서는 규모를 사전에 한정할 수 없는 진화 가능한 그래프 구조(evolutionary graph structure)를 학습할 수 있는 방법을 찾아보고자 한다. 진화 가능한 그래프 구조는 기존의 DNA 컴퓨팅 방법으로는 학습할 수 없는 문제이다. 그러나 조합 가능한 수를 사전에 정의할 수 없기 때문에 분자의 수에 상관없이 동일한 연산 시간에 문제를 해결할 수 있는 DNA 컴퓨팅의 장정을 가장 잘 발휘할 수 있는 문제이기도 하다.개별 태스크의 특성에 따른 성능 조절과 태스크의 변화에 따른 빠른 반응을 자랑으로 한다. 본 논문에선 TIB 알고리즘을 리눅스 커널에 구현하여 성능을 평가하였고 그 결과 리눅스에서 사용되는 기존 인터벌 기반의 알고리즘들에 비해 좋은 전력 절감 효과를 얻을 수 있었다.과는 한식 외식업체들이 고객들의 재구매 의도를 높이기 위해서는 한식 외식업체의 서비스요인, 식음료요인, 이벤트 요인 등을 강화함으로써 전반적인 종사원 서비스 품질과 식음료품질을 높이는 전략을 취해야 한다는 것을 시사해주고 있다. 본 연구는 대구 경북소재 한식 외식업체만을 대상으로 하여 연구를 실시하여 연구의 일반화와 한식 외식업체를 이용하는 이용 고객들이 한식 외식업체를 재방문하는 재구매 의도가 발생하는데 있어 발생하는 과정을 설명하는 종단적 연구를 실시하지 못한 한계점을 가지고 있다.아직 산업 디자인이 품질경쟁력에 크게 영향을 미치는 성숙단계에 이르지 못하였음을 의미한다. (2) 제품 디자인에게 영향을 끼치는 유의적인 변수는 연구개발력, 연구개발투자 수준, 혁신활동 수준(5S, TPM, 6Sigma 운동, QC 등)이며, 제품 디자인은 우선 품질경쟁력을 높여 간접적으로 고객만족과 고객 충성을 유발하는 것으로 추정되었다. 상기의 분석결과로부터, 본 연구는 다음과 같은 정책적 함의를 도출하였다. 첫째, 신상품 개발과 혁신을 위한 포괄적인 연구개발 프로젝트를 품질 경쟁력의 주요 결정요인(제품의 기본성능, 신뢰성, 수명(내구성) 및 제품 디자인)과 연계하여 추진해야 할 것이다. 둘째, 기업은 디자인 경영 마인드 제고와 디자인 전문인력 양성을, 대학은 디자인 현장 업무를 통하여 창의력 증진과 기획 및 마케팅 능력 교육을, 정부는 디자인 기술개발 및 디자인 교육지원의 강화를 통하여 각각 디자인 경쟁력$\righta

  • PDF

배깅과 부스팅 알고리즘을 이용한 핸드볼 결과 예측 비교 (Comparison of Handball Result Predictions Using Bagging and Boosting Algorithms)

  • 김지응;박종철;김태규;이희화;안지환
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.279-286
    • /
    • 2021
  • 본 연구는 여자핸드볼 경기에서 발생되는 움직임 정보를 바탕으로 앙상블 기법의 배깅과 부스팅 알고리즘의 예측력을 비교하고, 움직임 정보의 활용가능성을 분석하는데 목적이 있다. 연구의 목적을 달성하기 위하여 15번의 연습경기에서 관성센서를 활용해 수집한 움직임 정보를 활용한 경기 결과예측을 랜덤포레스트와 Adaboost 알고리즘을 활용해 비교·분석하였다. 연구결과 첫째, 랜덤포레스트 알고리즘의 예측률은 66.9 ± 0.1%로 나타났으며, Adaboost 알고리즘의 예측률은 65.6 ± 1.6%로 나타났다. 둘째, 랜덤포레스트는 승리 결과는 모두 예측하였고, 패배의 결과는 하나도 예측하지 못하였다. 반면, Adaboost 알고리즘은 승리 예측 91.4%, 패배예측 10.4%라고 나타났다. 셋째, 알고리즘의 적합성 여부에서 랜덤포레스트는 과적합의 오류가 없었지만, Adaboost는 과적합의 오류가 나타났다. 본 연구결과를 바탕으로 스포츠경기를 예측할 때 움직임 정보도 활용 가능성을 확인하였으며, 랜덤포레스트 알고리즘이 보다 우수함을 확인하였다.

온라인 판매촉진활동 분석을 통한 고객 리뷰평점 추천 및 예측에 관한 연구 : S사 Wearable 상품중심으로 (A Study on Customer Review Rating Recommendation and Prediction through Online Promotional Activity Analysis - Focusing on "S" Company Wearable Products -)

  • 신호철
    • 한국콘텐츠학회논문지
    • /
    • 제22권4호
    • /
    • pp.118-129
    • /
    • 2022
  • 본 논문에서는 국내 온라인 기업의 Wearable 제품을 선정하고 판매 데이터를 수집해 다양한 분석과 매출 예측을 통해 판촉 활동의 전략 모델을 연구하는 데 목적이 있다. 데이터 분석을 위해 여러 가지의 알고리즘을 사용하여 분석할 것이며, 최상의 모형으로 결과를 선택할 것이다. 최상의 결과로 선택된 모형인 Gradient Boosting 모델은 지도학습을 통해 종속변수 예측에 있어서 판촉 유형, 가격, 판매 수량, 성별, 모델, 판매경로, 제품 성능, 판매 날짜, 지역 등 9개의 독립변수를 투입할 수 있게 된다. 본 연구에서는 판매촉진 유형별로 종속변수로 설정된 리뷰 값을 앙상블 분석 기법을 통해 더욱더 세부적으로 학습하고 분석 및 예측이 주목적이며, 판매촉진 활동을 통한 고객에게 할인 혜택을 주어질 경우와 주어지지 않을 경우에 리뷰 평점을 연구하는 데 목적이 있다. 분석 결과로 본다면 평가 결과는 AUC 95% 수준이며, F1도 93% 정도이다. 결국 판매촉진 활동 유형 중 가치 부가 혜택이 리뷰 수와 리뷰 평점에 영향을 준다고 것을 확인할 수 있었으며, 주요 변인들이 리뷰와 리뷰 평점의 영향을 준다는 것도 확인할 수 있었다.