• 제목/요약/키워드: Machine Learning Algorithm

검색결과 1,484건 처리시간 0.032초

검색 키워드를 활용한 하이브리드 협업필터링 기반 상품 추천 시스템 (A Hybrid Collaborative Filtering-based Product Recommender System using Search Keywords)

  • 이윤주;원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.151-166
    • /
    • 2020
  • 추천시스템(recommender system)은 고객의 선호도를 예측하여 상품과 서비스를 제공하는 기법으로, 현재 다양한 온라인 서비스에 활용되고 있다. 이와 관련된 많은 선행 연구들은 협업필터링(collaborative filtering)에 기반한 추천시스템을 제안하였는데, 대부분의 경우 고객의 구매 내역 또는 평점 데이터만 사용하여 진행되었다. 오늘날 소비자들은 제품을 구매하는 과정에서 온라인 검색 행동을 하여 관심있는 제품을 찾는다. 그렇기 때문에 검색 키워드 데이터는 고객의 선호도를 파악하는데 매우 유용한 정보일 수 있다. 그러나 지금까지 추천시스템 연구에서 사용되는 경우는 거의 없었다. 이에 본 연구는 고객의 검색 행동에 주목하여 온라인 쇼핑몰 고객의 검색 키워드 데이터와 구매 데이터를 고려한 하이브리드 협업 필터링을 제안하였다. 본 연구는 제안된 모델의 적용 가능성을 검증하기 위해 실제 온라인 쇼핑몰 데이터를 사용하여 성능을 검증하였다. 연구 결과, 추천 상품의 개수가 많아질수록 고객의 검색 키워드를 기반으로 구축된 협업필터링의 추천 성능이 향상되는 반면 일반적인 협업필터링의 성능은 추천된 상품의 개수가 많아질수록 점차 감소함을 발견하였다. 따라서 본 연구는 검색 키워드 데이터를 활용한 하이브리드 협업필터링이 고객의 선호도를 반영한 추천할 수 있으며, 구매이력 데이터의 정보부족을 해결할 수 있음을 확인하였다. 이는 기존의 정량 데이터만을 활용한 추천 시스템이 아닌, 비정형 데이터인 텍스트를 사용함으로써 새로운 하이브리드 협업필터링 구축 방법을 제안했다는 점에서 의의가 있다.

토지 보상비 결정 요인 분석 - 건설CALS 데이터 중심으로 (Analysis on the Determinants of Land Compensation Cost: The Use of the Construction CALS Data)

  • 이상규;서명배;김진욱
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.461-470
    • /
    • 2020
  • 본 연구는 건설 전주기 (기획, 설계, 시공, 관리) 과정에서 생성되는 건설 CALS(Continuous Acquisition & Life-Cycle Support) 시스템 내의 데이터 셋 (443개)을 활용하여 토지보상비에 영향을 주는 주요 결정 요인을 분석한다. 해당 분석을 위해 기존 토지 비용 관련 연구에서 활용된 주요 변수를 활용하였다. 이를 기반으로 8개 (토지면적, 개별 공시지가, 감정평가액, 지목, 용도지역 1, 지형 고저, 지형 형상, 도로 접면)의 주요 변수를 활용하였다. 더불어, 해당 변수는 기계학습 알고리즘 기반의 Xgboost 알고리즘을 통해 변수별 중요도 평가를 진행하였고, 해당 변수 중, 개별공시지가가 가장 중요도가 높은 변수로 확인하였다. 토지보상비 결정 요인에 대한 분석 및 검증을 위해 선형다중회귀분석을 사용하였다. 검증을 위해 구성되는 변수로 종속변수는 개별공시지가 변수를 활용하였고, 독립변수는 연속형 변수 1개 (면적), 범주형 변수는 5개 (지목, 용도지역1, 지형고저, 지형형상, 도로접면)를 활용하였다. 본 연구의 모델에 대한 검증결과, 지목, 용도지역 1, 도로접면에 대한 독립 변수가 유의미한 것으로 확인하였다.

신경망을 이용한 다중 심리-생체 정보 기반의 부정 감성 분류 (Classification of Negative Emotions based on Arousal Score and Physiological Signals using Neural Network)

  • 김아영;장은혜;손진훈
    • 감성과학
    • /
    • 제21권1호
    • /
    • pp.177-186
    • /
    • 2018
  • 감성은 복잡하고 다양한 요인들에 의해 영향을 받기 때문에 다각적인 측면에서 고려되어야 한다. 본 연구에서는 심리 평가 척도의 하나인 각성(arousal) 지표와 다중 생체신호에서 추출된 생체지표 반응을 이용하여 중립 및 부정 감성(슬픔, 공포, 놀람)의 분류하였다. 이를 위하여 감성에 따른 생체지표 반응의 차이를 확인하였고, 다중 신경망 알고리즘 기반의 감성 인식기를 적용하여 이들 감성이 얼마나 정확하게 분류되는가를 확인하였다. 총 146명의 실험 참가자(평균 연령 $20.1{\pm}4.0$, 남성 41%)를 대상으로 감성 유발 자극을 제시하고 동시에 생체신호(심전도, 혈류맥파, 피부전기활동)를 측정하였다. 또한 감성 유발 자극에 대한 심리 반응을 감성 평가 척도로 평가하였다. 측정된 생체신호에서 심박률(HR), NN 간격의 표준편차(SDNN), 혈류량(BVP), 맥파전달시간(PTT), 피부전도수준(SCL), 피부전도반응(SCR)을 추출하였다. 결과 분석을 위하여 감성 자극에 대한 각성도와 안정 상태와 감성 상태의 생체지표 반응을 활용하였다. 또한 감성 분류를 위하여 다중 신경망 기반의 감성 인식기를 활용하였다. 그 결과, 감성에 따른 생체지표 반응의 차이를 확인하였고, 이들 감성의 분류 성능은 각성도와 모든 생체지표 특징들을 조합하였을 때 정확도가 가장 높음(86.9%)을 확인하였다. 본 연구는 심리 및 생체지표 추출과 기계학습 기술의 적용을 통하여 부정 감성을 분류할 수 있음을 제안하며, 이는 인간의 감성을 탐지하는 감성 인식 기술을 확립하는데 기여할 것으로 예상한다.

CART알고리즘과 Landsat-8 위성영상 분석을 통한 계절별 지하수함양량 변화 (Variation of Seasonal Groundwater Recharge Analyzed Using Landsat-8 OLI Data and a CART Algorithm)

  • 박승혁;정교철
    • 지질공학
    • /
    • 제31권3호
    • /
    • pp.395-432
    • /
    • 2021
  • 지하수함양은 시공간적으로 다양하여 직접적으로 측정하기 어렵기 때문에 함양추정을 위해 수치모델이 널리 사용되고 있다. 이 연구에서는 지하수함양을 추정하기 위한 방법으로 기계학습법의 하나인 분류회귀트리(CART)모형을 적용하기 위해 수정된 수직식생지수(mPVI), 정규식생지수(NDVI), 정규경작지수(NDTI), 정규나지지수(NDRI) 같은 토양-식생관련 지수와 강우, 지형인자(고도, 경사, 경사방향)를 입력하고 김천지역 SWAT-MODFLOW의 함양량 결과를 추출 및 학습하여 함양량을 예측하였다. SWAT-MODFLOW의 함양량 분포에 대한 CART모형의 예측값의 전반적인 정확도는 0.5~0.7, 카파계수는 0.3~0.6으로 나타나 위성영상자료를 통해 토양-식생에 따른 함양량 변화를 합리적으로 예측할 수 있었다.

Concept Drift에 의한 ML 모델 성능 변화의 정량적 추정 방법 (Quantitative Estimation Method for ML Model Performance Change, Due to Concept Drift)

  • 안순홍;이훈석;김승훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권6호
    • /
    • pp.259-266
    • /
    • 2023
  • 기계학습을 통해 학습된 모델은 업무 활용 시 그 성능을 실측하기 매우 어렵다. 때문에 운영 부서에서는 모델의 성능을 효과적으로 관리하지 못한다. 이로 인해 모델의 상태를 판단하기 위한 Concept drift 탐지 방법이 다양하게 연구되고 있다. 운영 부서에서는 운영 중인 모델의 성능을 정량적으로 관리하려고 한다. 그러나 Concept drift는 모델 상태를 데이터 관계적으로 판단 할 뿐, 모델의 정량적 성능 수치를 추정하지는 못한다. 본 연구에서는 Concept drift의 통계량을 통해 정량적으로 precision 값을 추정하는 성능 예측 모델(PPM, Performance prediction model)을 제안한다. 제안 모델의 Algorithm 1에서는, 학습데이터에서 복원 추출한 샘플링 데이터에 인위적인 drift를 유도하고 이때의 precision을 측정하여 drift와 precision의 데이터 셋을 만들어 학습한다. Algorithm 2에서는 테스트 데이터를 통해 실제 precision과 예측 precision의 차이를 측정하여 성능 예측 모델의 오차를 보정 한다. 현실 비즈니스에서 사용될 수 있는 대출 심사 모델과 신용카드 오사용 탐지 모델에 PPM을 적용하여 성능 예측의 유효성을 확인했다.

계층적 군집화 기반 Re-ID를 활용한 객체별 행동 및 표정 검출용 영상 분석 시스템 (Video Analysis System for Action and Emotion Detection by Object with Hierarchical Clustering based Re-ID)

  • 이상현;양성훈;오승진;강진범
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.89-106
    • /
    • 2022
  • 최근 영상 데이터의 급증으로 이를 효과적으로 처리하기 위해 객체 탐지 및 추적, 행동 인식, 표정 인식, 재식별(Re-ID)과 같은 다양한 컴퓨터비전 기술에 대한 수요도 급증했다. 그러나 객체 탐지 및 추적 기술은 객체의 영상 촬영 장소 이탈과 재등장, 오클루전(Occlusion) 등과 같이 성능을 저하시키는 많은 어려움을 안고 있다. 이에 따라 객체 탐지 및 추적 모델을 근간으로 하는 행동 및 표정 인식 모델 또한 객체별 데이터 추출에 난항을 겪는다. 또한 다양한 모델을 활용한 딥러닝 아키텍처는 병목과 최적화 부족으로 성능 저하를 겪는다. 본 연구에서는 YOLOv5기반 DeepSORT 객체추적 모델, SlowFast 기반 행동 인식 모델, Torchreid 기반 재식별 모델, 그리고 AWS Rekognition의 표정 인식 모델을 활용한 영상 분석 시스템에 단일 연결 계층적 군집화(Single-linkage Hierarchical Clustering)를 활용한 재식별(Re-ID) 기법과 GPU의 메모리 스루풋(Throughput)을 극대화하는 처리 기법을 적용한 행동 및 표정 검출용 영상 분석 시스템을 제안한다. 본 연구에서 제안한 시스템은 간단한 메트릭을 사용하는 재식별 모델의 성능보다 높은 정확도와 실시간에 가까운 처리 성능을 가지며, 객체의 영상 촬영 장소 이탈과 재등장, 오클루전 등에 의한 추적 실패를 방지하고 영상 내 객체별 행동 및 표정 인식 결과를 동일 객체에 지속적으로 연동하여 영상을 효율적으로 분석할 수 있다.

M&W 파동 패턴과 유전자 알고리즘을 이용한 주식 매매 시스템 개발 (Development of a Stock Trading System Using M & W Wave Patterns and Genetic Algorithms)

  • 양훈석;김선웅;최흥식
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.63-83
    • /
    • 2019
  • 투자자들은 기업의 내재가치 분석, 기술적 보조지표 분석 등 복잡한 분석보다 차트(chart)에 나타난 그래프(graph)의 모양으로 매매 시점을 찾는 직관적인 방법을 더 선호하는 편이다. 하지만 패턴(pattern) 분석 기법은 IT 구현의 난이도 때문에 사용자들의 요구에 비해 전산화가 덜 된 분야로 여겨진다. 최근에는 인공지능(artificial intelligence, AI) 분야에서 신경망을 비롯한 다양한 기계학습(machine learning) 기법을 사용하여 주가의 패턴을 연구하는 사례가 많아졌다. 특히 IT 기술의 발전으로 방대한 차트 데이터를 분석하여 주가 예측력이 높은 패턴을 발굴하는 것이 예전보다 쉬워졌다. 지금까지의 성과로 볼 때 가격의 단기 예측력은 높아졌지만, 장기 예측력은 한계가 있어서 장기 투자보다 단타 매매에서 활용되는 수준이다. 이외에 과거 기술력으로 인식하지 못했던 패턴을 기계적으로 정확하게 찾아내는 데 초점을 맞춘 연구도 있지만 찾아진 패턴이 매매에 적합한지 아닌지는 별개의 문제이기 때문에 실용적인 부분에서 취약할 수 있다. 본 연구는 주가 예측력이 있는 패턴을 찾으려는 기존 연구 방법과 달리 패턴들을 먼저 정의해 놓고 확률기반으로 선택해서 매매하는 방법을 제안한다. 5개의 전환점으로 정의한 Merrill(1980)의 M&W 파동 패턴은 32가지의 패턴으로 시장 국면 대부분을 설명할 수 있다. 전환점만으로 패턴을 분류하기 때문에 패턴 인식의 정확도를 높이기 위해 드는 비용을 줄일 수 있다. 32개 패턴으로 만들 수 있는 조합의 수는 전수 테스트가 불가능한 수준이다. 그래서 최적화 문제와 관련한 연구들에서 가장 많이 사용되고 있는 인공지능 알고리즘(algorithm) 중 하나인 유전자 알고리즘(genetic algorithm, GA)을 이용하였다. 그리고 미래의 주가가 과거를 반영한다 해도 같게 움직이지 않기 때문에 전진 분석(walk-forward analysis, WFA)방법을 적용하여 과최적화(overfitting)의 실수를 줄이도록 하였다. 20종목씩 6개의 포트폴리오(portfolio)를 구성하여 테스트해 본 결과에 따르면 패턴 매매에서 가격 변동성이 어느 정도 수반되어야 하며 패턴이 진행 중일 때보다 패턴이 완성된 후에 진입, 청산하는 것이 효과적임을 확인하였다.

Himawari-8 정지궤도 위성 영상을 활용한 딥러닝 기반 산불 탐지의 효율적 방안 제시 (Efficient Deep Learning Approaches for Active Fire Detection Using Himawari-8 Geostationary Satellite Images)

  • 이시현;강유진;성태준;임정호
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.979-995
    • /
    • 2023
  • 산불은 예측이 어려운 재해이기 때문에 실시간 모니터링을 통해 빠르게 대응하는 것이 중요하며, 정지 궤도 위성 영상은 광역을 짧은 시간 간격으로 모니터링할 수 있어 산불 탐지 분야에 활발히 이용되고 있다. 기존의 위성 영상 기반 산불 탐지 알고리즘은 밝기 온도의 통계량 분석을 통한 임계값 기반으로 이상치를 탐지하는 방향으로 진행되어 왔다. 그러나 강도가 약한 산불을 탐지하기 어렵거나, 적절한 임계값 설정의 어려움으로 일반화 성능이 저하되는 한계점이 있어 최근에는 기계학습을 이용한 산불 탐지 알고리즘들이 제시되고 있다. 현재까지는 random forest, VanillaConvolutional neural network (CNN), U-net 구조 등의 비교적 간단한 기법이 적용되고 있다. 따라서, 본 연구에서는 정지궤도 위성인 Advanced Himawari Imager를 이용하여 동아시아와 호주를 대상으로 State of the Art (SOTA)딥러닝 기법을 적용한 산불 탐지 알고리즘을 개발하고자 하였다. SOTA 모델은 EfficientNet과 lion optimizer를 적용하여 개발하고, Vanilla CNN 구조를 사용한 모델과 산불 탐지 결과를 비교하였다. EfficientNet은 동아시아와 호주에서 0.88 및 0.83의 F1-score를 기록함으로써 CNN (동아시아: 0.83, 호주: 0.78)에 비해 뛰어난 성능을 입증하였다. EfficientNet에 불균형 문제 해결을 위한 weighted loss, equal sampling, image augmentation 기법 적용 시, 동아시아와 호주에서 각각 0.92와 0.84의 F1-score를 기록함으로써 적용 전(동아시아: 0.88, 호주: 0.83)에 비하여 성능이 향상되었음을 확인하였다. 본 연구를 통하여 제시된 SOTA 딥러닝 기법의 산불 탐지에의 적용 가능성과 딥러닝 모델의 성능 향상을 위해 고려해야 할 방향은 향후 산불탐지 분야에 대한 딥러닝 적용에 도움이 될 것으로 기대된다.

GOCI 위성영상과 기계학습 기법을 이용한 Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index의 공간 상세화 (Spatial Downscaling of Ocean Colour-Climate Change Initiative (OC-CCI) Forel-Ule Index Using GOCI Satellite Image and Machine Learning Technique)

  • 성태준;김영준;최현영;임정호
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.959-974
    • /
    • 2021
  • Forel-Ule Index (FUI)는 자연에 존재하는 담수 및 해수의 색을 남색부터 고동색까지 21 가지의 등급으로 구분하는 지표이다. FUI는 여러 선행연구에서 수계의 부영양화 지수, 수질인자, 광 특성 등과 연관 지어 분석되었으며, 여러 수질인자의 광학적 정보를 동시에 가지고 있는 새로운 수질 지표로써의 가능성이 제시되었다. 본 연구에서는 500 m의 높은 공간해상도를 가지는 정지궤도 해양위성해색탑재체(Geostationary Ocean Color Imager; GOCI) 관측 자료와 Random Forest (RF) 기계학습 기법을 활용하여 Ocean Colour-Climate Change Initiative(OC-CCI) 기반의 4 km FUI 자료를 공간 상세화 시켰다. 이를 활용하여 우리나라 연안 해역에 대한 수질인자와의 상관관계와 주요 해역에 대한 FUI의 공간적 분포 및 계절별 특성 변화를 분석하였다. 검증 결과 RF 기법으로 추정한 RF FUI는 결정계수(R2)=0.81, 평균 제곱근 오차(Root Mean Square Error; RMSE)=0.7784로, Pitarch의 OC-CCI FUI 알고리즘을 적용하여 계산한 GOCI FUI 추정 정확도(R2=0.72, RMSE=0.9708) 대비 향상된 결과를 보였다. RF FUI는 총 질소(Total Nitrogen), 총 인(Total Phosphorus), 클로로필-a(Chlorophyll-a), 총 부유물질(Total Suspended Solids), 투명도(Secchi Disk Depth)를 포함하는 5가지 수질인자와 각각 0.87, 0.88, 0.97, 0.65, -0.98의 상관계수로 강한 상관성을 보였다. 산출된 FUI의 시간적 패턴 역시 여러 수질인자와의 물리적 관계를 반영하며 유의미한 계절적 패턴의 변화를 보였다. 본 연구의 결과로 한반도 연안 수질 관리에서 고해상도 FUI의 활용 가능성을 제시하였다.

3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발 (Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals)

  • 정찬혁;김상윤;허성구;;신민혁;유창규
    • Korean Chemical Engineering Research
    • /
    • 제61권4호
    • /
    • pp.523-541
    • /
    • 2023
  • 3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생 화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와 옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 TreeSHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest 알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의 예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할 수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.