• Title/Summary/Keyword: Training Datasets

검색결과 340건 처리시간 0.026초

GEase-K: 부가 정보를 활용한 선형 및 비선형 오토인코더 기반의 추천시스템 (GEase-K: Linear and Nonlinear Autoencoder-based Recommender System with Side Information)

  • 이태범;이승학;마민정;조윤호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.167-183
    • /
    • 2023
  • 최근 추천시스템 분야에서는 희소한 데이터를 효과적으로 모델링하기 위한 다양한 연구가 진행되고 있다. GLocal-K(Global and Local Kernels for Recommender Systems)는 그중 하나의 연구로 전역 커널과 지역 커널을 결합하여 데이터의 전역적인 패턴과 개별 사용자의 특성을 모두 고려해 사용자 맞춤형 추천을 제공하는 모델이다. 하지만 GLocal-K는 커널 트릭을 사용하기 때문에 매우 희소한 데이터에서 성능이 떨어지고 부가 정보를 사용하지 않아 새로운 사용자나 아이템에 대한 추천을 제공하는 데 어려움이 있다. 본 논문에서는 이러한 GLocal-K의 단점을 극복하기 위해 EASE(Embarrassingly Shallow Autoencoders for Sparse Data) 모델과 부가 정보를 활용한 GEase-K(Global and EASE kernels for Recommender Systems) 모델을 제안한다. 우선 GLocal-K의 지역 커널 대신 EASE를 활용하여 매우 희소한 데이터에서 추천 성능을 높이고자 하였다. EASE는 단순한 선형 연산 구조로 이루어져 있지만, 규제화와 아이템 간 유사도 학습을 통해 매우 희소한 데이터에서 높은 성능을 내는 오토인코더이다. 다음으로 Cold Start 완화를 위해 부가 정보를 활용하였다. 학습 과정에서 부가 정보를 추가하기 위해 조건부 오토인코더 구조를 적용하였으며 이를 통해 사용자-아이템 간의 유사성을 더 잘 파악할 수 있도록 하였다. 결론적으로 GEase-K는 선형 구조와 비선형 구조의 결합, 부가 정보의 활용을 통해 매우 희소한 데이터와 Cold Start 상황에서 강건한 모습을 보인다. 실험 결과, GEase-K는 매우 희소한 GoodReads, ModCloth 데이터 세트에서 RMSE, MAE 평가 지표 기준 GLocal-K 보다 높은 성능을 보였다. 또한 GoodReads, ModCloth 데이터 세트를 4개의 집단으로 나누어 실험한 Cold Start 실험에서도 GLocal-K 대비 Cold Start 상황에서 좋은 성능을 보였다.

심층신경망과 천리안위성 2A호를 활용한 지상기온 추정에 관한 연구 (Estimation for Ground Air Temperature Using GEO-KOMPSAT-2A and Deep Neural Network)

  • 엄태윤;김광년;조용한;송근용;이윤정;이윤곤
    • 대한원격탐사학회지
    • /
    • 제39권2호
    • /
    • pp.207-221
    • /
    • 2023
  • 본 연구는 천리안위성 2A호의 Level 1B (L1B) 정보를 사용해 지상기온을 추정하기 위한 심층신경망(deep neural network, DNN) 기법을 적용하고 검증을 실시하였다. 지상기온은 지면으로부터 1.5 m 높이의 대기온도로 일상생활뿐만 아니라 폭염이나 한파와 같은 이슈에 밀접한 관련을 갖는다. 지상기온은 지표면 온도와 대기의 열 교환에 의해 결정되므로 위성으로부터 산출된 지표면 온도(land surface temperature, LST)를 이용한 지상기온 추정 연구가 활발하였다. 하지만 천리안위성 2A호 산출물 LST는 Level 2 정보로 구름영향이 없는 픽셀만 산출되는 한계가 있다. 따라서 본 연구에서는 Advanced Meteorological Imager 센서에서 측정된 원시데이터에 오직 복사와 위치보정을 마친 L1B 정보를 사용해 지상기온을 추정하기 위한 DNN 모델을 제시하고 그 성능을 가늠하기 위해 위성 LST와 지상관측 기온 사이의 선형회귀모델을 기준모델로 사용하였다. 연구기간은 2020년부터 2022년까지 3년으로 평가기간 2022년을 제외한 기간은 훈련기간으로 설정했다. 평가지표는 기상청의 종관기상관측소에서 정시에 관측된 기온정보로 평균 제곱근 오차를 사용하였다. 관측지점에서 추출된 픽셀 중 손실된 픽셀의 비율은 LST는 57.91%, L1B는 1.63%를 보였으며 LST의 비율이 낮은 이유는 구름의 영향 때문이다. 제안한 DNN의 구조는 16개 L1B 자료와 태양정보를 입력 받는 층과 은닉층 4개, 지상기온 1개를 출력하는 층으로 구성하였다. 연구결과 구름의 영향이 없는 경우 DNN 모델이 root mean square error (RMSE) 2.22℃로 기준모델의 RMSE 3.55℃ 보다 낮은 오차를 보였고, 흐린 조건을 포함한 총 RMSE는 3.34℃를 나타내면서 구름의 영향을 제거할 수 있을 것으로 보였다. 하지만 계절과 시간에 따른 분석결과 여름과 겨울철에 모델의 결정계수가 각각 0.51과 0.42로 매우 낮게 나타났고 일 변동의 분산이 0.11과 0.21로 나타났다. 가시채널을 고려해 태양 위치정보를 추가한 결과에서 결정계수가 0.67과 0.61로 개선되었고 시간에 따른 일 변동의 분산도 0.03과 0.1로 감소하면서 모든 계절과 시간대에 더 일반화된 모델을 생성할 수 있었다.

Swin Transformer와 Sentinel-1 영상을 이용한 우리나라 저수지의 수체 탐지 (Waterbody Detection for the Reservoirs in South Korea Using Swin Transformer and Sentinel-1 Images)

  • 최소연;윤유정;강종구;김서연;정예민;임윤교;서영민;김완엽;최민하;이양원
    • 대한원격탐사학회지
    • /
    • 제39권5_3호
    • /
    • pp.949-965
    • /
    • 2023
  • 본 연구에서는 Sentinel-1 synthetic aperture radar 영상을 활용하여 딥러닝 모델인 Swin Transformer로 국내 농업용 저수지의 수표면적을 모니터링 하는 방법을 제시한다. Google Earth Engine 플랫폼을 이용하여 70만톤 급, 90만톤급, 150만톤급 저수지 7개소에 대한 2017년부터 2021년 데이터셋을 구축하였다. 저수지 4개소에 대한 영상 1,283장에 대해서 셔플링(suffling) 및 5-폴드(fold) 교차검증 기법을 적용하여 모델을 학습하였다. 시험평가 결과 모델의 윈도우 크기를 12로 설정한 Swin Transformer Large 모델은 각 폴드에서 평균적으로 99.54%의 정확도와 95.15%의 mean intersection over union (mIoU)을 기록하여 우수한 의미론적 분할 성능을 보여주었다. 최고 성능을 보여준 모델을 나머지 3개소 저수지 데이터셋에 적용하여 성능을 검증한 결과, 모든 저수지에서 정확도 99% 및 mIoU 94% 이상을 달성함을 확인했다. 이러한 결과는 Swint Transformer 모델이 국내의 농업용 저수지의 수표면적 모니터링에 효과적으로 활용될 수 있음을 보여준다.

RGB 채널 표준 편차의 최적화를 통한 광원 색도 추정 (Illuminant Chromaticity Estimation via Optimization of RGB Channel Standard Deviation)

  • 시부다스 수브하스다스 카타카릴;유지훈;하영호
    • 전자공학회논문지
    • /
    • 제53권6호
    • /
    • pp.110-121
    • /
    • 2016
  • 색 항상성 알고리즘의 주된 목적은 광원의 색도를 추정하는 것으로, 최근 통계 기반과 학습 기반 및 통계와 학습의 조합 기반의 색 항상성 알고리즘들이 다양하게 연구되고 있다. 통계 기반 알고리즘은 특정 가정을 만족하는 영상들에 대해서만 수행이 가능하고, 학습 기반 알고리즘은 정확한 전처리와 학습 데이터가 요구되는 복잡한 방법이다. 그리고 통계와 학습의 조합 기반 알고리즘은 사전에 결정되거나 동적으로 변하는 가중치에 따라 결과가 의존적이기 때문에, 이를 정의하기 어려울 뿐만 아니라 에러에도 민감하다. 따라서 본 논문은 복잡한 전처리를 요구하지 않으며, 다양한 환경 조건 하에서 광원 추정이 가능한 새로운 최적화 방법을 제안한다. 영상 내에서 광원의 영향이 강하게 미치는 부분은 한 채널의 표준 편차가 나머지 두 채널에 비해 큰 차이를 가진다. 이 가정을 기반으로, 광원 정도(DIT, degree of illumiinant tinge)라고 불리는 비용 함수는 광원이 보정된 영상의 질을 결정하기 위해 제안된다. 표준 광원(d65) 하의 영상이 다른 광원 하의 영상에 비해 더 작은 DIT 값을 가진다. 본 논문에서 군집단 최적화(PSO, particle swarm optimization) 기반의 집단지성(swarm intelligence)은 DIT를 최소화하기 위해, 주어진 영상의 최적 광원을 찾는데 사용된다. 제안한 방법은 실세계 데이터셋을 통해 평가하였고, 실험 결과는 제안된 방법의 효율성을 입증하였다.

기준 일증발산량 산정을 위한 인공신경망 모델과 경험모델의 적용 및 비교 (Comparison of Artificial Neural Network and Empirical Models to Determine Daily Reference Evapotranspiration)

  • 최용훈;김민영;수잔 오샤네시;전종길;김영진;송원정
    • 한국농공학회논문집
    • /
    • 제60권6호
    • /
    • pp.43-54
    • /
    • 2018
  • The accurate estimation of reference crop evapotranspiration ($ET_o$) is essential in irrigation water management to assess the time-dependent status of crop water use and irrigation scheduling. The importance of $ET_o$ has resulted in many direct and indirect methods to approximate its value and include pan evaporation, meteorological-based estimations, lysimetry, soil moisture depletion, and soil water balance equations. Artificial neural networks (ANNs) have been intensively implemented for process-based hydrologic modeling due to their superior performance using nonlinear modeling, pattern recognition, and classification. This study adapted two well-known ANN algorithms, Backpropagation neural network (BPNN) and Generalized regression neural network (GRNN), to evaluate their capability to accurately predict $ET_o$ using daily meteorological data. All data were obtained from two automated weather stations (Chupungryeong and Jangsu) located in the Yeongdong-gun (2002-2017) and Jangsu-gun (1988-2017), respectively. Daily $ET_o$ was calculated using the Penman-Monteith equation as the benchmark method. These calculated values of $ET_o$ and corresponding meteorological data were separated into training, validation and test datasets. The performance of each ANN algorithm was evaluated against $ET_o$ calculated from the benchmark method and multiple linear regression (MLR) model. The overall results showed that the BPNN algorithm performed best followed by the MLR and GRNN in a statistical sense and this could contribute to provide valuable information to farmers, water managers and policy makers for effective agricultural water governance.

땅밀림 위험지 평가를 위한 기계학습 분류모델 비교 (A Performance Comparison of Machine Learning Classification Methods for Soil Creep Susceptibility Assessment)

  • 이제만;서정일;이진호;임상준
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.610-621
    • /
    • 2021
  • 지진 발생과 집중호우에 의해 땅밀림형 산사태 유형으로 분류되는 땅밀림 현상이 전국적으로 광범위하게 나타나고 있다. 산림청은 땅밀림으로 인한 인명 및 재산 피해를 예방하기 위해 땅밀림 우려지 현장조사 판정표를 통해 땅밀림 발생 위험지를 사전에 파악하고 있다. 한편 최근에는 컴퓨터 기술의 발달로 인공지능의 한 분야인 기계학습 분류기법을 이용하여 산지재해 취약성을 평가하거나 자연재해를 예측하고 있다. 따라서 이 연구에서는 기계학습 분류기법인 k-Nearest Neighbor(k-NN), Naive Bayes(NB), Random Forest(RF), 그리고 Support Vector Machine(SVM) 분류모델을 이용하여 땅밀림 발생 위험등급을 분류하였다. 한국치산기술협회의 2018~2020년 조사 자료 4,618개 중에서 땅밀림 현상의 발생 여부를 고려하여 발생지 총 146개소, 그리고 미발생지 146개소를 임의추출하여 292개 자료를 선정하였으며, 이 중 70%에 해당하는 204개소 자료를 훈련자료로 하여 모델을 구축하였다. 전체 자료의 30%에 해당하는 88개 검증자료에 대해 모델을 평가한 결과, k-NN은 0.727, NB는 0.750, RF는 0.807, 그리고 SVM은 0.750의 분류정확도를 보였다. 또한, Kappa 상관계수는 각각 0.534, 0.580, 0.673 및 0.585, 그리고 AUC는 각각 0.872, 0.912, 0.943 및 0.834로 계산되었다. 따라서 땅밀림 위험지역 판정을 위한 기계학습 분류모델은 RF, NB, SVM, 그리고 k-NN 순으로 높은 성능을 보였다. 기계학습 분류모델은 향후 산지토사재해의 예방 및 대응을 위한 기초자료로 활용 가능하며, 땅밀림 재해 관리 및 피해 경감에 위한 정책 개발에 필요한 정보를 제공할 것이다.

Evidential Belief Function, Weight of Evidence 및 Artificial Neural Network 모델을 이용한 산사태 공간 취약성 예측 연구 (Landslide Susceptibility Prediction using Evidential Belief Function, Weight of Evidence and Artificial Neural Network Models)

  • 이사로;오현주
    • 대한원격탐사학회지
    • /
    • 제35권2호
    • /
    • pp.299-316
    • /
    • 2019
  • 본 연구는 지리정보시스템(GIS) 환경에서 확률 모델인 Weight Of Evidence (WOE)와 Evidential Belief Function (EBF), 기계학습 모델인 Artificial Neural Networks (ANN) 모델을 이용하여 평창지역의 산사태 취약성도를 공간적으로 분석하고 예측하였다. 본 연구지역은 2006년 태풍 에위니아에 의한 집중호우로 산사태가 많이 발생하여 많은 재산 및 인명피해가 발생하였다. 산사태 취약성도를 작성하기 위해 항공사진을 이용하여 3,955개의 방대한 산사태 발생 위치를 탐지하였고, 환경공간정보인 지형, 지질, 토양, 산림 및 토지이용 등의 공간 데이터를 수집하여 공간데이터베이스에 구축하였다. 이러한 공간데이터베이스를 이용하여 산사태에 영향을 줄 수 있는 인자 17개를 추출하여 입력 인자와 EBF, WOE, ANN 모델을 이용하여 산사태 취약성도를 작성하고 검증하였다. 작성 및 검증을 위해 산사태 자료는 각각 50%씩 나누어서 훈련 및 검증을 실시하였고, 검증결과 WOE 모델의 경우는 74.73%, EBF 모델의 경우는 75.03%, ANN 모델의 경우는 70.87%의 예측 정확도를 나타내었다. 본 연구에 사용된 모델 중 EBF 모델이 가장 높은 정확도를 나타냈으며, 모든 모델에서 70% 이상의 예측 정확도를 보여 본 연구에서 사용된 기법이 산사태 취약성도 작성에 유효함을 나타내었다. 본 연구에서 제안된 WOE, EBF, ANN 모델과 산사태 취약성도는 이전에 산사태가 발생하지 않은 지역의 산사태를 예측하는 데 사용될 수 있다. 이러한 취약성도는 산사태 위험 감소를 촉진하고, 토지 이용 정책 및 개발을 위한 기초자료 역할을 할 수 있으며, 궁극적으로 산사태 재해 예방을 위한 시간과 비용을 절약할 수 있다. 향후 보다 많은 지역에서 산사태 취약성도 작성 방법을 적용하여 산사태 위험 예측을 위한 일반화된 모델을 이끌어 내야 한다.

텍스트 마이닝과 딥러닝을 활용한 암호화폐 가격 예측 : 한국과 미국시장 비교 (The Prediction of Cryptocurrency on Using Text Mining and Deep Learning Techniques : Comparison of Korean and USA Market)

  • 원종관;홍태호
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.1-17
    • /
    • 2021
  • 본 연구에서는 한국과 미국의 대표적인 거래소인 빗썸과 코인베이스의 비트코인 가격을 ARIMA와 순환 신경망(Recurrent Neural Network)을 이용해 예측하고, 이후 각 국가의 뉴스 기사를 이용해 분리 학습에 기반한 separated RNN 모형을 제안한다. separated RNN 모형은 학습 데이터를 가격의 추세 변화 점을 기준으로 분리해 학습시킨 후, 추세 변화점 별 뉴스 데이터를 활용해 용어 기반 사전을 구축한다. 이후 용어 기반 사전과 평가 데이터 기간의 뉴스 데이터를 이용해 예측할 데이터의 가격 추세 변화 점을 찾아낸 후, 매칭되는 모형을 적용해 예측 결과를 산출한다. 2017년 5월 22일부터 2020년 9월 16일까지의 가격 데이터를 사용해 분석한 결과, 제안된 separated RNN을 이용해 예측한 결과가 한국과 미국의 비트코인 가격 예측 모두에서 순환 신경망(RNN)을 이용해 예측한 결과보다 높은 예측 성과를 보였다. 본 연구는 시계열 예측 기법의 한계를 뉴스 데이터를 이용한 추세 변화 점 탐색을 통해 극복할 수 있고, 성과 향상을 위한 추후 다양한 시계열 예측 기법 및 추세 변화 점 탐색을 위한 다양한 텍스트 마이닝 기법을 적용해볼 필요가 있음을 시사한다.

적외선 카메라를 이용한 비제약적 환경에서의 얼굴 인증 (Face Identification Using a Near-Infrared Camera in a Nonrestrictive In-Vehicle Environment)

  • 기민송;최영우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권3호
    • /
    • pp.99-108
    • /
    • 2021
  • 차량 내부에는 조명 변화, 부분적인 가림 및 운전자의 상태 변화와 같은 제한되지 않은 조건들이 존재한다. 본 논문에서는 비 제약적인 차량 환경에서의 운전자 얼굴 인증 시스템을 제안한다. 제안한 방법은 차량 내부 및 외부의 조명 변화에 따라 발생하는 얼굴 이미지의 변화를 최소화하기 위해서 근적외선(NIR) 카메라를 사용한다. 특히 정면에서의 강한 빛에 노출된 얼굴 이미지를 처리하기 위해서, 학습 이미지의 평균과 분산을 사용하여 정상적인 얼굴 이미지로부터 빛에 과다하게 노출된 이미지로 변환하여 사용한다. 따라서 정상적인 조명에서의 얼굴 분류기와 강한 정면광에서의 얼굴 분류기를 각각 동시에 만들어진다. 제안하는 얼굴 분류기는 얼굴 랜드마크를 추출하고 각 랜드마크의 신뢰도 점수를 합산하여 얼굴을 최종적으로 식별한다. 특히 각 랜드마크를 인식하여 부분적인 얼굴 가림에 강하기 때문에 안경이나 선글라스를 착용하는 상황에서도 높은 성능 향상이 가능하다. 즉 가려지지 않은 남은 랜드마크의 점수를 사용하여 운전자를 인식할 수 있다. 또한 등록 운전자와 미등록 운전자 간의 관계를 고려한 새로운 인식 거부 방법과 새로운 평가 방법을 논문에서 제안한다. 자체 취득한 데이터 셋, 공인된 PolyU 및 ORL 데이터 셋으로 실험한 결과 제안한 방법이 효과적임을 확인할 수 있었다.

핵활동 모니터링을 위한 소형객체 비율에 따른 U-Net의 의미론적 분할 성능 비교 (Comparison of Semantic Segmentation Performance of U-Net according to the Ratio of Small Objects for Nuclear Activity Monitoring)

  • 이진민;김태헌;이창희;이현진;송아람;한유경
    • 대한원격탐사학회지
    • /
    • 제38권6_4호
    • /
    • pp.1925-1934
    • /
    • 2022
  • 원격탐사 기술을 활용한 접근불능 지역에 대한 핵활동 모니터링은 핵 비확산을 위해 필수적이다. 최근에는 딥러닝을 이용하여 핵활동 관련 객체를 탐지하는 연구가 활발하게 수행되고 있으나, 고해상도 위성영상 내 소형객체는 클래스 불균형 발생 빈도가 높다. 이로 인해 소형객체 탐지 성능이 저하되는 문제점이 존재한다. 이에 본 연구에서는 입력 데이터 내 핵활동 관련 소형객체의 비율이 딥러닝 모델 성능에 미치는 영향을 분석하여 탐지 정확도를 개선하기 위한 방안을 도출하고자 한다. 이를 위해 소형객체 비율이 상이한 6가지 학습자료를 구축하여 학습자료별로 U-Net 모델 학습을 진행하고, 다양한 종류의 소형객체가 포함된 test dataset을 이용하여 학습된 U-Net 모델 간 정량적·정성적 비교평가를 수행하였다. 그 결과, 입력영상 내 객체 픽셀 비율을 조절하였을 때 핵활동 관련 소형객체를 효과적으로 탐지할 수 있는 것이 확인되었으며, 이를 통해 훈련 자료 내 객체 비율을 조정하여 딥러닝 모델 성능을 향상시킬 수 있을 것으로 판단된다.