• 제목/요약/키워드: Outlier analysis

검색결과 237건 처리시간 0.026초

농업용저수지의 실시간 수위 보정을 위한 Hampel Filter의 최적 Window Size 분석 (Analysis of the Optimal Window Size of Hampel Filter for Calibration of Real-time Water Level in Agricultural Reservoirs)

  • 주동혁;나라;김하영;최규훈;권재환;유승환
    • 한국농공학회논문집
    • /
    • 제64권3호
    • /
    • pp.9-24
    • /
    • 2022
  • Currently, a vast amount of hydrologic data is accumulated in real-time through automatic water level measuring instruments in agricultural reservoirs. At the same time, false and missing data points are also increasing. The applicability and reliability of quality control of hydrological data must be secured for efficient agricultural water management through calculation of water supply and disaster management. Considering the characteristics of irregularities in hydrological data caused by irrigation water usage and rainfall pattern, the Korea Rural Community Corporation is currently applying the Hampel filter as a water level data quality management method. This method uses window size as a key parameter, and if window size is large, distortion of data may occur and if window size is small, many outliers are not removed which reduces the reliability of the corrected data. Thus, selection of the optimal window size for individual reservoir is required. To ensure reliability, we compared and analyzed the RMSE (Root Mean Square Error) and NSE (Nash-Sutcliffe model efficiency coefficient) of the corrected data and the daily water level of the RIMS (Rural Infrastructure Management System) data, and the automatic outlier detection standards used by the Ministry of Environment. To select the optimal window size, we used the classification performance evaluation index of the error matrix and the rainfall data of the irrigation period, showing the optimal values at 3 h. The efficient reservoir automatic calibration technique can reduce manpower and time required for manual calibration, and is expected to improve the reliability of water level data and the value of water resources.

머신러닝을 활용한 음원 차트와 뉴미디어 데이터를 활용한 K-POP 아이돌 인기 요인 분석 (Analyzing K-POP idol popularity factors using music charts and new media data using machine learning)

  • 최지원;정다연;최강규;임태인;김대훈;정종균;노승민
    • Journal of Platform Technology
    • /
    • 제12권1호
    • /
    • pp.55-66
    • /
    • 2024
  • K-POP 시장은 문화를 넘어 외교, 환경 운동 등 사회 전반에 미치는 영향력이 지대해지고 있다. 이에 따라 아이돌의 성공 요인을 알아내고자 음원, 음반 등 전통적 데이터를 활용하여 머신러닝 기반으로 다양한 논문들이 수행되고 있다. 하지만, 기존의 선행 연구는 최근 아이돌의 인지도에 미치는 인스타그램 릴스, 유튜브 쇼츠, 틱톡, 트위터 등과 같은 뉴미디어 플랫폼의 영향을 반영하지 못했다는 한계점이 있다. 따라서 기존의 연구로는 매일 변화하는 미디어 트렌드를 고려하지 못하여 최근 아이돌 성공 요인의 인과관계를 뚜렷하게 밝히는데 어려움이 있었다. 이러한 문제점을 해결하기 위해, 본 논문은 아이돌 관련 데이터의 수집 시스템과 분석 방법론을 제안한다. 아이돌 데이터의 특이성을 반영한 컨테이너 기반 실시간 데이터 수집 자동화 시스템을 개발해, 아이돌 데이터 수집의 안정성과 확장성을 확보하고 K-Means 클러스터링 기반 이상치 탐지 모델을 통해 성공 아이돌 군집을 비교, 분석한다. 그 결과, 성별, 앨범 발매 시기 후 성공 시점, 뉴미디어와의 연관성 등 성공 아이돌들의 공통점을 파악할 수 있었다. 이를 통해, 최종적으로 각 아이돌별, 앨범 형태별, 컴백 시기에 따른 최적 컴백 프로모션을 기획해 아이돌의 성공 가능성을 증진할 수 있을 것으로 기대한다.

  • PDF

초분광영상 이용 오이 및 수박 묘의 수분함량 추정 (Estimation of Moisture Content in Cucumber and Watermelon Seedlings Using Hyperspectral Imagery)

  • 김성헌;강정균;유찬석;강예성;;강동현;구양규;김동억
    • 생물환경조절학회지
    • /
    • 제27권1호
    • /
    • pp.34-39
    • /
    • 2018
  • 본 연구는 초분광 영상을 이용하여 오이 및 수박과 같은 박과 묘의 수분함량을 추정하기 위해 수행되었다. 오이와 수박 묘 샘플에 수분 스트레스를 가한 후 초분광영상 취득 시스템을 이용하여 오이와 수박 묘 잎을 촬영하여 반사율을 계산하였고, 건조기를 이용하여 해당 모종의 수분함량을 측정하였다. 마지막으로 영상의 반사율과 수분함량을 이용하여 부분최소제곱회귀분석을 통해 수분함량 추정모델을 개발하였다. 오이 묘 수분함량 추정모델은 $R^2$ 0.73, RMSE 1.45%, RE 1.58%의 성능을 보였으며, 수박 묘 수분함량 추정모델은 $R^2$ 0.66, RMSE 1.06%, RE 1.14%의 성능을 보였다. 유효범위를 넘어가는 극단치를 제거하여 모델의 성능을 다시 분석한 결과, 오이 모델의 경우 $R^2$ 0.79, RMSE 1.10%, RE 1.20으로 상승하였다. 오이와 수박 묘를 함께 분석하여 모델을 제작한 결과, $R^2$ 0.67, RMSE 1.26, RE 1.36으로 분석되었다. 오이 모델이 수박 모델보다 비교적 높은 성능을 보였는데, 이러한 원인은 오이의 수분함량 변이가 넓게 분포되어 있었기 때문이라고 판단된다. 또한 데이터셋에서 유효범위를 넘어가는 극단치를 제거한 결과 오이 모델의 정확도 및 정밀도가 상승하였다. 결론적으로 오이 및 수박 묘 수분함량 추정모델들의 추정선의 기울기 차가 크지 않고, 서로 교차되기 때문에 두 모델들은 모두 수분함량을 추정하는데 있어서 유의한 것으로 판단된다. 또한 샘플의 변수가 넓게 분포된 변이를 갖는다면 추정모델의 정확도와 정밀도는 분명 상승할 것이며, 개선된 모델을 이용하면 저가형 센서를 개발하는데 활용될 수 있을 것으로 사료된다.

광릉 산림의 플럭스 자료 처리와 품질 관리 (Processing and Quality Control of Flux Data at Gwangneung Forest)

  • 임희정;이영희
    • 한국농림기상학회지
    • /
    • 제10권3호
    • /
    • pp.82-93
    • /
    • 2008
  • 보다 자동화된 방법으로 신뢰성 있는 난류 플럭스의 자료를 생산하기 위해서 Hong and Kim(2002)의 난류 품질 관리 프로그램을 개선하고 개선된 프로그램을 광릉산림에 적용하여 복잡한 산림지역에서 난류 플럭스의 특성을 조사하였다. 개선된 프로그램을 이용하여 2005년 1월부터 5월까지 광릉 수목원에 위치한 주 타워의 두 고도(20m와 40m)에서 관측된 난류 자료에 대하여 품질 검사를 실시하였다. 개선전과 비교해 개선된 프로그램은 이상점(outlier)에 해당되는 자료들을 많이 제거하였다. 자료의 품질체계는 4등급(Good, Dubious, Missing, Bad)으로 분류하였으며 본 분석에서 사용된 기간의 자료 중 25%는 결측이었고(Missing 등급), 60%는 Good 등급으로 분류되었다. 고도 별로는 40m에서 관측된 자료가 20m에서 관측된 자료보다 Bad 등급의 자료수가 적었는데 이는 20m가 식생 꼭대기에 인접한 거칠기 아층에 해당하고 또한 풍속도 더 낮은데 기인한다. Bad 등급으로 분류된 자료의 주원인은 낮은 풍속으로 나타났다. 분석 기간 동안의 에너지 수지의 닫힘은 약 40%로 나타났고 이러한 에너지 불균형의 부분적인 이유로는 열 저장항들이 고려되지 않은 점, 토양열 플럭스 측정의 불확실성, 복잡한 지형 등에 의한 국지풍에 의한 이류 등이 복합적으로 작용했을 것으로 생각된다. 광릉에서 발생하는 상향 운동량 플럭스는 국지풍의 발달 시 높은 발생률을 보여 이 둘이 밀접히 관련되어 있음을 나타낸다. 야간에 낮은 음의 $CO_2$ 플럭스가 발생하는 경우에 대하여 평균 시간을 증가시킴에 따른 $CO_2$ flux의 변화를 조사한 결과 평균시간이 10분 이상 증가함에 따라 $CO_2$ flux의 절대값이 빠르게 증가하는 경향을 보였다. 이는 야간에 $CO_2$ 플럭스는 중규모 운동이나 비정상성(nonstationarity) 등의 영향을 많이 받고 있음을 시사한다. 그러므로 야간에 보다 정확한 난류 플럭스 값을 산출하기 위해서는 평균시간의 적절한 조절이 필요할 것으로 보인다.

삼나무 임분수확량 평가 및 예측 (Assessment and Prediction of Stand Yield in Cryptomeria japonica Stands)

  • 손영모;강진택;황정순;박현;이광수
    • 한국산림과학회지
    • /
    • 제104권3호
    • /
    • pp.421-426
    • /
    • 2015
  • 본 연구는 우리나라 삼나무의 생장 및 수확량 평가와 탄소저장 및 흡수량을 알아보기 위하여 수행되었다. 조사구는 전남, 경남 및 제주지역에 정상적으로 생육하는 삼나무 집단지에서 총 106개 표준지를 선정(이상치를 제외한 92개소 이용)하였다. 그리고 분석을 위하여 Weibull 직경분포 모델을 적용시켰다. 직경분포 추정을 위하여 흉고직경, 흉고단면적, 수고 등 생장인자별 생장 추정식을 도출하고, 이들에 대한 적합성을 검증하였다. 그리고 삼나무에 대한 지역별 임지생산력을 파악할 수 있는 지위지수를 Schumacher 모델로서 개발하였으며, 지위지수 추정의 기준임령은 30년으로 정하였다. 우리나라 삼나무의 지위지수 범위는 10~16에 있는 것으로 나타났으며, 이를 기준으로 임분수확표를 조제하였다. 임분수확표 지위 14에 의하면, 25년생일 때 연평균생장량(MAI)이 $7.6m^3/ha$인 것으로 나타나며, 임목축적 $190.1m^3/ha$이 될 것으로 예측되었다. 이는 편백보다 $20m^3$ 정도 높은 값이었다. 그리고 삼나무의 연간 탄소흡수량은 임령 25년에 2.14 tC/ha/yr, $7.83tCO_2/ha/yr$으로 최대값을 갖는 것으로 나타났다. 이를 타 침엽수와 비교해 보면, 편백($7.5tCO_2/ha/yr$)보다는 약간 높은 수준이나, 잣나무 $10.4tCO_2/ha/yr$, 낙엽송 $11.2tCO_2/ha/yr$ 보다는 낮은 수치였다. 이러한 연구결과를 기반으로 삼나무의 생장 정보 활용 뿐만아니라 목재로서의 이용을 제고할 수 있는 방안 마련이 필요하다고 사료된다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

Landsat-8 OLI/TIRS 위성영상의 지표온도와 식생지수를 이용한 토양의 수분 상태 관측 및 농업분야에의 응용 가능성 연구 (A Study on the Observation of Soil Moisture Conditions and its Applied Possibility in Agriculture Using Land Surface Temperature and NDVI from Landsat-8 OLI/TIRS Satellite Image)

  • 채성호;박숭환;이명진
    • 대한원격탐사학회지
    • /
    • 제33권6_1호
    • /
    • pp.931-946
    • /
    • 2017
  • 본 연구는 토양의 수분 상태를 고해상으로 관측 및 분석하고 농업분야에의 응용 가능성을 평가하기 위한 연구이다. 이를 위하여 Landsat-8 OLI(Operational Land Imager)/TIRS(Thermal Infrared Sensor)의 광학 및 열적외선 위성영상을 연구자료로 전라북도 농업지역을 포함(연구자료 내 46%)하는 2015, 2016, 및 2017년 5-6월에 촬영된 영상 세 장을 이용하였다. 연구지역의 각 영상 촬영일의 토양의 수분 상태는 SPI(Standardized Precipitation Index)3 가뭄지수를 통하여 효과적으로 획득할 수 있으며, 각 영상은 보통, 습윤, 및 건조한 토양 수분 조건을 갖는다. 이러한 각기 다른 토양수분 조건을 갖는 영상을 대상으로 토양의 수분 상태를 관측하고 SPI3 가뭄지수로부터 획득한 토양의 수분 상태와 비교/분석을 수행기 위하여, TVDI(Temperature Vegetation Dryness Index)를 계산하였다. TVDI는 Landsat-8 OLI/TIRS 위성영상으로부터 계산한 LST(Land Surface Temperature) 및 NDVI(Normalized Difference Vegetation Index)의 관계로부터 추정하여 계산된다. LST-NDVI의 형상 공간 내 픽셀의 분포에서 NDVI에 따른 LST의 최대/최소값을 추출하고 이를 대상으로 각각 선형회귀분석(linear regression analysis)을 통하여 NDVI에 따른 LST의 Dry/Wet edge를 결정할 수 있으며, 최종적으로 NDVI에 따른 두 edge 사이에서의 LST 값의 비율을 계산하여 TVDI 값을 계산한다. TVDI 값으로부터 관측된 영상 내 상대적인 토양의 수분 상태를 매우 습윤, 습윤, 보통, 건조, 매우 건조의 5단계로 분류하여 SPI3로부터 획득한 각각의 토양수분 상태와 비교하였다. 연구자료 획득시기인 5-6월 시기의 특성상 모내기로 인하여 영상 내 가장 많은 비율을 차지하는 논 지역의 영향으로 영상 전체 중, 약 62% 이상이 습윤 및 매우 습윤한 상태로 분류되었다. 또한, 보통으로 분류되는 픽셀은 영상 내 밭 지역의 영향 때문으로 분석되었다. 영상 전체에 대해서는 대략적으로 SPI3의 토양수분 상태와 대응하였지만 매우 건조, 습윤, 및 매우 습윤에 해당하는 세분류 결과에서는 SPI3 토양수분 상태와 대응하지 않았다. 또한, 영상에서 논과 밭의 농업지역을 추출 및 분류한 후, SPI3 토양수분 상태와 비교하였을 때, 논 지역의 토양수분 상태 관측 분류 결과는 매우 건조, 보통 및 매우 습윤에서, 밭 지역은 보통의 분류에서만 SPI3 가뭄지수와 대응하지 않았다. 이는 매우 건조한 나지 및 매우 습윤한 모내기로 인한 논 지역, 수계, 구름 및 산지 지형효과 등의 이상치로 인하여 잘못된 Dry/Wet edge 추정의 문제로 사료되어진다. 그러나 5-6월 시기의 농업지역 중, 밭 지역에서는 세분류된 토양의 수분 상태를 효과적으로 관측할 수 있었다. 고해상 광학위성 기반 농업지역에 대한 토양수분 상태의 시 공간적 변화를 관측하여 농업지역의 농업생산량예측 등 그 응용이 가능할 것으로 사료된다.