• 제목/요약/키워드: 랜덤 샘플링

검색결과 50건 처리시간 0.029초

머신러닝 기반 준실시간 다중 위성 강수 자료 보정 (Bias-correction of near-real-time multi-satellite precipitation products using machine learning)

  • 정성호;레수안히엔;응웬반지앙;이기하
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.280-280
    • /
    • 2023
  • 강수의 정확한 시·공간적 추정은 홍수 대응, 가뭄 관리, 수자원 계획 등 수문학적 모델링의 핵심 기술이다. 우주 기술의 발전으로 전지구 강수량 측정 프로젝트(Global Precipitation Measurement, GPM)가 시작됨에 따라 위성의 여러 센서를 이용하여 다양한 고해상도 강수량 자료가 생산되고 있으며, 기후변화로 인한 수재해의 빈도가 증가함에 따라 준실시간(Near-Real-Time) 위성 강수 자료의 활용성 및 중요성이 높아지고 있다. 하지만 준실시간 위성 강수 자료의 경우 빠른 지연시간(latency) 확보를 위해 관측 이후 최소한의 보정을 거쳐 제공되므로 상대적으로 강수 추정치의 불확실성이 높다. 이에 따라 본 연구에서는 앙상블 머신러닝 기반 수집된 위성 강수 자료들을 관측 자료와 병합하여 보정된 준실시간 강수량 자료를 생성하고자 한다. 모형의 입력에는 시단위 3가지 준실시간 위성 강수 자료(GSMaP_NRT, IMERG_Early, PERSIANN_CCS)와 방재기상관측 (AWS)의 온도, 습도, 강수량 지점 자료를 활용하였다. 지점 강수 자료의 경우 결측치를 고려하여 475개 관측소를 선정하였으며, 공간성을 고려한 랜덤 샘플링으로 375개소(약 80%)는 훈련 자료, 나머지 100개소(약 20%)는 검증 자료로 분리하였다. 모형의 정량적 평가 지표로는 KGE, MAE, RMSE이 사용되었으며, 정성적 평가 지표로 강수 분할표에 따라 POD, SR, BS 그리고 CSI를 사용하였다. 머신러닝 모형은 개별 원시 위성 강수 자료 및 IDW 기법보다 높은 정확도로 강수량을 추정하였으며 공간적으로 안정적인 결과를 나타내었다. 다만, 최대 강수량에서는 다소 과소추정되므로 이는 강수와 관련된 입력 변수의 개수 업데이트로 해결할 수 있을 것으로 판단된다. 따라서 불확실성이 높은 개별 준실시간 위성 자료들을 관측 자료와 병합하여 보정된 최적 강수 자료를 생성하는 머신러닝 기법은 돌발성 수재해에 실시간으로 대응 가능하며 홍수 예보에 신뢰도 높은 정량적인 강수량 추정치를 제공할 수 있다.

  • PDF

마하-젠더 광 변조기와 EDFA를 사용한 아날로그 광통신 링크의 랜덤 지터 특성 (Characteristics of Random Jitter in Analog Fiber-Optic Links Employing a Mach-Zehnder Modulator and an EDFA)

  • 윤영민;이민영;신종덕;김부균
    • 전기전자학회논문지
    • /
    • 제13권4호
    • /
    • pp.96-102
    • /
    • 2009
  • 마하-젠더 광 변조기(Mach-Zehnder modulator; MZM)와 EDFA(erbium-doped fiber amplifier)를 사용한 아날로그 광통신 링크의 랜덤 지터 (Random Jitter; RJ) 특성에 관하여 연구하였다. RF 주파수 분석기의 잡음 스펙트럼 데이터를 이용한 지터 측정법과 샘플링 오실로스코프의 히스토그램 데이터를 이용한 지터 측정법의 두 가지 방법으로 RJ를 구하였다. MZM에 인가되는 광 파워나 RF 파워가 증가하면 출력 신호 파워가 증가하여 RJ가 감소하였다. EDFA가 삽입되지 않은 링크에서 잡음 스펙트럼으로 측정한 최소 RJ는 RF 파워 10 dBm, 광 파워 8 dBm인 경우에 약 1 ps으로 나타났다. EDFA를 삽입한 링크에서는 EDFA 이득이 증가하면 RJ가 지속적으로 감소하여 지터 바닥에 수렴하였다. 이 보다 이득이 증가하면 다시 RJ가 증가하는 것을 관찰하였다. EDFA의 이득이 동일하면, 입력 광 파워가 클 때 RJ의 크기가 보다 작았고, 또한 입력 광 파워가 작은 경우에는 EDFA 이득이 증가함에 따라 RJ의 감소율이 보다 크게 나타났다.

  • PDF

다중 임계치를 적용한 웨이브릿 기반 디지털 워터마킹 기법 (Wavelet-based Digital watermarking Using Multiple threshold)

  • 김재원;남재열
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.419-428
    • /
    • 2003
  • 디지털 멀티미디어 데이터에 대한 소유권 문제가 근래에 중요한 문제로 대두되면서 이를 효율적으로 보호할 수 있는 기술적 해결책으로 디지털 워터마킹에 대한 연구가 활발히 진행되어져 왔다. 본 연구에서는 디지털 영상 데이터에 대해 다양한 공격에 강인한 웨이브릿 기반 워터마킹 알고리즘을 제안한다. 웨이브릿 변환을 이용하여 워터마킹된 영상의 변화를 감지 못하도록 하면서 시각적으로 중요한 영역에 워터마크를 삽입하여 일반적인 영상 신호 처리에 강인한 워터마킹 방법을 제시한다. 웨이브릿 변환된 계수의 레벨과 각 부대역별 특성을 고려하고, 영상의 복잡도를 반영한 다중 임계치를 적용하여 원본영상과 워터마킹된 영상이 시각적으로 차이가 없도록 가우시안 랜덤 수열(Gaussian Random Sequence)을 워터마크로 삽입한다. 제안된 알고리즘의 성능을 여러 영상에 대하여 실험해 본 결과 워터마크가 삽입된 영상이 시각적으로 전혀 구별할 수 없을 정도의 비가시도를 보이면서 다양한 공격, 즉 JPEG 손실압축, 필터링, 잡음첨가, 리샘플링, 크로핑 등에 대하여 우수한 워터마크 검출결과와 강인함을 보였다.

기계학습 알고리즘에 기반한 뇌파 데이터의 감정분류 및 정확도 향상에 관한 연구 (A research on the emotion classification and precision improvement of EEG(Electroencephalogram) data using machine learning algorithm)

  • 이현주;신동일;신동규
    • 인터넷정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.27-36
    • /
    • 2019
  • 본 연구에서는 공개된 뇌파 데이터인 DEAP(A Database for Emotion Analysis using Physiological Signals) 데이터 세트를 활용한 감정분류 분석 및 정확도 향상에 대한 실험을 진행하였다. 실험에는 32명에 대한 32개의 뇌파측정 채널 데이터가 모두 사용되었다. 전처리과정에서는 뇌파 데이터에 대한 256Hz 샘플링작업을 진행하였고, 유한 임펄스 응답 필터를 사용하여 주파수 대역별로 쎄타(4-8Hz), 슬로 알파(8-10Hz), 알파(8-12Hz), 베타(12-30Hz), 감마(31-45Hz) 파형에 대한 데이터를 추출하였다. 추출한 데이터는 시간-주파수 변형을 통하여 데이터의 상태를 구분한 후에, 독립성분분석방법을 통해 잡음(Artifact)을 제거하여 데이터를 정제했다. 도출된 데이터는 분류기 기계학습 알고리즘 실험을 시행할 수 있도록 CSV 파일로 변형 하였으며, 감정분류에는 Arousal-Valence 평면을 사용하였다. 감정은 "긍정적(Positive)", "부정적(Negative)" 이외에 평온한 상태로 존재하는 "중립적(Neutral)"의 3가지 상태로 분류하였다. 정확도를 개선하기 위해서 랜덤 포레스트(Random Forest) 알고리즘에 속성 선택적 분류기(Attribute Selected Classifier: ASC) 방식에 의해 선택된 속성을 적용하여 실험하였다. 정확도는 "각성(Arousal)" 부분에서 Koelstra의 결과보다 "32.48%" 높은 결과가 도출되었고, Liu의 실험의 "정서가(Valence)"와 비교해보면 ASC(Random Forest) 결과가 "8.13%" 더 높은 결과를 도출하였다. 정확도를 개선하기 위해 ASC 방식을 적용한 랜덤 포레스트 분류기 실험결과에서는 전체평균을 기준으로 기존 연구 결과와 대비하여 "2.68%" 높은 정확도가 도출되었다.

석씨성경과 천상열차분야지도의 이십팔수 수거성 관측 연도의 통계적 추정 (Statistical estimation of the epochs of observation for the 28 determinative stars in the Shi Shi Xing Jing and the table in Cheonsang Yeolcha Bunyajido)

  • 안상현
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.61.3-61.3
    • /
    • 2019
  • 석씨성경과 천상열차분야지도 도설에 있는 이십팔수 거성들의 좌푯값을 측정한 연도를 두 가지 방법을 써서 추정하였다. 이 두 표에 있는 좌푯값들은 자오선 관측 기기를 가지고 측정한 것으로 생각된다. 그래서 이 값들에는 기기 회전축이 어긋나서 생기는 오차와 랜덤 오차가 들어 잇다. 우리는 푸리에 방법을 받아들이고, 또한 최소자승법을 새로 고안하였다. 우리는 관측 연돗값의 분산을 구하기 위해 부트스트랩 리샘플링을 시행하였다. 그 결과, 우리는 두 성표가 모두 기원전 1세기 즉 전한 후기에 만들어졌다는 사실을 알 수 있었다. 석씨성경의 관측 연도가 천상열차분야에 들어 있는 좌푯값보다 약 15-20년 정도 앞선 것으로 보인다. 그러나 그 두 연돗값의 분산이 너무 커서 석씨성경은 기원전 77년 무렵에, 또한 천상열차분야지도의 성표는 기원전 52년에 측정된 것이라는 추정은 확인할 수 없었다. 자료 개수가 더 있거나 또는 측정 오차가 절반 정도라면 검증을 통해 결정을 할 수 있을 것이다. 이러한 점에 비추어 우리는 석씨성경에 수록되어 있는 120개의 별들의 좌표 등에 관해 논의해볼 것이다.

  • PDF

중첩된 버킷을 사용하는 다차원 히스토그램에 대한 개선된 알고리즘 (An Improved Algorithm for Building Multi-dimensional Histograms with Overlapped Buckets)

  • 문진영;심규석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.336-349
    • /
    • 2003
  • 히스토그램은 최근들어 많은 관심을 끌고 있다. 히스토그램은 주로 상용 데이타베이스 관리 시스템에서 질의 최적화를 위해 속성의 값에 대한 데이타 분포를 추정하는데 사용되었다. 최근에는 근사 질의와 스트림 데이타에 대한 연구 분야에서 히스토그램에 대한 관심이 커지고 있다. 관계형 데이타베이스에서 두 개 이상의 속성에 대한 결합 데이타 분포를 근사시키는 가장 간단한 방법은 각 속성의 데이타 분포가 결합 데이타 분포에 독립적이라고 가정하는 속성 값 독립(Attribute Value Independence: AVI) 가정하 에서 각각의 속성에 대해서 히스토그램을 만드는 것이다 그러나 실제 데이타에서 이 가정은 잘 맞지 않는다. 따라서 이 문제를 해결하기 위해서 웨이블릿, 랜덤 샘플링, 다차원 히스토그램과 같은 기법들이 제안되 었다. 그 중에서 GENHIST는 실수형 속성에 대한 데이타 분포를 근사시키기 위해 고안된 다차원의 히스토그램이다. GENHIST는 데이타 분포를 좀 더 효과적으로 근사시키기 위해서 중첩되는 버킷을 사용한다. 본 논문에서는 SSE(Sum Squared Error)를 최소화시키는 중첩되는 버킷들의 최적 빈도를 결정하는 OPT 알고리즘을 제안한다. 처음에 GENHIST에 의해 중첩되는 버킷으로 구성되는 히스토그램을 만든 후에 OPT 알고리즘에 의해서 각 버킷의 빈도를 다시 계산해서 GENHIST를 개선시킬 수 있다. 실험 결과는 OPT 알고리즘이 GENHIST에 의해 만들어진 히스토그램의 정확도를 크게 개선시킴을 보여준다.

이미지 Stitching의 정확한 변환관계 계산을 위한 대응점 관계정보 기반의 개선된 RANSAC 알고리즘 (An Improved RANSAC Algorithm Based on Correspondence Point Information for Calculating Correct Conversion of Image Stitching)

  • 이현철;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권1호
    • /
    • pp.9-18
    • /
    • 2018
  • 최근 가상현실 기반의 콘텐츠들이 늘어나면서 이미지 Stitching 기술의 사용이 증가하고 있다. 이미지 Stitching이란 고해상도 이미지 및 넓은 시야(Wide Field of View)의 이미지를 생성하기 위해 다중의 영상을 정합하는 방법이다. 이런 이미지 Stitching은 하나의 카메라로부터 생성되는 영상의 한계를 넘어 다양한 분야에서 활용되고 있다. 이미지 Stitching은 다중의 영상을 정합하기 위해 특징 점 및 대응점을 검출하고 RANSAC 알고리즘을 이용하여 영상간의 변환관계(Homography)를 계산한다. 일반적으로 변환관계 계산을 위해 대응점들이 필요하다. 그러나 대응점들에는 변환관계에 대한 잘못된 가정이나 오류로 인해 발생할 수 있는 다양한 유형의 노이즈(Noise)가 포함되어 있다. 이러한 노이즈는 변환관계를 정확히 예측하는 방해 요인이 된다. 이처럼 일반적으로 사용되는 대응점 매칭(Matching) 방법들은 잘못된 대응점들을 매칭할 수 있는 경우가 발생하기 때문에 모델 파라미터의 예측을 방해하는 대응점(Outlier)로부터 정확한 변환관계를 구축하기 위해 RANSAC 알고리즘을 사용한다. 본 논문에서는 RANSAC 알고리즘에 사용되는 대응점 관계 정보를 이용하여 좀 더 정확한 대응점(Inlier)을 추출하고 정확한 변환관계를 계산하는 알고리즘을 제안한다. 대응점 관계 정보는 이미지 매칭에 사용되는 대응점 간의 거리 비율을 사용하며, 본 논문은 기존 RANSAC 알고리즘과 같은 성능을 유지하면서 처리 시간을 단축시키는데 있다.

비선형 모델을 이용한 결측 대체 방법 비교 (A comparison of imputation methods using nonlinear models)

  • 김혜인;송주원
    • 응용통계연구
    • /
    • 제32권4호
    • /
    • pp.543-559
    • /
    • 2019
  • 자료에는 다양한 원인에 의해 결측이 발생한다. 만약 결측치를 제외하고 완전히 관찰된 자료만으로 분석을 실시한다면 결측자료 메커니즘이 완전임의결측이 아닌 경우 결과에 편향이 발생하거나 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 결측이 하나의 변수에서만 일어나지 않기 때문에, 자료에 변수가 많을 수록 이 문제는 심화된다. 문제를 개선하기 위해 결측치를 대체하는 여러가지 방법들이 제안되었다. 하지만 모수적인 모형을 이용한 대체 방법들은 가정에 위배되는 현실 데이터에는 적합하지 않다. 따라서 본 연구에서는 자료의 분포 가정에 덜 영향을 받는 커널, 리샘플링, 스플라인 방법을 활용한 비선형 대체 방법들을 리뷰하고 필요한 경우 기존의 비선형 대체 방법에 대체클래스를 사용하여 대체값의 정확도를 높이거나 랜덤성을 가지는 오차를 더해주어 추정치의 분산이 적게 추정되는 문제를 개선하는 확장된 결측 대체 방법을 제안한다. 본 연구에서 고려한 여러 가지 대체 방법들은 다양한 모의자료 설계 하에서 성능을 비교하였다. 모의실험 결과, 비선형 대체 방법들은 각 설계 하에 다른 성능을 보이며 전반적으로 커널 회귀나 스플라인을 활용한 대체 방법들이 좋은 성능을 보였다. 더불어, 확장된 대체 방법은 기존의 대체 방법이 가지는 문제점을 개선함을 확인할 수 있었다.

산림지역에서의 2023년 봄철 꽃나무 개화시기 예측 (Prediction of Spring Flowering Timing in Forested Area in 2023)

  • 서지희;김수경;김현석;천정화;원명수;장근창
    • 한국농림기상학회지
    • /
    • 제25권4호
    • /
    • pp.427-435
    • /
    • 2023
  • 이상기상으로 인한 봄꽃 개화 시기의 변화는 식물의 생장기간 뿐 아니라 생물계절을 포함한 생태계의 모든 측면에 영향을 미친다. 따라서 봄꽃 개화 시기를 예측하는 것은 산림 생태계의 효과적인 관리에 필수적이다. 본 연구에서는 464곳의 산림에서 수집된 날씨정보를 기반으로 대한민국 산림의 대표적인 5가지 수종(미선나무, 아까시나무, 철쭉, 산철쭉, 마가목)의 2023년 개화 시기를 예측하기 위해 과정 기반 모형을 사용하였다. 이를 위해 28개 지역의 9년간(2009-2017) 개화 시기 자료를 활용하여 모형을 개발하였다. 개화 시기는 식물의 세 개 이상의 위치에서 처음으로 꽃이 피는 것을 기준으로 측정되었다. 본 연구에서는 STDD와 GDD 과정 기반 모형을 사용하여 개화 시기를 예측하였으며, 두 모형 모두 일반적으로 우수한 성능을 보였다. 과정 기반 모형의 주요 입력변수인 날씨 자료는 산악기상관측시스템과 기상청에서 제공하는 기온 정보를 융합하여 1km의 공간 해상도로 일 단위 기온 자료를 생성하였다. 지역별 보정 계수를 생산하고 적용하기 위해 랜덤포레스트 기계 학습을 활용하여 STDD와 GDD 모형을 기반으로 예측 정확도를 개선하였다. 결과적으로 보정 계수가 적용될 때 대부분의 수종에서 개화 시기의 예측 오차가 작았으며, 특히, 미선나무, 아까시나무, 철쭉에서 평균제곱근오차가 각각 1.2, 0.6, 1.2일로 매우 낮았다. 모형 성능을 평가하기 위해 10회의 무작위 샘플링 테스트를 실시하고, 최적의 결정계수 값을 가진 모형을 선택하여 모형의 성능을 평가하였다. 그 결과, 마가목을 제외한 모든 수종에서 보정 계수가 적용된 모형에서 결정계수가 최소 0.07에서 최대 0.7 증가하였으며 최종적으로 75%에서 90%의 설명력을 가졌다. 이를 기반으로 수종별 보정 계수를 산출하였으며, 1km 해상도의 전국 단위 개화시기예측 지도를 제작하였다. 본 연구는 식물의 계절 변화에 대한 자료로 활용될 것으로 예상되며, 수종 및 지역별로 개화 시기를 상세히 설명하여 기후 변화로 인한 계절 변화를 연구하는 데에 유용할 것으로 기대된다. 또한 우리나라 산림의 주요 수종에 대한 정확도 높은 개화 시기 예측 서비스는 산림 방문객들의 산림 경험 만족도를 크게 높일 수 있으며, 양봉업 등 임업 종사자들의 경제적 향상에 기여할 것으로 기대된다.

집중형센터를 가진 역물류네트워크 평가 : 혼합형 유전알고리즘 접근법 (Evaluating Reverse Logistics Networks with Centralized Centers : Hybrid Genetic Algorithm Approach)

  • 윤영수
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.55-79
    • /
    • 2013
  • 본 연구에서는 집중형 센터를 가진 역물류네트워크(Reverse logistics network with centralized centers : RLNCC)를 효율적을 해결하기 위한 혼합형 유전알고리즘(Hybrid genetic algorithm : HGA) 접근법을 제안한다. 제안된 HGA에서는 유전알고리즘(Genetic algorithm : GA)이 주요한 알고리즘으로 사용되며, GA 실행을 위해 0 혹은 1의 값을 가질 수 있는 새로운 비트스트링 표현구조(Bit-string representation scheme), Gen and Chang(1997)이 제안한 확장샘플링공간에서의 우수해 선택전략(Elitist strategy in enlarged sampling space) 2점 교차변이 연산자(Two-point crossover operator), 랜덤 돌연변이 연산자(Random mutation operator)가 사용된다. 또한 HGA에서는 혼합형 개념 적용을 위해 Michalewicz(1994)가 제안한 반복적언덕오르기법(Iterative hill climbing method : IHCM)이 사용된다. IHCM은 지역적 탐색기법(Local search technique) 중의 하나로서 GA탐색과정에 의해 수렴된 탐색공간에 대해 정밀하게 탐색을 실시한다. RLNCC는 역물류 네트워크에서 수집센터(Collection center), 재제조센터(Remanufacturing center), 재분배센터(Redistribution center), 2차 시장(Secondary market)으로 구성되며, 이들 각 센터 및 2차 시장들 중에서 하나의 센터 및 2차 시장만 개설되는 형태를 가지고 있다. 이러한 형태의 RLNCC는 혼합정수계획법(Mixed integer programming : MIP)모델로 표현되며, MIP 모델은 수송비용, 고정비용, 제품처리비용의 총합을 최소화하는 목적함수를 가지고 있다. 수송비용은 각 센터와 2차 시장 간에 제품수송에서 발생하는 비용을 의미하며, 고정비용은 각 센터 및 2차 시장의 개설여부에 따라 결정된다. 예를 들어 만일 세 개의 수집센터(수집센터 1, 2, 3의 개설비용이 각각 10.5, 12.1, 8.9)가 고려되고, 이 중에서 수집센터 1이 개설되고, 나머지 수집센터 2, 3은 개설되지 않을 경우, 전체고정비용은 10.5가 된다. 제품처리비용은 고객으로부터 회수된 제품을 각 센터 및 2차 시장에서 처리할 경우에 발생되는 비용을 의미한다. 수치실험에서는 본 연구에서 제안된 HGA접근법과 Yun(2013)의 연구에서 제안한 GA접근법이 다양한 수행도 평가 척도에 의해 서로 비교, 분석된다. Yun(2013)이 제안한 GA는 HGA에서 사용되는 IHCM과 같은 지역적탐색기법을 가지지 않는 접근법이다. 이들 두 접근법에서 동일한 조건의 실험을 위해 총세대수 : 10,000, 집단의 크기 : 20, 교차변이 확률 : 0.5, 돌연변이 확률 : 0.1, IHCM을 위한 탐색범위 : 2.0이 사용되며, 탐색의 랜덤성을 제거하기 위해 총 20번의 반복실행이 이루어 졌다. 사례로 제시된 두 가지 형태의 RLNCC에 대해 GA와 HGA가 각각 실행되었으며, 그 실험결과는 본 연구에서 제안된 HGA가 기존의 접근법인 GA보다 더 우수하다는 것이 증명되었다. 다만 본 연구에서는 비교적 규모가 작은 RLNCC만을 고려하였기에 추후 연구에서는 보다 규모가 큰 RLNCC에 대해 비교분석이 이루어 져야 할 것이다.