• 제목/요약/키워드: synthetic data sampling

검색결과 47건 처리시간 0.023초

데이터 불균형 개선에 따른 탁도 예측 앙상블 머신러닝 모형의 성능 특성 (Performance Characteristics of an Ensemble Machine Learning Model for Turbidity Prediction With Improved Data Imbalance)

  • 양현석;박정수
    • Ecology and Resilient Infrastructure
    • /
    • 제10권4호
    • /
    • pp.107-115
    • /
    • 2023
  • 고 탁도의 원수는 정수장 운영 및 수 생태 환경에 부정적인 영향을 줄 수 있어 관리가 필요한 수질 인자이며, 하천의 탁도 예측을 통해 고 탁도의 원수의 효율적 관리를 수행하기 위해 관련분야에 대한 연구가 지속되고 있다. 본 연구에서는 대표적인 앙상블 머신러닝 알고리즘 중 하나인 LightGBM (light gradient boosting machine)을 이용하여 탁도를 예측하는 다중 분류 모형을 구축하였다. 모형의 구축을 위해 입력자료를 탁도값에 따라 탁도가 낮은 경우부터 높은 경우까지 4개의 class로 구분하였으며, class 1 - 4에 속하는 자료수는 각각 945개, 763개, 95개, 25개로 분류되었다. 구축한 모형의 class 1 - 4에 대한 정밀도 (Precision) 각각 0.85, 0.71, 0.26, 0.30 재현율 (Recall)은 각각 0.82, 0.76, 0.19, 0.60로 데이터 수가 적은 소수 class에서 상대적으로 모형이 성능이 낮은 경향을 보였다. 데이터 불균형을 해소하기 위해 over-sampling알고리즘 중 SMOTE를 적용한 결과 개선된 모형의 class 1 - 4에 대한 정밀도 및 재현율은 각각 0.88, 0.71, 0.26, 0.25 및 0.79, 0.76, 0.38, 0.60으로 데이터 불균형 해소를 통해 모형의 재현율이 크게 개선되는 것을 확인할 수 있었다. 또한 데이터 구성비율이 모형성능에 미치는 영향에 대한 확인을 위하여 입력자료의 구성비를 다양하게 하고 각각의 자료로 구축된 모형의 결과를 비교하여 입력자료 구성비에 따른 모형성능의 차이를 분석하였으며, 모형 입력자료의 구성비의 적정한 산정을 통해 모형의 성능을 향상시킬 수 있음을 확인하였다.

탄성파 자료를 이용한 Spitz 보간 알고리즘의 적용 (Applying Spitz Trace Interpolation Algorithm for Seismic Data)

  • 양정아;서정희
    • 지구물리와물리탐사
    • /
    • 제6권4호
    • /
    • pp.171-179
    • /
    • 2003
  • 육상 및 해상 탐사를 할 경우 음원에 따른 수진기는 등간격으로 설치한다. 수진기의 간격을 좁게 설정하여 탐사를 할 경우 자료 획득 과정에서 많은 비용 및 시간이 소요되므로 일반적으로 적절한 간격으로 배치한다. 수진기 간격이 넓으면 공간 알리아싱이 발생한다. 공간 알리아싱이 있는 탐사 자료를 이용해 자료 처리를 할 경우 좋은 결과를 얻을 수 없다. 이러한 경우 자료 처리 과정에서 트레이스 보간을 이용하여 자료 처리 결과를 향상시킬 수 있다. 본 연구에서는 공간 알리아싱이 생긴 탄성파 자료 처리에 많이 이용되는 트레이스 보간법 중에서 복잡한 지하구조의 경사에 대한 정보 없이 보간이 가능한 Spitz의 보간 방법을 적용하였다. 주파수-공간 영역에서 선형 이벤트가 존재하는 등간격으로 이루어진 트레이스에 대하여 예측 필터와 기존의 트레이스를 이용하여 새로운 트레이스를 보간하였다. 본 알고리즘을 인공합성 탄성파 자료, 무작위 잡음을 넣은 인공합성 탄성파 자료, 실제 탐사를 통해 얻은 자료에 적용하여 알고리즘의 적용성을 검토하였다. 보간 수행 후에는 동일한 수진기 배열에 대하여 수행전보다 수진기의 간격이 좁아지고 수진기의 개수가 늘어난 효과를 얻었다. 또한 보간된 트레이스간의 이벤트의 연속성도 증가되었다. 이와 같은 보간법을 공간 알리아싱이 있는 탐사 자료에 이용하면 구조보정을 통하여 향상된 영상을 얻을 수 있을 것이라 생각된다.

데이터마이닝 기법을 이용한 기업부실화 예측 모델 개발과 예측 성능 향상에 관한 연구 (Development of Prediction Model of Financial Distress and Improvement of Prediction Performance Using Data Mining Techniques)

  • 김량형;유동희;김건우
    • 경영정보학연구
    • /
    • 제18권2호
    • /
    • pp.173-198
    • /
    • 2016
  • 본 연구의 목적은 비즈니스 인텔리전스 연구 관점에서 기업부실화 예측 성능을 향상키시는 것이다. 이를 위해 본 연구는 기존 연구들에서 미흡하게 다루어졌던 1) 데이터셋을 구성하는 과정에서 발생하는 바이어스 문제, 2) 거시경제위험 요소의 미반영 문제, 3) 데이터 불균형 문제, 4) 서술적 바이어스 문제를 다루어 경기순환국면을 반영한 기업부실화 예측 프레임워크를 제안하고, 이를 바탕으로 기업부실화 예측 모델을 개발하였다. 본 연구에서는 경기순환국면별로 각각의 데이터셋을 구성하고, 각 데이터셋에서 의사결정나무, 인공신경망 등 단일 분류기부터 앙상블 기법까지 다양한 데이터마이닝 알고리즘을 적용하여 실험하였다. 또한 본 연구는 데이터불균형 문제를 해결하기 위해, 오버샘플링 기법인 SMOTE(synthetic minority over-sampling technique) 기법을 통해 초기 데이터 불균형 상태에서부터 표본비율을 1:1까지 변화시켜 가며, 기업부실화 예측 모델을 개발하는 실험을 하였고, 예측 모델의 변수 선정 시에 선행연구를 바탕으로 재무비율을 추출하고, 여기서 파생된 IT 산출물인 재무상태변동성과 산업수준상태변동성을 예측 모델에 삽입하였다. 마지막으로, 본 연구는 각 순환국면에서 만들어진 기업부실화 예측 모델의 예측 성능 비교와 경기 확장기와 수축기에서의 기업부실화 예측 모델의 유용성에 대해 논의하였다. 본 연구는 비즈니스 인텔리전스 연구 측면에서 기존 연구에서 미흡하게 다루어졌던 4가지 문제점을 검토하고, 이를 해결할 프레임워크를 제안함으로써 기존 연구 대비 기업부실화 예측률을 10% 이상 향상시켰다는 점에서 연구의 의의를 찾을 수 있다.

A Nexus among Strategic Orientation, Social Network, Knowledge Sharing, Organizational Innovation, and MSMEs Performance

  • MUAFI, Muafi
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제7권6호
    • /
    • pp.327-338
    • /
    • 2020
  • This study wants to test the nexus among resource orientation, market orientation, social network, and knowledge sharing toward organizational innovation, and the nexus between organizational innovation and MSMEs performance. Questionnaires and interviews are conducted with some MSMEs actors in Central Java Province, Indonesia, in Klaten Regency and Pekalongan City. These two areas have creative MSMEs, especially Batik MSMEs that have been very large and known worldwide. The sampling technique is done purposively with certain criteria for the respondents. The data analysis technique is done using Partial Least Square. This study provides recommendations about strategic practice and policy (resource and market), social network, and knowledge sharing in increasing organizational innovation, and the impact of organizational innovation toward MSMEs performance. It also offers a comprehensive model of the determinant factor of organizational innovation by considering the aspect of strategic orientation, social network, and knowledge sharing. Other unique aspects that are also important to consider are social network and the importance of knowledge sharing in improving MSMEs Performance. The respondents are still limited in two areas, namely, Pekalongan and Klaten, so it still cannot represent the whole population. These areas also have different orientation of production process approach, namely, synthetic and natural dyes.

이중 주파수 GPS 데이터를 이용한 저궤도 위성의 정밀궤도결정 (Precise Orbit Determination of LEO Satellite Using Dual-Frequency GPS Data)

  • 황유라;이병선;김재훈;윤재철
    • Journal of Astronomy and Space Sciences
    • /
    • 제26권2호
    • /
    • pp.229-236
    • /
    • 2009
  • 다목적실용위성-5호는 2010년 발사를 목표로 고도 550km의 저궤도에 위치하게 될 것이다. 다목적실용위성-5호의 임무인 고정밀 SAR(Synthetic Aperture Radar) 영상을 처리하기 위해서는 정확한 위성의 위치(20cm) 와 속도(0.03cm/s)가 결정되어야 한다. 이러한 요구 조건은 한국 전자통신연구원에서 개발한 ETRI GNSS Precise Orbit Determination(EGPOD) 소프트웨어로 검증하였다. 0.1Hz 수신 주기의 SAC-C 위성 반송파위상 데이터로 정밀궤도결정을 수행하였다. 이중 주파수 GPS 데이터를 사용하여 수신 선호의 전리층 오차를 대부분 제거하고 이중 차분된 데이터를 생성함으로써 GPS 위성과 수신기의 공통된 시계 오차를 없앴다. 동역학 모델 접근 방법을 이용하였고, Batch Least Square Estimator(BLSE) 필터로 각 데이터 아크(arc) 에 해당하는 위성의 위치와 속도, 대기저항 계수, 태양풍 계수를 추정하였다. 또한 정밀한 동역학 모델을 위하여 모델 되지 않은 부정확한 가속도 항을 보충하는 경험 가속도를 추가하였다. 경험 가속도는 위성의 공전 주기(revolution) 당 한번씩 시선방향(radial), 진행방향(along-track), 수직방향(cross-track)으로 추정하고, 수직방향의 상수 항에 대해서는 해당 데이터 아크에 관하여 부가적으로 추정하였다. 정밀궤도결정 결과 검증을 위하여 EGPOD 소프트웨어에서 얻어진 결과와 JPL에서 제공하는 정밀궤도력(Precise Orbit Ephemeris)을 비교하였다.

머신러닝 CatBoost 다중 분류 알고리즘을 이용한 조류 발생 예측 모형 성능 평가 연구 (Evaluation of Multi-classification Model Performance for Algal Bloom Prediction Using CatBoost)

  • 김준오;박정수
    • 한국물환경학회지
    • /
    • 제39권1호
    • /
    • pp.1-8
    • /
    • 2023
  • Monitoring and prediction of water quality are essential for effective river pollution prevention and water quality management. In this study, a multi-classification model was developed to predict chlorophyll-a (Chl-a) level in rivers. A model was developed using CatBoost, a novel ensemble machine learning algorithm. The model was developed using hourly field monitoring data collected from January 1 to December 31, 2015. For model development, chl-a was classified into class 1 (Chl-a≤10 ㎍/L), class 2 (10<Chl-a≤50 ㎍/L), and class 3 (Chl-a>50 ㎍/L), where the number of data used for the model training were 27,192, 11,031, and 511, respectively. The macro averages of precision, recall, and F1-score for the three classes were 0.58, 0.58, and 0.58, respectively, while the weighted averages were 0.89, 0.90, and 0.89, for precision, recall, and F1-score, respectively. The model showed relatively poor performance for class 3 where the number of observations was much smaller compared to the other two classes. The imbalance of data distribution among the three classes was resolved by using the synthetic minority over-sampling technique (SMOTE) algorithm, where the number of data used for model training was evenly distributed as 26,868 for each class. The model performance was improved with the macro averages of precision, rcall, and F1-score of the three classes as 0.58, 0.70, and 0.59, respectively, while the weighted averages were 0.88, 0.84, and 0.86 after SMOTE application.

형상이차미분을 이용한 자유곡면 형상복원법 (Free-Form Surface Reconstruction Method from Second-Derivative Data)

  • 김병창;김대욱;김건희
    • 한국광학회지
    • /
    • 제25권5호
    • /
    • pp.273-278
    • /
    • 2014
  • 일련의 국부영역으로부터 이차미분값을 획득하여 전체 형상을 복원하는 측정법을 제안하였다. 측정시 기울기가 제거된 국부형상에 대해 곡률과 이차미분이 동일시 되는 점을 이용하여, 3개의 이차미분값으로부터 직교하는 2방향을 따라 3차원형상을 복원할 수 있는 알고리즘을 구현하였다. 임의로 발생시킨 Zernike다항식의 계수로 자유곡면형상을 생성시키고, 구현된 알고리즘을 적용함으로써 검증과정을 수행하였다. 적용한 결과 최대 0.8 mm Sag를 갖는 직경 200 mm영역의 자유곡면형상에 대해 RMS 19 nm 형상복원오차를 갖고 복원됨을 확인하였다. 측정오차에 대한 복원오차 민감도를 진단하기 위해 SNR(Signal-to-Noise Ratio) 16의 가우시언 랜덤 노이즈를 부여한 후, 복원되는 형상의 오차를 진단한 결과, 197 nm의 형상복원오차가 발생함을 확인하였다.

오토인코더 기반의 외부망 적대적 사이버 활동 징후 감지 (Detection of Signs of Hostile Cyber Activity against External Networks based on Autoencoder)

  • 박한솔;김국진;정재영;장지수;윤재필;신동규
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.39-48
    • /
    • 2022
  • 전 세계적으로 사이버 공격은 계속 증가해 왔으며 그 피해는 정부 시설을 넘어 민간인들에게 영향을 미치고 있다. 이러한 문제로 사이버 이상징후를 조기에 식별하여 탐지할 수 있는 시스템 개발의 중요성이 강조되었다. 위와 같이, 사이버 이상징후를 효과적으로 식별하기 위해 BGP(Border Gateway Protocol) 데이터를 머신러닝 모델을 통해 학습하고, 이를 이상징후로 식별하는 여러 연구가 진행되었다. 그러나 BGP 데이터는 이상 데이터가 정상 데이터보다 적은 불균형 데이터(Imbalanced data)이다. 이는, 모델에 학습이 편향된 결과를 가지게 되어 결과에 대한 신뢰성을 감소시킨다. 또한, 실제 사이버 상황에서 보안 담당자들이 머신러닝의 정형적인 결과로 사이버 상황을 인식시킬 수 없는 한계도 존재한다. 따라서 본 논문에서는 전 세계 네트워크 기록을 보관하는 BGP(Border Gateway Protocol)를 조사하고, SMOTE(Synthetic Minority Over-sampling Technique) 활용해 불균형 데이터 문제를 해결한다. 그 후, 사이버 공방(Cyber Range) 상황을 가정하여, 오토인코더를 통해 사이버 이상징후 분류하고 분류된 데이터를 가시화한다. 머신러닝 모델인 오토인코더는 정상 데이터의 패턴을 학습시켜 이상 데이터를 분류하는 성능을 92.4%의 정확도를 도출했고 보조 지표도 90%의 성능을 보여 결과에 대한 신뢰성을 확보한다. 또한, 혼잡한 사이버 공간을 가시화하여 효율적으로 상황을 인식할 수 있기에 사이버 공격에 효과적으로 방어할 수 있다고 전망된다.

교육용 레이다 시스템의 제작 및 실험 (Construction and Experiment of an Educational Radar System)

  • 지영훈;이훈열
    • 대한원격탐사학회지
    • /
    • 제30권2호
    • /
    • pp.293-302
    • /
    • 2014
  • 원격탐사에서 주로 사용되는 레이다 시스템에는 인공위성, 항공기 및 지상용 SAR 시스템을 비롯하여 산란계와 도플러 레이다 등이 있다. 이러한 시스템들은 고가의 장비들로 구성되며, 운용하는 데에 매우 전문적인 기술을 필요로 한다. 일반적인 대학이나 연구소에서는 장비의 구성과 운용에 대한 경험을 얻기 힘들기 때문에 레이다 및 SAR를 이용한 새로운 적용 분야를 이해하고 개척해 나아가는데 필수적인 하드웨어적 원리를 배우고 실습하기에 어려운 실정이다. 이를 극복하기 위하여 이 논문에서는 미국 MIT에서 제공하는 Cantenna 시스템의 설계도를 기반으로 한 레이다 시스템을 저가로 제작하고 실험한 내용을 소개한다. 제작된 레이다는 총 세 가지의 방식으로 운영되었는데, 첫째, 도플러 레이다를 이용하여 이동하는 차량의 속도를 측정하였고 둘째, 거리해상도를 가지는 레이다 방식을 이용하여 이동하는 두 물체의 움직임을 측정하였다. 마지막으로, 지상용 SAR 방식으로 방위각 해상도를 높여 이차원의 영상을 획득하였다. 추가적으로 영상화에 사용되는 Deramp-FFT 알고리즘과 ${\omega}-k$ 알고리즘의 비교 및 안테나의 위치 측정 오차에 따른 영향을 분석하기 위해 시뮬레이션을 수행하였다. 향후 샘플링 주파수의 증가, I/Q 샘플링 및 보다 안정적인 회로를 구현하면 무인 항공기에 탑재할 수 있는 가벼운 SAR 시스템으로도 발전할 수 있을 것으로 기대된다.

고해상도 영상레이더 성능 분석을 위한 모델링 및 시뮬레이션 기법 (Modeling and Simulation Techniques for Performance Analysis of High Resolution SAR System)

  • 성진봉;김세영;이현익;전병태
    • 한국전자파학회논문지
    • /
    • 제24권5호
    • /
    • pp.558-565
    • /
    • 2013
  • 본 논문에서는 고해상도 광대역 영상레이더의 성능을 분석하기 위하여 시간, 주파수 및 Numeric 영역에서 아날로그, RF 및 디지털 신호처리 해석을 통합할 수 있는 시스템 시뮬레이션 툴인 Agilent사의 ADS Ptolemy DF(TSDF: Timed Synchronous DataFlow)를 이용하여 모델링 및 시뮬레이션을 수행하였다. 영상레이더용 하드웨어 시스템은 안테나, 통제장치 및 송수신 장치로 크게 구성되며, 송수신 장치는 고주파 변환 장치, 고출력 송신 장치, 그리고 송수신 전단 장치로 구성된다. 본 논문에서는 시스템의 하드웨어 성능에 영향을 미치는 오차 변수를 정의하고, 이들 오차 변수의 오차 원인이 되는 부품에 대한 특성을 모델링하였다. 영상레이더는 TSDF 모델링 기법을 이용하여 순방향 전송 임펄스 특성($S_{21}$), 고주파 소자의 비선형 특성(이득 비선형, 3차 intercept 및 믹서 교차변조), 채널간 전파 특성, 주파수 합성기 위상 잡음, TWTA의 진폭/위상 특성, 파형 발생기의 샘플링 주파수 및 I/Q 밸런스 등에 대한 모델링을 수행하여 SAR 성능을 분석하였으며, 최종 임펄스 응답 특성 분석을 통한 시스템의 하드웨어 규격을 도출하였다.