• 제목/요약/키워드: oversampled

검색결과 24건 처리시간 0.018초

머신러닝을 이용한 안개 예측 시 목측과 시정계 계측 방법에 따른 모델 성능 차이 비교 (Comparison of Machine Learning Model Performance based on Observation Methods using Naked-eye and Visibility-meter)

  • 박창현;이순환
    • 한국지구과학회지
    • /
    • 제44권2호
    • /
    • pp.105-118
    • /
    • 2023
  • 본 연구에서는 2016년부터 2020년까지 내륙 관측소 중 안개 최다발 지역인 안동을 대상으로 XGBoost-DART 머신러닝 알고리즘을 이용하여 1 시간 후 안개 유무를 예측하였다. 기상자료, 농업관측자료, 추가 파생자료와 각 자료를 오버 샘플링한 확장자료, 총 6개의 데이터 세트를 사용하였다. 목측으로 획득한 기상현상번호와 시정계 관측으로 측정된 시정거리 자료를 각각 안개 유[1]무[0]로 이진 범주화하였다. 총 12개의 머신러닝 모델링 실험을 설계하였고, 안개가 사회와 지역사회에 미치는 유해성을 고려하여 모델의 성능은 재현율과 AUC-ROC를 중심으로 평가하였다. 전체적으로, 오버샘플링한 기상자료와 기상현상번호 기반의 예측 목표를 조합한 실험이 최고 성능을 보였다. 이 연구 결과는 머신러닝 알고리즘을 활용한 안개 예측에 있어서, 목측으로 획득한 기상현상번호의 중요성을 암시한다.

하모닉 코더를 위한 직선과 이산코사인변환 (DCT)을 이용한 하모닉 크기값 (Magnitude) 양자화 기법 (Method of Harmonic Magnitude Quantization for Harmonic Coder Using the Straight Line and DCT (Discrete Cosine Transform))

  • 최지욱;정규혁;이인성
    • 한국음향학회지
    • /
    • 제27권4호
    • /
    • pp.200-206
    • /
    • 2008
  • 본 논문은 음성신호의 주파수를 반으로 나누어 양자화 계수 추출에 직선과 DCT (Discrete Cosine Transform)를 혼합하여 사용한 양자화 기법을 제안한다. 하모닉 부호화기에서의 하모닉은 가변이므로 저주파에서의 하모닉만을 오버샘플링하여 차원을 고정한다. 고정된 차원의 스펙트럼 포락선을 직선으로 표현한 후 직선이 불연속인 주파수에서의 샘플값만을 전송한다. 이 논문에서는 저주파에서의 하모닉은 복원을 위해 고정된 직선의 계수를 사용하였고 고주파에서의 하모닉은 가변 DCT를 적용하여 직선과 DCT가 격합된 형태의 양자화기법을 제안한다. 제안된 양자화 기법의 성능평가는 스펙트럴의 크기값에 대한 Spectral Distortion (SD)값을 사용하였다. 실험결과 HVXC보다 제안된 양자화 기법의 SD가 0.3dB 정도 개선되었다.

딥러닝 기반 터널 콘크리트 라이닝 균열 탐지 (Deep learning based crack detection from tunnel cement concrete lining)

  • 배수현;함상우;이임평;이규필;김동규
    • 한국터널지하공간학회 논문집
    • /
    • 제24권6호
    • /
    • pp.583-598
    • /
    • 2022
  • 인력기반 터널 점검은 점검자의 주관적인 판단에 영향을 받으며 지속적인 이력관리가 어렵다. 따라서 최근에는 딥러닝 기반 자동 균열 탐지 연구가 활발히 진행되고 있다. 하지만 대부분의 연구에서는 사용하는 대규모 공개 균열 데이터셋은 터널 내부에서 발생하는 균열과 매우 상이하다. 또한 현행 터널 상태평가에서 정교한 균열 레이블을 구축하기 위해서는 추가적인 작업이 요구된다. 이에 본 연구는 균열 형상이 다소 단순하게 표현된 기존 데이터셋을 딥러닝 모델에 입력하여 균열 탐지 성능을 개선하는 방안을 제시한다. 기존 터널 데이터셋, 고품질 터널 데이터셋과 공개 균열 데이터셋을 조합하여 학습한 딥러닝 모델의 성능 평가와 비교를 수행한다. 그 결과 Cross Entropy 손실함수를 사용한 DeepLabv3+에 공개 데이터셋, 패치 단위 분류와 오버샘플링을 수행한 터널 데이터셋을 모두 학습한 경우 성능이 가장 좋았다. 향후 기 구축된 터널 영상 취득 시스템 데이터를 딥러닝 모델 학습에 효율적으로 활용하기 위한 방안을 수립하는 데 기여할 것으로 기대한다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.