• Title/Summary/Keyword: 샘플링 전략

Search Result 28, Processing Time 0.034 seconds

Data Sampling Strategy for Korean Speech Emotion Classification using wav2vec2.0 (wav2vec2.0을 활용한 한국어 음성 감정 분류를 위한 데이터 샘플링 전략)

  • Mirr-Shin;Youhyun Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.493-494
    • /
    • 2023
  • 음성 기반의 감정 분석은 인간의 감정을 정확하게 파악하는 데 중요한 연구 분야로 자리잡고 있다. 최근에는 wav2vec2.0과 같은 트랜스포머 기반의 모델이 음성 인식 분야에서 뛰어난 성능을 보이며 주목받고 있다. 본 연구에서는 wav2vec2.0 모델을 활용하여 한국어 감성 발화 데이터에 대한 감정 분류를 위한 데이터 샘플링 전략을 제안한다. 실험을 통해 한국어 음성 감성분석을 위해 학습 데이터를 활용할 때 감정별로 샘플링하여 데이터의 개수를 유사하게 하는 것이 성능 향상에 도움이 되며, 긴 음성 데이터부터 이용하는 것이 성능 향상에 도움이 됨을 보인다.

Study on the Effect of Training Data Sampling Strategy on the Accuracy of the Landslide Susceptibility Analysis Using Random Forest Method (Random Forest 기법을 이용한 산사태 취약성 평가 시 훈련 데이터 선택이 결과 정확도에 미치는 영향)

  • Kang, Kyoung-Hee;Park, Hyuck-Jin
    • Economic and Environmental Geology
    • /
    • v.52 no.2
    • /
    • pp.199-212
    • /
    • 2019
  • In the machine learning techniques, the sampling strategy of the training data affects a performance of the prediction model such as generalizing ability as well as prediction accuracy. Especially, in landslide susceptibility analysis, the data sampling procedure is the essential step for setting the training data because the number of non-landslide points is much bigger than the number of landslide points. However, the previous researches did not consider the various sampling methods for the training data. That is, the previous studies selected the training data randomly. Therefore, in this study the authors proposed several different sampling methods and assessed the effect of the sampling strategies of the training data in landslide susceptibility analysis. For that, total six different scenarios were set up based on the sampling strategies of landslide points and non-landslide points. Then Random Forest technique was trained on the basis of six different scenarios and the attribute importance for each input variable was evaluated. Subsequently, the landslide susceptibility maps were produced using the input variables and their attribute importances. In the analysis results, the AUC values of the landslide susceptibility maps, obtained from six different sampling strategies, showed high prediction rates, ranges from 70 % to 80 %. It means that the Random Forest technique shows appropriate predictive performance and the attribute importance for the input variables obtained from Random Forest can be used as the weight of landslide conditioning factors in the susceptibility analysis. In addition, the analysis results obtained using specific sampling strategies for training data show higher prediction accuracy than the analysis results using the previous random sampling method.

Classification using Hierarchical Sampling in Large Classification System (대규모 분류 체계에서 계층적 샘플링을 활용한 문서의 분류)

  • Hong, SungMo;Jang, HeonSeok;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.51-55
    • /
    • 2017
  • 대규모 분류체계를 사용하는 경우, 기존 방법의 딥 러닝으로는 분류 정확도가 현저히 떨어진다. 이를 해결하기 위해 계층 구조를 활용한 네거티브 샘플링 방법을 제안한다. 학습 문서가 속한 카테고리의 상위 카테고리와 일정부분 겹치는 범위에서 네거티브 샘플을 선택하면, 하나의 큰 문제를 다수개의 하위 문제로 쪼개서 해결하는 학습 효과가 있다. 소규모 분류 체계와 대규모 분류체계 각각에서 샘플링 전략을 차용하였을 때를 비교한 결과, 대규모에서 효과가 좋았으며 그 때의 정확도가 150배 이상 차이가 나는 것을 보였다.

  • PDF

Classification using Hierarchical Sampling in Large Classification System (대규모 분류 체계에서 계층적 샘플링을 활용한 문서의 분류)

  • Hong, SungMo;Jang, HeonSeok;Kang, Inho
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.51-55
    • /
    • 2017
  • 대규모 분류체계를 사용하는 경우, 기존 방법의 딥 러닝으로는 분류 정확도가 현저히 떨어진다. 이를 해결하기 위해 계층 구조를 활용한 네거티브 샘플링 방법을 제안한다. 학습 문서가 속한 카테고리의 상위 카테고리와 일정부분 겹치는 범위에서 네거티브 샘플을 선택하면, 하나의 큰 문제를 다수개의 하위 문제로 쪼개서 해결하는 학습 효과가 있다. 소규모 분류 체계와 대규모 분류체계 각각에서 샘플링 전략을 차용하였을 때를 비교한 결과, 대규모에서 효과가 좋았으며 그 때의 정확도가 150배 이상 차이가 나는 것을 보였다.

  • PDF

A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms (기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법)

  • Jun, Sung-Hae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.21 no.2
    • /
    • pp.171-177
    • /
    • 2011
  • Accuracy and computing time are considerable issues in machine learning. In general, the computing time for data analysis is increased in proportion to the size of given data. So, we need a sampling approach to reduce the size of training data. But, the accuracy of constructed model is decreased by going down the data size simultaneously. To solve this problem, we propose a new statistical sampling method having similar performance to the total data. We suggest a rule to select optimal sampling techniques according to given data structure. This paper shows a sampling method for reducing computing time with keeping the most of accuracy using cluster sampling, stratified sampling, and systematic sampling. We verify improved performance of proposed method by accuracy and computing time between sample data and total data using objective machine learning data sets.

Improved Focused Sampling for Class Imbalance Problem (클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링)

  • Kim, Man-Sun;Yang, Hyung-Jeong;Kim, Soo-Hyung;Cheah, Wooi Ping
    • The KIPS Transactions:PartB
    • /
    • v.14B no.4
    • /
    • pp.287-294
    • /
    • 2007
  • Many classification algorithms for real world data suffer from a data class imbalance problem. To solve this problem, various methods have been proposed such as altering the training balance and designing better sampling strategies. The previous methods are not satisfy in the distribution of the input data and the constraint. In this paper, we propose a focused sampling method which is more superior than previous methods. To solve the problem, we must select some useful data set from all training sets. To get useful data set, the proposed method devide the region according to scores which are computed based on the distribution of SOM over the input data. The scores are sorted in ascending order. They represent the distribution or the input data, which may in turn represent the characteristics or the whole data. A new training dataset is obtained by eliminating unuseful data which are located in the region between an upper bound and a lower bound. The proposed method gives a better or at least similar performance compare to classification accuracy of previous approaches. Besides, it also gives several benefits : ratio reduction of class imbalance; size reduction of training sets; prevention of over-fitting. The proposed method has been tested with kNN classifier. An experimental result in ecoli data set shows that this method achieves the precision up to 2.27 times than the other methods.

Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance (데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율)

  • Shin, Seung-Soo;Cho, Hwi-Yeon;Kim, Yong-Hyuk
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.1
    • /
    • pp.49-55
    • /
    • 2021
  • Recently, with the development of database, it is possible to store a lot of data generated in finance, security, and networks. These data are being analyzed through classifiers based on machine learning. The main problem at this time is data imbalance. When we train imbalanced data, it may happen that classification accuracy is degraded due to over-fitting with majority class data. To overcome the problem of data imbalance, oversampling strategy that increases the quantity of data of minority class data is widely used. It requires to tuning process about suitable method and parameters for data distribution. To improve the process, In this study, we propose a strategy to explore and optimize oversampling combinations and ratio based on various methods such as synthetic minority oversampling technique and generative adversarial networks through genetic algorithms. After sampling credit card fraud detection which is a representative case of data imbalance, with the proposed strategy and single oversampling strategies, we compare the performance of trained classifiers with each data. As a result, a strategy that is optimized by exploring for ratio of each method with genetic algorithms was superior to previous strategies.

Adequate Radar Scan-Interval for Accurate Urban Flood Prediction (도시홍수 예측을 위한 레이더 적정 관측주기 분석)

  • Hwang, Seok Hwan;Cho, Hyo Seob;Lee, Dong Ryul
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.78-78
    • /
    • 2015
  • 조기에 홍수 위험을 예측하고, 빠르게 이동 또는 진화하는 강수 사상을 추적하기 위해서는 높은 시간 해상도의 실시간 강우 생산이 필요하다. 레이더는 순간 강우강도를 측정하기 때문에, 긴 시간 간격의 관측 주기는 빠르게 움직이는 폭풍의 레이더 QPE에 상당한 샘플링 오차가 발생하기 쉽다. 따라서 본 연구에서는 레이더 관측주기에 따른 강우량의 정량적 차이에 대한 검증을 실시하였다. 본 검토는 2013-2014년 한국건설기술연구원(KICT) X-Band 이중편파레이더로 관측된 사상을 대상으로 하였다. 최소 관측주기(관측전략에 따른 최소 관측주기)를 토대로 샘플링을 하여 긴관측주기 자료를 생산하였다. 비교결과, 약 5분 관측주기에서도 5 % 이상의 차이를 보이는 경우가 상당수 있었다. 이 결과를 토대로 보면 도시홍수 관측을 위해서는 대략 1-2분 정도의 관측주기를 유지해야 하는 것으로 나타났다.

  • PDF

아남산업의 통계적 기법 활용과 전망

  • 정목용
    • Communications for Statistical Applications and Methods
    • /
    • v.2 no.1
    • /
    • pp.248-254
    • /
    • 1995
  • 샘플링 등 전통적인 관리기법이 백만분의 일 단위의 불량에서는 전수검사가 되어버리는 등의 문제점을 해결하기 위해서는 보다 적극적인 예방품질을 확보하지 않은면 안되는 시점에서 검사, 재작업, 스크랩을 절감하려는 SPC 프로그램을 1980년대 후반부터 미국의 반도체업계에서 구체화시키기 시작했다. 아남산업은 1987년부터 고객(주로 미국)의 요구에 따라 SPC를 도입하여 지난 7년간 통계적 기법을 활용한 공정관리를 하고 있는 중이다. 현재 SPC팀은 품질관리실 소속으로 통계적 기법의 현장활용 및 고객 요구사항의 대응을 위한 SPC 전략수립과 SPC 전산화에 대한 업무를 진행하고 있다. 지난 7년간 아남산업(주)의 통계적 기법의 적용현황과 문제점 그리고 향후전망에 대해 기술하고 제조업체의 품질시스템 중 통계적 기법의 활용에 대해 조명해 보기로 하겠다.

  • PDF

Analysis of Rainfall Estimation Errors on Measurement with Rainfall Radar Observation Intervals (강우레이더 관측주기에 따른 강수량 오차 분석)

  • Hwang, Seok Hwan;Cho, Hyo Seob;Lee, Keon Haeng;Hyun, Myung Suk
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2018.05a
    • /
    • pp.97-97
    • /
    • 2018
  • 기후변화로 악화되는 수문기상 환경에서 돌발홍수 예보, 짧은 지속기간(5분)의 확률강우량 생산 등을 위해서는 짧은 관측 주기의 강수량 생산 고려 필요하다. 지상강수량은 1분 간격으로 생산(기상청)하고 있으나 공간적으로 보다 정밀한 레이더 강수량은 기상청 10분, 국토교통부 2.5분 간격으로 생산하고 있는 현실이다. 연속으로 누적하여 강수량을 측정하는 강수량계와는 달리 레이더의 관측방식은 순간 관측 방식으로 회전 속도 혹은 주기에 따라 강수량이 달라질 수 있다. 특히 홍수예보를 위한 강수관측이 주목적인 국토교통부 강우레이더의 경우 최근의 돌발홍수 발생 빈도가 높아짐에 따라 초단시간(2분 이내) 강수량 생산의 필요성도 대두되고 있다. 따라서 본 연구에서는 관측 주기에 따른 관측 강수량 오차(불확실도) 분석을 실시하였다. 이를 위해 샘플링 방법을 이용하여 10분까지의 레이더 관측주기에 따른 1시간 누적강수량을 산정하고, 이를 이용하여 관측 주기에 따른 지상강수량계(AWS)와의 상관계수(correlation coefficient) 및 정규화오차 정확도(1-NE)를 분석하였다. 분석결과 샘플링 주기의 증가에 따라 오차가 증가하는 것으로 나타나, 강수량 추정의 정확도가 중요한 홍수예보를 위해서는 짧은 주기의 관측(짧은 주기의 강우량 생산)이 정확도 확보 측면에서 유리할 것으로 사료된다.

  • PDF