Gender Classification of Speakers Using SVM

Han, Sun-Hee;Cho, Kyu-Cheol;

doi:10.9708/jksci.2022.27.10.059

한국컴퓨터정보학회논문지 (Journal of the Korea Society of Computer and Information)

제27권10호
/
Pages.59-66
/
2022
/
1598-849X(pISSN)
/
2383-9945(eISSN)

한국컴퓨터정보학회 (Korean Society of Computer Information)

DOI QR Code

Gender Classification of Speakers Using SVM

Han, Sun-Hee (Dept. of Computer Science, Inha Technical College) ;
Cho, Kyu-Cheol (Dept. of Computer Science, Inha Technical College)

투고 : 2022.07.18
심사 : 2022.09.26
발행 : 2022.10.31

https://doi.org/10.9708/jksci.2022.27.10.059 인용 PDF KSCI HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

본 논문에서는 음성 데이터에서 특징벡터를 추출한 후 이를 분석하여 화자의 성별을 분류하는 연구를 진행하였다. 본 연구는 고객이 전화 등 음성을 통해 서비스를 요청할 시 요청한 고객의 성별을 자동으로 인식함으로써 직접 듣고 분류하지 않아도 되는 편의성을 제공한다. 학습된 모델을 활용하여 성별을 분류한 후 성별마다 요청 빈도가 높은 서비스를 분석하여 고객 맞춤형 추천 서비스를 제공하는 데에 유용하게 활용할 수 있다. 본 연구는 공백을 제거한 남성 및 여성의 음성 데이터를 기반으로 각각의 데이터에서 MFCC를 통해 특징벡터를 추출한 후 SVM 모델을 활용하여 기계학습을 진행하였다. 학습한 모델을 활용하여 음성 데이터의 성별을 분류한 결과 94%의 성별인식률이 도출되었다.

This research conducted a study classifying gender of speakers by analyzing feature vectors extracted from the voice data. The study provides convenience in automatically recognizing gender of customers without manual classification process when they request any service via voice such as phone call. Furthermore, it is significant that this study can analyze frequently requested services for each gender after gender classification using a learning model and offer customized recommendation services according to the analysis. Based on the voice data of males and females excluding blank spaces, the study extracts feature vectors from each data using MFCC(Mel Frequency Cepstral Coefficient) and utilizes SVM(Support Vector Machine) models to conduct machine learning. As a result of gender classification of voice data using a learning model, the gender recognition rate was 94%.

키워드

I. Introduction

대부분의 사람들은 목소리를 통해 타인과 자연스럽게 의사소통을 한다. 목소리에는 감정과 의도 등이 담겨있고 이 뿐만 아니라 성별, 나이, 높낮이 등 많은 특징들이 포함되어 있다. 이렇게 다양한 정보들이 담긴 음성 데이터가 활용된 모습은 실생활에서 어렵지 않게 찾아볼 수 있다[1]. 인공지능 스피커, 스마트폰 등 많은 사람들이 쉽게 접할 수 있는 만큼 음성에 의한 시스템의 성능이 높아지고 있으며 이러한 음성 인식 중 음성 데이터에서 화자의 성별 분류 기술에 대한 연구개발도 활발하게 이루어지고 있다[2].

화자의 성별 분류 기술은 음식, 물건 등의 배달 요청 전화와 음식점, 미용실 등의 전화 예약 등 음성을 기반으로 서비스를 요청할 시 고객의 성별 분류에 편리함을 줄수 있을 것이다. 고객이 서비스를 요청하는 과정에서의 음성 데이터를 수집하여 성별을 분류함으로써 다양한 카테고리에서 각 성별마다 취향과 서비스에 대한 선호도를 분석하는 데에 도움을 줄 수 있다. 분석한 선호도를 토대로 고객들의 성별에 맞게 맞춤형 추천 서비스를 제공한다. 이때, 막대한 양의 음성 데이터가 수집될 것인데 이 데이터들의 성별을 직접 듣고 구분하기에는 불필요한 인력과 많은 시간이 소요되는 불편함이 있다. 음성 데이터의 성별을 자동으로 분류해주는 본 연구를 활용하면 시간 단축은 물론 편리하게 분류할 수 있다.

화자의 성별 분류는 다양한 방법으로 연구되고 있는데 본 연구에서는 mel frequency cepstral coefficient(이하, MFCC)를 통해 추출한 특징벡터와 support vector machine(이하, SVM)을 사용하여 진행하였다.

수집한 음성 데이터에서 공백을 제거하고 분량을 3초로 재조정한 남성 및 여성 화자의 음성 데이터로부터 전처리 과정을 거쳐 MFCC 특징벡터를 추출한 후 StandardScaler를 사용하여 추출된 데이터를 표준화 하는 과정을 거친다. 표준화된 데이터를 학습 데이터와 훈련 데이터 및 검증 데이터로 분리한 후 SVM을 활용하여 기계학습을 시킨다. 학습된 모델을 사용하여 음성의 성별을 분류하는 알고리즘의 효과를 정확도로 보여준다.

본 연구의 구성은 다음과 같다. 2장에서는 본 연구와 관련된 연구에 대해 기술한다. 3장에서는 연구에 사용된 데이터의 수집, 전처리, SVM 모델 생성에 관해 기술한다. 4장에서는 학습된 Logistic Regression 모델과 SVM 모델의 성능에 대해 기술하며 5장에서는 결론에 대해 기술한다.

II. Related Works

1. Logistic Regression

로지스틱 회귀분석(Logistic Regression)은 회귀를 사용하여 데이터가 어떤 범주에 속할지에 대한 확률을 0과 1 사이의 값으로 예측하고 예측한 값에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다[3]. 종속값이 실패/성공, 합격/불합격 등과 같이 이진값일 때 사용되는 방법이 로지스틱 회귀분석이다. 로지스틱 회귀는 구현이 쉽고 효율적이며 간단한 선형 데이터를 학습할 때 전처리를 하지 않더라도 어느정도 좋은 확률을 예측한다. 그러나 비선형적인 데이터에 대한 문제는 해결할 수 없으며 데이터 표현에 대해 크게 의존한다. 또한 학습 데이터에 대한 분석을 과도하게 하여 과적합이 발생할 우려가 있다. 이런 단점을 보완하고 선형 데이터는 물론 비선형 데이터까지 분류할 수 있는 것이 바로 SVM이다[4].

2. Support Vector Machine

SVM이란 기계 학습 분야 중 하나로 주어진 데이터가 어떤 범주에 속할지 판단하고 분류하는 방법이다. SVM은 주어진 데이터를 가장 잘 분류하는 최적의 결정 경계를 찾는 것을 목표로 한다. 이때 데이터의 분리가 직선으로 해결된다면 선형 분류 모델을 적용하고, 그렇지 않다면 비선형 분류 모델을 사용한다. 이런 SVM은 복잡한 비선형 의사결정을 모형화할 수 있기 때문에 정확도가 높으며 그로 인해 과적합이 되는 경향이 적다[4].

본 연구와 유사하게 SVM과 MFCC를 사용하여 음성 성별 분류를 진행한 연구가 있다. 관련 연구에서는 MFCC를 통해 16개의 특징벡터를 사용하여 진행하였다[5]. 본 논문에서는 음성의 고주파 성분을 강화하고 데이터 분절, 주파수 영역대별 에너지 획득, filter bank 적용하는 과정을 추가로 진행하여 보다 올바른 주파수 정보를 획득하였다.

III. Gender Cassification of Voice

본 연구는 빠른 속도로 발전하고 있는 음성 인식 중 음성 데이터로부터 추출한 MFCC 특징벡터와 SVM을 활용하여 화자의 성별을 분류하는 알고리즘을 제안한다. 본 연구에 사용된 데이터 가공 및 수집과 전처리에 대한 단계는 Fig. 1.과 같이 구성되어 있다.

CPTSCQ_2022_v27n10_59_f0001.png 이미지

Fig. 1. Data preprocessing process

1. Data Preprocessing

1.1 Data collection

본 논문의 연구에 쓰인 데이터는 유튜브에 등록된 영상으로부터 추출하여 활용하였다. 남성 및 여성 화자 각각 10명의 음성을 추출하였다. 음성의 공백을 제거하고 남녀 음성 데이터 양의 균형과 길이 차이를 완화하기 위해 모든 데이터의 길이를 3초로 재조정 하였다. Fig. 2.는 특정 음성 데이터의 원시 음성 신호에 대한 파형을 나타낸 모습이다.

CPTSCQ_2022_v27n10_59_f0002.png 이미지

Fig. 2. Waveform of the raw voice signal

1.2 Pre-emphasis

사람은 발성 시 성문특성으로 인해 실제로 발성한 소리에서 고주파 성분이 저주파 성분보다 약화되는 경향이 있다. 저주파 대비 에너지가 작은 고주파 성분을 강화함으로써 원시 음성 신호의 주파수 스펙트럼의 균형을 맞출 수 있으며 이를 pre-emphasis라고 한다[6].

y(n) = s(n) ― A • s(n-1) ·······(1)

y: pre-emphasis 필터가 적용된 n 번째 음성

s: n 번째 원시 음성 신호

A: pre-emphasis의 계수

식 (1)은 pre-emphasis에 대한 수식을 표현한 것이다. s(n)는 n 번째 원시 음성 신호를 의미한다. A는 pre-emphasis의 계수이고 보통 0.9에서 1 사이의 값을 주로 사용한다[6]. Fig. 3.는 pre-emphasis의 과정을 거친 Fig. 2.의 음성 데이터 파형을 나타낸 모습이다.

CPTSCQ_2022_v27n10_59_f0003.png 이미지

Fig. 3. Waveform of voice signal through pre-emphasis

1.3 Framing and Hamming Windowing

앞의 과정을 수행한 후에 원시 음성 신호를 아주 짧은시간 단위(25ms)로 분리한다. 이는 빠른 속도로 변화하는 원시 음성 신호의 주파수 정보를 올바르게 획득하기 위함이다. 이 과정을 거치게 되면 각 프레임의 양 끝에서 신호가 단절되는 현상이 발생한다. 이 현상을 보완하기 위해 일부 구간(10ms)을 겹치도록 처리해주는 Hamming 창 함수를 사용하였다[7].

1.4 Magnitude and Power Spectrum

이후 시간 도메인 영역의 음성 신호에 내포되어있는 주파수를 찾기 위해 구간의 수를 나타내는 인자(N)를 사용하여 이산푸리에변환(discrete Fourier transform, DFT)이라는 기법을 적용한다. 음성 신호에 대한 DFT의 변환 결과는 복소수로 실수부와 허수부로 나누어진다[8]. 이 복소수를 크기와 각도로 나타내었을 때 그 크기는 코사인 성분의 진폭(magnitude)을, 각도는 위상을 뜻한다. 이어서 진폭은 그 주파수의 성분의 크기를, 위상은 해당 주파수의 위치를 나타낸다고 할 수 있다. 이후 실수로 변환하기 위해 DFT의 변환 결과인 진폭의 제곱을 N으로 나누어준다. 이 결과 주파수의 영역대별로 에너지 정보가 있는 데이터를 획득할 수 있다.

1.5 Filter-Banks and Log-Mel Spectrum

고주파수 영역대보다 저주파수 영역대에 상대적으로 민감하게 반응하는 사람의 청각 특성을 반영하여 Fig. 4.[9]와 같은 mel scale 필터를 적용하였다. 추가로 로그 스케일에 가깝게 소리를 인식하는 사람의 귀를 반영하기 위해 mel scale 필터를 적용한 filter banks의 출력 에너지에 로그 함수를 취하여 log-mel spectrum을 획득한다[10].

CPTSCQ_2022_v27n10_59_f0004.png 이미지

Fig. 4. Mel Scale Filter

Fig. 5.는 특정 음성 데이터의 프레임 한 부분에 위의 모든 과정과 Log-Mel Spectrum 과정을 거친 데이터를 파형으로 나타낸 모습이다.

CPTSCQ_2022_v27n10_59_f0005.png 이미지

Fig. 5. Waveform of voice signals through log-mel spectrum

1.6 MFCC

최종적인 특징벡터를 추출하는 과정에서는 음성 인식에 활발하게 사용되고 있으며 인식률이 높은 MFCC 기법을 활용한다[11]. Fig. 6.은 특정 음성 데이터의 프레임 한 부분에서 위의 모든 과정과 MFCC를 거친 데이터를 파형으로 나타낸 모습이다.

CPTSCQ_2022_v27n10_59_f0006.png 이미지

Fig. 6. Waveform of voice signals through MFCC

음성 인식 성능 향상에 도움을 주는 13차의 특징벡터 중 에너지를 제외한 2번부터 13번째 열벡터를 추출한다[12].

Table 1. Feture Vectors

CPTSCQ_2022_v27n10_59_t0001.png 이미지

모든 전처리를 마친 데이터는 총 5960개이며 훈련 데이터와 테스트 데이터를 각각 임의로 80%, 20%의 비율로 나누어준다. 그 후 테스트 데이터 셋의 50%를 검증 데이터로 분류하였다.

Table 2. Dataset

CPTSCQ_2022_v27n10_59_t0002.png 이미지

2. Learning using the SVM model

2.1 Standardize data using Standard Scaler

추출된 특징벡터들로 학습하기에 앞서 분류에 사용되는 지도학습 머신러닝 모델인 SVM 모델을 생성하였다. SVM은 서포트 벡터를 사용하여 결정 경계, 즉 분류를 위한 기준 선을 정의한다. 분류되지 않은 점이 발생하면 정의한 결정 경계와 비교하여 분류한다[4]. SVM은 데이터가 정규분포를 가지고 있다는 가정 하에 구현이 되기 때문에 데이터의 표준화를 지원하는 클래스인 Standard Scaler를 사용하여 전처리된 데이터를 사전에 표준화 시켜 예측 향상에 도움을 준다. 이후 조정된 데이터를 SVM 모델로 학습한 후 정확도를 기준으로 어느 정도의 성능을 나타내는지 확인한다.

2.2 Kernel

SVM 모델생성과 동시에 커널을 설정한다. 커널 기법은 주어진 데이터를 고차원 특징 공간으로 사상시키는 것으로 저차원에서 어렵던 선형 분리를 가능하게 해준다[13]. 커널에는 Polynomial 커널, Sigmoid 커널, 가우시안 RBF 커널 등이 있다. 본 논문에서는 일반적으로 가장 많이 쓰이는 RBF 커널을 사용한다. Fig. 7.은 RBF 커널과 성별을 구분하여 평균을 구한 12가지 특징벡터들 중 차이가 가장 큰 8번째 특징벡터와 13번째 특징벡터를 사용하여 데이터를 분류한 모습이다.

CPTSCQ_2022_v27n10_59_f0007.png 이미지

Fig. 7. Data classification using RBF kernel

RBF 커널의 매개변수로는 gamma와 C가 있는데 gamma는 결정 경계의 유연한 정도로 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정한다. C는 SVM 모델이 오류를 어느정도 허용할 것인지에 대한 매개변수이다. gamma 값이 클수록 작은 표준편차를 가져, 모델의 복잡도를 높이고 C 값은 클수록 오류 허용 정도가 낮아진다[14]. C의 최적값은 데이터에 따라 다르므로 여러 가지 값을 적용하면서 모델을 검증해야 한다. 본 논문에서 다양한 값을 넣어 검증 데이터를 활용해 학습을 해본 결과 C는 5, gamma는 0.5일 때부터 정확도가 95.1로 가장 높았다. 이후부터 정확도가 증가하지 않고 일관된 값이 도출되어 최종적인 C의 값은 5, gamma는 0.5로 정하였다.

Table 3. Accuracy according to the values of C and gamma

CPTSCQ_2022_v27n10_59_t0003.png 이미지

IV. Experiment

1. Classification Report

학습한 모델의 성능을 확인하기 위해 평가지표를 확인하였다. 음성 데이터를 예측한 값은 Female 또는 Male의 이진값으로 분류되며 혼돈행렬을 나타낸 Table 4[15].로 성능이 평가된다.

Table 4. Confusion Matrix

CPTSCQ_2022_v27n10_59_t0004.png 이미지

Precision(정밀도)은 True라고 분류한 사례 중 실제로 True인 것의 비율을 의미하며 Positive 정답률이라고도 말한다[16].

식 (2)는 Precision과 Recall을 구하는 수식을 표현한 것이며 한 음성 데이터의 성별이 Female이라고 가정할 때 TP, TN, FP, FN은 다음과 같다.

- TP(True Positive): 실제 Female인 성별의 음성 데이터를 Female 성별이라고 예측

- TN(True Negative): 실제 Male인 성별의 음성 데이터를 Male 성별이라고 예측

- FP(False Positive): 실제 Male인 성별의 음성 데이터를 Female 성별이라고 예측

- FN(False Negative): 실제 Female인 성별의 음성 데이터를 Male 성별이라고 예측

Recall(재현율)은 실제로 Female인 것 중에서 모델이 Female이라고 예측한 것의 비율을 의미한다.

\(\begin{aligned}\text precision=\frac{T P}{T P+F P}\\\end{aligned}\) ·······(2)

\(\begin{aligned}\text recall=\frac{T P}{T P+F N}\end{aligned}\)

Fig. 8.은 학습된 로지스틱 회귀분석 모델의 여성과 남성 두 가지의 클래스에 대한 혼돈 매트릭스이며 y축의 class_0은 여성, class_1은 남성을 의미한다. 여성이라고 예측한 데이터 중 215개가 실제로 여성의 음성 데이터이며 남성이라고 예측, 즉 옳지 않게 예측한 데이터가 86개라는 의미이다.

CPTSCQ_2022_v27n10_59_f0008.png 이미지

Fig. 8. Confusion matrix of Logistic Regression

Fig. 9.은 학습된 SVM 모델의 여성과 남성 두 가지의 클래스에 대한 혼돈 매트릭스이며 여성이라고 예측한 데이터 중 286개가 실제로 여성의 음성 데이터이며 남성이라고 예측한 데이터가 15개라는 의미이다.

CPTSCQ_2022_v27n10_59_f0009.png 이미지

Fig. 9. Confusion matrix of SVM

Table. 5를 통해 알 수 있듯이 SVM 모델이 학습 속도를 제외하면 로지스틱 회귀분석 모델보다 우수한 것을 알 수 있다. 학습 속도는 로지스틱 회귀분석 모델이 SVM 모델보다 효율적이었다. 하지만 이미 학습된 SVM 모델을 활용하여 테스트를 진행한 경우 1초 미만의 속도를 보였다. 모델의 학습을 반복할 필요가 없는 경우라면 학습이 완료된 모델을 활용하여 학습 시간이 보다 오래 걸리는 부분을 보완할 수 있을 것으로 판단된다.

Table 5. Comparison with 2 models

CPTSCQ_2022_v27n10_59_t0005.png 이미지

따라서 SVM 모델이 비선형 데이터 분류에 있어 어려움이 있는 로지스틱 회귀분석의 단점을 보완하기 때문에 SVM 모델의 학습 능력이 더 우수한 것으로 보인다.

V. Conclusions

본 연구는 음성 데이터를 통해 성별에 따른 취향과 선호도를 분석하여 고객 맞춤형 추천 서비스를 제공할 때 인공지능을 사용하여 음성의 성별을 분류함으로써 막대한 양의 음성 데이터를 직접 듣고 분류하지 않아도 되는 편리함을 제공한다는 관점에서 시작되었다.

성별 분류를 위해 음성 데이터로부터 MFCC를 통해 추출한 특징벡터를 활용하였다. 음성 데이터의 성별을 남성 또는 여성, 두 가지 범주로 분류하기 위해 데이터를 선형 분류해 주는 로지스틱 회귀분석 모델과 결정 경계를 찾아 이를 기준으로 데이터를 분류해 주는 SVM 모델을 활용하였다. 학습 결과 로지스틱 회귀분석 모델은 남성과 여성의 음성 데이터에 대해 모두 71%의 정확도를 도출하였다. SVM 모델은 남성의 음성 데이터에 대해 93%의 정확도를, 여성의 음성 데이터에 대해 95%의 정확도를 도출하였다.

본 연구에 사용된 데이터는 주변 잡음이 적고 공백이 제거된 데이터이기 때문에 음성의 성별을 분류하는 데에 있어 변수가 적었으며 20대부터 50대까지의 청장년층만을 대상으로 하여 음성 데이터의 연령대가 상당히 제한적이다. 따라서 향후 연구에서는 전화 통화 시 포함될 수 있는 공백과 다양한 생활 잡음들이 포함된 데이터를 수집해야 할 것으로 보인다. 또한 어린이와 노년층 등 더욱 다양한 연령대의 음성 데이터를 기반으로 한 연구가 이루어져야 할 것이다. 또한 SVM 모델 생성 시 설정해야 하는 매개변수에 더욱 다양한 값을 적용하여 보다 적절한 값을 찾는다면 더 높은 정확도를 도출해낼 수 있을 것으로 예상한다.

참고문헌

Mijin Kim, Chaewon Yoo, Huijin Park, Soobin Ou, Jongwoo Lee, " Implementation of Voice Recognizing KIOSK Application for the Visually Impaired", KIISE Transactions on Computing Practices, Vol. 26, No. 7, pp. 332-337, July 2020. DOI: 10.5626/KTCP.2020.26.7.332
Byeong-Goo Jeong, Jae-Seung Choi, "Comparison of Characteristic Vector of Speech for Gender Recognition of Male and Female", The Korea Institute of Information and Communication Engineering, Vol. 16, No. 7, pp. 1370-1376, July 2012. https://doi.org/10.6109/jkiice.2012.16.7.1370
Byungoh Yoo, Joonhyung Park, Yongbae Park, Suyoung Jung, Kwangsoo Lee, "Assessment of the Distributional Probability for Evergreen Broad-Leaved Forests(EBLFs) Using a Logistic Regression Model", Journal of the Korean Association of Geographic Information Studies, Vol. 19, No. 1, pp. 94-105, 2016. DOI: 10.11108/kagis.2016.19.1.094
Yoontae Oh, "Comparative experiment of Logistic Regression and Machine Learning Performance of Support Vector Machines", Korea's Master's degree thesis: Kookmin University's Graduate School, August 2019.
Junryul Park, Bonwoo Koo, Jaehyung Jung, Taein Heo, Miyoung Lee, Sungwook Baek, "Food Delivery Service Customer'sSpeech Gender Identification Using SVM", Communications of the Korean Institute of Information Scientists and Engineers, pp. 1979-1981, June, 2016.
Soyeon Min, "The Flattening Algorithm of Speech Spectrum by Quadrature Mirror Filter", Korea Academy Industrial Cooperation Society, Vol. 7, No. 5, pp. 907-912, October 2006.
Eunsuk Kim, Kyungwook Shin, "A design of FFT processor for EEG signal analysis", Journal of the Korea Institute of Information and Communication Engineering, Vol 14, No. 11, pp. 2548-2554, October 2010. DOI: 10.6109/jkiice.2010.11.30
Kwanshik Shim, Haekon Nam, "A Fast Parameter Estimation of Time Series Data Using Discrete Fourier Transform", THE TRANSACTION OF THE KOREAN INSTITUTE OF ELECTRICAL ENGINEERS A, Vol. 55A, No. 7, pp. 265-272, July 2006.
Hyunjin Hwang, Kyungjin Min, Jongmin Moon, Sangyeob Lee, Dongjun Kim, Kyeongsup Kim, Jeongwhan Lee, "A Study on Classification of Vocal Sound Based on Mel Frequency Cepstral", Theory.INFORMATION AND CONTROL SYMPOSIUM, pp. 346-347, October 2020.
Seungdo Jeong, "Speaker Identification Using Dynamic Time Warping Algorithm", The Korea Academia-Industrial Cooperation Society, Vol. 12, No. 5, pp. 2402-2409, May 2011. DOI: 10.5762/kais.2011.12.5.2402
Hyunsoo Bae, Hojin Lee, Sukgyu Lee, "Voice Recognition-Based on Adaptive MFCC and Deep Learning for Embedded Systems", Journal of Institute of Control, Robotics and Systems, Vol. 22, No. 10, pp. 797-802, October 2016. DOI: 10.5302/J.ICROS.2016.16.0136
Taegyun Im, Keunsung Bae, Chansik Hwang, Hyungwook Lee, "Classification of Underwater Transient Signals Using MFCC Feature Vector", The Korean Institute of Commucations and Information Sciences, Vol. 32, No. 8, pp. 675-680, 2007.
Jiwon Park, Chanuk Yeom, Keunchang Kwak, "Comparison of building heating and cooling load prediction performance using Gaussian kernel regression model and SVM regression model", The Korean Institute of Electrical Engineers, pp. 162-164, July 2021.
Hyunchul Ahn, Kyoungjae Kim, Ingoo Han, "Purchase Prediction Model using the Support Vector Machine", Journal of Intelligence and Information Systems Society, Vol. 11, No. 3, pp. 69-81, December 2005.
Jiwoo Choi, Sangil Choi, Taewon Kang, " Identification of Gait Patterns using Convolutional Neural Networks for Personal Authentication", The Journal of Korean Institute of Information Technology, Vol. 20, No. 4, pp. 13-23, April 2022. DOI: 10.14801/jkiit.2022.20.4.13
Hyunggeun Lee, Yongmin Hong, Sungwoo Kang, "Identifying Process Capability Index for Electricity Distribution System through Thermal Image Analysis", Journal of Korean Society for Quality Management, Vol. 49, No. 3, pp. 327-340, September 2021. DOI: 10.7496/JKSQM.2021.49.3.327

한국컴퓨터정보학회논문지 (Journal of the Korea Society of Computer and Information)

Gender Classification of Speakers Using SVM

초록

키워드

I. Introduction

II. Related Works

1. Logistic Regression

2. Support Vector Machine

III. Gender Cassification of Voice

1. Data Preprocessing

1.1 Data collection

1.2 Pre-emphasis

1.3 Framing and Hamming Windowing

1.4 Magnitude and Power Spectrum

1.5 Filter-Banks and Log-Mel Spectrum

1.6 MFCC

2. Learning using the SVM model

2.1 Standardize data using Standard Scaler

2.2 Kernel

IV. Experiment

1. Classification Report

V. Conclusions

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)