1. 서론
최근 인공지능의 꾸준한 연구와 방대한 데이터의 활용으로 인해 우리 생활에서도 쉽게 접할 수 있는 기술이 되었다. 이러한 인공지능은 무인경비, 자율주행, 산업현장 등에서 사람이 하는 일을 대신하기도 한다[1]. 이런 현 시대적 상황 가운데 위험 상황에 대한 대처는 안전한 사회 구현 측면에서 반드시 실현되어야 할 부분으로 자리 잡고 있다[2]. 본 논문은 이러한 시도들과 유사하게 가정 내의 위험 소리를 탐지하는 스마트 시스템 연구에 관한 것이다. 제안된시스템은 무인 상태에서 위험 소리를 감지하고 스마트 홈 하드웨어를 제어함으로써 위험 상황에 대한 빠른 대처가 가능하다.
음향 인식을 위해 가장 많이 사용되는 방식은 AGMM(AdaptiveGaussianMixtureModel), MFCC (Mel-FrequencyCepstralCoefficient)와 분류 기로 구성된다. 음향 데이터에서 MFCC(Mel-Frequency CepstralCoefficient)를 통해 특징 벡터를 추출하고 AGMM은 배경음 제거를 위해 사용된다. 그러나, 기존 시스템은 AGMM과 분류기의 학습데이터를 각각 구성해야 하는 단점이 있으며, 확률적 모델을 사용하는 AGMM의 특성상 위험 소리가 입력데이터로 들어와도 배경음으로 인식하는 경우가 자주 발생한다. 또한, 기존 MFCC는 저주파 영역의 특징추출에 치중하여 사이렌, 비명소리 등의 고주파수 음향 데이터의 인식에는 부적합하다.
이러한 문제점을 해결하기 위해 본 논문은 새로운 위험 소리 탐지시스템을 제안한다. 제안하는 위험 소리 탐지시스템은 AGMM 단계를 생략하여 변형 MFCC와 분류기로 구성된다. 또한, 잡음과 배경음 제거와 고주파 음향 데이터, 특징 벡터 추출에 적합한 변형 MFCC를 새롭게 제안하여 사용한다.
본 논문에서 AGMM단계를 생략한 두 가지 이유가 있다. 첫째로, 확률적 모델을 사용하는 특성으로 위험 소리를 배경음으로 인식하는 오류가 자주 발생하기 때문이고, 두 번째는 AGMM을 구성했던 데이터베이스를 기존 시스템의 분류기 학습데이터와 통합하여 하나의 분류기 학습데이터로 간략화 하기 위한 것이다.
2. 음향인식 시스템
기존 음향 인식 시스템은 음향센서를 통해 데이터를 얻고, 특징추출 후 AGMM(Adaptive Gaussian MixtureModel)에서 배경음을 제거하고 분류기에서 음향을 인식하여 하드웨어를 제어한다[3]. Fig.1은 기존 음향 인식 시스템의 구성도이다.
음향 인식 시스템에서 음향센서를 통해 얻은 음향 데이터는 MFCC를 통해 특징으로 추출되어 배경음 판단을 위해 AGMM을 통과한다. 미리 학습된 AGMM 에서는 기존 군집과의 우도(likelihood)를 비교하여 학습 배경음인지를 판단한다. 만약 배경음이 아니라면 분류기로 의해 인식 및 판단 과정을 거치고 이 결과를 통해 사용 목적에 맞도록 하드웨어를 제어한다. 그러나, 기존 음향 인식 시스템은 AGMM과 분류기의 학습 데이터베이스를 이중으로 구성해야 하는 단점과 AGMM에서 위험음향을 배경음으로 인식하는 문제점이 존재한다.
Fig. 1.Structure of sound recognition system.
2.1 AGMM (Adaptive Gaussian Mixture Model)
AGMM은 가우시안 혼합 모델의 응용 모델로, 실시간 들어오는 입력데이터를 미리 학습된 군집 중에 확률적으로 가까운 군집에 포함하여 데이터가 무엇인지 판단하고, 동시에 학습데이터로 이용하여 계속하여 학습하는 모델이다. Fig.2와 같이 학습된 혼합모델은 유사한 데이터끼리 군집을 형성하여 분포하게 된다. 이 혼합모델에 새로운 데이터가 입력되면 E-M(Expectation-Maximization)알고리즘을 통해 어떤 군집과 유사한 데이터인지를 찾아가는 원리이다[4]. 또한, 데이터가 들어올 때마다 군집과의 우도를 기존 학습데이터와 군집 간의 우도를 비교하여 위험음향인지를 판단할 수 있다.
Fig. 2. Gaussian Mixture Model.
2.2 MFCC(Mel Frequency Cepstral Coefficient)
MFCC는 음향 및 음성인식에 주로 사용되는 특징 벡터 추출 알고리즘이다[5, 6, 7, 8, 9]. 그 외에 LPC (LinearPredictiveCoding), PLP(PerceptualLinear Predictive)등이 있지만 잡음에 취약하거나 연산량이 많아 속도가 느린 단점이 있다[10]. MFCC는 이러한 단점들을 보완하였다. 특히, 사람의 귀가 저주파수 소리를 민감하게 듣는 점에 착안하여 모델링한 멜-스케일(Mel-scale)을 적용한 점이 특징이다.
MFCC 알고리즘의 단계 구성은 Fig. 3과 같다. Pre-emphasis는 데이터의 노이즈를 제거함과 동시에 스펙트럼의 균형을 맞추어 준다. 이후 데이터를 짧은 시간 단위(frame)로 나누고 프레임별로 Win- dowing필터를 씌워 주파수의 성분을 명확하게 해준다. 이후 멜-필터뱅크의 적용을 위해 데이터를 주파수 도메인으로 변경해주기 위해 FFT(FastFourier Transform)를 한다. 멜-필터뱅크를 통해 특정 주파수 범위의 에너지를 추출하고 DCT(DiscreteCosine Transform)를 거쳐 에너지를 응축하여 특징 벡터 (Coefficient)를 얻게 된다.
Fig. 3.MFCC Block Diagram.
2.3 DNN (Deep Nerual Network)
DNN은 인간의 뇌를 모델링한 인경신경망의 가장기초가 되는 모델이다[11, 12, 13]. 가장 기본 단위는 인공 뉴런이며 이는 입력값을 받으면 활성화 함수를 통해 출력값을 결정하는 인간의 뉴런과 유사하게 동작한다. 인공신경망은 Fig.4와 같이 입력층, 은닉층, 출력층으로 이루어져 있으며 각 층은 다수의 인공 뉴런으로 이루어져 있다. 층과 층 사이의 뉴런은 노드로 연결되어 서로의 정보를 공유하고 역전파 학습을 통해 이를 갱신한다.
Fig. 4.DNN structure.
3. 제안하는 위험 소리 탐지시스템
3.1 제안한 알고리듬의 개요
Fig.5는 본 논문에서 제안하는 위험 소리 탐지시스템을 나타낸다. 기존 음향인식 시스템과 비교하여, AGMM의 생략과 Wiener필터 추가, 변형 MFCC를통해 시스템을 간략화하였음을 확인할 수 있다. 배경음을 제거하는 AGMM의 역할을 대체하여 생활잡음과 배경음을 제거하고, 동시에 위험 소리의 인식률을 높이기 위하여 변형 MFCC를 제안하여 사용한다. AGMM 단계와 MFCC 단계를 거치는 시간보다 Wiener필터와 변형된 MFCC를 통과하며 걸리는 시간이 더 짧으므로 실행시간에서 이점이 있다. 따라서, AGMM에서 배경음을 먼저 확인하는 과정 후에 분류하는 MFCC과정을 거치는 것보다 Wiener 필터를 통과한 후 변형된 MFCC로 배경음을 제거하는 것이 시스템 내에서 유리함이 있다. 또한, 기존 MFCC 방식을 변형하여 MFCC를 간략화한 작업을 통해 더욱 시스템을 간략화하는 작업을 할 수 있었다. 간략화한 시스템의 성능은 실험 결과에서 확인할 수 있다.
Fig. 5. Proposed hazardous sound detection system.
3.1 특징추출
특징 벡터는 취득한 데이터를 컴퓨터가 인식하기 위해 수학적으로 처리한 데이터의 개별적 속성이다. 특징 벡터 추출을 위해 특징추출 알고리즘이 필요한데, 제안하는 시스템은 특징 벡터 추출을 위해 두 단계를 거친다. 1단계에서 Wiener필터를 통해 노이즈를 제거하고, 2단계에서 변형 MFCC를 통해 특징 벡터를 추출한다.
3.2 Wiener filter
Wiener필터는 신호의 원형을 최대한 보존하면서 노이즈를 제거해주는 FIR(FiniteImpulseResponse) 필터의 한 종류이다[14, 15, 16]. 입력 신호(u(n))가 선형 필터를 거친 출력 신호(y(n))와 목표하는 신호 (d(n))의 차이인 에러(e(n))를 식 (3)의 비용함수에 대입하여 이를 최소화하는 계수(wn)를 찾고, 이 계수를 적용한 선형 필터를 구현해 입력 신호를 다시 통과 시켜 새로운 출력 신호를 출력해주는 원리로 동작한다. 다음 Fig. 6은 Wiener필터의 개념도이다.
Fig. 6.Wiener filter.
식 (1)을 통해 필터를 통과한 신호인 y(n)을 찾고 원하는 신호 d(n)과의 차이인 에러 e(n)을 비용함수에 적용한다. 이후 이 비용함수인 평균제곱오차 E 를 최소화 하는 wn을 찾고, wn을 적용한 새로운 선형 필터에 신호를 통과시켜 잡음이 제거된 신호를 얻는다.
\(y(n)=\sum_{k=0}^{M-1} w_{k}^{*} u(n-k), n=0,1,2, \cdots\) (1)
\(\begin{aligned} e(n) &=d(n)-y(n) \\ &=d(n)-\sum_{k=0}^{M-1} w_{k}^{*} u(n-k) \end{aligned}\) (2)
\(E=\left|e(n)^{2}\right|\) (3)
기존 MFCC알고리즘은 본 논문의 목적인 위험 소리 탐지에는 적합하지 않다. 멜-필터뱅크(Mel- filterbank)의 삼각필터가 저주파수에 밀집되어 있어고주파수 데이터의 인식에는 둔감하기 때문이다. 이러한 문제점을 해결하기 위해 본 논문에서는 고주파수 데이터의 인식률을 높이고 잡음 및 배경음에 강인한 변형 MFCC를 제안한다.
3.4 변형 필터뱅크
MFCC알고리즘에서 필터뱅크는 중요한 역할을 한다. 이 필터뱅크는 삼각필터의 집합이며, 삼각 필터는 신호의 에너지를 추출하는데 주요한 역할을 한다. Fig.7과 같이 삼각필터를 고주파수에 밀집시켜서 고주파수 데이터의 인식률 향상과 동시에 저주파수에 주로 형성되는 잡음과 배경음을 제거하는 효과를 얻을 수 있다. 삼각필터 중심주파수 범위는 위험 소리의 FFT분석을 통해 서로 차이가 많이 나는 범위인 1000~11050Hz를 채택하여 필터뱅크를 설계한다.
Fig. 7. Modified filter bank.
3.5 DCT (Discrete Cosine Transform)
기존 MFCC알고리즘에서 DCT는 삼각필터를 통해 추출된 신호의 에너지를 응축시키는 역할을 한다. DCT를 거친 후 얻을 수 있는 계수(Coefficients)는 삼각 필터의 수에 의해 정해지고 이는 특징 벡터를 구성한다. 그러나, DCT는 저주파수 데이터의 에너지를 응축시키는 데에 강점이 있으므로, 본 논문의 목적으로 하는 고주파 위험 소리 인식에는 불필요한 과정이어서 변형 MFCC에서는 제외한다. Fig.8에나타낸 분석결과에서 알 수 있듯이, DCT를 제외하고 추출한 특징 벡터가 위험 소리 데이터 구분에 더욱 효과적으로 작용할 수 있음을 확인할 수 있다.
Fig. 8. Feature vectors. (a) Features with DCT and (b) Features without DCT.
3.6 DNN 분류기
변형 MFCC를 통해 얻은 특징 벡터를 DNN 분류기의 입력데이터로 이용하여 학습 과정 및 인식 과정에 사용한다. 본 논문에서 입력층의 뉴런의 수는 특징 벡터의 수와 동일하게 하였고, 은닉층은 두 개의 층으로 하였다. 출력층은 세 종류의 음향 데이터를 분류하기 때문에 3개의 뉴런으로 정하였다.입력 층와 은닉층의 활성화 함수는 Relu함수, 출력층의 활성화 함수는 데이터의 분류에 사용하는 Soft max 함수를 이용하였다.
4. 실험 데이터 및 실험 결과
4.1 실험 데이터
기존 음향인식 시스템과 제안한 위험 소리 탐지시스템의 성능 비교를 위해 DCASE에서도 사용되는 TUTSoundEvents2016데이터셋을 이용하였다. 이 데이터셋은 일상생활에서 발생하는 음향 이벤트들로 이루어져 있으며 총 28개의 클래스로 구성되어있다. 각 음향 데이터는 2초~18초의 길이이며 표본주파수는 22050Hz, mono형식이다. 실험을 위해 Table1과 같이 AGMM과 DNN분류기의 학습을 위해 배경음 및 잡음을 가정한 5개의 클래스와 위험 상황을 가정한 2개의 클래스를 선정하여 총 360개의 음향 데이터 파일로 이루어진 데이터셋을 새롭게 구성하였다. 음향 데이터는 225개의 학습데이터와 135 개의 테스트 데이터로 분리하여 실험을 진행하였다.
Table 1.Experimental data set.
4.2 실험 결과 및 분석
학습 데이터셋을 통해 학습한 모델의 성능을 평가하기 위해 배경음 5개의 클래스 각 8개씩 40개, 위험음향인 유리 깨짐 소리 30개, 비명 소리 30개로 총 100개의 파일로 이루어진 테스트 데이터셋을 구성하였다. Table2는 테스트 데이터셋의 동일한 파일을 두 시스템에 입력데이터로 입력한 후의 인식 결과를 나타낸다. 기존 음향 인식 시스템은 AGMM, 기존 MFCC와 DNN분류기로 구성하였고, 제안된 음향 인식 시스템은 변형 MFCC와 DNN분류기로 구성하였다.
Table 2.Experimental results.
실험 결과, 제안한 위험음향 탐지시스템은 기존음향 인식 시스템보다 배경음은 5%, 위험음향은 13.33%높게 인식하였다. 기존 음향인식 시스템은 제안한 위험음향 탐지시스템보다 배경음과 유리 깨짐 소리의 인식률이 낮음을 확인할 수 있다. 테스트데이터셋의 각 파일의 실험 결과에서, 유리 깨짐 소리 데이터가 학습된 AGMM에서 위험음향으로 인식되지 못하거나 배경음으로 인식될 수가 있었기 때문이었다. 이는 MFCC과정에서 추출된 특징 벡터 가고 주파수의 특징 벡터를 효과적으로 추출하지 못했기 때문이다. 또한, AGMM의 방식은 먼저 배경음과 같은 음향을 먼저 인식한 후에 위험음향을 탐지하는 방식이므로 인식의 오류가 일어나는 경우가 종종 있다. 그 이유는 AGMM이 배경음과 유리 깨짐 소리라는 위험음향을 인식하지 못해서 발생했다. 그러나, 본 논문에서 제안한 방식은 배경음을 먼저 찾는 방식이 아니라 Wiener필터와 변형된 MFCC방식을 사용하여 입력된 음향의 고주파수의 인식률을 증가시킴과 동시에 잡음과 배경음을 강인하게 하였다. 이후 DCT과정을 통해 추출한 특징 벡터를 DNN 분류기를 통해 더 높은 인식률로 분류를 할 수 있게 되었다. 따라서, 이 실험을 통해 제안하는 위험음향 탐지시스템이 기존 음향 인식 시스템보다 데이터베이스의 구성상의 간단함과 위험음향 인식률 면에서 더 좋은 성능을 냄을 확인할 수 있다.
5. 결론
본 논문에서는 잡음과 배경음에 강인한 위험음향탐지 시스템을 제안하고 그 성능을 기존 음향인식 시스템과 비교 및 확인하였다. 전체적인 음향 인식의 흐름은 일반적인 음향 인식과 비슷한 전개이지만, 본 논문에서는 위험 상황에 대한 음향 인식이라는 특수한 목적이 있으므로 약간의 차이점은 제안한 위험음향 탐지시스템의 변형 MFCC에서 Wiener필터는 노이즈를 제거하고, 변형 필터뱅크는 고주파수 음향 데이터의 인식률을 증가시킴과 동시에 잡음 및 배경음을 강인하게 하였다. 즉, 본 논문에서 제안한 방식은 기존의 AGMM방식과 비교하여 AGMM방식보다고주파수의 부분을 강조하여 일반 음성인식보다 스마트 홈, 주차장과 같은 특수한 실내공간에서 발생할 수 있는 위험 상황에 대해 더 높은 인식률로 상황을 판단할 수 있게 할 수 있는 특징이 있다. 또한, DNN 분류기를 통한 인식률 실험에서 배경음은 4.80%, 위험음향은 13.33% 더 높게 인식함을 확인하였다.
본 논문에서 제안한 방식을 통해 앞으로 위험 상황에 있어 CCTV의 역할을 하는 카메라의 사각지대를 음향 인식을 통해 보완할 수 있을 것이다. 따라서, 이러한 상호보완점은 위험음향 인식이라는 부분은 미래의 안전과 관련하여 더 많은 개발이 이루어질 것으로 기대된다.
References
- J. Lee, H. Choi, D. Park, Y. Chung, H.Y. Kim, and S. Yoon, "Fault Detection and Diagnosis of Railway Point Machines by Sound Analysis," Sensors, Vol. 16, No. 4, pp. 549, 2016. https://doi.org/10.3390/s16040549
- S. Cho, Multimedia Fusion Based Smart Dimming Control System, Research Report, Hongik University, 2021.
- S. Chung, S. Cho, K. Lee, Q.N. Viet, H. Kang, and T. Seol, "Real-time Audio Surveillance System for PTZ Camera," Proceedings of the 2013 International Conference on Advanced Technologies for Communications (ATC). IEEE, pp. 392-397, 2013.
- A.P. Dempster, N.M. Laird and D.B, Rubin, "Maximum Likelihood from Incomplete Data Via the EM Algorithm," Journal of the Royal Statistical Society, Vol. 39, Issue 1, pp. 1-22, 1977. https://doi.org/10.2307/2347807
- Md. Sahidullah and S. Goutam. "Design, Analysis and Experimental Evaluation of Block Based Transformation in MFCC Computation for Speaker Recognition," Speech Communication, Vol. 54, Issue 4, pp. 543-565, 2012. https://doi.org/10.1016/j.specom.2011.11.004
- B. Jaramillo, E. Belalcazar-Bolanos, T. Villa- Canas, J.R. Orozco-Arroyave, J.D. Arias Londono, and J.F. Varagas-Bonnilla "Automatic Emotion Detection in Speech Using Mel frequency Cepstral Coefficients," XVII Symposium of Image, Signal Processing, and Artificial Vision (STSIVA), pp. 62-65, 2012.
- M. Sadeghi and H. Marvi, "Optimal MFCC Features Extraction by Differential Evolution Algorithm for Speaker Recognition," 3rd Iranian Conference on Intelligent Systems and Signal Processing (ICSPIS), pp. 169- 173, 2017.
- A. FirozShah, V. Vimal Krishnan, A. RajiSukumar, A. Jayakumar, and P. Babu Anto, "Speaker Independent Automatic Emotion Recognition from Speech: A Comparison of MFCCs and Discrete Wavelet Transforms", International Conference on Advances in Recent Technologies in Communication and Computing, pp. 528-531, 2009.
- S. Suk, M. Kim, K. Kim, H. Jung and H. Chung, "Multimedia Signal Processing : An On-line Speech and Character Combined Recognition System for Multimodal Interfaces," Journal of Korea Multimedia Society, Vol. 6, No. 2, pp. 216-223, 2003.
- N. Dave, "Feature Extraction Methods LPC PLP and MFCC in Speech Recognition," International Journal for Advance Research in Engineering and Technology, Vol. 1, Issue 6, pp. 1-5, 2013.
- I. Goodfellows, Y. Bengio, and A. Courvile, Deep Learning, MIT Press, 2016.
- S. Yu, "Development of PM10 Forecasting Model for Seoul Based on DNN Using East Asian Wide Area Data," Journal of Korea Multimedia Society, Vol. 22, No. 11, pp. 1300-1312, 2019.
- S. M. Gang and J. J. Lee, "Coreset Construction for Character Recognition of PCB Components Based on Deep Learning," Journal of Korea Multimedia Society, Vol. 24, No. 3, pp. 382-395, 2021. https://doi.org/10.9717/KMMS.2020.24.3.382
- K. Chen, J. Benesty, Y. Huong, and S. Doclo, "New Insights into the Noise Reduction Wiener Filter," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14, Issue 4, pp. 1218-1234, July 2006. https://doi.org/10.1109/TSA.2005.860851
- J.S. Choi, "Noise Reduction Algorithm in Speech by Wiener Filter," The Journal of the Korea Institute of Electronic Communication Sciences, Vol. 8, Issue 9, pp. 1293-1298, 2013. https://doi.org/10.13067/JKIECS.2013.8.9.1293
- H.Y. Jheng, Y.H. Chen, S.J. Ruan, and Z. Qi, "FPGA Implementation of High Sampling Rate In-Car Non-Stationary Noise Cancellation Based on Adaptive Wiener Filter," IEEE/ IFIP 19th International Conference on VLSI and System-on-Chip, pp. 114-117, 2011.