Real-time Laying Hens Sound Analysis System using MFCC Feature Vectors

Jeon, Heung Seok;Na, Deayoung;

doi:10.9708/jksci.2021.26.03.127

한국컴퓨터정보학회논문지 (Journal of the Korea Society of Computer and Information)

제26권3호
/
Pages.127-135
/
2021
/
1598-849X(pISSN)
/
2383-9945(eISSN)

한국컴퓨터정보학회 (Korean Society of Computer Information)

DOI QR Code

Real-time Laying Hens Sound Analysis System using MFCC Feature Vectors

Jeon, Heung Seok (Dept. of Computer Engineering, Konkuk University) ;
Na, Deayoung (School of Global Leadership, Handong Global University)

투고 : 2021.03.10
심사 : 2021.03.25
발행 : 2021.03.31

https://doi.org/10.9708/jksci.2021.26.03.127 인용 PDF KSCI HTML

PDF 다운로드

⟨ 이전 논문 다음 논문 ⟩

초록

산란계사와 같이 매우 좁은 환경에서 많은 개체를 사육하는 경우 작은 환경 변화에도 큰 피해를 받을 수 있다. 이와 같은 문제를 해결하기 위해 본 연구에서는 끊임없이 소리를 발생하는 산란계의 특성을 이용하여 산란계 발성음 분석 시스템을 제안한다. 기존의 산란계 발성음 시스템은 산란계사의 제한된 상황만을 고려하거나 실제 산란계사에 적용하기에는 어려움을 가지고 있다. 이러한 문제를 극복하기 위하여 본 논문에서는 MFCC 특징 벡터를 이용한 9가지의 산란계 소리 분석을 통해 실제 산란계사 환경에서 발생하는 수 있는 7가지의 상황을 실시간으로 감지할 수 있는 새로운 산란계 발성음 분석 모델을 제안한다. 본 논문에서 제안한 분석 모델을 실제 산란계사에서 성능 평가를 진행한 결과, 평균 AUC 0.93의 분류 성능을 나타내어 기존의 주파수 기반의 특징 분석 방법에 비해 약 43% 향상된 결과를 보여주었다.

Raising large numbers of animals in very narrow environments such as laying hens house can be very damaged from small environmental change. Previously researched about laying hens sound analysis system has a problem for applying to the laying hens house because considering only the limited situation of laying hens house. In this paper, to solve the problem, we propose a new laying hens sound analysis model using MFCC feature vector. This model can detect 7 situations that occur in actual laying hens house through 9 kinds of laying hens sound analysis. As a result of the performance evaluation of the proposed laying hens sound analysis model, the average AUC was 0.93, which is about 43% higher than that of the frequency feature analysis method.

키워드

I. Introduction

최근 동물복지에 대한 사회적 관심의 증가와 좋은 환경에서 자란 건강한 식품을 소비하고자 하는 웰빙의 영향으로 가축의 사육환경에 대한 중요성이 더욱 부각되고 있다.

이와 같은 사회적 변화에 따라 IoT를 이용한 가축 사육 환경 개선을 위한 다양한 연구들이 진행되고 있다. 대표적으로 방목 환경관리의 어려움을 센서디바이스로 해결하고자한 가축방목 가상펜스 시스템[1], 소의 건강상태를 모니터링 하는 연구[2], 뉴럴네트워크를 이용한 소의 절름발이 검출 연구[3], Zigbee 기반 가축 건강관리 시스템[4], 무선 네트워크에서 가축 건강관리를 위한 Fuzzy Query Processing[5], 가속도센서를 이용한 애완견의 행동을 분석하기 위한 연구[6] 등이 있다.

이러한 연구들의 공통점은 센서를 가축의 몸에 장착하여 가축 사육의 환경 문제를 해결하는데 초점이 맞추어져 있다. 그렇지만 산란계와 같이 몸집이 작으면서 사육 개체 수가 많은 가축의 경우 센서를 직접 몸에 부착하여 해결하기에는 경제적인 어려움이 있다[7].

이와 같은 문제를 해결하기 위한 다양한 방법들 중에 끊임없이 소리를 발생하는 산란계의 특성을 이용하는 연구가 있다. 구체적으로 산란계의 발성음을 분류하고 발성음의 분류결과를 이용하여 산란계사의 상태를 추정하여 사용자가 산란계의 상황을 파악할 수 있도록 하는 것이다.

산란계의 발성음을 분류하기 위한 기존의 연구들 중에 Support Vector Machine(SVM)을 이용하여 산란계 발성음에 대한 분류 모델을 만들고, 산란계사의 환경 상태를 추정하는 연구들이 있다[8, 9, 10]. 그런데 이 연구들은 실제 산란계사의 다양한 환경을 충분히 고려하지 않았고, 실시간으로 산란계사 환경에서 사용하기에는 어려움이 있다.

Lee, Jonguk et al.[9]의 연구에서는 Linear-SVM을 이용하여 산란계의 환경을 분류하는 연구로, 세 번의 이진 SVM 분류를 진행하여 산란계사의 상태를 고온, 저온, 정신적 충격(외부침입), 일반상태로 분류하는 모델을 제시하였다. 산란계사의 상황을 비교적 단순화하여 분류정확도의 향상을 가져왔다. 그렇지만 실제 산란계사에서 일어나는 다양한 상황을 세 가지로 구분하여 분석하기에는 부족함이 있다. 왜냐하면 실제 산란계사에서는 외부침입, 온도의 변화 이외에도 점등, 사료공급, 산란 등의 특이 상황들이 지속적으로 발생하며, 이와 같은 다양한 상황에 대한 정보를 이용하여 산란계사의 환경을 더 정확하게 분석하여야 산란계사의 문제점을 정확히 파악할 수 있기 때문이다. 예를 들어 평소와 달리 산란계사에서 공격적 깃털쪼기 현상이 빈번히 발생하는 경우, 산란계사 내에서 산란계에게 스트레스를 발생시키는 원인이 있을 것이라 판단하여 농장 주가 선제적으로 대응할 수 있다.

Daeyoung Na et al.[10]의 연구에서는 산란계의 발성음을 Nonliner-SVM을 이용하여 다양한 환경에 대해 분석하는 모델을 제시하였다. 그렇지만 [10]에서 제시한 모델은 실험을 위해 이미 분류된 발성음단편 조각들과의 일치 여부를 판단하는 방법을 사용하였기 때문에 실시간으로 끊임 없이 소리가 발생하는 경우 발성음의 시작과 끝을 판단할 수 없는 어려움이 있다. 또한 실제 산란계사에는 환풍기 등으로 인해 매우 다양한 소음들이 발생하는데 이러한 실제 환경의 특성에 대한 고려가 추가적으로 필요하다.

따라서 본 연구에서는 이러한 문제를 해결하기 위하여 실시간으로 실제 산란계사에서 발생하는 다양한 산란계 발성음을 여러 상황으로 분석 가능한 산란계 발성음 인식 시스템을 제안한다. 구체적으로, 본 연구에서는 산란계의 발성음을 9가지로 분류하였다. 그리고 이러한 9가지의 발성음을 통해 산란계사에서 발생할 수 있는 7가지의 상황을 추정한다. 본 논문에서 제안하는 실시간 산란계 발성음 인식 시스템은 산란계사의 환경을 추정하기 위해서 MFCC 특징 벡터와 로지스틱 회기 분류 기법을 활용하여 산란계의 발성음을 분류한다.

성능평가를 위한 실험 결과에 의하면 기존에 많이 사용되는 주파수를 이용한 분류의 경우 산란계 발성음 인식 성능이 평균 AUC 0.65로 나타난것에 비해, MFCC를 이용한 산란계의 발성음의 분류 성능은 평균 AUC 0.93으로 약 43% 개선된 결과를 보여주었다.

본 논문의 나머지 부분은 다음과 같이 구성된다. 2장에서 산란계의 발성음에 대한 정의와 소리에서 나타나는 특징에 대해서 기술하며, 이를 바탕으로 산란계 발성음을 분류하는 시스템 모델의 제안 내용에 대해 자세히 소개한다. 그리고 3장에서 실험환경과 실험결과를 나타내었으며, 4 장에서 본 연구의 결론과 향후 연구에 대하여 제시한다.

II. Realtime Classification Model

본 연구에서는 실제 산란계사의 환경에서 산란계의 발성음을 분석하기 위하여 그림 1과 같은 시스템을 제안한다. 전체적인 시스템 동작 과정을 설명하자면, 먼저 산란계의 발성음을 마이크로 입력받아 발성음의 특징을 추출하기 위하여 Feature Extraction 모듈로 전달한다. Feature Extraction모듈에서는 발성음에 해당하는 MFCC 특징 벡터를 추출하여 이를 Classification 모듈로 전달하게 된다. Classification 모듈에서는 로지스틱 회기 분석 기법을 이용하여 발성음을 9가지의 종류로 구분하게 되고, 이를 통해 7가지의 산란계사의 상황을 진단하게 된다. 산란계사의 상황이 진단되면, 산란계사의 환경 정보를 누적하여 저장하고 또한 이 결과를 모바일 디바이스를 통해 사용자에게 전달하여 산란계사가 잘 관리되고 있는지를 파악할 수 있게 한다. 이러한 시스템 구성의 자세한 설계 내용 및 과정에 대해서 다음 절에서 설명한다.

CPTSCQ_2021_v26n3_127_f0001.png 이미지

Fig. 1. Laying Hens Sound Recognition System based on Logistic Regression / MFCC

1. Types and characteristics of Laying Hens Sound

닭은 수면이나 휴식을 취하는 때를 제외하고는 평소에 끊임없이 발성을 하는 특징을 가지고 있다. 이와 같은 산란계의 발성음에는 다양한 정보가 포함되어 있다. 따라서 본 연구에서는 다양한 산란계의 상황을 분석하기 위한 발성음을 표1과 같이 9가지로 분류하였다.

Ordinary Call(OC)은 일상적으로 발성되는 소리로 Mono Contact Call을 내기 전에 발성하는 경향이 있다. Mono Contact Call(MCC)은 짧고 강도가 약한 일반음이 점점 길고 강한 강도로 발성되는 특이음으로 오전에 발현해서 오후 4시 이전까지 빈번히 발성되는 특징을 가지고 있다. Poly Contact Call(PCC)은 Mono Contact Call이 연속적으로 발생하는 특이음으로 주로 사료급이 시, 관리인이 등장할 때 나타나는 소리이다. Squawk Call(SC)은 ‘꽥’하며 놀라는 발성음으로 동료의 날개짓이나 깃털 쪼기, 외부의 소리 등에 놀라서 반응하는 소리이다. Alarm Call(ACo)은 가장 많이 나타나는 소리 중 하나로 ‘꼭’하는 소리이며 주변을 경계하는 경우 발성하는 짧은 음으로 정향반응을 보일 가능성이 있다. ACo가 연속해서 발성하면 ACg의 소리가 된다. Moan Thread Call(MTC)은 저녁에서 새벽시간대에 나타나는 소리로 적의 소리, SC나 AC 직후, 기타 날개짓이나 정적을 깨는 놀라는 일이 벌어질 경우 발현될 가능성이 큰 발성음이다. Gakel Call(GC)은 산란계가 산란할 장소를 찾으면서 빈번하게 발성하는 특이음이다. 가끔씩 낮에 들리는 경우도 있으며 저온환경에서는 낮에 들리는 경우가 더 많아진다. High Intensity Call(HIC)은 갑자기 불특정 미확인 물체가 나타났을 때 산란계들이 동시에 내는 소리로 주로 큰 자극이 있을 때 발생하는 소리이다. 이와 같은 산란계의 발성음을 기준으로 상황별 발생할 수 있는 산란계의 소리를 정리하면 표2와 같다. 먼저 OC의 경우는 일상적으로 발생하는 소리이고, MCC와 PCC 또한 점등직후 혹은 사료급이 기의 작동 등 특별한 조치를 필요로 하지 않는 정상 상태이므로 정상음으로 구분한다. 그러나 깃털쪼기를 당하거나 고온 상태, 혹은 천적의 소리 등 낯선 대상의 출현으로 인해 발생하는 경우는 위급한 상황이므로 즉각적인 조치를 필요로 하는 위급 상황으로 볼 수 있다. 그 외에 산란직전이나 주변 경계의 경우에는 필요한 경우에 적절한 조치를 취하면 되는 주의 상태로 구분할 수 있다.

Table 1. Types and characteristics of laying hens sound

CPTSCQ_2021_v26n3_127_t0001.png 이미지

Table 2. Situations and sound of aying hens

CPTSCQ_2021_v26n3_127_t0002.png 이미지

이와 같이 산란계의 발성음에는 많은 정보가 담겨있고 이를 이용하면 다양한 산란계사의 환경을 분석할 수 있다. 그림 2는 산란계 각 발성음의 주파수데이터를 스펙트럼 그래프로 나타낸 것으로 시작부터 1초 동안 0Hz~25000Hz 까지의 주파수를 스펙트럼 그래프로 나타낸 것이다. 그림을 보면 다양한 발성음의 종류에 따라 주파수 및 밀도의 차이가 다양함을 알 수 있다. 산란계의 발성음을 분류하기 위해서 소리가 가지고 있는 특징 및 특징 벡터 추출과정에 대해서 자세히 알아보도록 하겠다.

CPTSCQ_2021_v26n3_127_f0002.png 이미지

Fig. 2. Spectrum graph for each laying hens sound

2. Sound feature analysis and MFCC vector extraction

소리가 가지는 특징은 일반적으로 시간영역(time domain)의 특징과 주파수 영역(frequency domain)의 특징으로 나눌 수 있다[9].

시간영역의 특징이란 시간을 독립변수로 하여 해석하는 특징을 말하며 Duration, Pitch, Intensity, Root Mean Square(RMS), Shimmer, Jitter, Harmonics-to-Noise Ratio (HNR), Power, Absolute extremum 등의 특징이 대표적이다.

주파수영역의 특징은 시간순서대로 입력되는 신호를 FFT(Fast Fourier Transform)를 이용하여 주파수데이터 로 변환하여 획득할 수 있는 특징으로 대표적으로 Power Spectral Density(PSD), Formant 등이 있다.

[9][10]에서는 산란계의 발성음을 분류하기 위해 소리에서 측정할 수 있는 일반적인 특징들을 사용하고 있다. [9]에서는 주파수 영역의 특징 3개 (Formant1, Formant3, PSD38)와 시간 영역의 특징 5개(RMS, Mean Pitch, Max. Pitch, Shimmer, Jitter)를 사용하여 산란계의 발성음을 분류 하였다. [10]에서는 시간영역의 특징 3개 (Duration, Pitch, Intensity) 주파수 영역의 특징 4개 (Formant1-4)를 사용하여 산란계 발성음을 분류하였다.

그렇지만 시간영역의 일부특징들은 소음이나 잡음에 강한 특징이 아니라서 실제 산란계사 환경에서 사용하기에는 어려움이 있다. 특히 실시간 소리 분석 같은 경우 같은 소리에서도 Duration의 길이가 매우 다양하게 나타나고, 끝임 없이 소리가 발생하기 때문에 소리의 시작과 끝을 판별하기에 매우 어려운 문제점이 있다. 그리고 Pitch와 같은 특징은 개체별로 최댓값 및 최솟값이 달라져 분류 특징으로 사용하기에 적절하지 않다. 또한, 주파수의 특징에서 Formant는 모음의 주파수에서 에너지가 집중적으로 나타나는 특징으로 모음과 자음이 구별되는 특징이 명확할 경우 사용하기 좋으나 산란계의 발성음과 같은 경우 사용하기에는 어려움이 있다.

이와 같이 소리의 일부 특징들은 음향 소스에 의존적인 특징으로 말하는 사람, 소리가 나는 물체에 따라 같은 의미를 가지더라도 다른 특징 벡터 값을 나타내는 문제점이 있다. 이와 같은 시간 영역 혹은 주파수 영역 기반의 일반적인 특징들은 주변 소음에 강하지 못하고 화자의 나이, 성별, 발음에 따라 음성의 특징이 변화하기 때문에 산란계의 발성음을 구별하기 위해 사용하기에는 어려움이 존재한다[16]. 화자(음향소스)에 따라 특징 벡터 데이터가 변화하는 문제를 해결하기 위해 MFCC, FBANK, MELSPEC, LPCC, PLP, PNCC 등 다양한 특징들이 개발되었다[13]. 본 논문에서는 음성인식을 위해 개발된 이러한 다양한 특징들 중에서 음성인식분야에서 가장 널리 사용되며 사람이 음성을 인식 하는 방법을 모방한 Mel Frequency Cepstral Coefficient(MFCC) 특징을 이용하여 산란계 발성음 분류를 진행하고자 한다. MFCC는 1974년 Bridle and Brown가 사람의 청각시스템을 모방하는 아이디어를 제안하였고, 1976 년에 Mermelstein이 개발한 특징으로 자동음성인식(Auto Speech Recognition)분야에서 널리 사용되고 있다[11].

MFCC 특징의 기본 개념은 입력된 소리를 짧은 단위 (20~40ms)로 나누고 파워스펙트럼을 분석하여 특징을 추출하는 기법이다. 즉 하나의 소리에서 나타나는 여러 MFC(Mel-Frequency Cepstrum)를 모아 놓은 계수를 의미하며, 이와 같은 과정을 통해 사람이 말하는 과정과 음성을 듣는 과정의 일부를 모방한다. 그리고 기본 주파수와 고주파를 배제하여 화자 의존적인 특성을 제거함으로 잡음에 강한 특징을 가진다. MFCC의 특징을 산란계 발성음으로부터 획득하기 위해 아래의 총 5단계의 추출 과정을 진행한다.

① 짧은 단위로 나누어진 입력된 신호(산란계 발성음)를 Fast Fourier Transform으로 변환하여 입력된 산란계 발성음을 주파수 영역으로 변환한다.

② 산란계 발성음의 주파수를 이용하여 Mel-frequency spectrum을 계산하기 위해, 여기서 spectrum이 Nd different band-pass filters로 걸러지게 되며 각 주파수 밴드의 파워가 계산되어 진다.

③ 산란계 발성음의 세기를 사람의 듣는 형태로 나타내가 위해서 Mel-frequency의 power에 log를 취한다.

④ Cepstral coefficients를 계산하여 산란계 개별로 나타나는 특성을 제거한다. 이를 위해 mel-frequency power에 discrete cosine transform을 취한다.

⑤ 산란계 발성음의 동적인 특성을 나타내기 위하여 first and second order(동적인특성)에 미분을 한다. 이를 통해 512의 차원이 39의 차원으로 줄어들게 된다. 이와 같은 결과 spectrum의 진폭들이 산란계 발성음으로부터 획득된 MFCC이다.

3. Sound classification using logistic regression analysis

입력된 산란계 발성음에서 MFCC 특징을 추출하고 이를 바탕으로 9가지로 소리로 구분하게 된다. 또한 9가지로 구분된 산란계 소리를 종류에 따라 표2에서 보여주는 것과 같이 7가지 경우의 산란계사의 상황으로 추정한다. 이러한 소리 분류를 위하여 본 논문에서는 로지스틱 회기 분석 기법을 이용한다. 로지스틱 회기분석은 분류를 통한 결과가 범주형일 경우 사용되며, 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 확률 모델이다[12,13]. 로지스틱 회귀분석기법은 O(N₂)의 시간복잡도를 나타내어, O(N₃)을 나타내는 SVM 기법에 비해 계산량을 줄일 수 있어 본 연구와 같이 하드웨어 성능이 충분하지 않고 입력데이터를 실시간으로 분석해야 하는 환경에 더 적합하다고 판단하였다.

\(y=\frac{1}{1+e^{-x}}\) (1)

수식 1은 로지스틱 함수이다. 로지스틱 함수는 그림 3 의 굵은 실선과 같이 x값의 증감에 따라 y축의 값은 0과 1 사이의 값을 가지게 된다.

CPTSCQ_2021_v26n3_127_f0003.png 이미지

Fig. 3. Type of logistic function

로지스틱 함수를 분류기로 사용하면 x의 값이 속성을 의미하고 y가 범주를 의미하게 되며, 성공과 실패를 나타내는 수식 2의 오즈비(odds ratio)를 이용하여 유도할 수 있다.

\(oddsratio=\frac{p(y=1|x)}{1-p(y=1|x)}\) (2)

수식 2의 경우 그림 4의(a)와 같이 오즈비의 범위가 0에서 무한대로 나타난다. 이와 같은 최소값이 0인 문제점을 해결하기 위해서 오즈비에 자연로그를 취하여 입력값의 범위가 0과 1일 때 출력값의 범위를 음의 무한대부터 양의 무한대로 대응시켜 그림 4(b)와 같이 변환한다. 이와 같이 확률에 자연로그를 취하는 것을 로짓변환이라 한다.

CPTSCQ_2021_v26n3_127_f0004.png 이미지

(a) classification

(b) logit transition

Fig. 4. Percentage of odds ratio

로짓변환된 오즈비를 1차 방정식과 연관하여 수식 3과 같이 나타낼 수 있다.

\(ln(\frac{p}{1-p})=c_1x+c_0\) (3)

수식 3을 성공확률을 찾기 위해 p로 방정식을 정리하고, 일반화하여 수식 4와 같이 로지스틱 함수와 유사한 형태의 결과를 얻을 수 있다. 수식 4는 분류에 사용되는 로지스틱 회귀분석을 나타내는 수식이다.

\(p_i=\frac{1}{1+e^{-(c_0+c_1x)}}\) (4)

본 연구에서는 산란계의 발성음을 분류하기 위해서 마이크에서 입력된 산란계 소리에서 MFCC 특징을 추출하였으며, 로지스틱 회귀분석으로 산란계 발성음을 분류하기 위하여 수식 4의 입력데이터로 추출된 MFCC 특징을 사용하였다.

Table 3. System Environment

CPTSCQ_2021_v26n3_127_t0003.png 이미지

III. Performance Evaluation

1. Experimental Environment

본 논문에서 제안한 산란계 발성음 인식 시스템의 성능을 평가하기 위하여 실제 산란계사 농장에서 실험을 진행하였다. 산란계사의 형태는 크게 무창계사, 유창계사, 동물복지계사로 나눌 수 있다. 세 가지 형태의 산란계사 중에서 동물 복지 기준에 적합한 동물복지계사에서 실험을 진행하였다. 실험을 진행한 계사의 넓이는 24m x 24m이고 실험에 참여한 산란계 개체 수는 약 5,000마리 정도이 다. 그림 5는 실험을 진행한 산란계사의 모습을 보여준다. 실험은 전체 24시간 동안의 산란계의 발성음을 분류하도록 하였다.

CPTSCQ_2021_v26n3_127_f0005.png 이미지

Fig. 5. Experimental Environment

산란계 음성을 분석하기 위한 하드웨어 시스템은 Raspberry Pi2 B+(A 900MHz quad-core ARM Cortex-A7 CPU, 1GB RAM)를 이용하여 제작하였다. 그리고 서버의 음성 분석 프로그램은 Python과 node.js를 이용하여 구현하였다. 로지스틱 회귀 분석 분류기법에서 정규화 강도 역행 C파라미터의 값은 14.0으로 설정하여 실험을 진행하였다.

본 논문에서 제안한 MFCC 특징을 이용한 소리 분류 기법의 성능을 평가하기 위하여 기존에 많이 사용되는 주파수 특징을 이용하는 방법과 비교하였다. 주파수는 파워스 펙트럼밀도를 나타내는 데이터로 비교적 음을 생성하는 음원(화자 등)에 의존적이지 않은 특징을 가지고 있다. 산란계 발성음에서 주파수 특징 벡터를 획득하기 위해 산란계 발성음의 시간 영역의 데이터를 FFT를 이용하여 주파수 영역 데이터로 변환한다. 이를 통해 여러 주파수가 합쳐진 합성음(산란계 발성음)에 포함되어 있는 주파수데이 터를 획득할 수 있다. 즉, 산란계의 발성음을 구성하고 있는 기본 데이터인 주파수를 분석하고 이를 이용하여 산란계의 발성음을 분류하는 것이다.

2. Result and Analysis

분류 모델의 성능을 평가하기 위하여 다중분류모델의 성능을 한 번에 확인할 수 있는 오차행렬(Confusion Matrix)와 ROC(Receiver Operating Characteristic Curve)-AUC(Area Under Vurve) 를 측정하였다.

다중범주분류(multiclass classification)의 경우 오차 행렬(Confusion matrix)를 이용한 성능 평가를 활용하는 것이 유용하다. 왜냐하면 데이터가 어떻게 분류 되는지와 다른 데이터와 어떻게 혼동하는지를 요약하여 보여주기 때문에 분류 성능을 잘 나타내어 준다. 그리고 세밀한 분류기의 성능평가를 위해 개별 클래스의 분류성능을 ROC-AUC를 이용하여 확인하였다.

CPTSCQ_2021_v26n3_127_f0006.png 이미지

Fig. 6. Confusion Matrix Result using FFT

CPTSCQ_2021_v26n3_127_f0007.png 이미지

Fig. 7. Confusion Matrix Result using MFCC

그림 6은 로지스틱 회귀분석에 주파수를 특징 벡터로 입력하여 산란계 발성음 분류를 진행하여 획득한 confusion matrix이다. FFT를 이용하여 1000개의 주파수 성분을 추출하도록 하였다. confusion matrix의 x축은 산란계 소리의 예측한 결과를 나타내며, y축은 산란계 발성음의 실제 분류된 범주를 의미한다. 즉, 대각선 영역이 정확하게 분류되었음을 나타내는 영역이며, 색의 농도가 짙을수록 분류의 성능이 좋음을 나타낸다. 그림6의 실험 결과를 보면, PCC 발성음은 분류정확도가 약 70%인 것을 확인할 수 있으나, 나머지 발성음들은 분류는 정확도가 낮은 것을 볼 수 있다. 특히 MTC, SC, HIC, GC의 경우 분류가 전혀 다른 음으로 분류되는 오류가 있음을 확인할 수 있다.

반면 MFCC를 이용한 그림 7의 분류 결과를 보면 전체적으로 산란계 발성음 분류정확도가 약 70%~100%에서 나타나고 있으며, 주파수를 이용하였을 때 보다 좋은 성능을 내고 있음을 확인할 수 있다.

1.2 ROC-AUC Analysis

그림 8과 9는 FFT와 MFCC 특징을 이용하여 개별 산란계 발성음의 분류정확도를 ROC (Receiver-Operator-Ch aracteristic) 그래프를 이용하여 소리별 분류 결과를 각 각 나타낸 것이다. x축은 틀린 것을 맞다고 할 확률(False Positive Rate, FPR), y축은 맞는 것을 맞다고 할 확률 (True Positive Rate, TPR)를 나타낸다. 그래프의 축에 대한 자세한 정의는 표 4에 나타내었다. TP는 True Positive를 나타내는 것으로 참인 것을 참이라고 한 경우, FP는 False Positive를 나타내는 거짓인 것을 참으로 한 경우, TN은 True Negative로 거짓인데 거짓으로 맞춘 경우, FN은 False Negative로 참인데 거짓으로 나타낸 경우를 의미한다.

Table 4. ROC graph definition

CPTSCQ_2021_v26n3_127_t0004.png 이미지

또한, 그래프에서 분류의 성능을 나타내는 영역인 Area Under Curve(AUC)영역은 넓을수록 좋은 분류 성능을 가지고 있음을 나타낸다.

개별 발성음에 대한 FFT를 이용한 분류 결과와 MFCC 를 이용한 분류 결과를 나타낸 그림 8과 그림 9를 보면 MFCC를 사용한 그림 9의 결과가 FFT를 사용한 경우보다 모든 산란계의 발성음에서 분류 성능이 향상되었음을 확인할 수 있다. MFCC를 이용한 산란계 발성음 분석의 경우 전체적인 분류 성능은 평균 AUC 0.93으로 나타난 것에 비해 주파수를 이용한 산란계의 발성음 분류 성능은 평균 AUC 0.65로 나타났다.

발성음에 대한 개별 분류 결과는 PCC는 0.87에서 0.9 로, HIC의 경우 0.14에서 0.99, SC의 경우 0.77에서 0.98, GC의 경우 0.38에서 0.9로 MFCC를 사용할 경우 분류 성능이 매우 향상되었음을 확인할 수 있다.

이와 같은 결과를 통해 산란계 발성음 인식에서 MFCC 의 특징이 FFT보다 더 좋은 성능을 가지고 있음을 확인할 수 있었으며 사람의 음성을 구별하기 위해 만들어진 MFCC 특징이 산란계의 발성음 구별에서도 매우 효과적인 것을 파악할 수 있다.

CPTSCQ_2021_v26n3_127_f0008.png 이미지

Fig. 8. ROC graph for Frequency-Laying Hens Sound Classification

CPTSCQ_2021_v26n3_127_f0009.png 이미지

Fig. 9. ROC graph for MFCC-Laying Hens Sound Classification

IV. Conclusions

동물복지에 대한 사람들의 관심이 증가하면서 가축들이 어떤 환경에서 사육되는지에 대한 중요성이 커지고 있다. 또한, 대형화된 농장에서 가축이 생활하는 환경을 빠르게 판단하는 일은 가축을 관리하는 입장에서 매우 중요한 문제이다. 특히 산란계와 같은 몸집이 작으면서 매우 많은 수의 가축을 한 공간에서 사육하는 환경일수록 더 중요하다. 이와 같은 사육환경에서는 환경의 작은 변화로 인해 매우 많은 피해를 볼 수 있기 때문이다.

이와 같은 문제를 해결하기 위해 본 연구에서는 MFCC 특징 벡터를 이용한 산란계의 발성음 인식 시스템을 제안하였다. 본 연구에서 제안한 산란계 발성음 인식 시스템은 산란계의 소리를 실시간으로 입력받고 이를 분석하여 현재 산란계사가 어떠한 상황인지 실시간 판단하며, 결과를 누적하여 통계적 데이터를 사용자에게 제공하도록 하였다. 시스템의 성능을 확인하기 위해서 실제 동물복지산란계사에서 실험을 진행하였으며, 실험을 통해 FFT특징을 이용한 방식보다 MFCC특징을 이용한 방식이 더 좋은 성능을 발휘함을 확인할 수 있었다.

향후 연구에서는 동물복지산란계사 외의 유창계사, 무창계사 등 기존의 다양한 산란계사 환경에서 본 논문에서 제안한 시스템의 성능을 확인할 것이다. 또한, 실제 산란 계사 환경에서 발생할 수 있는 환풍기 잡음 등의 환경요소에 대해서도 추가적인 연구를 진행할 것이다.

참고문헌

A. Muminov, Daeyoung Na, Cheolwon Lee and Heung Seok Jeon, "Virtual Fences for Controlling Livestock using Satellite-tracking and Warning Signals", 2016 International Conference on Information Science and Communications Technologies (ICISCT), pp. 1-7, Tashkent, 2016.
K. Smith, A. Martinez, R. Craddolph, H. Erickson, D. Andresen and S. Warren, "An Integrated Cattle Health Monitoring System", 2006 International Conference of the IEEE Engineering in Medicine and Biology Society, New York, NY, pp. 4659-4662, 2006.
R. K. Gupta, S. S. Lathwal, T. K. Mohanty, A. P. Ruhil and Y. Singh, "Detection of Lameness of Cow Based on Body Weight using Artificial Neural Network", 2014 International Conference on Computing for Sustainable Global Development (INDIACom), pp. 337-341, New Delhi, 2014.
A. Kumar and G. P. Hancke, "A Zigbee-Based Animal Health Monitoring System,", IEEE Sensors Journal, vol. 15, no. 1, pp. 610-617, Jan. 2015. https://doi.org/10.1109/JSEN.2014.2349073
Celia Rosline. A and V. S. Felix Enigo, "Fuzzy Query Processing in Wireless Sensor Networks for Animal Health Monitoring", 2014 IEEE International Conference on Advanced Communications, Control and Computing Technologies, pp. 1094-1098, Ramanat hapuram, 2014.
G. Santha and G. Hermann, "Accelerometer based Activity Monitoring System for Behavioural Analysis of Free-roaming Animals", 2013 IEEE 11th International Symposium on Intelligent Systems and Informatics (SISY), pp. 199-203, Subotica, 2013.
D. Banerjee, S. Biswas, C. Daigle and J. M. Siegford, "Remote Activity Classification of Hens Using Wireless Body Mounted Sensors", 2012 9th International Conference on Wearable and Implantable Body Sensor Networks, pp. 107-112, London, 2012.
Melaku Tefera, "Acoustic Signals in Domestic Chicken (Gallus gallus): A Tool for Teaching Veterinary Ethology and Implication for language learning", Ethiop. Vet. J. 16, pp77-84, 2012
Lee, Jonguk et al. "Stress Detection and Classification of Laying Hens by Sound Analysis", Asian-Australian Journal of Animal Sciences 28.4, pp 592-598, 2015. https://doi.org/10.5713/ajas.14.0654
Daeyoung Na, Sang Ho Moon, Heung Seok Jeon, "Detailed Sound Analysis System for Real Time Detection of Changes in Laying Hens Feeding Environment using SVM", International Workshop on Convergence Information Technology(IWCIT2017), pp. 59-62, 2017.
P. Mermelstein, "Distance Measures for Speech Recognition - Psychological and Instrumental", Pattern Recognition and Artificial Intelligence, pp. 374-388, 1976.
D. R. Cox, "The Regression Analysis of Binary Sequences", Journal of the Royal Statistical Society, Vol. 20, No. 2, pp. 215-242, 1958. https://doi.org/10.1111/j.2517-6161.1958.tb00292.x
O. Rouhani-Kalleh, "Algorithms for Fast Large Scale Data Mining Using Logistic Regression", 2007 IEEE Symposium on Computational Intelligence and Data Mining, pp. 155-162, Honolulu, Hawaii, 2007.

한국컴퓨터정보학회논문지 (Journal of the Korea Society of Computer and Information)

Real-time Laying Hens Sound Analysis System using MFCC Feature Vectors

초록

키워드

I. Introduction

II. Realtime Classification Model

1. Types and characteristics of Laying Hens Sound

2. Sound feature analysis and MFCC vector extraction

3. Sound classification using logistic regression analysis

III. Performance Evaluation

1. Experimental Environment

2. Result and Analysis

1.2 ROC-AUC Analysis

IV. Conclusions

참고문헌

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)