I. 서론
현대 사회에서 다양한 디지털 오디오 매체가 증가함에 따라 소리 데이터의 규모와 다양성이 증가하였다. 이에 따라 디지털 포렌식 과정에서 소리 데이터를 분석하는 경우가 많아졌다. 예를 들어, 보이스 피싱 사건과 같이 주요 증거물이 오디오 파일 형태 대해 수사하는 과정에서 오디오 파일이거나, 테러와 관련된 사고를 조사하는 과정에서 수집된 영상데이터 내에 소리 데이터가 존재하는 경우와 같이 조사 과정에서 수집된 데이터 내에 소리 데이터가 포함되는 경우가 증가하였다.
소리 데이터를 분석하기 위해서는 소리 데이터의 다양한 특성을 고려하여야 한다. 소리 데이터를 분석할 때는 음성 존재 여부, 음성이 대화에 해당하는지 여부 등과 같은 다양한 요소들을 고려하여 그에 맞는 분석 방법을 활용하여야 한다. 하지만, 현재 오디오 포렌식에 활용되는 소리 데이터 분석 방법은 체계적으로 정의되어 있지 않아, 앞서 언급한 요소들을 고려하여 소리 데이터를 분석하는 것은 도전적인 과제로 인식되고 있다. 이에 효율적인 오디오 포렌식을 위한 소리 데이터의 요소 기술 식별 연구의 필요성이 대두되고 있다[1].
본 연구는 효율적인 오디오 포렌식을 위해 소리 데이터의 Life-Cycle에 기반하여 요소 기술을 식별한다. Life-Cycle은 소리 데이터가 수집되어 관리 및 사용되는 전 과정을 의미하며 수집, 저장, 처리, 분석, 응용의 다섯 단계로 구분한다. Life-Cycle에 기반하여 식별한 소리 데이터 요소 기술 중 소리 데이터를 대상으로 하는 디지털 포렌식 기술 개발 시 필요한 요소 기술을 선별한다. 사례 연구를 통해 소리 데이터의 수집, 저장, 처리, 분석, 응용 단계에서 적절한 기술과 방법을 적용한다면 효율적인 오디오 포렌식이 가능함을 확인한다.
본 논문은 다음과 같이 구성되어 있다. 2장에서는 본 연구의 배경지식에 관해 서술하고, 3장에서는 Life-Cycle에 기반하여 소리 데이터의 요소 기술을 식별하고자 한다. 4장에서는 3장에서 식별한 소리 데이터 Life-Cycle 별 요소 기술을 활용하는 디지털 포렌식 기술을 확인한다. 5장에서는 4장에서 확인한 오디오 포렌식에 활용되는 소리 데이터 Life-Cycle 별 요소 기술에 대한 사례 연구를 진행한다. 마지막으로 6장에서는 향후 연구 계획과 함께 논문을 결론짓는다.
II. 배경 지식
2.1 소리 데이터
소리는 진동하는 물체로부터 발생하는 압력 파동의 형태이며 공기와 같은 탄성 매체를 통해 전파된다. 소리를 분석하는 과정에서 아날로그 형태의 소리를 저장, 전송, 재생하는 것은 많은 한계와 비효율성이 따른다. 또한, 최근 소리 분석 기술은 대부분 디지털 기반이기 때문에 아날로그 형태의 소리를 디지털 형태로 변환하여 분석을 진행해야 한다. 아날로그 형태의 소리를 디지털 형태로 변환하기 위해서는 아날로그 소리를 일정 간격으로 샘플링하고 각 샘플링 값에 따라 이진 데이터로 변환하는 양자화 과정을 거쳐야 한다. 변환된 데이터는 컴퓨터나 다른 디지털 장치에서 처리, 저장, 전송될 수 있다. 디지털 형태로 변환된 소리는 현대 음향 기술, 음악 산업, 영화 및 미디어, 음성 인식 시스템 등 다양한 분야에서 핵심적인 요소로 활용되고 있다[2].
2.2 디지털 포렌식 기술
디지털 포렌식 기술이란, 디지털 포렌식 과정에서 필요한 기술들을 의미하며 본 논문에서는 디지털 포렌식 기술을 사전연구[3][4]에 기반하여 식별, 복구, 검색, 수집, 분석 기술로 구분하였다. 식별 기술은 디지털 증거 출처의 각 계층을 확인하는 과정에서 필요한 기술이다. 디지털 증거 출처는 디지털 기기계층, 기억장치 계층, 볼륨 계층, 파일 계층, 콘텐츠 계층으로 구성되어 있다. 복구 기술은 사후에 남아있는 흔적을 분석하여 과거의 이벤트를 복구하는 기술이다. 이벤트란 시스템에서 발생했던 특정한 활동이나 사건을 의미한다. 검색 기술은 특정 조건을 만족하는 디지털 증거 출처의 요소를 찾기 위해 사용되는 기술이다. 수집 기술은 디지털 증거 출처에서 디지털 포렌식의 요구 사항을 충족하는 구성 요소의 집합을 추출하는 기술에 대한 내용을 다룬다. 분석 기술은 디지털 증거 출처 또는 디지털 증거 후보군을 분석하여 과거에 발생한 이벤트를 추적하여 실체적인 진실을 확인하는 기술이다. 디지털 증거 후보군이란 디지털 증거 출처에서 디지털 포렌식 특유의 요구사항을 충족하는 구성 요소들의 집합을 의미하며, 디지털 포렌식 특유의 요구사항이란 디지털 포렌식 조사자가 고려해야 하는 법률, 정책 등을 의미한다.
2.3 오디오 포렌식
오디오 포렌식이란, 법적 증거로 사용하기 위해 오디오를 수집, 분석 및 평가하는 과정을 의미한다. 오디오 증거물이 법정에서 증거로 활용되기 위해서는 진정성과 무결성을 입증하는 것이 중요하다. 오디오 포렌식에는 화자 식별, 환경 또는 녹음 장치 식별, 변조 또는 조작의 탐지, 그리고 음성 명료도 및 가청도 향상 등의 다양한 활동이 포함된다[5]. 화자를 식별하기 위해 오디오 증거물에서 음성 데이터를 추출하여 주파수 특징이나 대화 내용을 분석할 수 있다. 환경 또는 녹음 장치를 식별하기 위해 녹음된 오디오에 있는 음향 잔향, 배경 소음 및 장치 관련 잡음과 같은 아티팩트를 분석할 수 있다. 환경, 화자, 내용 등의 변조로 인한 불규칙성과 갑작스러운 변화를 탐지하기 위해 스펙트로그램을 분석할 수 있다. 마지막으로, 음성 명료도 및 가청도를 향상하기 위해 스펙트럼 서브트랙션, 웨이블릿 잡음 제거 등을 활용하여 노이즈를 제거할 수 있다.
III. Life-Cycle 기반 소리 데이터 요소 기술 식별
본 연구에서는 Life-Cycle 기반으로 식별한 소리 데이터 요소 기술을 Fig.1과 같이 제시한다. Life-Cycle 기반의 접근은 기존 제안된 빅데이터 처리 과정인 수집, 저장, 처리, 분석, 표현 등[6]에 기초하여 소리 데이터의 특성에 맞게 Life-Cycle을 소리 데이터가 수집되어 관리 및 사용되는 전 과정을 의미할 수 있도록 수집, 저장, 처리, 분석, 응용의 다섯 단계로 재정의하였다. 재정의한 Life-Cycle을 기반으로 소리 데이터의 요소 기술을 식별하여 소리 데이터 분석이 필요한 문제를 해결하는 과정을 효과적으로 설명할 수 있도록 한다.
Fig. 1. Sound Data’s Element Technology by Life-Cycle
또한, Life-Cycle의 단계별 연계성은 전체 과정에서 일관성과 효율성을 보장한다. 한 단계에서의 결과물이 다음 단계의 입력으로 활용되는 방식의 순차적인 연계는 데이터나 프로세스의 중복을 줄이는 등, 효율적인 프로세스 모듈화를 가능하게 한다. 이를 통해 연구자나 실무자는 단계별로 무엇이 필요한지, 어떤 문제가 발생할 수 있는지를 예측하고 대비할 수 있는 기반을 마련할 수 있다.
3.1 수집
소리 데이터의 효과적 활용을 위해 수집은 기본적이면서도 중요한 과정이다. 연구의 목적에 맞게 소리 데이터를 수집하기 위해서는 적절한 데이터 수집 인프라의 구축이 필수적이다. 이러한 인프라는 기본적인 마이크와 오디오 인터페이스 외에도 음향 처리 장치 등이 포함될 수 있다. 또한, 연구의 효율성을 위해 기존에 대량으로 수집되고 많은 연구자에게 검증된 공개 데이터 세트의 활용도 고려해야 한다. 이를 통해 연구자들은 더욱 다양하고 균형 잡힌 데이터를 확보할 수 있다.
데이터 수집을 위한 인프라를 구축하기 위해 마이크로폰, 오디오 인터페이스, 음향 처리 장치와 같은 기술적인 장비가 필요하다. 이러한 장비들은 환경 소음을 최소화하고 음질을 향상해 정확하고 신뢰할 수 있는 데이터 수집을 가능하게 한다. 마이크로폰은 소리를 감지하고 전기 신호로 변환하는 역할을 한다. 오디오 인터페이스는 컴퓨터와 외부 오디오 장치를 연결하여 오디오 신호를 디지털로 변환하고 처리하는 역할을 한다. 음향 처리 장치는 음향의 특성을 개선하거나 조절하여 원하는 음향 효과를 얻는 역할을 한다. 이러한 장비들을 사용하여 데이터 수집 인프라를 구축하는 것은 신뢰할 수 있는 데이터를 수집하기 위해 중요한 단계이다.
공개 데이터 세트는 소리 데이터 인식 기술, 소리 데이터 분리 기술, 음성 텍스트 변환 기술, 노이즈 제거 기술, 음성 및 음향 합성 기술 등 다양한 소리 데이터 기술에 매우 유용하게 활용될 수 있다. 공개 데이터 세트를 활용하여 음성을 텍스트로 변환하거나 분리하는 등 다양한 응용 프로그램을 개발하고, 소리 데이터를 인식하여 이벤트를 탐지하는 데 도움을 줄 수 있다. 공개 데이터 세트는 이러한 기술을 향상하기 위한 학습 및 훈련에 필수적인 자료를 제공한다.
3.2 저장
데이터가 수집되면 이를 안전하게 보관하고 효과적으로 관리하는 것이 매우 중요하다. 저장 단계에서는 원시 데이터를 적절한 형태로 저장장치에 보관하는 방법을 중점적으로 다룬다. 특히 소리 데이터는 종종 큰 용량을 차지하는 경우가 존재하기에 이를 효과적으로 압축하면서도 데이터 품질을 유지하는 압축 기술이 필요하다. 저장 공간을 절약하기 위해 압축 기술을 활용할 때 소리의 세부 정보를 최대한 보존하는 것도 중요하다.
데이터 압축 기술은 다양한 방법으로 구현될 수 있다. 예를 들어, 손실 압축 방식은 데이터의 일부 정보를 제거하여 압축하는 방식이며, 비손실 압축 방식은 데이터를 압축하지만, 원본 데이터의 손실 없이 압축된 형태로 저장하는 방식이다.
또한, 데이터의 분석 단계에서 데이터의 의미를 명확히 파악하기 위해서는 데이터를 저장할 때 라벨링 기법도 도입되어야 한다. 라벨링은 데이터의 특성, 카테고리, 속성 등을 명시적으로 표시하는 과정이다. 예를 들어, 소리 데이터에서 특정 소리 이벤트의 발생 시간과 유형을 식별하는 경우, 각 특징에 부여된 라벨링은 데이터의 분석 정확성을 높일 수 있다.
데이터 라벨링에는 의사 라벨링과 액티브 러닝 등이 있다. 의사 라벨링의 경우 모델이 자체적으로 예측한 라벨을 사용하여 미래의 학습 데이터로 활용하는 자기 학습 기술이며, 액티브 러닝은 모델의 불확실성이 높은 데이터 포인트를 전문가에게 먼저 라벨링 하도록 요청함으로써 효율적인 학습을 추구하는 기술이다[7][8]. 의사 라벨링과 액티브 러닝은 레이블이 지정되어 있는 소규모의 데이터를 활용하여 모델에 학습시킨 후, 해당 모델을 활용하여 라벨이 지정되어 있지 않은 대규모 데이터 세트 내 데이터의 라벨을 예측하여 미래의 학습 데이터로 활용하거나 해당 모델이 대상을 식별하는데 불확실성이 높은 경우를 식별해 전문가를 통해 추가적인 라벨링을 수행하여 모델을 개선하는 데 사용되는 기술이다.
3.3 처리
수집된 데이터는 그 자체로는 분석에 적합하지 않을 수 있다. 오디오 포렌식을 진행하는 과정에서 수집된 데이터 내에 노이즈가 존재하거나 원본 오디오의 소리가 작아 가청도가 저하되는 경우, 노이즈 제거와 데이터 증강 등을 위한 효과적인 처리 기술을 도입하여 분석의 정확도를 향상시킬 필요가 있다. 이 단계는 메모리상에서의 실시간 처리를 주로 다루며, 노이즈 제거 및 필터링 기술과 데이터 증강 기술을 포함한다. 노이즈 제거 및 필터링 기술은 데이터의 품질을 향상하는데 활용되는 기술이며, 데이터 증강 기술은 기존 데이터를 변형하거나 확장하여 데이터의 다양성을 높이기 위해 활용되는 기술이다.
노이즈 제거 및 필터링 기술은 데이터의 품질을 향상하기 위한 기술이다. 노이즈는 데이터에 포함된 원치 않는 신호나 잡음을 의미하며 노이즈는 정확한 분석에 영향을 끼친다. 정확한 분석을 위해 사용되는 노이즈 제거 기술은 주파수 도메인 기반, 통계적 특성 기반, 멀티스케일/멀티해상도 변환 기반의 방법으로 구현된다. 주파수 도메인 기반의 노이즈 제거 및 필터링 기술은 주파수 변화를 통해 노이즈를 감소시키는 방법이다. 주파수 도메인 기반의 노이즈 제거 및 필터링 기술인 스펙트럼 서브트랙션은 주어진 오디오 신호에서 소음 부분을 추정하고 원본 신호에서 노이즈를 제거한다[9]. 통계적 특성 기반의 노이즈 제거 및 필터링 기술은 데이터의 통계적 특성을 분석하여 노이즈를 식별하고 제거하는 방법이다. 통계적 특성 기반의 노이즈 제거 및 필터링 기술인 위너 필터는 잡음이 추가된 신호에서 원래의 신호를 복원하는 데 사용된다[10]. 멀티스케일/멀티해상도 변환 기반의 노이즈 제거 및 필터링 기술은 다양한 해상도로 데이터를 변환하여 노이즈 제거 및 필터링하는 방법이다. 멀티스케일/멀티해상도 변환 기반의 노이즈 제거 및 필터링 기술인 웨이블릿 변환은 소리 데이터의 노이즈 성분을 식별하고 이를 제거하거나 약화한다[11].
데이터 증강은 기존 데이터를 변형하거나 확장하여 데이터의 다양성을 높이는 기술이다. 데이터의 다양성은 모델의 학습과 일반화 능력을 향상하는 데에 중요한 역할을 한다. 데이터 증강은 시간적 변환, 주파수적 변환, 노이즈 추가의 방법으로 구현된다. 데이터의 시간적 특성을 변화시키는 시간적 변환 기술에는 시간 스트레칭, 시간 반전 등이 해당한다. 데이터의 주파수 특성을 변화시키는 주파수적 변환 기술에는 피치 시프팅, BandPassFilter 등이 해당한다. 노이즈 추가는 데이터에 노이즈를 추가하여 데이터의 다양성을 증가시키는 기술이다.
처리 단계를 거친 데이터를 기반으로 분석한 결과를 법적 증거로 활용하고자 할 때는 재현 가능성을 고려하여야 한다. 즉, 다른 연구자나 전문가들도 동일한 데이터와 분석 절차를 사용하여 동일한 결과를 얻을 수 있도록 분석을 진행해야 한다. 이는 분석 결과의 신뢰성과 일관성을 제고하며, 해당 증거의 진정성과 무결성을 입증하는 데 도움이 된다.
3.4 분석
전처리가 완료된 데이터는 분석을 위한 과정에 진입한다. 이 단계에서는 데이터의 특성을 파악하고 유용한 정보를 추출하는 특징 추출과 인공지능 알고리즘에 기반한 학습 모델 선정에 중점을 둔다. 특징 추출은 데이터의 주요 특징을 정량적으로 표현하는 과정이며, 학습 모델 선정은 이러한 피쳐 또는 원시 데이터를 바탕으로 최적화에 적합한 모델 구조를 결정하는 과정에 해당한다.
예를 들어 음성 데이터에서 ZCR(Zero Crossing Rate)를 활용하여 소리 데이터 프레임 내에서 신호가 양에서 음에서 양으로 바뀌는 횟수를 계산하여 비율을 구해 초기 음성 및 노이즈 감지, 음성 활동 감지 등에 활용할 수 있다[12].
학습 모델 선정은 특정 또는 원시 데이터를 바탕으로 최적화에 적합한 모델 구조를 결정하는 과정이다. 해당 단계에서는 인공지능 알고리즘을 활용하여 데이터를 분석하고 예측하는 모델을 선택한다. 학습 모델의 선정은 데이터의 특성과 분석 목적에 따라 다양한 기준으로 이루어진다. Hand-crafted 피쳐 기반의 데이터 처리는 사전에 정의된 피쳐를 활용하여 모델을 학습시키는 방법이다. 소리의 비선형적이고 복잡한 특성을 모델링하기 위해서는 대량의 소리 데이터에서 효과적으로 유용한 특징을 자동으로 학습할 수 있는 CNN(Convolutional Neural Network)을 사용한다. 시간적으로 연속적인 소리 데이터의 특성을 모델링하기 위해서는 시퀀스 데이터를 처리하는데에 강점을 가지고 소리의 동적인 특성을 적절히 학습하여 모델의 예측 성능을 향상 시킬 수 있는 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)과 같은 모델을 사용한다.
이러한 특징 추출과 학습 모델 선정의 과정을 통해 데이터의 특징을 파악하고 유용한 정보를 추출하여 분석을 수행한다. 이를 통해 데이터의 의미를 해석하고 해결해야 하는 사례에 적합한 학습 모델을 선정하여 다양한 분야에서 의사결정과 문제 해결에 활용할 수 있다.
3.5 응용
분석 단계에서 도출된 주요 특징과 선택된 학습 모델에 기초하여, 응용 단계는 실제 직면한 문제에 적용하는 데 중점을 둔다. 이는 분석 단계에서 선택된 학습 모델이 실제 환경에서 어떻게 작동하는지를 보여주는 핵심적인 단계로, 예측, 분류, 추천과 같은 다양한 작업을 수행한다. 응용 단계에서는 음향 처리 기술, 음성 처리 기술, 음성 합성 및 변환 기술을 다룬다.
음향 처리 기술은 소리 데이터 이벤트 감지, 소리 데이터 소스 분리, 소리 데이터 소스 위치 추정을 포함한다. 소리 데이터 이벤트 감지는 소리 데이터에서 특정 이벤트나 소리를 감지하는 작업을 의미하며, 환경 소음 속에서 특정 소리를 감지하거나 분류하기 위해 사용된다. 소리 데이터 소스 분리는 다중 소리가 혼합된 소리 데이터에서 각각의 소리를 분리하는 작업을 의미하며, 복잡한 음향 환경에서도 원하는 소리를 추출할 수 있도록 한다. 소리 데이터 소스 위치 추정은 소리가 발생하는 위치를 찾아내는 작업을 의미하며 소리 신호가 가지는 방향성과 거리 정보를 분석하여 소리의 출처를 정밀하게 추정한다.
음성 처리 기술은 음성 텍스트 변환, 화자 분할, 음성 활동 감지, 음성 감정 분석, 합성 음성 감지를 포함한다.
음성 텍스트 변환은 음성을 텍스트로 변환하는 작업을 의미하며, 사용자가 말하는 음성을 실시간으로 문자로 전환하여, 컴퓨터가 이해하고 처리할 수 있도록 한다. 화자 분할은 다중 화자가 포함된 음성에서 각각의 화자를 분리하는 작업을 의미하며, 화자가 말하는 시간을 추적하여 누가 언제 말했는지를 추정할 수 있도록 한다. 음성 활동 감지는 음성 신호에서 음성이 포함된 부분을 감지하는 작업을 의미하며, 소리 데이터 스트림 내에서 실제로 말하는 부분만 추출하고, 정적이나 배경 소음과 같은 비음성 부분은 필터링할 수 있도록 한다. 음성 감정 분석은 사용자의 음성에서 감정을 탐지하고 분류하는 작업을 의미하며, 음성의 톤, 강도, 속도, 피치 등과 같은 다양한 음향적 특성을 분석하여, 화남, 기쁨, 슬픔 등의 감정 상태를 식별한다. 합성 음성 감지는 인공적으로 생성된 음성과 자연스러운 인간의 음성을 구분하는 작업을 의미하며, 음성 합성 기술이 매우 발전하면서, 함성 음성과 실제 음성의 차이를 구별하는 데 활용된다.
음성 합성 및 변환 기술은 텍스트 음성 변환, 소리 데이터 스타일 전송, 음성 변환, 음성 합성을 포함한다.
텍스트 음성 변환은 텍스트를 음성으로 변환하는 작업을 의미하며, 텍스트 데이터를 음성 데이터로 바꾸어 사용자가 텍스트 데이터를 음성 데이터로 들을 수 있도록 한다. 소리 데이터 스타일 전송은 한 소리 데이터의 스타일을 다른 음성에 적용하는 작업을 의미하며, 다른 소리 데이터의 스타일을 하나로 통일하는데 활용된다. 음성 변환은 한 화자의 음성을 다른 화자로 변환하는 작업을 의미하며, 음성의 피치, 강도, 음색 등을 변경하는 데 활용된다. 음성 합성은 텍스트를 기반으로 음성을 생성하는 작업을 의미하며, 인간의 음성을 모방하여 실제 사람이 말하는 것처럼 들리게 하는데 활용된다.
이러한 응용 단계에서의 기술들은 음향 및 음성 데이터를 활용하여 다양한 문제에 대한 솔루션을 제공하는 데 활용될 수 있다. 음향 처리, 음성 처리, 음성 합성 및 변환 등의 응용 기술을 통해 실제 환경에서 소리 데이터 이벤트 탐지, 음성 텍스트 변환, 텍스트 음성 변환 등을 자동화할 수 있다.
IV. 소리 데이터 대상 디지털 포렌식 기술
본 장에서는 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 사용되는 디지털 포렌식 기술을 확인한 후, 디지털 포렌식 기술에 활용되는 소리 데이터 요소 기술을 식별하고자 한다. 디지털 포렌식 기술은 식별 기술, 복구 기술, 검색 기술, 수집 기술, 분석 기술로 정의하였으며 해당 기술별로 해당하는 소리 데이터 요소 기술을 확인한 후, Fig.2와 같이 표현하였다.
Fig. 2. Sound Data’s Element Technology Utilized in Digital Forensic Technology
4.1 식별
식별 기술은 디지털 증거 출처의 각 계층을 확인해 나가는 과정에서 필요한 기술이며 오디오 포렌식 과정에서 식별 기술은 파일에서 소리 데이터를 식별하는 기술을 의미한다. 소리 데이터를 대상으로 하는 디지털 포렌식 식별 기술을 개발할 때는 소리 데이터 요소 기술 중 특징 추출 기술을 활용할 수 있다.
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서는 음악, 영상, 문서 등의 파일에서 오디오 콘텐츠를 식별하기 위해 파일 포맷을 분석하여 오디오 콘텐츠를 추출한 후, 해당 오디오 콘텐츠 내에서 소리 데이터를 식별해야 한다. 소리 데이터는 시간 영역과 주파수 영역으로 구성되어 있으며, 시간, 주파수, 진폭 등 다양한 차원에서 특성을 가진다. 이러한 소리 데이터 식별 기술을 개발하기 위해서는 특징 추출 기술을 활용할 수 있다.
4.2 복구
복구 기술은 사후에 남아있는 흔적을 분석하여 과거의 이벤트를 복구하는 기술이며 오디오 포렌식 과정에서는 소리 데이터에 존재하는 노이즈를 제거하는 기술을 의미한다. 소리 데이터를 대상으로 하는 디지털 포렌식 복구 기술을 개발할 때는 소리 데이터 요소 기술 중 노이즈 제거 기술을 활용할 수 있다.
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서는 음성 명료도 및 가청도를 향상해 노이즈가 추가되기 전의 대화 내용, 발화자 등의 정보를 복구하여야 한다. 이러한 소리 데이터 복구 기술을 개발하기 위해서는 주파수 도메인, 통계적 특성, 그리고 멀티 스케일 및 멀티 해상도 변환 노이즈 제거 기술을 활용할 수 있다.
4.3 검색
검색 기술은 특정 조건을 만족하는 디지털 증거 출처의 요소들을 찾기 위해 사용하는 기술이며 오디오 포렌식 과정에서는 식별 기술로 해석된 소리 데이터 콘텐츠를 분석한 결과를 대상으로 검색하는 기술을 의미한다. 소리 데이터를 대상으로 하는 디지털 포렌식 검색 기술을 개발할 때는 소리 데이터 요소 기술 중 오디오 이벤트 감지 및 오디오 소스 위치 추정 기술을 활용할 수 있다.
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서는 소리 데이터를 분석하여 오디오 이벤트를 감지하거나 오디오 소스의 위치를 추정한 결과에 대한 검색이 가능해야 한다. 소리 데이터를 분석하여 오디오 이벤트를 감지하는 기술을 개발하기 위해서는 특정 이벤트와 관련된 소리 데이터를 수집하여 라벨을 지정하여 저장한 후, 해당 소리 데이터의 특징을 추출한다. 추출한 특성을 AI 모델에 학습시켜 이를 오디오 이벤트 탐지 기술 개발에 활용할 수 있다.
또한, 오디오 소스의 위치를 추정하는 기술을 개발하기 위해서는 오디오 소스의 위치에서 소리 데이터를 수집하여 라벨을 지정하여 저장한 후, 해당 소리 데이터의 특징을 추출한다. 추출한 특성을 전력 공급에 대한 지리적 환경 정보를 담고 있는 ENF(Electric Network Frequency) 데이터베이스와 비교하여 오디오 소스 위치 추정 기술 개발에 활용할 수 있다.
4.4 수집
수집 기술은 디지털 증거 출처에서 디지털 포렌식의 요구사항을 충족하는 구성 요소들의 집합인 디지털 증거 후보군을 추출하는 기술이며 오디오 포렌식 과정에서는 디지털 증거 출처에서 소리 데이터를 수집하는 기술을 의미한다. 소리 데이터를 대상으로 하는 수집 기술의 목표는 소리 데이터를 오디오 콘텐츠에서 추출하는 것이며 이는 소리 데이터를 대상으로 하는 식별 기술이 구현하고자 하는 목표와 동일하다. 수집 기술과 식별 기술이 구현하고자 하는 목표가 동일하기에 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 수집 기술을 개발할 때는 4.1. 식별 기술에서 사용한 특징 추출 기술을 동일하게 활용한다.
4.5 분석
분석 기술은 디지털 증거 출처 혹은 디지털 증거 후보군을 분석하여 과거에 발생했던 이벤트들을 추적함으로써 실체적 진실을 확인하는 기술이며 오디오 포렌식 과정에서는 소리 데이터를 분석하여 화자 식별, 위변조 탐지 등을 위한 기술을 의미한다. 소리 데이터를 대상으로 하는 디지털 포렌식 분석 기술을 개발할 때는 소리 데이터 요소 기술 중 노이즈 제거 기술, 특징 추출 기술을 활용할 수 있다.
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서는 화자 식별을 하기 위해 노이즈 제거 기술을 활용하여 음성 명료도 및 가청도를 향상한다. 음성 명료도 및 가청도를 향상한 후, 특징 추출 기술을 활용하여 소리 데이터를 추출한다. 추출한 소리 데이터를 바탕으로 응용 단계의 음성 텍스트 변환 기술, 화자 분할 기술 등을 활용하여 화자를 식별할 수 있다.
또한, 특징 추출 기술을 활용하여 소리 데이터를 추출한 다음 주파수를 분석하여 소리 데이터가 비연속적인지 확인하여 이를 바탕으로 위변조 탐지를 할 수 있다.
V. 사례 연구
소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 활용되는 디지털 포렌식 기술을 개발할 때, 본 연구에서 제시한 Life-Cycle 기반 소리 데이터 요소 기술 식별 체계를 활용할 수 있는지 소리 데이터 기반 응급상황 검색 기술 개발 사례를 통해 확인하고자 한다.
최근에는 AI 감시 시스템이 재난과 사고를 예방하기 위해 많이 사용되고 있으며 대부분 영상을 기반으로 동작한다. 그러나 단순히 인구 밀집도가 높은 상황과 같이 영상 기반 시스템만으로는 응급상황 여부 판단이 어려운 경우가 존재한다. 이에 디지털 포렌식 과정에서 응급상황을 소리 데이터를 활용하여 검색하는 기술을 개발하고자 한다. 소리 데이터 기반 응급상황 검색 기술을 개발하기 위해서는 여러 소리 데이터에서 응급상황과 관련된 소리 데이터를 탐지하는 AI 모델을 먼저 개발하여야 한다.
이에 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하는 데에 필요한 요소 기술을 소리 데이터 Life-Cycle 상에서 확인한 후, 이를 활용하여 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하고자 한다.
5.1 수집
수집 단계는 데이터 분석 모델을 구축하는 데 활용되는 데이터를 확보하는 단계이다. 본 실험에서는 응급상황을 탐지하는 모델을 구축하기 위해 데이터 수집 단계에서 공개 데이터 세트를 활용한다.
한국지능정보사회진흥원이 운영하는 AI 통합 플랫폼(AI-Hub)에서 제공하는 응급상황 소리 데이터와 도시 소리 데이터 세트를 공개 데이터 세트로 활용하였다[13][14]. 본 실험에서 활용하는 데이터 세트는 14종의 응급상황 관련 소리 데이터, 24종의 도시 소리/소음 관련 음향 데이터, 실내 소리 데이터, 그리고 실외 소리 데이터로 구성되어 있다. 구체적인 데이터 세트의 구성은 Fig.3의 x축 또는 y축 값을 통해 확인할 수 있다.
Fig. 3. Confusion Matrix
5.2 저장
저장 단계는 데이터 분석을 위해 수집된 데이터를 안정적으로 보관하고, 추후 분석 단계에서의 효율적인 활용을 위한 전처리 과정을 포함한다. 이 과정에서 데이터의 형식, 저장 위치, 메타데이터 관리, 보안, 백업 등 다양한 요소들을 고려해야 한다. 일반적으로 공개 데이터 세트는 표준화된 형식으로 저장되고, 연구자나 분석가들이 쉽게 활용할 수 있도록 설계된다. 따라서 본 실험의 저장 단계에서는 응급 상황 음성/음향 공개 데이터 세트와 도시 소리 데이터 세트의 구조와 특성을 정확히 파악하고, 이를 실험의 목적과 방향성에 맞게 준비하고 활용한다.
응급 상황 소리 데이터는 16종의 응급상황 관련음성/음향 데이터를 포함하고 있으며 치안안전, 소방 안전, 자연재해, 사고발생, 일반(위급), 일반(정상) 6개의 대분류와 구체적인 상황을 나타내는 중분류로 표현되며, 중분류의 경우, 비명 소리와 같은 단순 음향 정보만으로는 특정 상황을 구분하기에 모호하므로 음향 정보와 동시에 특정 텍스트의 발화함으로써 각 상황을 구분할 수 있으며 16bit 44.1kHz의 WAV 포맷 파일과 각 파일에 대응하는 JSON 파일 쌍으로 구성되어 있다. 각 WAV 파일의 재생 길이는 각각 다르며, 대략 3~15초 사이의 분포를 가지는 것으로 추정된다. Training 폴더에 할당된 학습 데이터의 개수는 441,519개이며 Validation 폴더에 할당된 검증 데이터 개수는 55,882개이다.
이와 유사하게 도시 소리 데이터는 24종의 도시 소리/소음 관련 음향 데이터를 포함하고 있으며 교통 소음, 생활소음, 사업장소음 3개의 대분류와 자동차, 이륜자동차, 항공기, 열차, 충격, 가전, 동물, 도구, 공사장, 공장 10개의 중분류, 그리고 구체적인 상황 및 환경을 나타내는 소분류로 표현되며 44.1 kHz의 WAV 포맷 파일과 각 파일에 대응하는 JSON 파일 쌍으로 구성되어 있다. 하지만 705kbps 이상의 높은 비트레이트로 기록되어 보다 고품질의 데이터로 형성되어 있다. 도시 소리 데이터도 마찬가지로 각 WAV 파일의 재생 길이는 각각 다르며, 대략 3~15초 사이의 분포를 가지는 것으로 추정된다. Trainig 폴더에 할당된 학습 데이터의 개수는 61,778개이며, Validation 폴더에 할당된 검증 데이터 개수는 6,015개다.
5.3 처리
처리 단계는 수집된 데이터가 그 자체로 분석에 적합하지 않을 때 거치는 단계이다. 따라서, 처리 단계에서는 데이터를 분석에 적합한 형태로 변환하는 전처리 작업을 중점적으로 수행한다. 하지만, 본 사례 연구에서 활용하는 AI-Hub에 공개된 응급 상황 데이터는 이미 다양한 상황과 환경에서 수집된 데이터로 구성되어 있기에 신뢰성이 높아 분석에 적합하다. 따라서, 본 사례 연구에서는 처리 단계를 추가로 거치치 않고 AI-Hub에서 제공된 데이터를 분석에 활용하였다.
5.4 분석
분석 단계는 앞서 처리된 데이터의 특성을 바탕으로 특징을 추출하고 최적화된 모델링 전략을 도출하는 과정이다. 먼저 데이터의 특징을 추출하고 이를 바탕으로 가장 적합한 모델 구조와 학습 방법을 선택하고 구축된 소리 데이터를 통해 모델을 업데이트 한다. 그리고 모델이 실제 환경에서 얼마나 잘 작동하는지를 측정하기 위해 정확도, 정밀도, 재현율 등의 다양한 지표를 이용하여 성능 평가를 수행할 수 있으며 모델의 전반적인 구조나 학습 전략을 수정하는 데에 활용될 수 있다.
5.4.1 특징 추출
본 실험에서는 소리 데이터의 특징 추출에 활용되는 Mel-Spectrogram이나 MFCC를 분석에 사용하는 대신 원본 Waveform 데이터를 직접 소리 데이터 분석에 사용한다. Waveform 데이터는 복잡한 변환을 거치지 않은 소리의 원래 형태로, 데이터에 대한 직관적인 이해가 가능하다. 또한, 원본 데이터를 직접 활용하면 변환 과정에서의 정보 손실을 최소화 할 수 있다. 이와 더불어 최신 딥러닝 모델은 성능 고도화를 위해 정보 손실을 최소화하며 원본 데이터에서 모델이 다양한 특징을 스스로 학습할 수 있도록 설계되고 있기에 원본 Waveform 데이터를 활용하여 분석을 진행하였다.
본 연구에서 사용하는 응급 상황 공개 데이터 세트에서 제공하고 있는 원본 WAV 파일은 44,100Hz의 sampling rate를 가지고 있어, 디테일한 소리 데이터의 정보를 포함하고 있다. 그러나 이렇게 높은 sampling rate는 모델 학습에 있어 많은 시간과 메모리를 소요시킬 수 있다. 인간의 청각 범위는 대략 20Hz에서 20,000Hz이므로, 모델 학습에 필요한 핵심 정보를 보존하면서도 효율성을 높이기 위해 sampling rate를 16,000Hz로 조정한다. 이런 down sampling 과정을 통해, 원래 5초 동안 220,500개의 데이터 포인트로 표현되던 소리 데이터를 80,000개의 데이터 포인트로 압축하여 표현할 수 있게 된다.
각 WAV 파일은 다양한 소리의 길이를 가지고 있어, 처리와 학습에 있어 일관성이 부족할 수 있다. 이러한 변동성을 해결하기 위해 본 실험에서는 Zero Padding, Time Stretching 기술을 사용하여 모든 소리 데이터의 길이를 고정된 값인 5초로 통일시키는 작업을 진행한다. 이렇게 함으로써 배치 처리를 통한 효율적인 학습이 가능하게 되고, 모델의 성능 변동성을 최소화할 수 있다.
5.4.2 학습 모델 선정
특징 추출 후, 학습 모델을 선정하는 데에 있어 입력값인 소리 데이터가 시퀀스 데이터인 점을 고려하였다. 시퀀스 데이터는 시간 순서에 따라 배열된 데이터 요소들로 구성되며, 소리 데이터의 경우 시간에 따라 변화하는 소리의 리듬, 강도, 주파수 등을 포함하고 있어 소리 데이터를 분석하는 경우에는 소리 데이터의 시퀀스적 특성을 고려해야 할 필요가 있다. 이러한 특성을 반영하여 학습 모델로 BEATs (Bidirectional Encoder represenation from Audio Transformers)를 선정하였으며 이를 활용하여 소리 데이터를 분류할 수 있는 모델을 설계하였다.
BEATs는 2022년 12월에 공개된 Transformers 기반의 최신 아키텍처로 Google AudioSet과 같은 소리 데이터 분류 분야에서 가장 광범위하게 활용되는 데이터 세트에서 최상의 성능을 보여주었다. 또한 해당 논문에서는 효과적으로 설계된 self-supervised pre-training 방식을 통해 얻은 사전 학습된 모델을 활용하면, fine-tuning 과정에서도 제한된 양의 데이터로 충분한 학습 효과를 볼 수 있다고 강조한다. 이러한 전이 학습 전략은 소리 데이터 분석의 실용적 측면에서 큰 장점을 가질 수 있기에 본 실험에서는 공개된 BEATs 아키텍처의 사전 학습 모델의 가중치를 기반으로 모델링을 수행한다.
본 실험에서의 모델은 데이터 세트의 구성에 따라 40개의 유형을 학습하여 각각을 식별할 수 있도록 설계된다. 따라서 모델은 소리 데이터 샘플을 입력받아 그 샘플이 어떤 소리 유형에 속하는지를 40개의 확률 값으로 출력한다. 이때, 출력된 확률 중에서 가장 높은 값을 가진 유형이 모델이 최종적으로 예측한 해당 소리 데이터 샘플의 소리 유형으로 간주된다. 본 실험에서는 배치 크기를 256으로 설정하였고, 20 Epoch 동안 학습이 수행되었다. 배치 크기란 한 번의 학습 단계에서 네트워크에 전달되는 데이터 샘플의 수를 나타내며, Epoch는 전체 학습 데이터 세트가 한 번 학습 알고리즘을 통과하는 과정을 의미한다.
본 실험에서 사용된 모델은 61,897개의 학습되지 않은 검증 데이터를 통해 평가되었다. 전체적인 성능 지표로는 정확도와 f1-score를 기반으로 검증하였고, 높은 정확도인 99.66%와 98.99%의 f1-score를 달성하였다.
5.5 응용
위의 분석 결과를 바탕으로 소리 데이터 기반 응급상황 탐지가 가능함을 확인하였다. 실험에서는 다양한 지표를 기반으로 모델의 성능을 평가하였고, 매우 높은 정확도와 f1-score를 달성하였다. 해당 모델을 활용하여 응급상황 검색 기술을 개발한다면, 소리 데이터를 포함하고 있는 증거 중 응급상황과 관련된 소리 데이터 검색이 가능하여 효율적인 포렌식이 가능할 것이다.
5.6 논의
사례 연구를 통해 응급상황 탐지 문제를 소리 데이터를 활용하여 해결하고자 본 연구에서 제시한 Life-cycle 기반으로 식별한 소리 데이터 요소 기술을 활용하여 분석을 진행하였다. 분석을 통해 소리 데이터 기반 응급상황 탐지 AI 모델을 개발하였다. 이는 오디오 포렌식 과정에서 원하는 상황의 오디오 데이터를 찾는 데에 활용될 수 있다. 이처럼 디지털 증거 내에서 오디오 데이터를 수집, 분석 및 평가하기 위해 본 연구에서 제시한 Life-Cycle에 따라 목적에 맞는 기술을 개발하고 해당 기술을 Autopsy API와 같은 포렌식 도구와 함께 활용하게 된다면 효율적인 오디오 포렌식을 가능하게 할 것이다.
VI. 결론
본 연구는 소리 데이터의 요소 기술을 수집, 저장, 처리, 분석, 응용 단계로 분류한 Life-Cycle에 맞게 식별하였다. 또한 소리 데이터를 대상으로 하는 디지털 포렌식 과정에서 필요한 기술을 본 연구에서 제시한 Life-Cycle 기반 소리 데이터 요소 기술과 매핑하였다. 이를 바탕으로 응급상황을 탐지하는 문제를 해결하기 위해 소리 데이터를 대상으로 하는 디지털 포렌식 기술을 개발하는 과정을 사례 연구를 통해 제시하였다. 해당 사례 연구를 통해 본 연구에서 식별한 Life-Cycle 기반 소리 데이터 요소 기술을 분석에 활용하게 된다면 응급상황 탐지와 같은 실제 상황의 문제를 해결할 수 있음을 확인하였다. 이와 같이 디지털 포렌식 과정에서 소리 데이터의 분석이 필요한 경우를 미리 식별하고 해당 케이스에 맞는 기술을 수집, 저장, 처리, 분석, 응용 단계에서의 적절한 요소 기술을 활용하여 개발한다면 정확하고 효율적인 오디오 포렌식을 실현할 수 있다. 사례 연구를 통해 현대의 소리 데이터 분석 기법의 능력을 입증하였지만, 실제 복잡한 환경에서의 사례 연구에서 제시한 방법을 그대로 적용하는 과정에 있어서는 주의가 필요하다. 각 소리 데이터는 높은 품질의 포맷으로 제공되지만, 그 내용이 실제 상황에서 녹음되는 대신 작업자에 의해 연출되거나 합성되어 생성된 것이다. 따라서 이를 기반으로 구축한 모델은 현실 세계의 복잡성을 완전히 반영하지 못할 수 있으므로 실험 결과로써 특정 조건에서의 성능은 나타낼 수 있으나, 일반화를 하기에는 한계가 있다. 이러한 한계를 극복하기 위해서는 다양한 환경에서의 데이터 수집이 선행되어야 한다.
이에 자연 환경, 도시 환경, 실내 환경 등 다양한 환경에서 소리 데이터를 수집하여 모델의 일반화 능력을 향상시키는 향후 연구를 진행할 것이다. 또한, 소리 데이터 분석 기법에 대한 체계적인 정의화 표준화를 추진하기 위해 소리 데이터 분석에 활용되는 알고리즘과 모델의 개선과 연구를 진행할 계획이다.
References
- Z. Ali, M. Imran and M. Alsulaiman,"An Automatic Digital Audio Authentication/Forensics System," IEEE Access, vol. 5, pp. 2994-3007, 2017. https://doi.org/10.1109/ACCESS.2017.2672681
- Watkinson, John. "An Introduction to digital audio," Taylor&Francis, 2002.
- Doowon Jeong, "Introduction to Digital Forensics," Dongguk University Press, Seoul, 2023
- Doowon Jeong, "Digital Forensics Framework Based on Digital Evidence," Ph.D.diss., University of Korea, Seoul, Feb. 2019.
- Zakariah, Mohammed, Muhammad Khurram Khan, and Hafiz Malik,"Digital multimedia audio forensics:past, present and future," Multimedia tools and applications, vol. 77, pp.1009-1040, Jan, 2018 https://doi.org/10.1007/s11042-016-4277-2
- Bok, Gyeong-Su and Yu, Jae-Su, "Big Data in the Fourth Industrial Revolution," Communications of the Korean Institute of Information Scientists and Engineers, 35(6), pp. 29-39, June. 2017.
- AlZoubi, O., Tawalbeh, S. K., and Mohammad, A. S., "Affect detection from arabic tweets using ensemble and deep learning techniques," Journal of King Saud University Computer and Information Sciences, vol. 34, no. 6, pp. 2529-2539, June. 2022. https://doi.org/10.1016/j.jksuci.2020.09.013
- Nakano, F. K., Cerri, R., and Vens, C., "Active learning for hierarchical multi-label classification," Data Mining and Knowledge Discovery, vol. 34, pp. 1496-1530, July. 2020. https://doi.org/10.1007/s10618-020-00704-w
- S. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp 113-120, April. 1979. https://doi.org/10.1109/TASSP.1979.1163209
- Benesty, J., Makino, S., Chen, J., Benesty, J., Chen, J., Huang, Y., and Doclo, S., "Study of the Wiener filter for noise reduction," Speech enhancement, pp. 9-41, Mar. 2005.
- Sardy, S., Tseng, P., and Bruce, A."Robust wavelet denoising," IEEETransactions on Signal Processing, vol. 49, no. 6, pp. 1146-1152. June.2001. https://doi.org/10.1109/78.923297
- Bachu, R. G., Kopparthi, S., Adapa,B., and Barkana, B. D., "Separation of voiced and unvoiced usingzerocrossing rate and energy of the speech signal," American Society for Engineering Education, pp. 1-7, June. 2008.
- "Emergency Audio/Sound Data", "AIHub Emergency Audio/SoundData", AI-Hub, https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=170, accessed Dec 11. 2023.
- "Urban Sound Data", "AI Hub Urban Sound Data", AI-Hub, https://www.ai hub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=585, accessed Dec 11. 2023.