I. 서론
최근 디지털 기술 및 스마트폰이 발전함에 따라 오디오, 비디오를 위변조하거나 딥페이크 합성물을 만드는 등 미디어를 범죄에 악용하는 일이 증가하고 있다[1]. 사이버범죄 뿐 아니라 일반 범죄에 대한 디지털 증거로써 통화 녹음과 같은 음성파일을 활용하고자 하는 수요가 급증하였다[2]. 특히 인공지능을 기반으로 자동 통화 녹음 기능을 제공하고 통화 내용을 요약해주는 에이닷과 같은 서비스가 제공되어 음성파일에 대한 접근이 더욱 용이해지고 있다[3]. 음성파일이 법정에서 증거능력을 인정받기 위해서는 무결성 및 신뢰성을 입증하는 것이 중요하다[4]. 형사소송법은 음성파일과 같은 디지털 증거의 증거능력을 인정하기 위해 동일성 입증을 중요하게 생각한다. 법원 판례는 증거의 원본성을 오디오 파일의 증거능력 인정 요건으로 제시하였다[5][6]. 디지털 증거는 삭제나 편집 등 위변조 행위에 취약하다는 특징이 있고 정교하게 편집되거나 원본이 없을 시 위변조 여부를 식별하는 일이 어려워 법정에서 증거능력에 대한 문제가 제기될 수 있다. 증거능력 인정 여부는 법정에서 유무죄를 판단하고 형량을 결정하는 등 중대한 영향을 끼칠 수 있어 객관적인 근거를 기반으로 도출되어야 한다. 디지털 증거 특히, 음성파일의 위변조 및 편집 여부를 식별하고 분석하는 방안을 다루는 연구가 필요하다.
관련 연구는 디지털 증거로써 음성파일의 증거능력을 다루거나 위변조 여부를 식별하는 내용으로 진행되어 왔으나, 다양한 확장자나 편집 애플리케이션에서의 행위를 비교하는 데 중점을 두곤 하였다. 본 연구는 동일한 확장자에서 편집 길이나 구간을 상이하게 선정하여 비교 후 원본 파일 없이도 음성파일의 위변조 여부를 객관적으로 식별할 수 있는 값을 제시하고자 한다. 아이폰(iOS 17.6.1)을 기반으로 생성된 음성파일(M4A)을 대상으로 아이폰 기본 애플리케이션인 ‘음성 메모’를 통해 삭제, 다듬기, 대치 행위를 수행한 뒤 원본과 위변조 파일 간 비교를 실시하였다. 아이폰의 음성 메모는 사용하기 간편하고 범용적이기에 많은 사람들이 이를 통해 음성파일을 생성하고 있어 분석 대상으로 정하게 되었다. 다만 음성 메모를 통하여 수행할 수 있는 편집 행위가 3가지로 한정되어 있어 3가지 편집 행위만을 대상으로 하여 파일 구조, 값 등을 중점적으로 비교ㆍ분석하는 과정을 거쳤다. 위변조되었을 시 공통적으로 발견되는 특징을 찾고, 음성파일을 투입하였을 때 자동으로 위변조 여부를 식별할 수 있는 코드를 개발하여 신속하게 음성파일의 위변조 여부를 식별할 수 있도록 구현하였다.
제2장에서는 음성파일, 편집 기법 등과 관련된 이론적 배경과 관련 선행 연구를 살펴본다. 제3장에서는 음성파일 위변조 분석 실험을 진행하고, 음성파일의 위변조를 판단할 수 있는 요소를 도출한다. 제4장은 연구 결과 기반의 코드를 통해 음성파일 위변조 여부를 식별하여 연구 결과를 검증한다. 제5장에서는 연구 내용 및 결과를 종합한다.
II. 음성파일 위변조 이론 및 선행연구
2.1 음성파일
스마트폰(갤럭시, 아이폰)으로 녹음된 음성파일의 경우 주로 ‘M4A’ 파일 형식으로 저장된다[7]. M4A 파일은 MPEG-4 포맷의 오디오 전용 버전으로, ISO/IEC 14496-12 표준을 따른다. M4A 파일은 여러 박스(boxes) 혹은 아톰(atom)으로 구성되어 있으며, 각 박스는 메타데이터 등의 데이터를 포함한다. ISO/IEC 14496-12 표준을 따르는 파일 형식은 File Type Box, Media Data Box, Movie Box 등으로 이루어진 구조를 가진다[8]. Free Space Box는 실제 데이터나 정보를 포함하지 않는 박스로, 파일 구조 내에서 특정 위치에 빈 공간을 확보하는 등의 목적을 위해 존재한다[9].
M4A 파일의 Movie Header Box(mvhd)는 전체 비디오 파일의 헤더 정보를 포함하며 version, Duration, Creation Time 등을 포함한다[10]. Creation Time은 생성 시간을, Modification Time은 수정 시간을 나타내고 모두 시간 설정에 종속되는 특징을 가지고 있다. 같은 박스의 Duration 값은 보통 M4A 파일의 길이로 정의된 Time Scale에 따른 전체 길이(초)를 의미한다. Time Scale은 프레임 속도와 오디오 샘플링 속도를 제어하는 요소로 1초에 포함된 시간 단위 수를 나타낸다[11]. Bit Rate는 특정 시간 단위(보통 초 단위)마다 처리하는 비트의 수, 즉 정보처리 속도를 말한다[12].
2.2 음성파일 편집 기법
음성파일의 편집 방식은 크게 삭제(Deletion), 삽입(Insertion), 연결(Connection), 합성(Overlap) 4가지로 구분된다[13]. 다만 본 연구에서 활용한 아이폰 ‘음성 메모’ 애플리케이션에서 지원하는 기능은 삭제, 다듬기, 대치이기에 그에 대해서만 다루기로 한다. 삭제(Deletion)는 앞 혹은 뒤, 중간의 특정 부분을 선택하여 제거하는 기능이다. 다듬기(Trim)는 삭제와 유사하나, 선택한 부분을 유지하고 나머지 부분을 삭제한다는 점에서 상이하다. 예를 들어 1분 17초의 음성파일에서 앞의 17초를 ‘삭제’하면 선택한 부분이 제거되고 나머지 약 1분 분량의 음성파일이 남는다. 반면 같은 음성파일에서 앞의 17초를 ‘다듬기’하면, 선택한 17초가 남고 선택하지 않은 나머지 1분 가량이 없어진다. 즉, 선택한 부분이 제거되는지 혹은 잔존하는지가 다르다. 대치(Replacement)는 사용자가 선택한 부분을 새로운 음성으로 대체하는 기능으로, ‘대치’ 버튼을 누를 시 기존의 녹음이 삭제되는 동시에 새로운 녹음이 대체된다.
2.3 선행 연구
Jinhua Zeng et al.[14]은 아이폰의 ‘음성 메모’ 애플리케이션을 통하여 생성한 음성파일이 파일 구조, 메타데이터 속성 데이터 등에 있어 특정한 패턴을 지니고 있음을 입증하였다. 기본 구조를 확인하고 각 박스 내에 포함되는 정보와 마지막 수정 시간이 생성 시간, 길이, operation time의 합과 같아야 한다는 결과를 도출하였다. 즉, 음성 메모 애플리케이션을 통하여 생성된 음성 녹음 파일(M4A)의 기본 데이터를 파악함으로써 해당 특징과 동일하지 않을 시 위변조되었다고 추정할 수 있는 요소를 제시하였다. 박남인 등[15]은 파일 포맷ㆍ구조와 mvhd 박스 내에서 발견되는 특정 문자열 등이 편집 시에 변경될 수 있음을 확인하였고, 디지털 오디오 파일의 편집 여부 분석 절차를 제안하였다. Marcin MICHALEK[16]은 안드로이드의 운영체제에서 생성된 음성 녹음 파일 원본에서는 있었던 박스(아톰)가 제거되거나 MPEG-4 오디오 파일과 관련하여 ‘com.android.version’와 같은 메타데이터 값을 확인하여 음성 녹음 파일의 파일 구조 또는 메타데이터를 통하여 위변조 여부를 식별하였다. P. S. Marathe et al.[17]은 MP3 및 M4A 파일을 대상으로 WhatsApp 메신저를 통한 전송, 편집 애플리케이션을 통한 변환ㆍ편집 등의 행위를 수행한 바 있다. 이를 통해 위변조 행위 수행 시 음성 녹음 파일의 컨테이너 박스 구조와 하위 속성이 변경됨을 밝혀냈다. Son. H. et al.[18]의 연구는 M4A 파일을 대상으로 기본 음성 메모 애플리케이션(갤럭시, 아이폰)과 별도의 편집 애플리케이션(DemoCreator)으로 편집했을 시 변경되는 것과 변경되지 않는 것으로 구분 후 비교를 수행하여 음성 녹음 파일(M4A)을 편집할 경우 파일 구조, 메타데이터 속성 측면에서 원본과 구분되는 차이점을 발견하였다.
박재완 등[19]은 아이폰 6s(iOS 12.xx)로 생성한 음성 녹음 파일의 구조 및 메타데이터를 조작하여 해당 조작본을 원본과 동일하게 구현할 수 있는지 실험하였다. 아이폰 기본 음성 애플리케이션인 ‘음성 메모’의 다듬기 기능 등을 사용하여 결과적으로 위변조 행위로 인하여 발생한 파일 구조ㆍ메타데이터의 변경은 HxD 등을 통하여 원본과 동일하게 만드는데 성공하였다. 위변조 행위 수행 시 파일 구조와 메타데이터에서 원본과의 차이가 나타난다는 것과 음성 녹음 파일이 법정에서의 디지털 증거로 채택됨에 대한 의문을 제기하고 있다. 백성원[20]의 연구 또한 오디오 파일 메타데이터와 구조의 조작이 가능함을 삼성 스마트폰을 대상의 실험을 통하여 입증하였다. 편집된 파일의 구조와 메타데이터를 원본과 동일하게 조작하는 데 성공하였다. 한상민 등[13]의 연구는 파일 구조와 메타데이터로 파일의 위변조 여부를 수행하는 방식에 한계를 느끼고 ‘스펙트로그램’을 활용하고자 하였다. 아이폰 XS MAX(iOS 16.02)를 통하여 생성한 음성 녹음 파일을 삭제, 삽입, 연결, 합성 편집을 한 뒤 원본 및 편집 파일의 스펙트로그램을 비교하였다. 삭제, 삽입 시에 원본과 눈에 띄게 비교되는 특이점이 없었고 특이점이 발견된 경우(아이폰 파일 내 연결 편집 등)에도 추가 인코딩 작업을 거치면 위변조 여부 식별이 어려웠다. 스펙트로그램을 통한 음성파일 위변조 분석 방안의 한계점을 제시하였다고 볼 수 있다. 이처럼 스마트폰으로 생성한 음성파일의 위변조를 식별하고자 하는 연구가 진행되어왔다. 다만 주로 다양한 확장자나 애플리케이션 간 비교를 중점으로 다루고 있다. 위변조 분석 방안 및 음성파일 증거능력 입증에 대한 의문이 꾸준히 제기되고 있기에 음성파일이 법정에서 증거로 활용되기 위한 더 신뢰적인 위변조 분석 요소ㆍ기법이 필요하다고 판단된다.
III. 음성파일 위변조 분석 실험
3.1 실험 설계
iPhone12mini(iOS 17.6.1)로 녹음한 음성파일(M4A)을 대상으로 길이 1분, 15분, 30분, 45분, 60분으로 구분하여 총 5개의 원본 음성파일을 생성하였다. 원본 M4A 파일은 행위자가 ‘정지’ 버튼을 누르지 않아 녹음 시작과 끝 사이에 정지 구간이 없이 끊임없이 녹음이 진행되었다는 가정에서 생성된 것이다. 위변조 행위는 아이폰 음성 메모로 수행할 수 있는 삭제, 다듬기, 대치를 수행하였다. 위변조 행위는 음성파일의 앞, 중간, 뒷부분으로 나누어 각 영역에서 행위가 이루어졌다. 사용자가 임의로 변경할 수 있는 스마트폰 시간대가 음성파일의 생성 혹은 수정 시간에 영향을 줄 수 있는 행위라고 판단되어 스마트폰 자체 시간을 변경하였거나 변경된 상태에서 편집한 파일도 실험 대상에 포함하였다.
① 원본 파일은 아이폰 기본 애플리케이션(이하 ‘음성 메모’ 을 통하여 녹음한 M4A 파일이고, ② 기본 편집 파일은 음성 메모를 통하여 삭제(Deletion), 다듬기(Trim), 대치(Replacement) 행위를 수행한 것이다[Table 1]. ③ 시간 변경 파일은 녹음 및 위변조 행위가 수행되는 디바이스의 기기설정 시간을 변경한 뒤 ② 기본 편집 파일과 동일한 과정을 거친 파일을 말한다. 실험 대상 편집 파일은 총 90개로 구성하였다[Table 2].
Table 1. Original file overview

Table 2. Forgery file for experiment overview

* ‘n’은 ① 원본 파일의 길이에 따른 번호를 의미한다. 예를 들어 ‘②-2-D_Start’ 파일은 15분의 원본 파일을 음성 메모를 통해 앞부분을 삭제한 파일이다.
MP4 Inspector(0.1.2.0 (Beta))를 통해 파일 구조 순서와 속성 값을 확인하였고 속성 값에는 Time Scale, MAC Time(파일 수정ㆍ생성 시간), Bit Rate 등이 포함된다. 원본 파일 5개의 구조 순서가 동일한지를 우선적으로 확인한 뒤, 원본과 편집 및 시간 변경 파일 간 차이가 나타나는 부분을 파악하였다.
원본 M4A 파일의 경우 길이 및 용량에 상관없이 5개 모두 동일한 구조를 가졌다. 가장 크게 ftyp, mdat, moov, free 박스 그리고 moov 하위에 mvhd, trak(sound), udta 등이 있음을 확인하였다. 파일 Header와 udta\meta\ilst\----와 udta\meta\ilst\ⓒtoo\data 경로에서 아이폰 기본앱(com.apple.voicememos)으로 녹음하였다는 사실을 확인할 수 있었다. 구체적으로 파일 Header의 경우 Compatible Brand가 Apple iTunes AAC-LC Audio인 “M4A”를 udta\meta\ilst\----에서는 ‘com.apple.iTunes’, ‘voice-memo-uuid’ 값을 확인하였다. udta\meta\ilst\ⓒtoo\data의 경우 ‘com.apple.VoiceMemos’라는 값이 발견되어 아이폰 음성 메모 애플리케이션으로 생성되었음을 확인할 수 있었고, 나아가 녹음 파일을 생성한 아이폰의 운영체제 버전이 iPhone 17.6.1인 사실 또한 나타났다.
3.2 실험 결과
3.2.1 기본 편집 파일
iOS 14 이후 아이폰 내에서 이루어지는 편집 행위에 대한 기록이 저장되기 때문에 본 실험에서의 분석은 음성파일을 생성한 스마트폰이 없고 파일만이 존재하는 상태에서 수행된 것이라고 가정한다. 기본 편집 파일은 음성 메모를 통해 원본 파일 5개 각각에 대하여 시작, 중간, 끝부분에서 삭제, 다듬기, 대치 행위를 수행하였고 총 45개의 파일이 생성되었다. 파일 구조는 원본 M4A 파일과 동일하였다. 원본 파일에서 확인할 수 있었던 udta\meta\ilst\----, udta\meta\ilst\ⓒtoo\data 경로 내 ‘com.apple.voicememos’값과 dta\meta\ilst\----의 ‘com.apple.iTunes’, ‘voice-memo-uuid’ 값 또한 확인할 수 있었다. 아이폰 음성 메모로 모든 편집 행위를 수행하였기에 나타난 결과라고 추정되며, 파일 구조 혹은 Header만으로 음성파일 위변조 여부를 식별하기 어렵다고 할 수 있다.
‘moov\mvhd(Movie Header Box) 경로 내 Time Scale 값의 경우 ① 원본 파일은 5개 파일 모두 Time Scale 값이 ‘48,000’으로 나타났다. ② 기본 편집 파일의 경우 중간 부분을 삭제한 ②-n-D_Middle에 해당하는 파일 5개와 대치 행위를 수행한 ②-n-R_Start, Middle, End 파일 15개를 포함하여 총 20개 파일의 Time Scale 값이 원본과 상이한 ‘44,100’으로 확인되었다. 위 20개를 제외한 25개 파일은 모두 ‘48,000’의 Time Scale값을 보여주어 원본과 구별할 수 없었다.
‘moov\trak\mdia\minf\stbl\stsd\mp4a\edsd’ 내 Bit Rate 값은 ① 원본 파일의 경우 파일 길이(용량)와 상관없이 모두 ‘64,000bps’ 값이 나타났다. 반면 ② 기본 편집 파일은 ②-n-D_Middle에 해당하는 파일 5개와 대치 행위를 수행한 ②-n-R_Start, Middle, End 파일 15개가 ‘256,000bps’으로 원본과 다른 결과를 보였다. 이는 Time Scale 분석과 동일한 결과이다.
moov\udta\date는 녹음 시작 일시를 나타낸다. date 값 중 날짜에 해당하는 부분의 경우 편집 행위가 있더라도 변경되지 않는다. 원본 중 ①-1 파일을 살펴보면 Creation Time이 (UTC+0) 2024-10-04 16:17:46이고, Modification Time은 (UTC+0) 2024-10-04 16:18:46임을 확인할 수 있다. 이는 파일 녹음 시작 및 종료 시간을 의미하는 것으로, 특히 Creation Time은 moov\udta\date값인 ‘(UTC+0) 2024-10-04T16:17:46Z’와 동일하다. 두 시간의 차이는 Duration 값인 1분과 동일하다는 사실 또한 확인되었다. 즉, 음성파일이 어떠한 편집 행위도 없는 원본이라면 Creation Time 값은 date값과 동일하게 나타나야 하며 Creation Time과 Modification Time 간 차이는 Duration과 같아야 한다. date 값은 각 파일의 원본과 동일하거나 유사한 값이 발견되어 해당 값은 편집 행위와 상관없이 음성파일 생성 일시를 보여준다는 사실을 입증하였다. ②-1-D_Start 편집 파일의 Creation Time과 Modification Time은 각각 (UTC+0) ‘2024-10-27 11:49:03’, ‘2024-10-27 11:51:18’로 나타났다. Creation Time이 date 값과 다르다는 사실이 확인되었으며, 두 시간 간 차이도 131초로 Duration인 43초와 상이한 값을 보여주었다. 위 결과는 음성파일이 편집될 경우 ‘moov\mvhd’ 내 Creation Time은 파일 편집 시작 시간으로, Modification Time은 파일 편집 후 인코딩이 완료되어 저장된 시간으로 변경된다는 것을 시사한다.
\free는 M4A 파일 구조 중 가장 하위에 위치하며 실제 데이터 혹은 정보가 들어있지 않은 빈 박스이다. ① 원본 파일과 ② 기본 편집 파일은 해당 부분에서 ‘com.apple.VoiceMemos’ 값이 발견되어 iPhone Version 17.6.1 운영체제의 기기로 음성 메모를 통해 파일을 생성했다는 사실을 알 수 있었다. ① 원본 파일은 파일 생성지를 의미하는 ‘com.apple.VoiceMemos (iPhone Version 17.6.1(Build 21G93))’ 값으로 끝났으나, ② 기본 편집 파일의 경우 해당 내용이 위로 올라감과 동시에 32개의 문자열(ex: 2843DE98-DFD0-4E2F-A0B9-9CC546D6036C)이 가장 끝에 나타났다. 문자열은 ‘moov\udta\meta\ilst\----\data’(이하 ----\data) 경로에서 동일한 값을 발견할 수 있었다.
3.2.2 시간 변경 파일
③ 시간 변경 파일은 아이폰의 설정 시간을 원본 파일이 생성 종료된 일시로 변경한 후 편집 행위(삭제, 다듬기, 대치)를 수행하였다. 각 편집 행위(삭제, 다듬기, 대치)별 15개씩 총 45개의 파일이 생성되었다. 구체적으로 ③-1-D_Start 시간 변경 파일은 (UTC+0) 2024-10-04 16:19:00((UTC+9)2024-10-05 01:19:00), ③-5-D_End 시간 변경 파일은 (UTC+0) 2024-10-14 17:48:00((UTC+9) 2024-10-15 02:48:00)으로 설정하는 등 원본 파일의 실제 생성 종료 일시와 유사하게 변경하였다[Table 3]. 기기의 설정 시간을 먼저 변경한 후 USB 및 젠더를 통해 음성 메모로 M4A 파일을 옮기고, 파일 관리의 용이함을 위하여 음성 메모 내에서 파일명이 수정되었다.
Table 3. Change time of time change file(③)

③ 시간 변경 파일의 구조는 ① 원본 파일, ② 기본 편집 파일과 동일하였다. Time Scale과 Bite Rate 값 또한 ② 기본 편집 파일과 동일한 결과가 나타났다. 구체적으로 ③-n-D_Middle 파일(5개)과 ③-n-R_Start, Middle, End 파일(15개) 총 20개 파일의 Time Scale, Bit Rate 값이 각각 ‘44, 100’, ‘256,000bps’였다. 이를 제외한 25개의 파일은 Time Scale ‘48,000’, Bit Rate ‘64,000bps’이 발견되어 ① 원본 파일과 같았다.
MAC Time 분석 또한 ② 기본 편집 파일의 분석 결과와 유사하게 나타났다. ③-1-D-Start 시간 변경 파일의 경우 \moov\mvhd 경로의 Creation Time, Modification Time이 각각 ‘(UTC+0) 2024-10-04 16:20:23’, ‘(UTC+0) 2024-10-04 16:20:33’으로 확인되었다. 실제 편집 행위를 수행한 날짜는 2024년 11월 11일이기에 기기의 설정 시간을 변경한 뒤 음성 메모로 편집할 시 변경된 시간이 적용된다는 사실을 확인하였다. 또한 두 시간 간 차이는 10초로, Duration 값인 53초와 다르다는 사실이 발견되었다. 이때 Creation Time은 파일 편집 혹은 인코딩 시작 시간, Modification Time은 편집 혹은 인코딩이 종료된 시간이었다. 다만 \moov\udta\date 값은 ① 원본 및 ② 기본 편집 파일의 ‘2024-10-04T16:17:46Z’와 다르게 ‘2024-10-04T16:19:08Z’로 나타났다. 이는 실험을 위하여 변경한 기기의 설정 시간((UTC+0) 2024-10-04 16:19:00)과 유사하여 M4A 파일이 USB와 젠더를 통해 기기로 옮겨진 시간이라고 추정할 수 있다. ③-5-R_End 파일의 date 값 또한 변경된 설정 시간인 ‘(UTC+0) 2024-10-04 17:48:00’와 비슷한 ‘2024-10-04T17:48:25Z’ 값으로 발견되었다.
\free 값은 ② 기본 편집 파일과 동일하게 ----\data에서 발견할 수 있는 문자열이 가장 하위에 위치함을 확인하였다. 음성 메모로 편집 행위를 수행할 시 파일 길이ㆍ용량과 기기 설정 시간 변경 여부와 상관없이 나타나는 특징임을 입증할 수 있었다.
3.2.3 시사점 및 한계
M4A 원본과 편집 파일을 비교한 결과, 편집된 파일이 크게 두 가지로 구분되어 결과가 나타났다[Table 4]. 첫 번째는 대치 행위를 수행하거나 중간 구간을 삭제하는 경우로 ‘②-1-D_Middle’, ‘③-3-R_End’ 등이 포함된다. 두 번째는 위 경우를 제외한 모든 파일로, 처음 혹은 끝 구간을 삭제하거나 모든 구간에서 다듬기를 하는 경우가 해당한다. 두 그룹은 Time Scale과 Bit Rate 값에서 상이한 결과를 보였다. 대치하거나 중간 구간을 삭제하는 경우에는 Time Scale과 Bit Rate가 각각 ‘44,100’, ‘256,000’으로 나타나 원본 파일과도 다른 값을 보여 편집 여부를 식별할 수 있었다. 반면 그 외의 경우값이 ‘48,000’, ‘64,000’으로 원본과 동일하였다.
Table 4. Result of audio file forgery experiment

편집된 파일의 경우 ‘udta\date’ 값이 Creation Time과 일치하지 않았고, Modification Time과 Creation Time 간 차이가 Duration(재생 시간)과 달랐다. 구체적으로 Creation Time이 date 값 보다 나중의 일시를 나타냈다. 두 시간 간 차이가 Duration보다 짧은 시간으로 나타났으며 Creation Time은 편집 혹은 인코딩 시작 시간, Modification Time은 인코딩 종료 시간으로 변경되었다. ----\data 값에서 32개의 문자열(ex: 2843DE98-DFD0-4E2F-A0B9-9CC546D6036C)을 찾을 수 있는데, 해당 문자열이 원본 파일과 달리 편집된 파일에서는 \free의 가장 하위에서 발견되었다. 결과는 ② 기본 편집 파일과 ③ 시간 변경 파일에서 동일하게 나타났다.
본 연구는 특정 스마트폰 및 운영체제로 음성파일을 생성하였고 하나의 애플리케이션(음성 메모)만을 대상으로 진행하였다는 한계가 있다. 운영체제, 기종, 편집 애플리케이션별로 발견되는 특징점이 다를 가능성이 존재한다. 영상의 길이나 확장자에 따라 다른 결과가 나올 수 있으므로 향후 wav, mp3 등 다양한 확장자와 길이로 대상 파일을 구성하여 분석하는 연구가 필요하다. 그럼에도 불구하고 음성파일의 위변조 여부 식별 시 원본이 별도로 존재하지 않는 경우에 활용 가능하다는 점에서 의의가 있다.
IV. 검증
4.1 검증 절차
M4A 파일의 위변조 여부를 식별할 수 있는 코드를 개발하였다. M4A 파일을 입력하면 Time Scale, Bit Rate 등을 기반으로 음성파일의 위변조 여부를 판단하는 것이 핵심이다. 출력되는 결과는 ‘파일 위변조 여부’와 ‘판단 근거’로 구분된다. 입력한 파일이 위변조되었는지를 먼저 도출한 뒤 결과가 나온 근거를 세부적으로 제시한다. 출력되는 결과는 1) 원본, 2) 대치 혹은 중간 구간 삭제, 3) 다듬기 혹은 처음, 끝 구간 삭제로 구분되어 나타나도록 한다.
설계대로 음성파일 위변조 여부가 판단되는지 확인하기 위하여 별도의 ‘검증용 데이터셋(⑤)을 구성하였다. 검증용 데이터셋(⑤-1~10)은 1분에서 3분 가량의 음성파일을 결과별로 구성하여 총 10개를 생성하였다[Table 5].
Table 5. Verification dataset overview

4.2 검증 결과
초기 기준값을 0으로 설정하고 각 기준으로 설정한 조건에 해당한다면 해당 조건의 변수를 1씩 증가하여 최종적으로 가장 큰 값의 변수를 상태값(원본, 중간편집, 그 외 편집)으로 설정하였다[Fig. 1.].

Fig. 1. Audio forgery identification process
구체적으로는 초기 기준값 ‘val_count’를 0으로 설정한 뒤 비교할 때마다 원본의 값에 해당하면 ‘original_count’를, 대치 혹은 중간 구간 삭제에 해당하는 값이 발견되면 ‘middle_count’를, 마지막으로 다듬기 또는 처음, 끝 구간 삭제의 경우에 해당할 시 ‘etc_count’를 1씩 증가시키는 형태로 코드를 작성하였다. 예를 들어 각 조건을 거쳐서 가장 큰 값을 가지는 것이 original_count의 결과라면 ‘원본’임이 결과로 나타난다. 모든 비교를 끝냈을 시 매칭되는 값에 따라 최종 결과가 나오는 것이다.
Time Scale의 경우 48,000이면 원본이거나 처음, 끝 삭제 혹은 다듬기 행위를 수행한 결과이다. 따라서 48,000이 발견되면 ‘original_count’, ‘etc_count’가 1씩 증가하고 그렇지 않을 경우(44,100) ‘middle_count’가 1이 증가하게 된다. Bit Rate도 Time Scale과 동일하게 원본 혹은 다듬기, 첫ㆍ끝 삭제 행위가 수행되었을 경우 64,000값이 도출되고 그렇지 않으면 256,000값이 발견되는 점을 기반으로 구현하였다.
실험 데이터셋의 Creation Time과 Modification Time을 분석하였을 때 파싱 프로그램에서 확인했던 결과보다 더 상세한 단위까지 추출되었다. 이에 따라 원본임에도 시간이 Duration과 약 2초 정도 차이나는 파일도 존재하였다. 해당 값의 차이가 2초 이내라면 원본 파일이고, 2초를 넘는 차이가 발견될 시에는 편집된 파일이라는 결과가 도출되도록 하였다.
\udta\date 값과 Creation Time 간 비교의 경우 우선적으로 타임스탬프를 변경 후 비교하여 원본과 편집된 파일을 구분하였다. 두 요소의 절대적인 시간은 동일하지만, 표현방식이 달라 변환을 통해 시간표현을 동일시하였다. date는 ISO 8601 표준에 따라 시간을 표기하여 “2024-10-15T12:20:58Z”과 같이 나타나며, mvhd의 Create time은 E3 340E AA 이다. 이는 iOS에서 처리하는 Mac HFS+ timestamp 타임스탬프 기준1)으로, 값을 ISO 표기법으로 변환하면 동일한 시간이다. 시간대에 있어서 date는 UTC+0을 따르는 반면, mvhd_create time은 시간대까지 반영하므로 둘 중에 하나를 시간대를 변경하여 동일하게 맞춰줄 필요가 있었다. 코드에서는 date 값을 mvhd_create time값에 맞추어 16진수로 변환하고, 시간대를 설정하여 동일하게 표현되도록 하는 방법을 선택하였다. mvhd_create time과 두 시간이 동일하면 ‘original_count’를 그렇지 않으면 ‘middle_count’와 ‘etc_count’를 1 증가시키는 코드를 작성하였다.
----\data 값에서의 문자열이 \free의 어떤 부분에 나타나는지를 살펴보기 위하여 ----\data 내 uuid를 획득하는 코드를 구현하였다. 데이터를 문자열로 변환하고 uuid 형식의 정규표현식을 검색하면 추출된다. 이 단계에서 추출된 uuid를 UTF-8로 변환하여 \free 내 마지막 데이터와 비교한다. 이때 \free에서 획득한 마지막 500바이트가 비교 데이터로 사용된다. 즉, 추출한 uuid와 \free 마지막 500 바이트 내 데이터가 일치한다면 문자열이 \free 가장 하위에 위치하는 것이기에 입력한 M4A 파일이 위변조되었다는 의미이다. 일치하는 결과가 나오면 ‘middle_count’, ‘etc_count’가 그렇지 않으면 원본임을 뜻하는 ‘original_count’가 1씩 증가한다.
판단 근거를 결과로 도출하기 위하여 앞서 비교했던 값들에서 어떤 값이 발견되었는지, 해당 값에 따른 결과가 무엇이었는지를 보여주도록 구현하였다. 예를 들어 ‘Bit Rate’, ‘Time Scale’이 각각 ‘256,000’, ‘44,100’로 나타났고, Duration이 Creation Time과 Modification Time 간 차이보다 훨씬 크며, Creation Time과 date 값이 달랐기 때문에 대치 혹은 중간 삭제라고 판단했던 의사결정들을 모두 출력하도록 하였다. 이를 통한 최종 결과는 “Total Result”로 도출된다. 위 코드를 통해 검증 데이터를 분석한 결과, 10개 파일 모두 수행한 행위와 동일한 결과나 나타났음을 확인하였다. 즉, 원본(⑤-1/2)은 ‘Original(원본)으로 대치 혹은 중간 삭제한 파일(⑤-3/5/7/9)은 ‘Replace or Intermediate Delete(대치 혹은 중간 삭제) , 다듬기 혹은 처음ㆍ끝을 삭제한 파일은(⑤-4/6/8/10) ‘Delete or trim the beginning or end(처음, 끝 삭제 혹은 다듬기) 결과로 도출되었다[Fig. 2.][Fig. 3.].

Fig. 2. Analysis result of replacement file(⑤-5)

Fig. 3. Analysis result of trimming file(⑤-6)
V. 결론
본 연구는 디지털 증거로써의 음성파일 위변조 여부를 식별하고 법정에서 음성파일의 증거능력을 인정받을 수 있는 객관적인 포렌식 증거를 제시하는 것을 목표로 하였다. iOS 17.6.1 기반의 스마트폰 음성 메모 애플리케이션에서 생성된 M4A 파일을 대상으로 3가지 편집 행위(삭제, 다듬기, 대치)를 포함한 위변조 실험을 통해 음성파일의 원본과 편집된 파일 간 구조를 대상으로 비교 분석을 수행하였다. 특히, 기기 설정 시간을 변경한 파일에 대한 실험을 실시하여 각 파일에 대한 특성을 더욱 명확하게 도출하였다. 파일에서 발견할 수 있는 데이터를 기반으로 분석한 결과 음성파일의 위변조 여부를 판별할 수 있는 요소로 파일 구조, Time Scale, Bit Rate, Creation Time과 Modification Time, Duration, ----\data 값을 찾을 수 있었다. 편집 파일 중에서도 편집 행위 혹은 구간에 따라 결과가 다르게 도출되었다. 따라서 위 값들을 통해 음성 녹음 파일의 위변조 여부 및 행위를 추정할 수 있다.
iOS 운영체제 기반의 스마트폰에서 생성한 M4A 파일만을 대상으로 실험을 진행하였기에 다른 운영체제(안드로이드 등)에서 생성된 음성파일 혹은 다양한 파일 포맷은 실험 대상에 포함되지 않았다. 또한 제한된 편집 행위(삭제, 다듬기, 대치)만을 다루었다. 실제 수행될 수 있는 다양한 형태의 위변조(노이즈 추가, 다른 파일 붙이기 등) 행위에 대한 실험도 부족하였다. 본 연구에서는 위변조 여부를 식별할 수 있는 특정 값을 도출하였으나, 편집이 정교하게 이루어진 경우에는 여전히 위변조 여부와 구간을 식별하는 데 한계가 있다. 따라서 향후 다양한 스마트폰 운영체제나 파일 포맷을 포함하여 보다 광범위하게 분석할 필요가 있다. 추후 삭제, 다듬기, 대치를 포함한 다양한 기능을 대상으로 한 연구가 필요하다. 후속 연구에서는 인공지능을 활용하여 정교한 편집에 대한 분석 정확도를 높이는 방향으로 연구를 진행하면 좋을 것이다.
음성파일의 위변조 여부를 판단할 수 있는 기준이 되는 값들은 법정에서 음성파일의 증거능력을 입증하는 데 유용하게 활용될 수 있다. 즉, 특정 값이 증거로 제출된 M4A 파일에서 발견되었다면 편집된 것이라는 결과 도출이 가능하다. 나아가 위변조 식별 코드를 통해 음성파일의 위변조 여부를 보다 신속하게 식별할 수 있는 시스템은 수사기관 혹은 법원에서의 디지털 증거 분석에 중요한 기술적 기초자료를 제공할 수 있음을 시사한다. 본 연구가 법정에서 음성파일의 위변조를 탐지하여 사실관계를 입증하는 데 기여할 수 있기를 기대한다.
참고문헌
- Sunardi. S.. Riadi, I., Umar, R., and Gustafi, M. F, "Audio forensics on smartphone with digital forensics research workshop (DFRWS) Method," Comm IT Communication and Information Technology) Journal. vol. 15. no. 1. pp. 41-47. Mar. 2021. https://doi.org/10.21512/commit.v15i1.6739
- Dong-won Kim, "Practical issues regarding the use of audio files as evidence in criminal trials," Judiciary, 1(46), pp. 233-267. Jan. 2018.
- "T Phone→ A-dot Phone, Call Recording Possible, but Transmission Become S More Difficult", Edaily, 2024. 10. 20. Available: https://m.edaily.co.kr/News/Read?newsId=01866326639054888&mediaCodeNo=257.2024.11.14.
- Young-min Son and Jae-wan Park,. "Analysis of Audio File Forgery Detection Techniques: Focusing on Domestic Academic Journals." Asia-Pacific Convergence Research Journal. 9(11), pp. 127-136. Nov. 2023. https://doi.org/10.47116/apjcri.2023.11.12
- Ju-ho Lee and Tae-myung Lee, "A Study on the originality of digital evidence and proof for equality of digital evidence by the tendency of selective seizure." Digital Forensic Research, 14(3), pp. 252-268, Sep. 2020.
- Supreme Court of Korea, 2008. 12.24. 2008Do9414.
- Hamdi, D., Iqbal, F., Baker, T, and Shah, B, "Multimedia File Signature Analysis for Smartphone Forensics," in Proceedings of the 2016 9th International Conference on Developments in eSystems Engineering (DeSE), IEEE, pp. 130-137, Aug. 2016.
- Min Shin, Ji-hye Yu, Young Yoon and Tae-kyung Kwon, "The Fuzzing Awakens: File Format-Aware Mutational Fuzzing on Smartphone Media Server Daemons," in ICT Systems Security and Privacy Protection: 32nd IFIP TC 11 International Conference, SEC 2017, Rome, Italy, Proceedings 32, Springer International Publishing, pp. 219-232, May. 2017.
- Michalek, M, "Metadata in Audio File S Compliant with ISO/IEC 14496-12 and Their Characteristics as Well as the Evaluation of Usability in the Investigation of the Authenticity of Recordings," Problems of Forensic Sciences, vol. 115. pp. 241-261. May. 2018.
- Chernyshev, S.A, "Library for RemoteCopying of Video File Fragments," in 2019 Wave Electronics and its Application in Information and Telecommunication Systems (WECONF), IEEE, pp.1-4, June. 2019.
- Gloe, T., Fischer, A, and Kirchner, M, "Forensic Analysis of Video File Formats," Digital Investigation, vol. 11,pp. S68-S76, May. 2014. https://doi.org/10.1016/j.diin.2014.03.009
- Man-woo Kwon and Hyun-chan Im, "Optimizing Bit Rate Control for Realtime TV Broadcasting Transmission using LTE Network." Journal of the Multimedia Society, 21(3), pp. 415-422, Mar. 2018.
- Sang-min Han, Young-min Son and Jae-wan Park, "Limitations of Spectrogram Analysis for Smartphone Voice Recording File Forgery Detection," The Journal of the Convergence on Culture Technology (JCCT), 9(2), pp. 545-551. Mar. 2023.
- Zeng, J., Lian, Q, and Shi, S, "Forensic Originality Identification of iPhone's Voice Memos," in Journal of Physics: Conference Series, IOP Publishing, vol. 1345, no. 5, pp. 052053, Nov. 2019.
- Park, N. I., Shim, K. S, and Jeon, O. Y, "A Study on Authentication Analysis Procedure of Digital Audio Files," Journal of Digital Forensics, 13(4), pp. 257-270, Dec. 2019. https://doi.org/10.22798/KDFS.2019.13.4.257
- Michalek, M, "The Characteristics of Popular Audio Recording Applications Installed on Smartphones with an An droid Operating System in Relation to Forensic Audio Analysis," Problems of Forensic Sciences, vol. 120, pp. 335-3 61, Sep. 2019.
- Marathe, P.S., Wayal, G.C., Pawade, and V.S, Ghumatkar, "Metadata and Container Structure Analysis for Audi o Authentication," International Journal of Engineering Applied Sciences and Technology, vol. 8, no. 5, pp. 60-66,Sep. 2023. https://doi.org/10.33564/IJEAST.2023.v08i05.008
- Hyun Son, Seung-woo Baek, and Jaewon Park, "Automated Detection of Container-based Audio Forgery Using Crowdsourcing for Dataset Building," Aptisi Transactions on Technopreneurship (ATT), 6(1), pp. 119-135, Mar. 2024. https://doi.org/10.34306/att.v6i1.383
- Jae-wan Park, Won-joon Kwak, and Sang-hyun Lee, "A Study on Forgery Techniques of Smartphone Voice Recording File Structure and Metadata." The Journal of the Convergence on Culture Technology, 8(6), pp. 807-812, Nov. 2022. https://doi.org/10.17703/JCCT.2022.8.6.807
- Sung-won Baek, Ho-min Son, and Jae-Wan Park, "Limitations of Analyzing Metadata and File Structure of Audio Files for Legal Evidence: Focusing on Samsung Smartphones," The Journal of the Convergence on Culture Technology, 9(6), pp. 1103-1109, Nov. 2023. https://doi.org/10.17703/JCCT.2023.9.6.1103