• Title/Summary/Keyword: 오디오 추출

검색결과 170건 처리시간 0.031초

Perceiver 모델을 이용한 사용자 음성 구간 축약 (Voice Segment Reduction using Perceiver Model)

  • 최연웅;이재준;한현택;이해연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.491-493
    • /
    • 2022
  • 최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.

공기 중 음향 전송 시 부가 정보 삽입을 위한 오디오 워터마킹 기법 (Audio Watermarking Technique for Embedding Side Information during Acoustic Transmission through the Air)

  • 최준환;송원석;최혁;김태정
    • 한국정보과학회논문지:정보통신
    • /
    • 제37권2호
    • /
    • pp.150-156
    • /
    • 2010
  • 오디오 워터마킹이란 오디오 신호에 귀에 들리지 않게 정보를 삽입하는 과정을 말하며, 주로 저작권 보호 목적에 이용되어 왔다. 본 연구에서는 오디오 워터마킹을 저작권 보호가 아닌 사용자 편의를 위한 부가 정보 전송이라는 목적에 이용하고자 하며, 이러한 목적에 적합한 오디오 워터마킹 알고리듬을 제안한다. 본 연구에서 제안하는 오디오 워터마킹 알고리듬은 공기 중 음향 전송을 통해 스피커로부터 모바일 장치로 부가 정보를 전송하는 방식이며, 오디오 신호의 에너지 변조를 이용한 워터마크 삽입/추출 방법 및 2단계에 걸친 효율적인 동기화 방법을 포함한다. 제안된 알고리듬은 스피커 시스템과 휴대폰 단말기를 이용한 실험을 통해 그 성능을 평가하였으며, 실험 결과 5m 거리에서 성공적으로 부가 정보를 전송이 가능함을 확인하였다. 이는 기존의 방식보다 높은 성능이다.

파워 가중치를 이용한 오디오 핑거프린트 정합 (Audio fingerprint matching based on a power weight)

  • 서진수;김정현;김혜미
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.716-723
    • /
    • 2019
  • 음악 검색을 서비스하기 위해서는 핑거프린트 정합 정확도가 중요하다. 본 논문에서는 파워 가중치를 이용하여 오디오 핑거프린트 정합 성능을 제고하고자 한다. 파워 가중치는 핑거프린트 비트 추출 과정에서 유실되는 정보를 이용하여 구한 핑거프린트 비트의 예측 강인도이다. 기존 파워 마스크 방법은 저장 공간을 줄이기 위해서 이진화를 통해서 강인한 비트와 연약한 비트로 나눈다. 본 논문에서는 정합 성능을 향상시키기 위해서 실수 값 형태의 파워 가중치를 사용하는 방법을 제안한다. 또한 시간축 방향으로 연관성이 강한 파워 가중치의 특성을 이용하여 압축하여 저장공간을 줄일 수 있도록 한다. 공개된 음악 데이터셋에서 실험을 수행하여, 제안된 파워 웨이트가 오디오 핑거프린트 정합성능을 제고함을 확인하였다.

Wav2vec을 이용한 오디오 음성 기반의 파킨슨병 진단 (Diagnosis of Parkinson's disease based on audio voice using wav2vec)

  • 윤희진
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.353-358
    • /
    • 2021
  • 노년기에 접어들면서 알츠하이머 다음으로 흔한 퇴행성 뇌 질환은 파킨슨병이다. 파킨슨병의 증상은 손 떨림, 행동의 느려짐, 인지기능의 저하 등 일상생활의 삶의 질을 저하시키는 요인이 된다. 파킨슨병은 조기진단을 통하여 병의 진행 속도를 늦출 수 있는 질환이다. 파킨슨병의 조기진단을 위해 오디오 음성 파일 입력으로 wav2vec을 이용하여 특징을 추출하고 딥러닝(ANN)으로 파킨슨병의 유무를 진단하는 알고리즘을 구현하였다. 오디오 음성 파일을 이용하여 파킨슨병을 진단하는 실험 결과 정확도는 97.47%로 나타났다. 기존의 뉴럴네트워크를 이용하여 파킨슨병을 진단하는 결과보다 좋은 결과를 나타냈다. 오디오 음성 파일을 wav2vec 이용으로 간단하게 실험을 과정을 줄일 수 있었으며, 실험 결과 향상된 결과를 얻을 수 있었다.

Low Peak Feature와 영상 Color를 이용한 유사 동영상 검색 (Similar Movie Retrieval using Low Peak Feature and Image Color)

  • 정명범;고일주
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권8호
    • /
    • pp.51-58
    • /
    • 2009
  • 본 논문에서는 오디오의 Low Peak Feature와 영상의 Color 값을 이용하여 유사한 동영상을 찾는 알고리즘을 제안한다. 동영상 검색 시 영상 데이터 전체를 이용하면 많은 시간과 저장 공간이 필요하다. 게다가 같은 영상임에도 해상도 또는 코덱이 다른 경우 전혀 다른 영상으로 인식된다. 따라서 해상도와 코덱이 달라져도 변화가 크지 않은 오디오의 파형으로부터 강인한 Peak 특징을 추출하고, 그 위치의 영상 Color 값을 비교하여 유사한 동영상을 검색하는 방법을 제안한다. 제안 방법의 성능을 확인하기 위해 2,000개의 동영상 데이터를 수집하여 실험하였으며, 그 결과 97.7%의 검색 성공률을 나타내었다.

멀티미디어 데이터 저작권 보호를 위한 워터마킹 시스템 구현 (Development of Watermarking System for Copyright Protection for Multimedia Data)

  • 이충훈;박현중;오황석;이흥규
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.213-218
    • /
    • 1999
  • 본 논문에서는 멀티미디어 저작권의 보호를 위한 워터마킹 시스템을 구현하였다. 구현된 시스템은 영상, 동영상, 그리고 오디오 데이터에 워터마크를 삽입하고 추출할 수 있는 시스템으로, 영상에 대한 워터마킹 기법은 영상의 국부적인 특성을 이용하기 위하여 영상을 복잡도에 따라 다양한 크기의 블록으로 나누고 복잡도에 따라 워터마크 삽입 강도를 조절함으로써, 워터마크 삽입으로 인한 화질 저하를 최소화 하였으며, 동영상에 대한 워터마킹은 정지영상 워터마킹 기법을 동영상의 각 프레임에 적용하여 사용하였다. 그리고 오디오 워터마킹은 최하위 비트를 변환시키는 방법을 이용하여 구현하였다.

  • PDF

음정 곡선을 이용한 효율적인 오디오 데이터베이스 탐색에 관한 연구 (A Study on the Efficient Search of an Audio Database using Musical Interval Contour)

  • 지정규;오해석
    • 정보기술과데이타베이스저널
    • /
    • 제4권2호
    • /
    • pp.97-104
    • /
    • 1998
  • 본 논문은 디지털 오디오 도서관에 대규모 선율 데이터베이스로부터 임의의 곡을 효율적으로 탐색하기 위하여 음정곡선을 색인키로 사용하는 방법에 대해 기술했다. 사용자가 검색하고자 하는 음악의 일부 선율을 노래하면 입력된 음신호를 인식하여 음높이 정보를 추출한다. 그리고, 음표간의 음정을 계산하여 음표순으로 배열함으로써 음정 곡선을 만든다. 제안한 은표열 탐색 알고리즘에 생성된 음정 곡선을 탐색 패턴으로 입력하여 선율 데이터베이스의 음표열을 비교 조사한다. 그러면 근사 음정 곡선을 가진 후보곡을 탐색할 수 있다. 제안한 음표열 탐색 알고리즘은 실험을 통해 동적 프로그래밍 및 상태 대조 알고리즘과 비교한 결과 탐색 시간이 2배이상 향상되었다.

동영상 카투닝 시스템을 위한 자동 프레임 추출 기법 (Auto Frame Extraction Method for Video Cartooning System)

  • 김대진;구떠올라
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.28-39
    • /
    • 2011
  • 멀티미디어 산업의 발달과 함께 디지털 콘텐츠 시장의 확산을 가져오고 있다. 그 중 인터넷 만화와 같은 디지털 만화 시장의 확장은 급속하게 커지고 있어서, 콘텐츠의 부족과 다양성 때문에 동영상 카투닝에 대한 연구가 계속되고 있다. 지금까지는 동영상 카투닝은 비사실적 렌더링과 말풍선에 초점이 맞추어졌으나, 이러한 것들을 적용하기 위해서는 카투닝 서비스에 적합한 프레임 추출이 우선시 되어야만 한다. 기존의 방법으로는 동영상의 장면전환이 일어나는 샷(shot)안의 프레임을 추출하여, 사용자가 지정한 영역을 임의의 색상으로 렌더링(Rendering)하는 시스템이 있다. 하지만 이러한 방법은 사람의 손을 거치는 반자동적인 방법으로서 정확한 프레임 추출을 위해 사람의 손을 거쳐야하는 단점이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하고, 보다 정확한 카투닝에 적용할 프레임을 추출하기 위해 오디오 및 비디오 분리를 통한 방법을 제안한다. 먼저 동영상으로부터 오디오와 비디오를 분리한다. 오디오는 먼저 MFCC와 영교차율의 특징을 추출하고, 이 특징 정보를 미리 학습된 데이터와 GMM 분류기를 통하여 음악, 음성, 음악+음성으로 분류한 후 음성 영역을 설정한다. 비디오는 히스토그램을 이용한 방법과 같은 일반적인 장면전환 프레임을 추출 후 얼굴 검색을 통해서 만화에서 의미가 있는 프레임을 추출한다. 그 후 음성 영역내에 얼굴이 존재하는 장면전환 프레임이나 일정 시간동안 음성이 지속되는 영역 중 장면전환 프레임을 추출하여 동영상 카투닝에 적합한 프레임을 자동으로 추출한다.

스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠의 명료도 향상 (Intelligibility Enhancement of Multimedia Contents Using Spectral Shaping)

  • 지유나;박영철;황영수
    • 전자공학회논문지
    • /
    • 제53권11호
    • /
    • pp.82-88
    • /
    • 2016
  • 본 논문에서는 스펙트럼 성형기법을 이용한 멀티미디어 콘텐츠 명료도 향상 알고리즘을 제안한다. 영화, 동영상과 같은 오디오-비주얼 미디어 콘텐츠에서 다이얼로그는 영상의 내용을 이해하기 위한 중요한 요소이다. 하지만 종종 영상내의 효과음, 배경음악 등과 같이 함께 믹싱 된 오디오 성분에 의해 중요한 정보를 지닌 다이얼로그의 명료도가 떨어지는 문제점이 제기되어왔다. 뿐만 아니라 멀티미디어 콘텐츠의 이용 환경이 다양해지면서 청자의 주변 환경 또한 오디오 볼륨에 영향을 미치는 요소가 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 영상의 중요 단서를 담고 있는 사운드트랙의 음성 성분 명료도를 높이고자 한다. 제안된 알고리즘은 먼저 영상의 스테레오 오디오 신호에서 음성 존재 확률(Speech Presence Probability)을 이용한 소프트 마스커를 통해 다이얼로그 성분을 검출한다. 추출된 다이얼로그 성분은 스펙트럼 성형 기법을 적용하여 명료도에 중요한 영향을 미치는 고주파대역의 성분을 증폭시키는 등 음성 신호 스펙트럼의 에너지를 재분배하여 신호의 명료도를 향상 시켰다. 마지막으로 크기 정규화 과정을 통해 프로세스 전과 후의 전체 오디오의 파워를 동일하게 유지함으로써 증폭으로 인한 스피커의 오디오 포화(saturation)를 방지하였다. 실험을 통해 본 알고리즘이 동일한 오디오 볼륨에서 영상의 명료도를 향상시킴을 확인 할 수 있었다.

특정 주파수계수를 이용한 오디오 워터마킹 (Audio Watermarking Using Specific Frequency Coefficients)

  • 우동훈;정의필
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.269-275
    • /
    • 2003
  • 본 논문에서는 공격에 강인하면서 원본데이터의 변형을 작게 하는 워터마크삽입 방법을 제안하였다. 제안된 방법은 스프레드 스펙트럼 방법을 이용하여 워터마크를 삽입시 주파수 계수가 큰 값 순이 아닌 특정 범위의 값에 워터마크를 삽입함으로써 고음질의 워터마크가 삽입된 데이터를 얻을 수 있었으며, 워터마크가 삽입된 데이터에 MP3 압축, FFT 필터링, Cropping 및 Echo등의 공격을 가한 후 워터마크 추출실험을 해 본 결과 모든 공격에 대해 α가 0.5이상인 경우에는 워터마크 추출이 가능하였다. Cox가 제안한 방법보다 SNR면에서 훨씬 좋은 성능을 보였다.