• 제목/요약/키워드: 스펙트로그램

검색결과 136건 처리시간 0.023초

한국어 반음절단위 규칙합성의 개선을 위한 포만트천이의 변경규칙 (An Alteration Rule of Formant Transition for Improvement of Korean Demisyllable Based Synthesis by Rule)

  • 이기영;최창석
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.98-104
    • /
    • 1996
  • 본 연구에서는 반음절단위 규칙합성에서 연속음성을 합성할 때 조음결합에 의한 천이구간이 없는 반음절의 연결로 접속되어 부자연스러운 합성음이 되는 것을 개선하기 위하여 연쇄모음의 천이구간을 보상하는 방법으로 포만트천이의 변경규칙을 제안하였다. 반음절 단위만으로는 포만트천이가 발생하는 부분을 채울 수 없기 때문에 반음절단위의 음성데이타와 모음의 반음절 단위의 정상부위로부터 세그멘트한 정상모음 42개를 추가하여 데이터베이스를 구축하였으며 포만트를 변경하는 방법으로 포만트합성에서의 공진회로를 이용하였다. 제안한 방법의 타당성을 확인하기 위하여 음성합성시 연쇄모음 부분에 포만트천이의 변경규칙을 적용하여 원음성 및 변경규칙을 적용하지 않은 반음절단위 음성합성방식에 의한 합성음성의 스펙트로그램과 비교하고 MOS 테스트를 실시한 결과 보다 자연스러운 합성음성을 얻을 수 있음을 확인하였다.

  • PDF

가속도계와 자이로스코프 데이터를 사용한 인간 행동 인식 기반의 템포 지향 음악 추천 시스템 (Tempo-oriented music recommendation system based on human activity recognition using accelerometer and gyroscope data)

  • 신승수;이기용;김형국
    • 한국음향학회지
    • /
    • 제39권4호
    • /
    • pp.286-291
    • /
    • 2020
  • 본 논문에서는 템포 기반의 음악 분류와 센서 기반의 인간 행동 인식을 통한 음악을 추천하는 시스템을 제안한다. 제안하는 방식은 템포 기반의 음악 분류를 통해 음악 파일을 색인하고, 인식된 행동에 따라 적합한 음악을 추천한다. 정확한 음악 분류를 위해 변조 스펙트럼 기반의 동적 분류기와 멜 스펙트로그램 기반의 시퀀스 분류기가 함께 사용된다. 또한, 간단한 스마트폰 가속도계, 자이로스코프 센서 데이터가 심층 스파이킹 신경망에 적용되어 행동 인식 성능을 향상시킨다. 마지막으로 인식된 행동과 색인된 음악 파일의 관계를 고려한 매핑 테이블을 통해 음악 추천이 수행된다. 실험 결과는 제안된 시스템이 음악 플레이어가 있는 실제 모바일 장치에 사용하기에 적합하다는 것을 보여준다.

음악성 평가 지표 설계를 위한 성도 모양의 변화 분석 (Variation Analysis of Spectrogram for Indicators Design of Musicality Evaluation)

  • 김봉현;조동욱
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.2110-2116
    • /
    • 2009
  • 문화 산업은 보건, 의료 산업과 함께 삶의 혜택을 누릴 수 있는 기회를 제공해 주는 분야라고 할 수 있을 정도로 현대 사회에서 많은 관심을 받고 있다. 특히, 대중적 지지 기반을 보유하고 있는 음악 산업은 대중성과 독창성이 함께 공존하여 감정을 표출하고 쉽게 접근할 수 있는 예술적 가치로 인정받고 있다. 본 논문에서는 이러한 음악산업에서 핵심적인 부분이라 할 수 있는 가수의 음악적 재능을 평가하는 지표를 설계하고자 한다. 이를 위해 동일한 음악에 대한 가수의 목소리와 일반인의 목소리에서 성도의 모양 변화에 대한 분석을 수행하기 위해 스펙트로그램 분석 요소를 적용하였으며 결과 파형의 패턴 분석을 실험하여 두 집단간의 비교, 분석을 수행하였다. 따라서 실험에 사용될 대중적 음악을 선정하고 동일 부분에 대한 가수와 일반인의 목소리를 수집하여 시간의 흐름에 따른 성도 모양의 변화를 패턴 분석하고 이를 비교, 분석하여 음악성을 평가할 수 있는 지표를 설계하였다.

소프트맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템 (Deep Learning Music genre automatic classification voting system using Softmax)

  • 배준;김장영
    • 한국정보통신학회논문지
    • /
    • 제23권1호
    • /
    • pp.27-32
    • /
    • 2019
  • 인간이 가진 뛰어난 능력 중의 하나인 곡 분류 과정을 딥러닝 알고리즘을 통해 구현하는 연구는 단일데이터를 이용한 유니모달 모델, 멀티모달 모델, 뮤직비디오를 이용한 멀티모달 방식 등이 있다. 이 연구에서는 곡의 스펙트로그램을 짧은 샘플들로 분할하여 각각을 CNN으로 분석한 뒤 그 결과를 투표하는 시스템을 제안하여 더 좋은 결과를 얻었다. 딥러닝 알고리즘 중 CNN이 RNN에 비해 음악 장르 구분에 있어 우수한 성능을 보였으며 CNN과 RNN을 같이 적용했을 때 성능이 좋아짐을 알 수 있었다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 Softmax 레이어를 추가한 모델이 가장 좋은 성능을 보였다. 디지털 미디어의 폭발적인 성장과 수많은 스트리밍 서비스 속에서 음악장르의 자동분류에 대한 필요는 점점 증가하고 있는 추세이다. 향후 연구에서는 미분류 곡의 비율을 낮추고 최종적으로 미분류된 곡들의 장르구분에 대한 알고리즘을 개발할 필요가 있을 것이다.

빔공간 다채널 비음수 행렬 분해에 기초한 잔향에서의 지속파 능동 소나 표적 탐지 기법에 대한 연구 (A study on the target detection method of the continuous-wave active sonar in reverberation based on beamspace-domain multichannel nonnegative matrix factorization)

  • 이석진
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.489-498
    • /
    • 2018
  • 본 논문에서는 잔향이 존재하는 환경에서 낮은 도플러 주파수를 가지는 지속파 능동 소나의 반사음이 수신될 때, 빔공간 다채널 비음수 행렬 분해 기법을 이용하여 이를 탐지하는 기법에 대한 연구를 수행하였다. 지속파 능동 소나에서 수신기가 이동하는 경우 도플러 효과로 인하여 잔향 주파수 대역이 넓어지며, 이 경우 낮은 도플러 주파수를 가지는 표적 반사음은 잔향에 의해 방해를 받는다. 본 논문에서 고안한 알고리즘은 빔공간 다채널 비음수 행렬 분해 기법을 이용하여 수신음의 다채널 스펙트로그램을 주파수 기저, 시간 기저, 빔형성기 이득으로 분석한 후, 적절한 기저를 선택하여 반사음의 주파수, 시간, 그리고 방위를 추정한다. 해당 알고리즘의 동작을 분석하기 위하여 다양한 신호대잔향음 환경에서의 시뮬레이션을 수행하였으며, 분석 결과 고안한 알고리즘이 주파수, 시간, 그리고 방위를 추정할 수 있으나 낮은 신호대잔향비 환경에서 성능이 저하됨을 확인할 수 있었다. 시뮬레이션 결과에 따르면, 향후 기저 선택 알고리즘을 수정함으로써 성능을 개선할 수 있을 것이라 예상된다.

다중 주파수 밴드 간섭함수와 스펙트럼 차감법을 이용한 음성 향상 시스템 (Speech enhancement system using the multi-band coherence function and spectral subtraction method)

  • 오인규;이인성
    • 한국음향학회지
    • /
    • 제38권4호
    • /
    • pp.406-413
    • /
    • 2019
  • 본 논문은 두 개의 마이크로폰 환경에서 다중 주파수 대역 이득함수와 주파수 차감법을 결합하여 배경잡음을 억제하는 방법을 제안하였다. 다중 주파수 대역 신호대잡음비 추정을 통해 이득 함수를 얻는 음성 향상 방법은 두 채널 간 잡음신호의 상관성이 큰 경우 잡음 제거 성능이 떨어지는 단점을 가지고 있다. 하나의 채널 에서 스펙트럼 차감법을 통해 얻은 이득함수와 간섭함수 기반의 신호대잡음비 추정을 통해서 얻은 이득함수를 결합하여 가중된 이득함수를 사용하는 음성 향상 방법을 제안하였다. 제안된 방법은 ITU-T(International Telecommunications Union Telecommunication)의 객관적인 품질 평가 방법인 PESQ(Perceptual Evaluation of Speech Quality) 시험과 스펙트로그램을 사용하여 성능 평가 되어졌고 PESQ시험에서 최대 MOS 0.217의 음질 향상을 얻을 수 있었다.

소노부이 신호 송수신을 위한 오토인코더 기반 신호 변복조 기법 (Autoencoder-based signal modulation and demodulation method for sonobuoy signal transmission and reception)

  • 박진욱;석종원;홍정표
    • 한국음향학회지
    • /
    • 제41권4호
    • /
    • pp.461-467
    • /
    • 2022
  • 소노부이는 수중 음향 정보를 수집하는 일회용 장치로 특정지역에서 수집된 신호를 주변의 항공기 또는 함정으로 송신하는 역할을 수행하고 임무를 완수하면 해저로 가라앉도록 설계되어 있다. 이러한 소노부이 신호 송·수신 시스템의 경우 주파수 분할 다중화나 가우시안 주파수 편이와 같은 기법을 활용하여 신호를 변·복조하여 송·수신한다. 하지만 이러한 방법은 전송해야할 정보의 양이 많고 변조와 복조방법이 비교적 단순하여 보안성이 낮은 단점이 있다. 따라서, 본 논문에서는 오토인코더를 이용하여 송신 신호를 저차원의 잠재 벡터로 변조하여 잠재 벡터를 항공기 또는 함정으로 전송하고 수신한 잠재벡터를 복조하여 보안성을 향상시키고 전송정보량을 기존 전송방법 대비 약 100배 감소시킬 수 있는 방법을 제안하였다. 모의실험을 통해 제안한 방법으로 복원된 샘플 스펙트로그램을 확인한 결과 저차원의 잠재 벡터로부터 원본 신호 복원이 가능함을 확인할 수 있었다.

합성곱 신경망과 장단기 메모리를 이용한 사격음 분석 기법 (Shooting sound analysis using convolutional neural networks and long short-term memory)

  • 강세혁;조지웅
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.312-318
    • /
    • 2022
  • 본 논문은 딥러닝기법 중 하나인 합성곱 신경망과 순환 신경망 중 하나인 장단기 메모리를 이용하여 사격시 발생하는 소음(이하 사격음)만으로 화기의 종류, 사격음 발생지점에 관한 정보(거리와 방향)을 추정하는 모델을 다루었다. 이를 위해 미국 법무부 산하 연구소의 지원하에 생성된 Gunshot Audio Forensic Dataset을 이용하였으며, 음향신호를 멜 스펙트로그램(Mel-Spectrogram)으로 변환한 후, 4종의 합성곱 신경망과 1종의 장단기 메모리 레이어로 구성된 딥러닝 모델에 학습 및 검증 데이터로 제공하였다. 제안 모델의 성능을 확인하기 위해 합성곱 신경망으로만 구성된 대조 모델과 비교·분석하였으며, 제안 모델의 정확도가 90 % 이상으로 대조모델보다 우수한 성능을 보였다.

딥러닝을 이용하여 진동 응답 기반 비선형 변환 접근법을 적용한 단일 랩 조인트의 접착 면적 탐지 시스템 (Adhesive Area Detection System of Single-Lap Joint Using Vibration-Response-Based Nonlinear Transformation Approach for Deep Learning)

  • 김민제;김동윤;윤길호
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.57-65
    • /
    • 2023
  • 본 연구는 딥러닝을 위한 비선형 변환 접근법을 사용하여 Single-lap joint의 접착 영역을 조사하기 위한 진동 응답 기반 탐지 시스템을 제시한다. 산업 혹은 공학 분야에서 분해가 쉽지 않은 구조 내에 보이지 않는 부분의 상태와 접착된 구조의 접착 부위 상태를 알기 어려운 문제가 있다. 이러한 문제를 해결하기 위해 본 연구는 비선형 변환을 이용하여 기준 시편의 진동 응답으로 다양한 시편의 접착 면적을 조사하는 탐지 방법을 제안한다. 이 연구에서는 CNN 기반 딥러닝으로 진동 특성을 파악하기 위해 비선형 변환을 적용한 주파수 응답 함수를 사용했고 분류를 위해 가상의 스펙트로그램을 사용했다. 또한, 제시된 방법을 검증하기 위해 알루미늄, 탄소섬유복합재 그리고 초고분자량 폴리에틸렌 시편에 대한 진동 실험, 분석적 해, 유한요소해석을 수행했다.

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.