• Title/Summary/Keyword: 음향 모델

검색결과 1,253건 처리시간 0.024초

HM-Net을 이용한 한국어 유사음소 단위의 재 정의와 평가 (Definition and Evaluation of Korean Phone-Like Units using Hidden Markov Network)

  • 임영춘;오세진;정호열;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.183-186
    • /
    • 2002
  • 최근 음성인식의 인식 단위로서 문맥의존 음향 모델이 널리 사용되고 있다. 이는 음소의 음향학적 특징, 즉 선행 및 후행음소에 의한 중심 음소의 변이음 모델이 문맥독립 모델보다 좀 더 정확하게 모델링 될 수 있기 때문이다. 하지만 강건한 문맥의존 음향 모델을 작성하기 위해서는 모델 파라미터의 병합(tying)과 미지의 문맥(unseen context)의 처리를 위한 좀더 정교한 해결 방법이 필요하다. 따라서 본 논문에서는 이점을 고려하여 음향학적 특징과 언어학적 특징을 결합하여 상태 분할을 수행할 수 있도록 SSS(Successive State Splitting) 알고리즘의 문맥 방향 상태 분할에 음소결정트리를 접목한 HM-Net(Hidden Markov Network) 구조 결정법을 도입하였다. 또한 HM-Net은 연속적인 상태 분할에 의해 한국어에서 많이 발생하는 변이음들을 효과적으로 모델링 할 수 있다는 점을 고려하여 본 연구실에서 기존에 사용하던 48 유사음소 단위에서 문맥의존 음향 모델 작성에 불필요한 변이음을 제거하여 39 유사음소 단위를 재 정의하였다. 도입한 방법과 새로 정의한 유사음소 단위의 유효성을 확인하기 위해 고립 단어, 4연속 숫자음, 연속 음성인식에 대해 인식 실험을 수행한 결과, 모든 실험에서 재 정의한 39 유사음소 단위가 문맥종속형 HM-Net 음향모델을 이용한 한국어 음성인식에 효과적임을 확인할 수 있었다. 특히 연속 음성인식 실험의 경우, 기존의 48 유사음소 단위보다 평균 $15.08\%$의 인식률 향상이 있었다.

  • PDF

공간 음상정위를 위한 Transaural 필터 구현기법 (Implementation of Transaural filter method for sound localization)

  • 정완섭;이정훈;방승범;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.207-212
    • /
    • 1999
  • 본 논문에서는 공간에 위치한 음원으로부터 양 귀에 들리는 음향을 좌우 대칭형 스피커를 이용하여 재현하는 기술에 대한 문제점, 즉 좌우 스피커와 양 귀의 음압전달 특성에 수반되는 Cross-talk 제거와 음향학적 모델 선정에 대한 문제점들을 우선 소개한다. 이러한 문제점을 해결할 수 있는 Transaural 필터의 모델 제시와 본 모델의 음향학적 특성을 고찰한다. 본 연구에서는 인간 청각 기관의 공간 인지량적 인자인 ILB(interaural Level Difference)와 ITD(Tnteraural Time Difference)의 개념을 이용한 새로운 Cross-talk 제거 방법과 그리고 청각기관의 "Masking" 특성을 이용한 Transaural 필터의 진폭 보상 방법을 새로이 제안한다. 끝으로 제안된 기법은 음색 왜곡과 음질 저하를 최소화할 수 있는 장점 뿐 아니라 현장 음향 기사들이 직접 음향제작에 적용할 수 있는 장점 또한 제공한다.

  • PDF

새로운 음향 변환기와 이를 응용한 음향발생기 (A Study on a New Acoustic Transformer Using a Piezoelectric Actuator)

  • 문원규;김용구
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.81-84
    • /
    • 2000
  • 본 연구에서는 1000Hz 미만의 저주파 대역에서 음향방사 특성을 향상시키기 위한 새로운 형태의 음향 변환기를 연구하였다. 이 음향 변환기는 세 개의 혼을 직렬의 조합으로 연결한 형태를 띄고 있고 설계상에 필요한 계산을 위해 혼 방정식에 근거해 간단한 모델을 개발했다. 음향 발생을 위한 변환기로써 원형판에 얇은 압전체를 붙인 작동기를 사용하였다. 제안된 음향 변환기는 개발된 모델을 통해 설계되었고 실험을 위해 제작되었다. 제안된 음향 변환기의 성능은 실험과 수치해석을 통해 검증하였다 음향 해석 프로그램인 SYSNOISE를 이용한 수치해석과 실험에 근거한 결과는 제안된 음향변환기가 600Hz 미만의 주파수 대역에서 5-30dB의 음압을 발생시키는 것을 보여준다.

  • PDF

음향 이벤트 검출을 위한 DenseNet-Recurrent Neural Network 학습 방법에 관한 연구 (A study on training DenseNet-Recurrent Neural Network for sound event detection)

  • 차현진;박상욱
    • 한국음향학회지
    • /
    • 제42권5호
    • /
    • pp.395-401
    • /
    • 2023
  • 음향 이벤트 검출(Sound Event Detection, SED)은 음향 신호에서 관심 있는 음향의 종류와 발생 구간을 검출하는 기술로, 음향 감시 시스템 및 모니터링 시스템 등 다양한 분야에서 활용되고 있다. 최근 음향 신호 분석에 관한 국제 경연 대회(Detection and Classification of Acoustic Scenes and Events, DCASE) Task 4를 통해 다양한 방법이 소개되고 있다. 본 연구는 다양한 영역에서 성능 향상을 이끌고 있는 Dense Convolutional Networks(DenseNet)을 음향 이벤트 검출에 적용하기 위해 설계 변수에 따른 성능 변화를 비교 및 분석한다. 실험에서는 DenseNet with Bottleneck and Compression(DenseNet-BC)와 순환신경망(Recurrent Neural Network, RNN)의 한 종류인 양방향 게이트 순환 유닛(Bidirectional Gated Recurrent Unit, Bi-GRU)을 결합한 DenseRNN 모델을 설계하고, 평균 교사 모델(Mean Teacher Model)을 통해 모델을 학습한다. DCASE task4의 성능 평가 기준에 따라 이벤트 기반 f-score를 바탕으로 설계 변수에 따른 DenseRNN의 성능 변화를 분석한다. 실험 결과에서 DenseRNN의 복잡도가 높을수록 성능이 향상되지만 일정 수준에 도달하면 유사한 성능을 보임을 확인할 수 있다. 또한, 학습과정에서 중도탈락을 적용하지 않는 경우, 모델이 효과적으로 학습됨을 확인할 수 있다.

Hidden Markov Network를 이용한 음향학적 음소모델 작성에 관한 검토 (A Study on Construction of Acoustical Phoneme Models Using Hidden Markov Network)

  • 오세진;임영춘;황철준;김범국;정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.29-32
    • /
    • 2000
  • 본 논문에서는 음성인식 시스템의 음향모델 개선을 위한 기초적 연구로서, 문맥적인 요소를 필요로 하는 SSS(Successive State Splitting)와 필요로 하지 않는 SSS-free 알고리즘을 이용한 HMnet(Hidden Markov Network) 음향모델 작성방법에 대해 검토하고 작성한 음향모델을 한국어에 적용하여 그 유효성을 확인하였다. HMnet을 이용한 음소모델의 작성방법은 전체 학습 데이터에 대해서 각각 2개의 상태를 가지는 초기 모델을 작성한 후, 이를 시간과 문맥방향으로의 최대 분포를 가지는 상태를 재분할한 후 임의의 상태수가 될 때까지 상태분할을 계속적으로 수행케 하여 각 음소모델을 작성하게 된다. 작성한 HMnet 음향모델의 유효성을 확인하기 위해 ETRI 445 단어의 3인에 대한 화자종속 음소인식 실험을 수행하였다. 인식실험 결과, SSS 알고리즘을 이용한 화자종속실험의 경우 상태수 520에서 평균 $62.8\%$의 인식률을, SSS-free 알고리즘의 경우 상태수 420에서 평균 $64.2\%$의 인식률을 얻었다. 이 결과는 HMM을 이용한 경우(약$43.4\%$)보다 $20\%$이상의 인식률 향상을 보여 이 알고리즘의 유효성을 확인할 수 있었다. SSS와 SSS-free를 비교한 경우, SSS-free가 SSS보다 낮은 상태수에서 평균 $1.4\% 향상된 인식률을 보였다.

  • PDF

1D 네트워크 모델을 이용한 항공용 가스터빈 연소기에서의 음향장 해석 (Acoustic Field Analysis using 1D Network Model in an Aero Gas Turbine Combustor)

  • 표영민;박희호;정승채;김대식
    • 한국추진공학회지
    • /
    • 제23권2호
    • /
    • pp.38-45
    • /
    • 2019
  • 본 연구에서는 항공용 가스터빈의 연소실에서의 연소불안정 해석을 위한 고유값 도출을 목적으로 하는 1D 네트워크 모델을 개발하였다. 모델은 면적 변화가 있는 음향 네트워크 요소들 사이의 각종 지배 방정식을 통하여 개발되었고, 이를 이용하여 현재 개발 중인 복잡한 유로 형상을 갖는 실제 항공용 가스터빈 연소기에서의 음향장 해석에 적용되었다. 본 모델을 통하여 도출된 음향장 해석 결과는 3차원 유한요소해석 기반의 헬름홀츠 솔버의 계산 결과와 비교하였다.

축척모델을 이용한 실의 확산성 영향평가 (The Effects of Surface Diffusivity on the Room Acoustics Using Scaled Models)

  • 연철호;박계균;한찬훈
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.451-454
    • /
    • 2000
  • 실의 음향성능을 규명하기 위하여 많은 음향인자가 개발되어지고 제시되어 왔다. 음향인자 중 확산은 실의 전반적인 음향성능에 매우 유용한 것으로 여겨져 왔다. 본 연구는 장방형의 형태를 가지고 체적과 마감재료가 같은 2종류의 축척모델을 제작하여 각각의 모델에서 RT, EDT, SPL, C, IACC 등을 측정하여 확산체의 유$\cdot$무에 따른 실의 실내음향 성능을 알아보고자 한다 실험결과 실내 표면의 확산성의 차이에 따라 표면의 확산성이 좋은 공간에서 초기음장에서 음에너지가 집중되고 분산되는 것을 입증하였다. 즉 확산성이 좋은 모델에서 잔향시간(RT)은 더 짧으나 초기감쇠시간(EDT)이 더 길게 나타남으로 인하여 음에너지의 분포가 실의 확산상태에 의하여 음의 발생이후 짧은 시간내에 집중하여 전달되고 있음을 증명하였다. 또한 실의 확산상태가 좋은 공간의 명료도가 확산이 되지 않은 실에 비하여 훨씬 더 좋은 결과를 보이고 있음을 나타냈다. 이상의 결과를 종합하여 볼 때 실내 표면의 확산성이 전반적인 실내 음장의 향상에 크게 기여하고 있음을 밝혀 냈다.

  • PDF

잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 (Sound event detection model using self-training based on noisy student model)

  • 김남균;박창수;김홍국;허진욱;임정은
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.479-487
    • /
    • 2021
  • 본 논문에서는 잡음 학생 모델 기반의 자가 학습을 활용한 음향 사건 검지 기법을 제안한다. 제안된 음향 사건 검지 모델은 두 단계로 구성된다. 첫 번째 단계에서는 잔차 합성곱 순환 신경망(Residual Convolutional Recurrent Neural Network, RCRNN)을 훈련하여 레이블이 지정되지 않은 비표기 데이터셋의 레이블 예측에 활용한다. 두 번째 단계에서는 세 가지 잡음 종류를 적용한 잡음 학생 모델을 자가학습 기법으로 반복하여 학습한다. 여기서 잡음 학생 모델은 SpecAugment, Mixup, 시간-주파수 이동을 활용한 특징 잡음, 드롭아웃을 활용한 모델 잡음, 그리고 semi-supervised loss function을 적용한 레이블 잡음을 활용하여 학습된다. 제안된 음향 사건 검지 모델의 성능은 Detection and Classification of Acoustic Scenes and Events(DCASE) 2020 Challenge Task 4의 validation set으로 평가하였다. DCASE 2020 챌린지 데이터셋의 baseline 및 최상위 랭크된 모델과 이벤트 단위 F1 점수 성능을 비교한 결과, 제안된 음향 사건 검지 모델이 단일 모델과 앙상블 모델에서 최상위 모델 대비 F1 점수를 각각 4.6 %와 3.4 % 향상시켰다.

가진 주파수에 종속적인 시스템을 위한 효율적인 모델축소법 개발 (Development of efficient model order reduction for frequency dependent system)

  • 윤길호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2011년도 정기 학술대회
    • /
    • pp.685-688
    • /
    • 2011
  • 본 논문에서는 다양한 음향 가진에 따른 음향 응답을 유한 요소법을 통하여 효과적으로 계산하기 위한 새로운 모델 축소법을 제안한다. 일반적인 유한 요소법을 통한 기계구조물의 응답을 구하기 위해서는 음향 방정식의 강성 및 행렬을 구한 뒤 이들의 조합을 통한 동적 강성행렬을 구한 뒤 역행렬을 구하여 다양한 주파수 응답을 구하게 된다. 현재 컴퓨터 하드웨어의 발전과 소프트 웨어의 발전에 의하여 더 많은 유한 요소를 사용할 수 있게 되었고 이로 인하여 더욱 정확하고 넓은 대역의 음향 응답을 구할 수 있게 되었다. 그러나, 아직까지도 아주 복잡한 구조물의 음향 응답을 구하기 위하여 유한 요소를 무한정으로 증가할 수 없는 경우가 많다. 이를 해결하기 위하여 일반적으로 모델 축소법(Model order reduction) 기법을 사용한다. 이 모델 축소법은 기본적으로 전체 행렬을 아주 작지만 효율적인 작은 행렬로 바꾸어 응답을 예측하는 기법으로 mode superposition method, ritz vector method, quasi-static ritz vector method등이 있다. 기존의 모델 축소법은 기본적으로 질량 및 강성행렬이 가진 주파수에 영향을 받지 않는 행렬이라 가정한다. 그렇기 때문에 경계조건이나 다공성 재료를 모델링할 경우 가진 주파수에 영향을 받는 강성행렬과 질량행렬이 만들어지게 되어 기존의 모델 축소법은 효과적이지 못하게 된다. 이런 문제점을 해결하기 위하여 이 논문에서는 Quasi-static ritz vector method의 기본적인 개념을 확장하여 여러 개의 중심 주파수(Center frequency)에서 기저를 계산하고 이를 동시에 이용하는 Multi-frequency quasi-static ritz vector method를 제안한다.

  • PDF

음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가 (Performance Evaluation of Acoustic Models According to Differences between Vocabularies in Training and Test Phases of Speech Recognition)

  • 김회린;이항섭;권오욱
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.22-27
    • /
    • 1998
  • 본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.

  • PDF