• 제목/요약/키워드: 훈련 음향 생성

검색결과 26건 처리시간 0.027초

유사 음소 모델 스키마 지원을 위한 결정 트리 (Decision Tree for Likely phoneme model schema support)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제11권10호
    • /
    • pp.367-372
    • /
    • 2013
  • 어휘 인식 시스템에서는 훈련 중에 적용되지 않는 음소에 대한 문제점으로 인해 시스템에 저장된 모델을 재생성해야 하고 그에 따른 시간과 추가 비용이 초래된다. 본 논문에서는 결정 트리 군집화 방법을 사용하여 유사 음소 모델을 관리하는 방법을 제안하였다. 제안한 방법은 생성된 모델들로부터 결정트리 군집화 방법을 적용하여 군집화된 모델에서 음소 단위로 확률 모델을 탐색할 수 있는 시스템을 모델링하여 모델의 재생성 과정을 줄이고 강인하고 정확한 음향 모델을 제공한다. 또한, 제안된 시스템의 사용으로 시스템에서 기존에 생성되어진 음향 모델에 추가적으로 유사 음소 모델을 생성하여 제공하므로 음성 인식에 강인한 음향 모델을 구성한다. 본 연구에서 제안된 방법으로 실내 환경에 대하여 어휘 종속 인식과 어휘 독립 인식 실험을 수행한 결과 실내 환경의 어휘 종속 실험에서는 98.3%의 인식 성능을 보였고, 어휘 독립 실험에서 98.4%의 인식 성능을 보였다.

상태 공유와 결정트리 방법을 이용한 효율적인 문맥 종속 프로세스 모델링 (Efficient context dependent process modeling using state tying and decision tree-based method)

  • 안찬식;오상엽
    • 한국멀티미디어학회논문지
    • /
    • 제13권3호
    • /
    • pp.369-377
    • /
    • 2010
  • HMM(Hidden Markov Model)을 사용하는 어휘 인식 시스템에서 인식 시 훈련 중에 나타나지 않는 모델들로 인해 인식률의 저하를 가져오며 인식 대상 어휘가 변경되거나 추가되면 데이터베이스의 수집과 훈련 과정을 수행하여 모델을 재생성해야 하고 그에 따른 시간과 추가 비용이 초래된다. 본 논문에서는 결정 트리 방법과 모델 공유 방법을 사용하여 효율적인 문맥 종속 프로세스 모델링 방법을 제안하였다. 제안한 방법은 생성된 모델들로부터 모델 공유 방법을 이용하여 모델의 재생성 과정을 줄이고 강인하고 정확한 문맥 종속 음향 모델링을 제공한다. 또한, 모델의 수를 줄이고 훈련 중에 나타나지 않는 모델들에 대해 문맥 종속 유사 음소 모델을 제공하여 훈련 중에 나타나지 않는 모델의 문제점을 해결하고 훈련성을 확보하였다. 제안된 방법으로 6종류의 음성 데이터베이스를 이용하여 어휘 종속 인식과 어휘 독립 인식 실험을 수행한 결과 어휘 종속 인식 실험에서는 98.01%의 성능을 보였고, 어휘 독립 인식 실험에서 97.38%의 성능을 보였다.

DP 알고리즘에 의한 발음사전 전처리와 문맥종속 자소별 MLP를 이용한 영어 발음사전 생성기의 개선 (Improvements of an English Pronunciation Dictionary Generator Using DP-based Lexicon Pre-processing and Context-dependent Grapheme-to-phoneme MLP)

  • 김회린;문광식;이영직;정재호
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.21-27
    • /
    • 1999
  • 본 논문에서는 가변어휘 단어 인식기에 사용하기 위한 개선된 MLP 기반 영어 발음사전 생성기를 제안한다. 가변어휘 단어 인식기는 인식대상 도메인이 수시로 바뀌는 상황에서 현재의 인식 도메인에 의해 결정되는 임의의 한국어 어휘들에 대해 처리 할 수 있다. 이 시스템을 영어 단어에 대해서도 처리할 수 있도록 하기 위해서는 미리 정의된 사전에 포함할 수 없는 영어 고유명사와 같은 단어의 발음열을 구할 수 있는 방법이 필요하다. 영어 발음사전 생성기를 구현하기 위하여 본 연구에서는 각 자소를 음소로 변환해 주는 문맥종속 다층 퍼셉트론 구조를 제안한다. 각 자소별 다층 퍼셉트론을 훈련하기 위해서는 표준 발음사전으로부터 각 자소에 대응하는 음소 학습용 데이터를 준비해야 한다. 이를 위해 본 연구에서는 적절한 거리척도를 사용하는 동적 프로그래밍 알고리즘을 사용한다. 훈련 및 평가를 위한 데이터로는 116,191개 영어 단어의 발음사전을 사용하였다. 평가 결과 각각 30~50개의 히든 노드를 가지는 26개 자소별 MLP와 예외 자소 발음사전을 가지고 표준 발음사전에 대하여 72.8%의 단어 정확도를 얻었으며, 이것은 기존의 규칙 에 기반한 발음사전 생성의 정확도인 24.0% 보다 매우 우수한 결과임을 보여주었다.

  • PDF

경찰 오토바이 시뮬레이터의 동역학에 관한 연구 (A Study on the Dynamics of Police Motorcycle Simulator)

  • 안동혁;조성현;김희철
    • 한국전자통신학회논문지
    • /
    • 제15권3호
    • /
    • pp.533-542
    • /
    • 2020
  • 본 연구에서는 기동 순찰대 오토바이 가상훈련 시스템 구현의 개발 기술을 바탕으로 PC를 기반으로 한 모터사이클 시뮬레이터를 개발하였다. 모터사이클 시뮬레이터를 현실감 있게 직접 운전하고 있다는 느낌을 받도록 하기 위해서는 운전자와 시뮬레이터 사이에서 상호 신뢰성 있는 신호의 전달 및 조작 느낌이 중요하다. 이를 위해서 실차와 동일한 조작 느낌을 생성하기 위하여 실차의 각 서브시스템이 모터사이클 시뮬레이터에 그대로 적용될 수 있는 방법에 대한 연구를 수행하여 시스템을 구축하였으며, 이러한 결과를 바탕으로 운전자에게 현실감 있는 조작 느낌을 제공할 수 있는 피드백 큐 생성 방법을 개발하였다. 차량 동역학은 차량 시뮬레이터에 탑승한 운전자가 운전 중 조작하는 조향 휠, 가감속 페달 등으로부터 입력을 받아 실시간으로 차량의 운동을 예측하고, 그 결과를 시각, 음향 시스템에 전달하여 필요한 시각 및 운동 큐를 생성케 하는 시뮬레이터의 중심요소이다. 시뮬레이션 동역학 주요 요구내용에 대해 정리하고자 한다.

음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기 (Variable Vocabulary Word Recognizer using Phonetic Knowledge-based Allophone Model)

  • 김회린;이항섭
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.31-35
    • /
    • 1997
  • 본 논문에서는 훈련용 음성 데이터와 무관한 임의의 새로운 어휘를 인식해 낼 수 있는 가변 어휘 단어 인식기 개발에 대하여 기술한다. 가변 어휘 단어 인식기를 구현하기 위해서는, 인식 대상이 될 새로운 어휘를 즉시 발음 사전으로 변환시키는 on-line 발음 사전 생성기가 필요하고, 발음 사전 출력을 가지고 각 단어를 모델링할 수 있는 신뢰성 있는 음소 및 변이음 모델이 필요하다. 이와 같은 신뢰성 있는 음소 및 변이음 모델은 생성시키기 위하여 본 연구에서는, 각 음소의 전후 음소들의 음성학적 자질을 고려하여 3 음소열을 집단화(clustering)하여 변이음을 정의하고 이를 당 연구실이 보유하고 있는 POW(Phonetically Optimized Words) 3,848개 단어에 적용하여 1,548개의 변이음 모델을 생성시켰다. 이를 토대로 가변 어휘 단어 인식기를 구현하고 이를 POW 3,848 DB, PBW 445 DB 및 호텔 예약용 244 단어 DB 등에 적용하여 그 성능을 평가하였다. 평가 결과, POW DB에 대해서는 79.6%, PBW DB에 대해서는 445 단어 사전의 경우 79.4%, 100 단어 사전의 경우 88.9%의 성능을 보여 주었고, 호텔 예약 DB에 대해서는 71.4%의 성능을 보여 주었다.

  • PDF

비음수 텐서 분해와 은닉 마코프 모델을 이용한 터널 환경에서의 음향 사고 검지 방법 (An Acoustic Event Detection Method in Tunnels Using Non-negative Tensor Factorization and Hidden Markov Model)

  • 김남균;전광명;김홍국
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권9호
    • /
    • pp.265-273
    • /
    • 2018
  • 본 논문에서는 터널 환경에서 비음수 텐서분해와 가우시안 혼합을 갖는 은닉 마코프 모델을 사용한 사고 검지 시스템을 제안한다. 대부분의 터널 내 환경은 내재된 환경으로 인한 작은 사고들이 발생한다. 특히 터널 내에서 사고가 발생할 시, 2차, 3차 사고가 발생되어 큰 재해로 발전할 가능성이 높다. 주로 시각기반의 사고 검지 기법들이 많이 제안되어왔으나, 시야각 등의 문제로 오검지가 발생하는 단점이 존재한다. 이러한 시각기반의 검지 기법을 보완하기 위해 본 논문에 제안된 기법은 터널환경에서의 음향사고 검출의 정확도 개선을 위해 비음수 텐서분해와 가우시안 혼합모델(Gaussian mixture model, GMM) 기반의 은닉 마코프 모델(hidden Markov model, HMM)을 이용한다. 제안된 방법은 비음수 텐서 분해 기법에 활용되는 사고음향 모델과 잡음모델을 사용하여 사고음을 분리하고, 분리된 사고음을 기반으로 기 훈련된 GMM-HMM 기반의 음향모델을 기반으로 우도비 검증을 수행하여 사고 검지를 수행한다. 제안된 방법의 검지 정확도를 평가하기 위해 터널 내 환경잡음과 사고음을 합성하여 생성한 데이터를 생성하였고, 높은 정확도를 얻을 수 있었다.

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

  • 박보경;박소민;홍현기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권7호
    • /
    • pp.303-314
    • /
    • 2023
  • 음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.

햅틱 피드백 장치를 이용한 치과 수술 시뮬레이션 (Dental Surgery Simulation Using Haptic Feedback Device)

  • 윤상연;성수경;신병석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권6호
    • /
    • pp.275-284
    • /
    • 2023
  • 가상 현실 시뮬레이션은 다양한 분야에서의 교육과 훈련에 활용이 되며, 특히 최근에는 의료 분야에서 많이 사용되고 있다. 교육/훈련용 시뮬레이터는 의사가 실제 수술 도구를 이용하여 실제 환자에 대해 처치를 하는 것과 같은 느낌이 나게 하는 촉감/역감 생성 및 영상/음향 출력 하드웨어와 여기에 실감 나는 영상과 촉감을 생성해주는 소프트웨어로 이루어진다. 기존의 시뮬레이터들은 수술 시에 사용되는 다양한 수술 도구들을 모사하기 위해 다양한 형태의 하드웨어들을 사용해야 하므로 복잡하고 비용이 많이 소요되는 문제가 있다. 이 논문에서는 포스 피드백 장치와 변형 가능한 햅틱 컨트롤러를 이용한 치과 수술 시뮬레이션 시스템을 제안한다. 햅틱 하드웨어들은 수술 도구와 수술 부위의 충돌 여부를 파악하고 그에 따른 저항감과 진동감을 제공한다. 특히 길이 변화, 굽힘과 같은 변형이 가능한 햅틱 컨트롤러는 여러 수술 도구들의 형태에 따라 느껴지는 다양한 감각을 표현할 수 있다. 사용자가 햅틱 피드백 장치를 조작하면 햅틱 피드백 장치의 움직임이나 버튼 클릭 등의 이벤트가 시뮬레이션 시스템에 전달되어 치과용 수술 도구와 구강 내부 모델들 사이의 상호작용이 발생하고 이에 따른 햅틱 피드백이 햅틱 피드백 장치로 전달된다. 이러한 기반 기술들을 활용하여 정교한 3차원 모델로 표현된 가상 환경에서 대표적인 치과 수술기법인 매복 사랑니 발치 수술의 현실적인 훈련 경험을 제공한다.

고립단어 인식 시스템에서의 거절기능 구현 (An Implementation of Rejection Capabilities in the Isolated Word Recognition System)

  • 김동화;김형순;김영호
    • 한국음향학회지
    • /
    • 제16권6호
    • /
    • pp.106-109
    • /
    • 1997
  • 고립단어 음성인식 시스템이 실용적이 되려면 인식 대상 이외의 단어를 거절할 수 있는 기능이 요구된다. 본 논문에서는 집단화된 음소 모델과 likelihood ratio에 의한 후처리 방법을 사용하여 거절기능을 구현하는 방법을 제안하였다. 기본적인 음성인식 시스템은 단어 단위 연속 HMM을 사용하였고, 6개의 집단화된 음소 모델들은 음성학적으로 균형잡힌 음성 데이터베이스를 이용하여 훈련된 45개의 문맥독립 음소 모델들로부터 통계적 방법에 의하여 생성되었다. 22개의 부서 명칭을 대상으로 한 화자독립 고립단어 인식시스템에서 거절성능을 시험하여 본 결과, 가장 높은 확률값과 두 번째 높은 확률값을 가지는 후보단어들 간의 차이값에 의하여 거절기능을 수행하는 기존의 후처리 방법보다 성능이 향상됨을 알 수 있었다. 또한 이 집단화된 음소모델은 인식 대상 어휘가 다른 고립단어 인식 시스템에도 재훈련 없이 그대로 사용될 수 있다.

  • PDF

Support Vector Machine을 이용한 오디오 워터마크 디코딩 모델 개발 (Development of Audio Watermark Decoding Model Using Support Vector Machine)

  • 서예진;조상진
    • 한국음향학회지
    • /
    • 제33권6호
    • /
    • pp.400-406
    • /
    • 2014
  • 본 논문은 SVM(Support Vector Machine)을 이용하여 공격에 강인한 워터마크 디코딩 모델을 제안한다. 이 모델은 워터마크 된 신호에 대해 워터마크 삽입 과정을 역으로 수행한 후 SVM을 이용하여 워터마크를 검출한다. SVM을 생성하기 위해 먼저 4가지 워터마킹 알고리즘을 이용하여 삽입한 워터마크를 추출하여 데이터를 만들고, 이들의 BER(Bit Error Rate)을 이용하여 문턱값을 구한다. 이 후, 이 문턱값을 기준으로 훈련 집합을 만든다. 강인성 검증을 위해 워터마크 된 신호에 StirMark, SMDI, STEP2000 벤치마킹 중에서 14개의 공격을 가하였는데, 그 결과 기존의 방법보다 PSNR(Peak Signal to Noise Ratio)과 BER이 모두 개선되었다. 특히, PSNR이 10 dB 이상인 경우에는 대부분의 공격에서 1 % 이내의 BER을 갖는 우수한 성능을 보였다.