• 제목/요약/키워드: Speech Learning Model

검색결과 191건 처리시간 0.021초

단일 레이블 분류를 이용한 종단 간 화자 분할 시스템 성능 향상에 관한 연구 (A study on end-to-end speaker diarization system using single-label classification)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제42권6호
    • /
    • pp.536-543
    • /
    • 2023
  • 다수의 화자가 존재하는 음성에서 "누가 언제 발화했는가?"에 대해 레이블링하는 화자 분할은 발화 중첩 구간에 대한 레이블링과 화자 분할 모델의 최적화를 위해 심층 신경망 기반의 종단 간 방법에 대해 연구되었다. 대부분 심층 신경망 기반의 종단 간 화자 분할 시스템은 음성의 각 프레임에서 발화한 모든 화자의 레이블들을 추정하는 다중 레이블 분류 문제로 분할을 수행한다. 다중 레이블 기반의 화자 분할 시스템은 임계값을 어떤 값으로 설정하는지에 따라 모델의 성능이 많이 달라진다. 본 논문에서는 임계값 없이 화자 분할을 수행할 수 있도록 단일 레이블 분류를 이용한 화자 분할 시스템에 대해 연구하였다. 제안하는 화자 분할 시스템은 기존의 화자 레이블을 단일 레이블 형태로 변환하여 모델의 출력으로부터 레이블을 바로 추정한다. 훈련에서는 화자 레이블 순열을 고려하기 위해 Permutation Invariant Training(PIT) 손실함수와 교차 엔트로피 손실함수를 조합하여 사용하였다. 또한 심층 구조를 갖는 모델의 효과적인 학습을 위해 화자 분할 모델에 잔차 연결 구조를 추가하였다. 실험은 Librispeech 데이터베이스를 이용해 화자 2명에 대한 시뮬레이션 잡음 데이터를 생성하여 사용하였다. Diarization Error Rate(DER) 성능 평가 지수를 이용해 제안한 방법과 베이스라인 모델을 비교 평가했을 때, 제안한 방법이 임계값 없이 분할이 가능하며, 약 20.7 %만큼 향상된 성능을 보였다.

The effects of pause in English speaking evaluation

  • Kim, Mi-Sun;Jang, Tae-Yeoub
    • 말소리와 음성과학
    • /
    • 제9권1호
    • /
    • pp.19-26
    • /
    • 2017
  • The main objective of this study is to investigate the influence of utterance internal pause in English speaking evaluation. To avoid possible confusion with other errors caused by segmental and prosodic inaccuracy, stem utterances with two different length obtained from a native speaker were manipulated to make a set of stimuli tokens through insertion of pauses whose length and position vary. After a total of 90 participants classified into three proficiency groups rated the stimuli, the scored data set was statistically analyzed in terms of the mixed effects model. It was confirmed that predictors such as pause length, pause position and utterance length significantly influence raters' evaluation scores. Especially, a dominating effect was found in such a way that raters gradually deducted scores in accordance with the increase of pause duration. In another experiment, a tree-based statistical learning technique was utilized to check which of the significant predictors played a more influential role than others. The findings in this paper are expected to be practically informative for both the test takers who are preparing for an English speaking test and the raters who desire to develop more objective rubric of speaking evaluation.

퍼지추론에 의한 지능형 음성지시 조타기 제어 시스템의 구축 (Building of an Intelligent Ship's Steering Control System Based on Voice Instruction Gear Using Fuzzy Inference)

  • 서기열;박계각
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1809-1815
    • /
    • 2003
  • 최근 선박 운항의 고효율화 및 안전성 확보를 위하여 지능형 선박 시스템에 관한 연구가 활발하게 진행되고 있다. 전문가의 지식과 경험 정보가 데이터베이스로 구축된 전문가 시스템의 지식 정보를 이용하여 안전하고 효율적인 선박 운항이 가능한 항해 지원 시스템에 관한 연구도 활발하다. 따라서, 본 논문에서는 지능형 선박을 구현하기 위한 연구의 일환으로 퍼지 추론과 휴먼 인터페이스의 하나인 음성 인식 기술을 적용하여 선박 운항자의 부담 경감 및 인원 절감 등의 효과를 가져 올 수 있는 지능형 선박 조종 시스템을 구축한다. 구체적인 연구방법으로는 먼저, 음성 인식 기술과 지능형 학습 기법을 기반으로 음성 지시 기반 학습 시스템을 구현하고, 다음으로 퍼지 추론에 의한 조타수 조작 모델을 구성하여 PC기반 원격 제어 시스템을 구축하였다. 마지막으로 구현된 음성 지시 조타 제어 시스템을 모형 선박 시스템에 적용하여 그 효용성을 확인하였다.

Arduino IoT Studio based on 5W1H Programming Model for non Programmer

  • Im, Hong-Gab;Baek, Yeong-Tae;Lee, Se-Hoon;Kim, Ji-Seong;Sin, Bo-Bae
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.29-35
    • /
    • 2017
  • In this paper, we present a 5W1H programming model for IT non-experienced people who are not familiar with computer programming and those who need programming education. Based on this model, we can design a development tool that can be easily programmed by beginners. This development tool is a programming method applying the 5W1H concept and constructs a sentence to satisfy the control condition of 'Who, When, Where, What, and How', which is the sentence element of 5W1H. Therefore, the user can easily develop the target system as if constructing the sentence without learning the programming language of the target system. In this paper, to verify the effectiveness of the 5W1H programming model proposed in this paper, we applied the concept of 5W1H programming to Arduino and developed the development tool and performed the first verification and applied the second verification to the speech recognition smart home development platform.

최대 엔트로피 부스팅 모델을 이용한 영어 전치사구 접속과 품사 결정 모호성 해소 ((Resolving Prepositional Phrase Attachment and POS Tagging Ambiguities using a Maximum Entropy Boosting Model))

  • 박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.570-578
    • /
    • 2003
  • 최대 엔트로피 모델은 자연언어를 모델링하기 위한 좋은 방법이다. 하지만, 최대 엔트로피 모델을 전치사구 접속과 같은 실제 언어 문제에 적용할 때, 자질 선택과 계산 복잡도의 두 가지 문제가 발생한다. 본 논문에서는, 이런 문제와 자연언어 자원에 존재하는 불균형 데이터 문제를 해결하기 위한 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 제시하고, 이를 영어의 전치사구 접속과 품사 결정 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 문제의 모델링에 아주 작은 노력을 들였음에도 불구하고, 전치사구 접속 문제에 대해 84.3%의 정확도와 품사 결정 문제에 대해 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

STFT와 RNN을 활용한 화자 인증 모델 (Speaker Verification Model Using Short-Time Fourier Transform and Recurrent Neural Network)

  • 김민서;문종섭
    • 정보보호학회논문지
    • /
    • 제29권6호
    • /
    • pp.1393-1401
    • /
    • 2019
  • 최근 시스템에 음성 인증 기능이 탑재됨에 따라 화자(Speaker)를 정확하게 인증하는 중요성이 높아지고 있다. 이에 따라 다양한 방법으로 화자를 인증하는 모델이 제시되어 왔다. 본 논문에서는 Short-time Fourier transform(STFT)를 적용한 새로운 화자 인증 모델을 제안한다. 이 모델은 기존의 Mel-Frequency Cepstrum Coefficients(MFCC) 추출 방법과 달리 윈도우 함수를 약 66.1% 오버랩하여 화자 인증 시 정확도를 높일 수 있다. 새로운 화자 인증 모델을 제안한다. 이 때, LSTM 셀을 적용한 Recurrent Neural Network(RNN)라는 딥러닝 모델을 사용하여 시변적 특징을 가지는 화자의 음성 특징을 학습하고, 정확도가 92.8%로 기존의 화자 인증 모델보다 5.5% 정확도가 높게 측정되었다.

대표 패턴을 사용한 가변 기울기 역전도 알고리즘의 점진적 학습방법 (The Incremental Learning Method of Variable Slope Backpropagation Algorithm Using Representative Pattern)

  • 심범식;윤충화
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권1호
    • /
    • pp.95-112
    • /
    • 1998
  • 역전도 알고리즘은 연관 기억장치, 음성 인식, 패턴인식, 로보틱스등 여러 응용 분야에 다양하게 사용되고 있다. 그러나 새로운 학습 패턴을 추가적으로 학습시키려면 이전에학습했던 모든 패턴과 추가되는 패턴을 갖고 처음부터 새로운 학습을 수행하여야 한다. 이는 패턴의 개수가 점차 늘어날수록 학습에 소요되는 시간이 기하 급수적으로 길어지는 결과를 초래하게 된다. 따라서 주기적으로 다량의 데이터를 추가로 학습을 할 경우에 이러한 점진적 학습은 반드시 해결해야 할 문제점으로 간주된다. 본 논문에서는 기존의 신경망 구조는 그대로 유지하면서 대표 패턴을 추출해 추가 학습을 수행하는 방법을 제안하고 제안된 기법의 효율성을 위해 기계 학습 분야의 벤치마크로 많이 사용되는 Monk's data와 Iris data에 적용해 보았다.

  • PDF

Analysis of Factors Affecting Academic Ability of Preschool-age Children

  • Moon, Kyung-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.205-213
    • /
    • 2022
  • 본 연구는 2014년도에 조사가 완료된 한국아동패널 자료를 활용하여 자아발달, 사회성발달, 학습준비도, 학업능력의 잠재변수에 대한 관계를 분석하고 학령전기 아동의 학업능력에 영향을 미치는 요인을 찾아내는 것이다. 본 연구 대상은 한국아동패널 7차(2014년도) 자료의 2150가구 중에서 해당 자료의 미응답자와 시스템 결측치 1037가구를 제외한 1113가구의 초등학교 취학전 만 6세의 아동들이다. 연구 모델의 경로 효과를 분석한 결과 자아발달과 학업능력 사이에서 자아발달이 학업능력에 직접적인 영향을 미치는 동시에 사회성 발달과 학습 준비도를 매개로 한 간접적인 영향에도 유의미하게 나타났다. 그리고 학업능력에 미치는 자아발달, 사회성발달, 학습준비도 중에서 학습준비도가 가장 큰 비중으로 영향을 미치는 것으로 나타났다. 결과적으로 학령전기 아동의 학업능력은 창의력과 문제해결능력을 겸비한 인재로 육성하기 위해서 학습준비도가 매우 중요하게 다루어져야 한다는 것이다.

다층회귀예측신경망의 음성인식성능에 관한 연구 (A Study on the Speech Recognition Performance of the Multilayered Recurrent Prediction Neural Network)

  • 안점영
    • 한국정보통신학회논문지
    • /
    • 제3권2호
    • /
    • pp.313-319
    • /
    • 1999
  • 4층구조의 다층퍼셉트론을 변형하여 3 종류의 다층회귀예측신경망을 구성하고, 예측차수, 두 은닉층의 뉴런개수, 연결세기의 초기치 및 전달함수 변화에 따른 각 망의 음성인식성능을 실험을 통해 각각 비교 분석한다. 실험결과에 의하면, 다층회귀신경망이 다층퍼셉트론에 비해 음성인식성능이 우수하다. 그리고 구조적으로는 상위은닉층의 출력을 하위은닉층으로 회귀할 때 인식성능이 가장 우수하며, 각 망 공히 상, 하위은닉층의 뉴런 10 혹은 15개, 예측차수 3 혹은 4차일 때 인식률이 양호하다. 학습시 연결세기의 초기치를 -0.5에서 0.5사이로 설정하고, 하위은닉층에서 단극성 시그모이드 전달함수를 사용할 때 인식성능이 더욱 향상된다.

  • PDF

Fuzzy를 이용한 VQ/NN에 기초를 둔 음성 인식 (Speech Recognition Based on VQ/NN using Fuzzy)

  • 안태옥
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.5-11
    • /
    • 1996
  • 본 논문은 불특정 화자의 단모음 인식에 관한 연구로써, fuzzy개념를 이용한 VQ(Vector Quantization)/NN(Neural Network)에 의한 음성 인식 방법을 제안한다. 이 방법은 fuzzy를 이용하여 VQ codebook에 의해 다중 관측열(multi-observation sequence)을 구해 각 symbol이 데이타로부터 가질 수 있는 확률값을 계산하여 이 값을 신경 회로망의 입력으로 사용하는 방법이다. 인식 대상어로는 한국어 단모음을 선정하였으며 10명의 남성 화자가 8개의 단모음을 10번씩 발음한 음성 데이터베이스를 이용하여 fuzzy를 이용하지 않은 VQ/NN과 fuzzy를 이용한 VQ/HMM(hidden Markov model)에 의한 인식률과 비교 실험한다. 실험 결과에 의하며, VQ/NN에 의한 인식률은 92.3%이며, fuzzy를 이용한 VQ/HMM에 의한 인식률은 93.8%이고, fuzzy를 이용한 VQ/Nn에 의한 인식률은 95.7%이다. 그러므로, 본 연구의 fuzzy를 이용한 VQ/NN이 학습 능력이 뛰어난 관계로 fuzzy를 이용한 VQ/HMM과 일반적인 VQ/NN 보다 인식률이 향상됨을 보여준다.

  • PDF