• 제목/요약/키워드: 음성평가

검색결과 1,645건 처리시간 0.034초

KAIST 통신연구실의 음성 데이터베이스 구축 현황 (On the Present Construction Status of Speech Databases at KAIST Communications Research Laboratory)

  • 최인정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.272-275
    • /
    • 1995
  • 한국과학기술원 통신연구실에서 진행중인 한국어 음성 데이터베이스의 개발 현황에 관하여 기술한다. 음성데이타베이스의 구축을 위하여 사용된 절차와 환경, 및 데이터베이스의 음성학적, 언어학적 성질들이 상세히 기술된다. 데이터베이스는 damtjddlstlr 알고리듬의 개발 및 평가를 위하여 사용되도록 고안되었다. 데이터베이스는 5종류의 음성 데이터, 즉 3천단어 규모의 무역관련 연속음성, 가변길이 연결 숫자음, phonembalanced 75 고립단어, 지역명 관련 500 고립단어, 한국어 아-세트로 구성되어 있다.

  • PDF

음성의 유성음 특성을 이용한 음성/비음성 판별 방법 (A Robust Speech/Non-Speech Decision Using Voiced Characteristics of Speech)

  • 이성주;정호영;이윤근;김형순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.411-412
    • /
    • 2007
  • 자동음성인식 시스템을 이용하는 사용자 입장에서 보면 음성인식시스템을 사용하기 위하여 음성을 입력할 때마다 버튼을 눌러야 하는 Push-To-Talk (PTT) 방식은 여간 번거로운 일이 아닐 수 없다. 그리고 사용자가 원거리에서 음성을 입력하는 경우처럼 PTT 방식 자체가 용이하지 못 한 음성인식 응용분야에서는 Non-Push-To-Talk (NON-PTT) 방식의 필요성이 대두되게 된다. NON-PTT 방식의 음성 전처리를 위해서는 입력신호로부터 음성신호만을 구분해내는 음성판별기술이 필수적이다. 하지만 일상적인 잡음환경에서 음성신호만을 구분해내는 일은 매우 어려운 일이 아닐 수 없다. 본 논문에서는 일상적인 가정잡음환경에 강인한 음성판별방식을 제안한다. 여기서는 음성판별을 위해서 음성의 유성음 특성을 이용하였다. 즉, 일정구간 이상의 음성신호에는 일정구간이상의 유성음 구간이 존재하며 만약 잡음환경에서도 유성음 구간을 잘 검출할 수 있다면 이러한 음성의 특성을 이용하여 검출된 신호가 음성인지 아닌지를 판별할 수 있다. 이를 위하여 여기서는 가정잡음환경에서도 유성음을 잘 검출할 수 있도록 11 가지 유성음 특징들과 이를 이용한 음성판별방법을 제안하였다. 제안된 방법의 성능 평가를 위하여 음성의 끝점검출방법과 통합하여 음성/비음성 판별 테스트를 수행하였으며 테스트 수행결과 열악한 잡음환경에서 80%이상의 비음성을 거절하는 성능을 보였다.

  • PDF

효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표 (Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2291-2297
    • /
    • 2017
  • 본 논문에서는 음성 데이터베이스를 평가하기 위해 여러 가지의 음성 특성 지표 추출 알고리즘을 설명하고 심층 신경망 기반의 새로운 음성 성능 지표 생성 방법을 제안한다. 선행 연구에서는 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 논문에서는 심층 신경망을 기반으로 한 음성 특성 지표 추출 방법에 대해 설명하며 선행 연구에서 조합에 사용한 GMM(Gaussian Mixture Model) 음향 모델 확률 값을 심층 신경망 학습을 통해 추출한 확률 값으로 대체해 조합함으로써 단어 오인식률과 보다 높은 상관도를 갖는 것을 확인한다.

배우에 의한 한국어 정서음성 데이터베이스 수집 (Collection of Korean Emotional Speech Database from Actors)

  • 조철우;박일서;이용주;김봉완
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.45-48
    • /
    • 2004
  • 본 논문에서는 한국어 정서음성 데이터베이스를 수집하는 과정을 기술하고 및 데이터베이스의 특성에 관해서 논의한다. 데이터베이스는 배우로부터 수집되었으며 주관적 평가에 의해 평가되었다. 배우는 남녀 각 3인씩 총 6인이며, 6가지 정서상태에 의해 10개의 문장을 발성하였고 20명의 평가자가 음성에 포함된 정서상태를 독립적으로 평가하였다. 작성된 데이터베이스는 임의제시 방법에 의한 주관적 평가결과 $80\%$이상의 일치도를 얻었다.

  • PDF

청지각적 음성장애평가에서의 객관적인 파라미터 추출 (Objective parameter extraction in perceptual dysphonia assessment)

  • 장승진;최예린;김은연;김원식
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2009년도 춘계학술대회
    • /
    • pp.181-182
    • /
    • 2009
  • GRBAS(G : grade, R : rough, B : breathy, S : strained, A : asthenic) 음성장애평가는 성대의 이상 또는 말마비장애 등의 환자들을 평가하는 척도로 널리 사용된다. 하지만 사람에 의해 주관적인 평가로 이루어지는 방식의 문제점이 많이 제기되어, 자동화 알고리즘에 의한 객관적인 청지각적 음성장애 평가도구를 개발하려는 시도가 많이 연구되어왔다. 이러한 개발에 있어 보편적으로 선행되어야 하는 음소 분류 및 일치성 판단을 위한 객관적인 파라미터를 구하고자 함이 본 연구의 목적이다.

  • PDF

합성음성평가를 위한 다음절 무의미단어 생성과 이용에 관한 연구 (A Study on the Generation of Multi-syllable Nonsense Wordset for the Assessment of Synthetic Speech)

  • 조철우;김경태;이용주
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.51-58
    • /
    • 1994
  • 인간과 기계의 가장 자연스러운 의사소통의 형태인 음성을 통한 인터페이스를 위하여 여러가지 음성합성, 인식기법들이 제안되고 실용화되고 있다. 특히 음성합성의 경우는 실용화가 상당히 이루어지고 있음에도 불구하고 평가기법에 관하여는 아직도 초보적인 단계에 머물고 있다. 본 논문에서는 무의미 단어에 의한 합성음 평가법에 사용할 수 있는 다음절 무의미 단어군 작성법을 제안하고 실제로 구현되어 있는 규칙합성기를 제안된 단어군에 의해 평가한 사례를 소개하고자 한다. 제안된 단어군 작성방식은 음소단위 명료도 및 음소환경에 관한 평가를 행할 경우 유용하게 사용될 수 있다.

  • PDF

ATM 망을 통한 Circuit Emulation 서비스에서 전화음성의 품질평가 (Quality Assessment of Telephone Speech with ATM Circuit Emulation Services)

  • 조영순;서정욱;배건성
    • 전자공학회논문지S
    • /
    • 제35S권6호
    • /
    • pp.156-163
    • /
    • 1998
  • ATM 망에서는 전화서비스와 같은 CBR(Constant Bit Rate) 음성을 처리하기 위해서 AAL1 CES(Circuit Emulation Service)를 제시하고 있다. 본 논문에서는 ATM 망에서 CES를 이용한 전화서비스를 할 경우에 ATM 망의 셀 손실률에 따른 전화음성의 품질평가 실험을 하였다. 이를 위해 structured/unstructured DS1 구조의 ATM 망을 모델링 하였으며, 전화음성의 품질평가 실험에서 객관적인 품질평가로는 SNR을 주관적인 품질평가 방법인 MOS를 사용하였다. 시뮬레이션 결과 ATM CES에서 셀 손실률이 $10^{-3}$ 이하일 경우 MOS 4.0, SNR 30dB 이상의 양호한 음질을 얻을 수 있음을 보였다.

  • PDF

음성인식기술을 이용한 자막생성 연구 (Subtitle generation using Speech recognition)

  • 안충현;장인선
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 하계학술대회
    • /
    • pp.48-49
    • /
    • 2016
  • 본 논문에서는 동영상, 팟캐스트 오로부터 자막을 생성하여 청각장애인의 미디어 접근권을 향상시키는 음성인식기술을 적용한 자막생성에 대하여 제안한다. 또한 레퍼런스 음성 DB 와 드라마, 팟캐스트 오디오로부터 생성된 자막의 정확도에 대해 평가하였다. 오디오를 이용하여 생성된 자막은 사극의 경우에는 다소 정확도가 낮게 평가되었으나, 전체적으로는 약 80%이상의 정확도를 갖는 것으로 파악되었다.

  • PDF

명료도에서 사람 목소리로 - TTS에 관하여 (From Clarity To Human Voice)

  • 권철홍
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.139-142
    • /
    • 1998
  • 그 동안 TTS 음성합성의 평가 척도로 명료도(Clarity)와 자연성(Naturalness)을 기준으로 삼았다. 이제는 합성음의 평가 기준이 사람 목소리와 이해도가 되는 것이 좋겠다고 생각한다. 본 논문은 사람 목소리와 이해도라는 척도 중에서 사람 목소리에 관한 주제를 다루고자 한다. 이를 위하여 음성 DB의 합성 단위로 CVC type을 기본으로 하고, CV, VC type으로 보강한 단위를 선정하여 음성 DB를 구축하였다. 그리고 합성 알고리즘은 음색을 살리며 피치 변경이 용이한 PS-RELP 알고리즘을 제안하였다.

  • PDF

최적 통화품질에 관한 오피니언 평가

  • 강성훈;강경옥;장대영;권윤주
    • 전자통신동향분석
    • /
    • 제6권3호
    • /
    • pp.92-100
    • /
    • 1991
  • 본 고에서는 통신망의 통화품질의 기준을 설정하기 위하여, 음성품질 열화요인 중 음량정격 및 측음 마스킹 정격에 대한 일련의 주관평가를 실시하여, 음량정격과 평균 오피니언 점수 및 측음 마스킹 정격과 평균 오피니언 점수와의 상관을 구하였고, 또한 음성품질에 대한 사용자 백분율을 도출하여 사용자의 오피니언을 기본으로 하는 음성품질 기준에 대하여 기술하였다.