• 제목/요약/키워드: 음성지표

검색결과 225건 처리시간 0.023초

음성 인식용 데이터베이스 검증시스템을 위한 새로운 음성 인식 성능 지표 (A New Speech Quality Measure for Speech Database Verification System)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.464-470
    • /
    • 2016
  • 본 논문에서는 음성의 특성 지표를 이용한 음성 인식용 데이터베이스 검증 시스템의 개발 내용을 소개하고 이 시스템의 핵심 기술인 음성 특성 지표 추출 알고리즘을 설명한다. 선행 연구에서는 본 시스템에 필요한 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 인식 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 실험에서는 선행 연구에서 조합에 사용한 이차적인 음성 인식기에서 추출된 음향 모델 확률 값을 GMM(Gaussian Mixture Model) 음향 모델 확률 값으로 대체해 조합함으로써 시스템 구축 시 다른 음성 인식기에 대한 의존성을 감소시킨다.

효과적인 음성 인식 평가를 위한 심층 신경망 기반의 음성 인식 성능 지표 (Speech Recognition Accuracy Measure using Deep Neural Network for Effective Evaluation of Speech Recognition Performance)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2291-2297
    • /
    • 2017
  • 본 논문에서는 음성 데이터베이스를 평가하기 위해 여러 가지의 음성 특성 지표 추출 알고리즘을 설명하고 심층 신경망 기반의 새로운 음성 성능 지표 생성 방법을 제안한다. 선행 연구에서는 효과적인 음성 인식 성능 지표를 생성하기 위해 대표적인 음성 인식 성능 지표인 단어 오인식률(Word Error Rate, WER)과 상관도가 높은 여러 가지 음성 특성 지표들을 조합하여 새로운 성능 지표를 생성하였다. 생성된 음성 성능 지표는 다양한 잡음 환경에서 각 음성 특성 지표를 단독으로 사용할 때보다 단어 오인식률과 높은 상관도를 나타내어 음성 인식 성능을 예측하는데 효과적임을 입증 하였다. 본 논문에서는 심층 신경망을 기반으로 한 음성 특성 지표 추출 방법에 대해 설명하며 선행 연구에서 조합에 사용한 GMM(Gaussian Mixture Model) 음향 모델 확률 값을 심층 신경망 학습을 통해 추출한 확률 값으로 대체해 조합함으로써 단어 오인식률과 보다 높은 상관도를 갖는 것을 확인한다.

음성 특성 지표를 이용한 음성 인식 성능 예측 (Speech Recognition Accuracy Prediction Using Speech Quality Measure)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.471-476
    • /
    • 2016
  • 본 논문에서는 음성 특성 지표를 이용한 음성 인식 성능 예측 실험의 내용을 소개한다. 선행 실험에서 효과적인 음성 인식 성능 예측을 위해 대표적인 음성 인식 성능 지표인 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 조합하여 새로운 성능 지표를 제안하였다. 제안한 지표는 각 음성 특성 지표를 단독으로 사용할 때 보다 단어 오인식률과 높은 상관도를 나타내 음성 인식 성능을 예측하는데 효과적임을 보였다. 본 실험에서는 이 결과를 근거하여 조합에 사용된 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반의 음성 인식 성능 예측기를 구축한다. 가우시안 요소를 증가시키며 실험한 결과 제안된 시스템은 babble 잡음, 자동차 잡음에서 모두 SNR이 낮을수록 단어 오인식률을 높은 확률로 예측함을 확인하였다.

다차원음향분석을 이용한 연령변화에 따른 음향지표의 변화 (The Evaluation of Changes Of Acoustic Parameters With Aging by the Multi-Dimensional Acoustic Analysis)

  • 김형태;김민식;조승호
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1996년도 제6회 학술대회 심포지움
    • /
    • pp.77-77
    • /
    • 1996
  • 성대구조는 연령변화에 따라 조직학적인 변화가 일어나게 된다. 이에 따른 음성의 노화현상을 알아보고자 Multi-Dimensional Voice Program(Model 4305, Kay Elemetrics Corp, USA)을 이용하여 모든 연령층에서 정상적인 목소리와 성대에 병변이 없는 300명(남자141명, 여자159명)을 대상으로 다차원음향분석 지표의 연령변화에 따른 양적변화를 측정하여 연령에 따른 음향분석지표의 정상기준치와 음성지표의 연령별 변화를 밝혀내려 하였다. (중략)

  • PDF

단기간 기관내 삽관전, 후 음성지표의 측정

  • 서영일;남순열
    • 대한기관식도과학회:학술대회논문집
    • /
    • 대한기관식도과학회 1997년도 대한이비인후과학회 종합학술대회 초록집
    • /
    • pp.116-116
    • /
    • 1997
  • 배경 및 목적: 전신마취를 위하여 시행한 기관내 삽관은 삽관튜브와 성대내면의 접촉에 의한 압력과 마찰로 후두 미세한 손상을 주게된다. 저자들은 단기간 기관내 삽관 전,후의 음성분석을 통하여 손상의 유무와 회복을 측정할 수 있는 객관적인 음성지표를 찾아보고자 하였다. 대상 및 방법: 만성 중이염 수술시 전신마취를 목적으로 경구기관 튜브를 거치한 성인 남자 10명과 여자 15명 환자를 대상으로 수술 1일전과 술후 24시간 후 각각 "a"음을 연장 발성시켜 CSL 4300B (KAY elemetrics Corp)의 MDVP(multidimensional voice program)을 이용하여 harmonic to noise ratio(NHR), Jitter, Shimmer, Fundamental frequency를 측정 비교하였다. 결 과: 남녀 모두에서 Jitter, Shimmer는 각각 평균 0.70%에서 1.06%, 1.92%에서2.28%로 증가되는 경향을 보였으나 통계학적 유의성은 없었다. Fundamental frequency는 여자에서 평균 220Hz에서 221Hz로 남자는 125Hz에서 128Hz로 변화를 보이지 않았고 harmonic to noise ratio(NHR)또한 평균 0.11로 수술 전, 후 변화를 관찰할 수 없었다. 결 론: 이상의 결과로 2내지 6시간의 단기간 삽관으로 인한 성대의 손상은 경미하여 24시간 이내에 회복되는 것으로 판단된다. 향후 6시간 이상의 기관내삽관이나 수일이상의 장기간 삽관후의 음성지표의 측정등의 연구가 필요할 것으로 사료된다.

  • PDF

변동성과 전환점에 기반한 한국어 음소 'ㅅ', 'ㅈ', 'ㅊ' 음성 인식 (Speech Recognition of Korean Phonemes 'ㅅ', 'ㅈ', 'ㅊ' based on Volatility and Turning Points)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권11호
    • /
    • pp.579-585
    • /
    • 2014
  • 음소는 음성을 구성하는 최소 단위로서 음성을 인식하는데 있어 매우 중요한 역할을 한다. 본 논문은 음소 기반 한국어 음성 인식의 일부로서, 한국어 음소 중 'ㅅ', 'ㅈ', 'ㅊ'에 대한 새로운 인식 방안을 제안한다. 제안하는 방식은 입력 음성 신호를 구성하는 각각의 블록에 대해 계산되는 변동성 지표와 전환점 지표에 기반한다. 변동성 지표는 블록 내의 인접한 샘플 값들의 차이의 총합이며, 전환점 지표는 블록 내에서 샘플 값의 증가와 감소의 방향이 전환되는 극점의 총수이다. 두 지표를 결합하여 음소 인식을 수행하는 인식 알고리즘은 두 지표와 관련하여 최적화된 임계치들을 활용하여 목표로 하는 세 가지 음소가 인식된 위치를 최종적으로 결정한다. 실험 결과를 통해, 제안하는 방식을 사용함으로써 기존의 방식들에 비해 FRR과 FAR의 관점에서 모두 오류율을 현저히 감소시킬 수 있음을 확인하였다.

노화와 흡연에 따른 음성 변화의 측정 (Effects of Aging and Smoking on Acoustic Characteristics of Voice)

  • 남의철;남순열;이광선
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1996년도 제6회 학술대회 심포지움
    • /
    • pp.75-75
    • /
    • 1996
  • 노화와 흡연에 따른 음성의 변화에 대하여 객관적인 음향 지표들을 측정함으로써, 노화와 흡연에 따른 정상적인 음성의 변화와 질병에 기인한 변화를 감별하는 지표를 제시하고자 본 연구를 시행하였다. 정상의 발성기관과 청력을 가진 20세 이상의 성인으로, 60세 이상군과 35세 이하군으로 남녀 각각 30명을 대상으로 CSL50-MDVP(Computerized Speech Lab50-Multidimensional voice program)을 이용하여 기본 주파수(Fundamental frequency), jitter, shimmer, NHR(Noise to harmonic ratio)을 측정하였다. (중략)

  • PDF

기식성 애성 판정을 위한 객관적 음향지표 : VTI(Voice Turbulance Index)의 유용성 (Acoustic Parameter for an Objective Assessment of Breathiness : The Significance of Voice Turbulance Index(VTI))

  • 김형태;김민식;조승호
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1996년도 제6회 학술대회 심포지움
    • /
    • pp.78-78
    • /
    • 1996
  • 기식성 애성을 객관적으로 평가할 수 있는 음향지표는 아직 많은 연구가 되어 있지 않고 단지 청각심리검사에 의존하고 있는 실정이다. 본 저자들은 컴퓨터음향분석의 한 지표로서 기식성 애성에 대한 객관적인 음향지표로 이용될 수 있는 Multi-Dimensional Voice Program(mode1 4305, Kay Elemtrics Corp, USA)의 VTI(voice turbulance index)를 정상인과 성대병변 환자에서 비교 분석함으로써 기식성 애성의 객관적인 음향지표로서의 유용성을 확인하고자 하였다. (중략)

  • PDF

한국어 음성 인식에서 변동성과 벌크 지표에 기반한 음소 경계 검출 (Phoneme Segmentation based on Volatility and Bulk Indicators in Korean Speech Recognition)

  • 이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.631-638
    • /
    • 2015
  • 최근 모바일 환경에서 작동 가능한 음성 인식 시스템에 대한 수요가 급격히 증대되고 있다. 본 논문은 음소 기반 한국어 음성 인식 시스템에 적용하기 위한 새로운 한국어 음소 경계 검출 방안을 제안한다. 먼저 입력 신호는 동일한 크기의 블록들을 구성한다. 제안하는 방식은 입력 음성 신호의 각 블록에 대해 계산되는 변동성 지표와, 부호가 동일한 인접 샘플들의 집합인, 블록 내의 각 벌크에 대해 계산되는 벌크 지표를 음소 경계 검출의 기반 지표로 사용한다. 두 가지 기반 지표를 결합하여 활용하는 세 개의 전용 인식 알고리즘을 사용하여, 모음, 유성 자음, 그리고 무성 자음을 차례로 인식하여 음소 간 경계를 검출한다. 실험 결과를 통해, 제안하는 방식을 사용함으로써 기존의 경계 검출 방식에 비해 오류율을 현저히 감소시킬 수 있음을 확인하였다.

방사선요법이 초기 후두암 및 정상후두의 음성지표에 미치는 영향 (Effect of Radiation Therapy on Voice Parameters in Early Layngeal Cancer and Normal Larynx)

  • 박한종;이인자;박영학;김민식;조승호
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 1994년도 제2회 학술대회 연제순서 및 초록집
    • /
    • pp.88-88
    • /
    • 1994
  • 초기후두암에 대한 방사선요법은 수술적 치료에 비하여 정상 후두기능 즉 발성 기능을 최대 한 보존할 수 있는 장점이 있다. 그러나 방사선 치료법은 병적 혹은 정상 후두조직에 섬유화, 점막부종 혹은 점액선 간소등의 변영을 초래할 수 있기 때문에 어느 정도의 음성장애를 유발하게 된다. 방사선요법이 후두의 발성기능에 미치는 영향을 알아보기 위하여 초기후두암 환자와 두경부암으로 인하여 정상후두에 방사선 조사를 받았던 환자 및 정상대조군 각 20명에 대하여 음향 및 공기역학적 음성검사를 시행하여 음성장애의 특성을 비교, 검토하였다. 초기 후두암 환자들에게 사는 방사선 치료 후 음성지표들이 관찰되었고, 정상후두에는 큰 영향을 미치지 않았다. (중략)

  • PDF