• 제목/요약/키워드: Phonetically Balanced

검색결과 26건 처리시간 0.02초

자동 음성분할 및 레이블링 시스템의 구현 (Implementation of the Automatic Segmentation and Labeling System)

  • 성종모;김형순
    • 한국음향학회지
    • /
    • 제16권5호
    • /
    • pp.50-59
    • /
    • 1997
  • 본 논문에서는 한국어 음성 데이터베이스 구축을 위하여 자동으로 음소경계를 추출하는 자동 음성분할 및 레이블링 시스템을 구현하였다. 기존의 음성분할 및 레이블링 기술을 근간으로 본 시스템을 구현하였으며, 또한 사용자가 자동분할된 음소경계를 확인하여 그 경계를 쉽게 수정할 수 있도록 한글 모티프 환경에서 그래픽 사용자 인터페이스를 개발하였다. 개발된 시스템은 16kHz로 샘플링된 음성을 대상으로 하고 있으며, 레이블링 단위는 45개의 유사음소와 하나의 묵음으로 구성하였다. 그리고 언어학적 정보의 입력방식으로는 음소표기와 철자표기를 사용하였으며, 패턴매칭 방법으로는 hidden Markov model(HMM)을 이용하였다. 개발된 시스템의 각 음소 모델은 수작업에 의해서 음소단위로 분할한 음성학적으로 균형잡힌 445 단어 데이터베이스를 이용해서 훈련되었다. 그리고 본 시스템의 성능평가를 위해 훈련에 사용되지 않는 문장 데이터베이스에 대해서 자동 음성분할 실험을 수행하였다. 실험결과, 수작업에 의해서 분할된 음소경계위치와의 오차가 20ms 이내인 것이 74.7%였으며, 40ms이내에는 92.8%가 포함되었다.

  • PDF

원거리 음성명령어 인식시스템 설계 (Performance Evaluation of an Automatic Distance Speech Recognition System)

  • 오유리;윤재삼;박지훈;김민아;김홍국;공동건;명현;방석원
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2007년도 하계종합학술대회 논문집
    • /
    • pp.303-304
    • /
    • 2007
  • In this paper, we implement an automatic distance speech recognition system for voiced-enabled services. We first construct a baseline automatic speech recognition (ASR) system, where acoustic models are trained from speech utterances spoken by using a cross-talking microphone. In order to improve the performance of the baseline ASR using distance speech, the acoustic models are adapted to adjust the spectral characteristics of speech according to different microphones and the environmental mismatches between cross-talking and distance speech. Next we develop a voice activity detection algorithm for distance speech. We compare the performance of the base-line system and the developed ASR system on a task of PBW (Phonetically Balanced Word) 452. As a result it is shown that the developed ASR system provides the average word error rate (WER) reduction of 30.6 % compared to the baseline ASR system.

  • PDF

한국어 연속음성인식을 위한 발음사전 구축 (Pronunciation Dictionary For Continuous Speech Recognition)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

발음열 자동 생성기를 이용한 한국어 음운 변화 현상의 통계적 분석 (Statistical Analysis of Korean Phonological Variations Using a Grapheme-to-phoneme System)

  • 이경님;정민화
    • 한국음향학회지
    • /
    • 제21권7호
    • /
    • pp.656-664
    • /
    • 2002
  • 본 논문에서는 한국어 발음열 자동 생성기를 이용하여 한국어의 음운 규칙에 대한 통계적 분석을 수행하였다. 실험에 사용한 발음열 자동 생성기는 한국어 음운 변화 현상에 대해 형태음운론에 기반 한 언어학적 분석과 문교부 표준어 규정의 표준 발음법에서 유도된 필수 및 수의적 음소 변동 규칙과 변이음 규칙의 단계적 적용 모델을 사용해서 구현되었으며, 특히 연속음성 인식을 위한 학습용 발음열과 인식용 발음사전 생성의 최적화를 목표로 하였다. 본 논문에서는 대어휘 연속음성 인식기의 음향 모델을 구축하기 위해 만들어진 삼성 PBS(Phonetically Balanced Sentence) 음성 데이터 베이스의 60,000문장에 적용된 발음열 생성기의 음소 변동규칙들의 분포 및 그 통계를 사용해서 한국어 음운 변화 양상을 분석하였다. 적용된 빈도수를 기준으로 분석한 결과, 필수음소 변동규칙의 경우는 연음법칙, 경음화, 격음화, 장애음의 비음화순으로, 수의적 음소 변동규칙의 경우는 초성 ㅎ 탈락, 중복 자음화, 동일 조음위치 자음탈락 순으로 음운 변화가 발생하였다. 이러한 적용 규칙들의 통계적 자료를 기반으로 한국어 음운 변화 양상을 파악할 수 있었으며, 나아가 본 논문의 연구 결과는 음성 인식 시스템을 개발하는데 유용하게 사용할 수 있을 것이다.

교실에서 신호대잡음비 변이가 한국어 음성명료도에 미치는 영향 (Influence of SNR difference on the Korean speech intelligibility in classrooms)

  • 박찬재;조성민;한찬훈
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.651-660
    • /
    • 2019
  • 본 연구는 소음 환경에서 화자의 음성 레벨이 어느 정도일 때 한국어에 대한 청자의 음성명료도 변화를 파악하고자 시행되었다. 이를 위해 잔향시간이 다른 교실 환경을 모형화하여 가청화시재를 제작한 후 피실험자 27명을 대상으로 청감실험을 실시해 음성명료도를 평가하였다. 음성명료도에 대한 평가는 한국어 음성명료도 평가법 중 음절법과 단어법을 이용하였으며 잔향시간과 신호대잡음비를 5dB씩 변화시키면서 정답률의 변화를 관찰하였다. 실험결과 음절법의 경우 신호대잡음비가 커질수록 이에 비례해 음성명료도 평가점수 또한 높아짐을 알 수 있었다. 단어법의 경우 잔향시간이 1.5 s인 경우에는 음성명료도 평가점수가 신호대잡음비와 비례적인 관계를 보이지만, 잔향시간이 0.8 s로 짧은 상황에서는 비례관계를 찾을 수 없었다. 이원변량분석 결과 한국어 음성명료도 평가법 중 음절법과 단어법에 공통적으로 유의한 영향 인자는 신호대잡음비라는 것으로 확인되었다. 따라서, 한국어 교실의 적정 잔향시간 기준인 0.8s 이하를 만족하는 경우 소음에 따른 영향을 제어할 수 있으나, 잔향시간이 기준보다 긴 경우에는 신호대잡음비가 커야만 높은 음성명료도를 확보할 수 있을 것으로 판단된다.

음성명료도 시험에 의한 노인 교육시설의 청취환경 조사 (Investigation of the listening environment of classrooms for elderly people using speech intelligibility tests)

  • 박찬재;김보경;한찬훈
    • 한국음향학회지
    • /
    • 제40권1호
    • /
    • pp.18-30
    • /
    • 2021
  • 본 연구의 궁극적인 목적은 청력 비완전자인 노인을 위한 학습공간의 음향기준을 제시하기 위한 것이다. 사전연구로서 본 연구는 현재 운영 중인 노인 교육시설의 청취환경을 조사하고 이를 이용 중인 노인의 음성 인지성능 실태를 조사하기 위해 진행되었다. 이를 위하여, 청주시 소재 2개 노인 교육시설을 대상으로 물리적 음향성능을 측정하고 설문조사 를 실시하였다. 또한, 음절법과 단어법을 이용한 음성명료도 평가를 수행하였다. 노인을 대상으로 한 설문조사 결과 전반적인 청취환경에는 만족하는 것으로 나타났다. 배경소음, 신호대잡음비, 잔향시간, 음성전달지수와 같은 물리적 음향성능 측정 결과 대한민국 일반교실의 음향성능 기준을 만족하고 있음을 알 수 있었다. 그러나 음성명료도 평가 결과 20대 건청인에 비해 노인 그룹의 점수가 20점 이상의 차이로 월등히 낮았으며, 연령대가 높아질수록 점수 또한 낮아지는 것으로 나타났다. 따라서 현재 사용 중인 일반인 대상 교육시설의 음향성능 기준이 노인 교육시설에 적합하지 않음을 알 수 있었다.