• 제목/요약/키워드: 음소

검색결과 529건 처리시간 0.022초

개선된 피치검출을 위한 스펙트럼 평탄화 기법에 관한 연구 (A Study on the Technique of Spectrum Flattening for Improved Pitch Detection)

  • 강은영;배명진;민소연
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.310-314
    • /
    • 2002
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본주파수 즉, 피치를 정확히 검출하는 것은 중요하다. 그러나 포만트의 영향과 천이진폭의 영향 때문에 음성신호로부터 정확한 피치검출은 매우 어렵다. 따라서 본 논문에서는 음소의 천이나 변동의 영향이 적은 주파수 영역에서 스펙트럼을 평탄화함으로써 포만트의 영향을 제거한 후 피치를 검출한다. 본 논문에서는 새로운 스펙트럼 평탄화 기법을 제안하고 기존의 방법인 LPC법, 켐스트럼법과 비교하여 어느 정도의 우수성을 보이는지 평가하였다. 또한 각각의 방법을 적용하여 기본주파수 (피치)를 검출한 결과는 제안한 방법이 우수함을 보여주고 있다.

Back-off bigram을 이랑한 대용량 연속어의 화자적응에 관한 연구 (A Study on Speaker Adaptation of Large Continuous Spoken Language Using back-off bigram)

  • 최학윤
    • 한국통신학회논문지
    • /
    • 제28권9C호
    • /
    • pp.884-890
    • /
    • 2003
  • 본 논문에서는 화자 독립 시스템에서 필요한 화자 적응 방법에 관해 연구하였다. 훈련에 참여하지 않은 새로운 화자에 대해서 bigram과 back-off bigram, MAP와 MLLR의 결과를 비교해 보았다. back-off bigram은 훈련중 나타나지 않은 bigram 확률을 unigram과 back-off 가중치를 적용하므로 bigram 확률 값에 약간의 가중치를 더하는 효과를 가져온다. 음성의 특징 파라미터로는 12차의 MFCC와 log energy, 1차 미분, 2차 미분을 사용하여 총 39차의 특징 벡터를 사용하였다. 인식 실험을 위해 CHMM, 삼중음소(tri-phones)의 인식 단위, 그리고 bigram과 back-off bigram의 언어 모델을 사용한 시스템을 구성하였다.

말지각의 기초표상: 음소 또는 변별자질 (The Primitive Representation in Speech Perception: Phoneme or Distinctive Features)

  • 배문정
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.157-169
    • /
    • 2013
  • Using a target detection task, this study compared the processing automaticity of phonemes and features in spoken syllable stimuli to determine the primitive representation in speech perception, phoneme or distinctive feature. For this, we modified the visual search task(Treisman et al., 1992) developed to investigate the processing of visual features(ex. color, shape or their conjunction) for auditory stimuli. In our task, the distinctive features(ex. aspiration or coronal) corresponded to visual primitive features(ex. color and shape), and the phonemes(ex. /$t^h$/) to visual conjunctive features(ex. colored shapes). The automaticity is measured by the set size effect that was the increasing amount of reaction time when the number of distracters increased. Three experiments were conducted. The laryngeal features(experiment 1), the manner features(experiment 2), and the place features(experiment 3) were compared with phonemes. The results showed that the distinctive features are consistently processed faster and automatically than the phonemes. Additionally there were differences in the processing automaticity among the classes of distinctive features. The laryngeal features are the most automatic, the manner features are moderately automatic and the place features are the least automatic. These results are consistent with the previous studies(Bae et al., 2002; Bae, 2010) that showed the perceptual hierarchy of distinctive features.

상태레벨 공유를 이용한 HM-Net 적응화 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of HM-Net Adaptation System Using the State Level Sharing)

  • 오세진;김광동;노덕규;황철준;김범국;김광수;성우창;정현열
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 신호처리소사이어티 추계학술대회 논문집
    • /
    • pp.397-400
    • /
    • 2003
  • 본 연구에서는 KM-Net(Hidden Markov Network)을 다양한 태스크에의 적용과 화자의 특성을 효과적으로 나타내기 위해 HM-Net 음성인식 시스템에 MLLR(Maximum Likelihood Linear Regression) 적응방법을 도입하였으며, HM-Net 학습 알고리즘을 개량하여 회귀클래스 생성방법을 제안한다. 제안방법은 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘의 문맥방향 상태분할에 의한 상태레벨 공유를 이용한 방법으로 새로운 화자로부터 문맥정보와 적응화 데이터의 발성 양에 의존하여 결정된 많은 적응 파라미터들을(평균, 분산) 자유롭게 제어할 수 있게 된다. 제안방법의 유효성을 확인하기 위해 국어공학센터(KLE) 452 음성 데이터와 항공편 예약관련 연속음성을 대상으로 인식실험을 수행한 결과, 전체적으로 음소인식의 경우 평균 34-37%, 단어인식의 경우 평균 9%, 연속음성인식의 경우 평균 7-8%의 인식성능 향상을 각각 보였다. 또한 적응화 데이터의 양에 따른 인식성능 비교에서, 제안방법을 적용한 인식 시스템이 적응 데이터의 양이 적은 경우에도 향상된 인식률을 보였으며. 잡음을 부가한 음성에 대한 적응화 실험에서도 향상된 인식성능을 보여 MLLR 적응방법의 특성을 만족하였다. 따라서 MLLR 적응방법을 도입한 HM-Net 음성인식 시스템에 제안한 회귀클래스 생성방법이 유효함을 확인한 수 있었다.

  • PDF

음소기반 인식 네트워크에서의 비인식 대상 문장 거부 기능의 비교 연구 (Comparison Research of Non-Target Sentence Rejection on Phoneme-Based Recognition Networks)

  • 김형태;하진영
    • 대한음성학회지:말소리
    • /
    • 제59호
    • /
    • pp.27-51
    • /
    • 2006
  • For speech recognition systems, rejection function as well as decoding function is necessary to improve the reliability. There have been many research efforts on out-of-vocabulary word rejection, however, little attention has been paid on non-target sentence rejection. Recently pronunciation approaches using speech recognition increase the need for non-target sentence rejection to provide more accurate and robust results. In this paper, we proposed filler model method and word/phoneme detection ratio method to implement non-target sentence rejection system. We made performance evaluation of filler model along to word-level, phoneme-level, and sentence-level filler models respectively. We also perform the similar experiment using word-level and phoneme-level word/phoneme detection ratio method. For the performance evaluation, the minimized average of FAR and FRR is used for comparing the effectiveness of each method along with the number of words of given sentences. From the experimental results, we got to know that word-level method outperforms the other methods, and word-level filler mode shows slightly better results than that of word detection ratio method.

  • PDF

가변 어휘 음성 인식기의 음향모델 개선 및 성능분석 (Acoustic Model Improvement and Performance Evaluation of the Variable Vocabulary Speech Recognition System)

  • 이승훈;김회린
    • 한국음향학회지
    • /
    • 제18권8호
    • /
    • pp.3-8
    • /
    • 1999
  • 문맥독립형 음향모델을 채택하고 있는 기존의 가변어휘 음성인식기는 주변환경에 따른 음소의 변화를 모델링 할 수 없었다. 이러한 문제를 해결하기 위해서는 변이음을 이용한 문맥의존형 음향모델을 사용해야 한다. 본 논문은 가변어휘 음성인식기의 음향모델을 효과적으로 개선하기 위하여 적용한 방법에 대해서 기술하고 있다. 즉, 음향모델의 개선은 엔트로피를 이용한 군집화 기법을 적용하여 변이음의 개수를 변경시키면서 최적의 변이음 모델을 추출하는 방법을 사용하였다. 개선된 모델에 대한 성능은 POW(Phonetically Optimized Words) 3848 DB 및 SNR이 크게 다른 2종류의 PC168 DB를 이용하여 훈련 및 인식 실험을 수행하면서 평가하였다. 결론적으로 변이음의 개수를 낮추면서도 인식 성능의 저하를 가져오지 않는 최적의 변이음 모델을 얻을 수 있었으며 PC168 DB를 이용한 인식실험을 통하여 확인할 수 있었다.

  • PDF

벡터 회귀 트리를 이용한 한국어 에너지 궤적 생성 (Generating Korean Energy Contours Using Vector-regression Tree)

  • 이상호;오영환
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.323-328
    • /
    • 2003
  • 본 논문에서는 한국어 TTS 시스템을 위한 에너지 궤적 생성 방법에 대해 설명한다. 에너지 궤적 생성을 위해 스칼라 회귀 트리를 확장한 벡터 회귀 트리를 제안하고 구현하였다. 벡터 회귀 트리는 특징 벡터로부터 목적 벡터를 예측할 수 있으며, 본 연구에서는 각 음소당 10개의 에너지 값을 예측한다. 실험을 위해 500 문장의 문장 코퍼스와 그 문장들을 발성한 음성 코퍼스를 수집하였고, 이중 300 문장을 이용하여 트리들을 학습하고 200 문장에 대해 실험하였다. 에너지 궤적의 예측 정확률을 높이기 위해 배깅 트리 (bagged tree)와 재구축 트리 (born again tree)도 함께 구현한 결과, 원음의 에너지 궤적과 예측된 에너지 궤적간의 상관계수가 0.803으로 기존의 방법보다 더 좋은 결과를 얻을 수 있었다.

자음의 단어내 음운환경별로 본 음가변화

  • 김종미
    • 한국음향학회지
    • /
    • 제13권5호
    • /
    • pp.69-76
    • /
    • 1994
  • 국어 자음을 단어내 음운환경별로 실험해 본 결과, 국어의 자음변이 규칙이 반영된 일관성있는 음가변화를 발견하였다. 발견된 음가변화는, ⅰ) 장애음의 길이는 모음간보다 단어초가 길고, ⅱ) 공명음의 길이는 단어초와 모음간보다 단어말이 길며, ⅲ) /ㄹ/의 F2와 F3는 모음간이 낮고 단어말은 높다는 것이다.ⅰ) 이들 음향특징의 근거가 되는 국어의 자음변이 규칙은, ⅰ) 평음의 유성화 현상, ⅱ) 음절말 불파음화 현상, ⅲ) 단어초 기음화 현상, ⅳ) /ㄹ/ 음소의 [r]과 [l] 교체현상이다. 본 실험결과 제시된 변화값은 음성인식 및 합성에 응용될 때 인식의 정확성과 합성의 자연성을 향상시킬 수 있다.

  • PDF

핵심어 추출 기반 음성 다이얼링 시스템 개발 (Development of Voice Dialing System based on Keyword Spotting Technique)

  • 박전규;서상원;한문성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.153-157
    • /
    • 1996
  • 본 논문은 연속 분포 HMM을 사용한 핵심어 추출기법(Keyword Spotting)과 화자 인식에 기반한 음성 다이얼링 및 부서 안내에 관한 것이다. 개발된 시스템은 상대방의 이름, 직책, 존칭 등에 감탄사나 명령어 등이 혼합된 형태의 자연스런 음성 문장으로부터 다이얼링과 안내에 필요한 핵심어를 자동 추출하고 있다. 핵심 단어의 사용에는 자연성을 고려하여 문법적 제약을 최소한으로 두었으며, 각 단어 모델에 대해서는 음소의 갯수 더하기 $3{\sim}4$개의 상태 수와 3개 정도의 mixture component로써 좌우향 모델을, 묵음모델에 대해서는 2개 상태의 ergodic형 모델을 구성하였다. 인식에 있어서는 프레임 동기 One-Pass 비터비 알고리즘과 beam pruning을 채택하였으며, 인식에 사용된 어휘는 36개의 성명, 8개의 직위 및 존칭, 5개 정도의 호출어, 부탁을 나타내는 동사 및 그 활용이 10개 정도이다. 약 $3{\sim}6$개 정도의 단어로 구성된 문장을 실시간($1{\sim}3$초이내)에 인식하고, 약 98% 정도의 핵심어 인식 성능을 나타내고 있다.

  • PDF

사용자 인터페이스 에이젼트 환경을 위한 국어 발음 애니메이션 (Korean Talking Animation for User Interface Agent Environment)

  • 최승걸;이미승;김웅순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.284-297
    • /
    • 1996
  • 사용자가 컴퓨터와 자연스럽고 인간적으로 대화할 수 있고, 사람의 요구에 지능적인 해답을 능동적으로 제시할 수 있는 사용자 인터페이스 에이전트가 활발히 연구되고 있다. 음성, 펜, 제스쳐인식 등을 비롯한 다양한 방법을 통하여 사람의 의사전달방식을 컴퓨터의 입력수단으로 구현하여 사용자 편의성을 도모하고 있다. 본 논문에서는 컴퓨터를 블랙박스로 하고, 표면적으로 지능형 3차원 그래픽 얼굴 에이전트와 사용자가 의사소통을 하는 사용자 인터페이스를 대상으로 하였다. 컴퓨터가 단순문제 해결을 위한 도구에서 많은 정보를 다양한 매체를 통해 제공하는 보조자의 역할을 수행하게 되었기 때문에 위의 방법은 보다 적극적인 방법이라 할 수 있다. 이를 위한 기반 기술로써 국어를 발음하는 얼굴 애니메이션을 연구하였다. 발음을 표현하기 위한 데이터로써 디지털 카메라를 사용하여 입술 운동의 특징점의 위치를 조사하였고, 모델링 시스템을 개발하여 데이터를 입력하였다. 적은 데이터로도 복잡한 자유곡면을 표현할 수 있는 B-Spline곡면을 기본데이터로 사용하였기 때문에 애니메이션을 위한 데이터의 양 또한 줄일 수 있었다. 그리고 국어음소의 발음시간 수열에 대한 입술모양의 변화를 조사하여 발음소리와 입술 움직임을 동기화 시킨 발음 애니메이션을 구현하였다.

  • PDF