• Title/Summary/Keyword: 음성개선

Search Result 1,025, Processing Time 0.025 seconds

Dependency relation analysis and mutual information technique for ASR rescoring (음성인식 리스코링을 위한 의존관계분석과 상호정보량 접근방법의 비교)

  • Chung, Euisok;Jeon, Hyung-Bae;Park, Jeon-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.164-166
    • /
    • 2014
  • 음성인식 결과는 다수의 후보를 생성할 수 있다. 해당 후보들은 각각 음향모델 값과 언어모델 값을 결합한 형태의 통합 정보를 갖고 있다. 여기서 언어모델 값을 다시 계산하여 성능을 향상하는 접근 방법이 일반적인 음성인식 성능개선 방법 중 하나이며 n-gram 기반 리스코링 접근 방법이 사용되어 왔다. 본 논문은 적절한 성능 개선을 위하여, 대용량 n-gram 모델의 활용 문제점을 고려한 문장 구성 어휘의 의존 관계 분석 접근 방법 및 일정 거리 어휘쌍들의 상호정보량 값을 이용한 접근 방법을 검토한다.

  • PDF

The Study of Performance Improvement of Dejitter Algorithm applying Time Series Model for VoicePlatform Security Data (음성 플랫폼 보안 데이터 성능 개선을 위해 시계열 모델을 적용한 디지터 알고리즘의 성능 향상 연구)

  • Min, Sun-Ho;Seo, Chang-Ho
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.23 no.5
    • /
    • pp.963-968
    • /
    • 2013
  • In this paper, a major factor in determining voice quality that corresponds to the jitter and dejitter algorithm for removing jitter will be described. We analyze legacy dejitter algorithm and propose the study applying Time Series Model to improve performance of the dejitter algorithm.

Improving Performance of Continuous Speech Recognition Using Error Pattern Training and Post Processing Module (에러패턴 학습과 후처리 모듈을 이용한 연속 음성 인식의 성능향상)

  • 김용현;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.441-443
    • /
    • 2000
  • 연속 음성 인식을 하는 경우에 많은 에러가 발생한다. 특히 기능어의 경우나 서술어의 경우에는 동시 조음 현상에 의한 음운 변화에 의해 빈번한 에러가 발생한다. 이러한 빈번한 에러를 수정하기 위한 방법에는 언어 모델의 개선과 음향 모델의 개선등을 통한 인식률 향상과 여러 단계의 인식과정을 두어 서로 다른 언어 모델을 적용하는 등의 방법이 있지만 모두 시간과 비용이 많이 들고 각각의 상황에 의존적인 단점이 있다. 따라서 본 논문에서 제안하는 방법은 이것을 수정하기 위해 음성 인식기로부터 인식되어 나온 결과 문장을 정답과 비교, 학습함으로써 빈번하게 에러 패턴을 통계적 방법에 의해 학습하고 후처리 모듈을 이용하여 인식시에 발생하는 에러를 적은 비용과 시간으로 수정할 수 있도록 하는 것이다. 실험은 3000 단어급의 한국어 낭독체 연속 음성을 대상으로 하여 형태소와 의사형태소를 각각 인식단위로 하고, 언어모델로 World bigram과 Tagged word bigram을 각각 적용 실험을 하였다. 형태소, 의사 형태소일 경우 모두 언어 모델을 tagged word bigram을 사용하였을 경우 N best 후보 문장 중 적당한 단어 후보의 분포로 각각 1 best 문장에 비해 12%, 18%정도의 에러 수정하여 문장 인식률 향상에 상당한 기여를 하였다.

RoI Detection Method for Improving Lipreading Reading in Speech Recognition Systems (음성인식 시스템의 입 모양 인식개선을 위한 관심영역 추출 방법)

  • Jae-Hyeok Han;Mi-Hye Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.299-302
    • /
    • 2023
  • 입 모양 인식은 음성인식의 중요한 부분 중 하나로 이를 개선하기위한 다양한 연구가 진행되어 왔다. 기존의 연구에서는 주로 입술주변 영역을 관찰하고 인식하는데 초점을 두었으나, 본 논문은 음성인식 시스템에서 기존의 입술영역과 함께 입술, 턱, 뺨 등 다른 관심 영역을 고려하여 음성인식 시스템의 입모양 인식 성능을 비교하였다. 입 모양 인식의 관심 영역을 자동으로 검출하기 위해 객체 탐지 인공신경망을 사용하며, 이를 통해 다양한 관심영역을 실험하였다. 실험 결과 입술영역만 포함하는 ROI 에 대한 결과가 기존의 93.92%의 평균 인식률보다 높은 97.36%로 가장 높은 성능을 나타내었다.

Improved Orthogonal Projection Method for Cancelling Acoustic Echo Signals (음향반향신호의 제거를 위한 개선된 직교투사법)

  • Yun Hyun-min
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.4
    • /
    • pp.703-711
    • /
    • 2005
  • This paper proposes the improved orthogonal projection method as a new technique advancing the performance of the echo cancellation for speeches in the acoustic echo canceller. Comparing with the used NLMS adaptive algorithm, it shows that this method improves the performance of the echo cancellation for signals with the large auto-correlation. In order to testify performances of the orthogonal projection method whom this paper proposes, we have coded a simulation program and executed computer simulations. We observed convergence curves by using two adaptive algorithm for noises and speeches. From simulation results for two input signals, the proposed method shows the high ERLE and the fast convergence and the stable operation in case of using speeches as well as noises.

Spoken Dialogue Service Trends Using Natural Speech Recognition Technology (자연어 음성인식 기술을 이용한 음성 대화 서비스 개발동향)

  • Jung, H.Y.;Song, H.J.;Kang, B.O.;Chung, E.S.;Chung, H.;Oh, Y.R.;Kwon, O.W.;Lee, K.Y.;Lee, Y.K.
    • Electronics and Telecommunications Trends
    • /
    • v.26 no.5
    • /
    • pp.14-28
    • /
    • 2011
  • 모바일 혁명과 빅데이터(big data) 시대에 접어들면서 사용자 중심의 자연스러운 인터페이스와 정보검색에 대한 요구가 늘어가고 있다. 모바일 환경에서의 쉽고 자연스러운 검색을 위해 음성인식 기술을 이용한 음성검색 서비스가 대세를 이루고 있으며 대화형 검색 서비스로 발전하게 될 것이다. 음성 대화 서비스의 주요 응용 분야인 음성검색 및 외국어 교육 서비스에서의 자연어 음성인식 기술 역할 및 사용자 경험을 바탕으로 하는 선순환 구조의 인식 성능 개선에 대해 소개한다. 또한 두 응용분야에서의 국내외 개발동향을 소개하고 실제 개발 사례를 통해 무제한급 자연어 음성인식 기술에 기반한 음성 대화 서비스의 가능성을 살펴본다.

  • PDF

The design of VoiceXML Interpreter based on the Web (웹 기반의 VoiceXML 문서 인터프리터의 설계)

  • 이선남;김경아;이기호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.355-357
    • /
    • 2001
  • VoiceXML은 음성인식 및 음성합성과 음성처리기술을 이용하여, 시각에 의존하는 기존의 웹을 벗어나 음성 및 시각을 모두 활용할 수 있는 새로운 정보 서비스 패러다임으로 제시되어지고 있다. VoiceXML을 이용한 음성정보서비스를 제공할 경우, 마크업 언어형태로 작성된 시나리오를 인터프리터를 통해 서비스하기 때문에 시나리오 변경 요구시 재프로그램해야 하는 기존 음성정보서비스 시스템의 문제점을 쉽게 개선할 뿐만 아니라, 음성정보서비스의 개발자가 음성인식.음성합성과 같은 기술적인 문제와는 독립적으로 시나리오를 작성할 수 있다는 이점이 있다. 본 논문에서는 W3C Voice Browser Working Group에서 제안하는 문법표현.시스템구조.다이얼로그 모델 등을 지원하는 XML 기반 대화형 마크업 언어인 VoiceXML 문서의 인터프리터를 설계하고자 한다.

  • PDF

Study on User Experience design in Gesture Interaction as a Product Trigger - Focusing on Product Design - (제품 트리거로서 행동인식의 사용자 경험 디자인 연구 - 제품디자인을 중심으로 -)

  • Min, Sae-yan;Lee, Cathy Yeonchoo
    • Journal of Digital Convergence
    • /
    • v.17 no.5
    • /
    • pp.379-384
    • /
    • 2019
  • The purpose of this study is to investigate the problems of the rapidly increasing voice interface and to find out what results will be obtained when the new gesture interaction is applied to the product, and to suggest the improvement method for a better user experience. Through the literature review, I have conducted a theoretical review on the changes in the product interface used in the product and the difference between them, and then conducted in-depth interviews on the 20-30 users who used voice recognition as a product trigger. As a result, it was concluded that the decline in the reliability of accuracy leads to a decrease in the preference of voice recognition interactions and an needs of appropriate interface for the functional aspect of non-relavancy in physical distance as a product trigger. This study is meaningful in that it has found a problem with the study of the product trigger interface and suggested improvement measures, and hope to be helpful in follow-up study.

A Study on Word Juncture Modeling for Continuous Speech Recognition of Korean Language (한국어 연속음성 인식을 위한 단어 결합 모델링에 관한 연구)

  • Choi, In-Jeong;Un, Chong-Kwan
    • The Journal of the Acoustical Society of Korea
    • /
    • v.13 no.5
    • /
    • pp.24-31
    • /
    • 1994
  • In this paper, we study continuous speech recognition of Korean language using acoustic models of word juncture coarticulation. To alleviate the performance degradation due to coarticulation problems, we use context-dependent units that model inter-word transitions in addition to intra-word transitions. In all cases the initial phone of each word has to be specified for each possible final phone of the previous word similarly for the final phone of each word. To improve the robustness of the HMM parameters, the covariance matrix is smoothed. We also use position-dependent units to improve the discriminative power between units. Simulation results show that when the improved models of word juncture coarticulation are used. the recognition performance is considerably improved compared to the baseline system using only intra-word units.

  • PDF

Improvement of Sound Quality using Compensation of Perceptual Filter Response (지각 필터 응답 보상을 통한 음질 개선)

  • Chae Byoung-Koog;Cha Hyuk-Geun;Cha Hyung-Tai
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.295-298
    • /
    • 2004
  • 본 논문에서는 잡음에 오염된 신호의 지각관계를 해석하여 지각 필터 응답 제어를 통한 음성 신호 개선 알고리즘을 제안한다. 음성 신호 개선 기법은 단일 채널환경에서 사람의 청각시스템에서의 주파수 변별력을 나타내는 각각의 임계대역에 대한 전체 에너지를 나타내는 임계대역 에너지의 지각적인 확산의 영향 즉, 마스킹 확산의 영향을 나타내는 자극에너지를 이용하여 신호와 잡음 에너지에 의해 변화하는 잡음에 의한 신호의 마스킹 구간을 검출하여 묵음 구간 추출 잡음 필터응답과 추정 잡음 오차를 보상시킨 필터응답을 통한 지각 필터 응답을 보상하여 신호를 개선하는 방법이다. 실험 결과 제안한 방법을 통해 SNR에 개선과 음질 개선 효과를 얻을 수 있음을 테스트를 통해 확인하였다.

  • PDF