• Title/Summary/Keyword: 음성효율

Search Result 866, Processing Time 0.047 seconds

Efficient Codebook Search Method for AMR Wideband Speech Codec (광대역 AMR 음성 압축기를 위한 효율적인 코드북 검색 방법)

  • 김윤희;박호종
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.4
    • /
    • pp.308-314
    • /
    • 2003
  • Wideband speech communications with 7㎑ bandwidth can provide high-quality speech services that are almost impossible with current narrow-band speech communications with 3.4 ㎑ bandwidth, and AMR wideband codec was recently developed for these services. The performance of AMR wideband codec is excellent due to its wideband information and partially to ACELP structure, but it requires high computational complexity especially in codebook search. In this paper, to solve this problem, an efficient codebook search method for AMR wideband codec is proposed. The proposed method first determines the coarse initial codevector, then improves the performance of codevector by replacing a poor pulse in codevector with better one iteratively. Simulations show that AMR wideband codec with proposed codebook search method has higher performance with much less computational cost than conventional AMR wideband codec.

Noise filtering method based on voice frequency correlation to increase STT efficiency (STT 효율 증대를 위한 음성 주파수 correlation 기반 노이즈 필터링 방안)

  • Lim, Jiwon;Hwang, Yonghae;Kim, Kyuheon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.176-179
    • /
    • 2021
  • 현재 음성인식 기술은 인공지능 비서, 전화자동응답, 네비게이션 등 다양한 분야에서 사용되고 있으며 인간의 음성을 디바이스에 전달하기 위해 음성 신호를 텍스트로 변환하는 Speech-To-Text (STT) 기술을 필요로 한다. 초기의 STT 기술의 대부분은 확률 통계 방식인 Hidden Markov Model (HMM)기반으로 이루졌으며, 딥러닝 기술의 발전으로 HMM과 함께 Recurrent Nural Network (RNN), Deep Nural Network (DNN) 기법을 사용함으로써 과거보다 단어 인식 오류를 개선하며 20%의 성능 향상을 이루어냈다. 그러나 다수의 화자 혹은 생활소음, 노래 등 소음이 있는 주변 환경의 간섭 신호 영향을 받으면 인식 정확도에 차이가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위하여 음성 신호를 추출하여 주파수성분을 분석하고 오디오 신호 사이의 주파수 영역 correlation 연산을 통해 음성 신호와 노이즈 신호를 구분하는 것으로 STT 인식률을 높이고, 목소리 신호를 더욱 효율적으로 STT 기술에 입력하기 위한 방안을 제안한다.

  • PDF

The Optimal and Complete Prompts Lists Generation Algorithm for Connected Spoken Word Speech Corpus (연결 단어 음성 인식기 학습용 음성DB 녹음을 위한 최적의 대본 작성 알고리즘)

  • 유하진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.2
    • /
    • pp.187-191
    • /
    • 2004
  • This paper describes an efficient algorithm to generate compact and complete prompts lists for connected spoken words speech corpus. In building a connected spoken digit recognizer, we have to acquire speech data in various contexts. However, in many speech databases the lists are made by using random generators. We provide an efficient algorithm that can generate compact and complete lists of digits in various contexts. This paper includes the proof of optimality and completeness of the algorithm.

A Study on the Voice Traffic Efficiency and Buffer Management by Priority Control in ATM Multiplexer (ATM 멀티플렉서에서 우선순위 제어에 의한 음성전송효율 및 버퍼관리에 관한 연구)

  • 이동수;최창수;강준길
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.2
    • /
    • pp.354-363
    • /
    • 1994
  • This paper describes the method that voice traffic is served efficiently in BISDN. Voice is divided into talkspurt and silent period, and it is possible to transmit olny talksurt by the speech activity detection. This paper described the voice traffic control algorithm in the ATM network where cell discarding method is applied to the embedded ADPCM voice data. For traffic control, the cell discarding was used over low priority cells when it overflows the queue threshold. To estimate the efficiency of traffic control algorithm, the computer simuation was performed with cell loss probability, queue length and mean delay as performance parameters. The embedded ADPCM voice coding and cell disscarding resulted in improving the voice cell traffic efficiency and the dynamic control over network congestion.

  • PDF

A Study on the Content-Based Video Information Indexing and Retrieval Using Closed Caption and Speech Recognition (캡션정보 및 음성인식을 이용한 내용기반 비디오 정보 색인 및 검색에 관한 연구)

  • 손종목;김진웅;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.141-145
    • /
    • 1999
  • 뉴스나 드라마, 영화 등의 비디오에 대한 검색 시 일반 사용자의 요구에 가장 잘 부합되는 결과를 얻기 위해 비디오 데이터의 의미적 분석과 색인을 만드는 것이 필요하다. 일반적으로 음성신호가 비디오 데이터의 내용을 잘 나타내고 비디오와 동기가 이루어져 있으므로, 내용기반 검색을 위한 비디오 데이터 분할에 효율적으로 이용될 수 있다 본 논문에서는 캡션 정보가 주어지는 방송뉴스 프로그램을 대상으로 효율적인 검색, 색인을 위한 비디오 데이터의 분할에 음성인식기술을 적용하는 방법을 제안하고 그에 따른 실험결과를 제시한다.

  • PDF

Efficient Codebook Search Method for AMR Speech Codec (AMR 음성 압축기를 위한 효율적인 코드북 검색 방법)

  • Lee Doyoon;Park Hochong
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.93-96
    • /
    • 2001
  • ACELP 구조의 음성 압축기는 우수한 음질을 제공하지만 최적의 코드 벡터를 구하기 위한 계산량이 상당히 많은 단점이 있다. 이를 해결하기 위해서 본 논문에서는 AMR 음성 압축기의 코드북을 매우 효율적으로 검색하는 새로운 방법을 제안한다. 제안하는 코드북 검색 방법은 완전 순차적인 검색 방법을 사용하여 대략적인 코드 벡터를 구하고, 코드 벡터의 각 펄스들의 중요도를 계산하여 중요도가 낮은 펄스를 새로운 펄스로 교환하는 펄스 교환 과정을 수행하여 코드 벡터의 성능을 향상시키는 방법을 사용한다. 또한, AMR 음성 압축기의 구조에 맞도록 트랙별로 이동하면서 순차적으로 코드북을 검색하여 다수의 대략적인 코드벡터를 찾은 후, 각 코드 벡터에 대하여 펄스 교환 과정을 수행하여 최적의 코드 벡터를 구한다. 제안한 코드북 검색 방법을 AMR 음성 압축기의 모든 모드에 적용하여 코드북 검색을 위한 계산량과 성능을 측정하였으며, 모든 모드에 대하여 매우 적은 계산량으로 동등한 성능을 가지는 것을 확인하였다

  • PDF

Performance improvement of Command Speech recognition using Context Information (Context 정보를 이용한 명령어 음성인식의 성능향상)

  • Kim, Young-Ju;Kim, Eun-Ju;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.718-720
    • /
    • 2005
  • 이동 단말기의 대중화로 사용자는 시간과 공간의 제약 없이 필요한 다양한 정보 서비스를 쉽게 접할 수 있게 되었다. 그러나 사용자 인터페이스에 있어 이동 단말기는 제약사항이 않음으로 적시적소에 원하는 정보를 접근하기가 어렵기 때문에 음성인식을 통한 인터페이스 연구가 진행되고 있으며, 특히 잡음환경에서 강인한 음성인식 처리를 위한 연구가 활발히 진행되고 있다. 지금까지 잡음환경을 위한 음성인식 접근 방법으로는 언어모델의 개선과 음향모델 개선으로 크게 구분할 수 있다. 그러나 이러한 접근 방법들은 적용하는데 있어 많은 시간과 비용이 요구됨으로 효율성이 떨어진다. 따라서 본 논문에서는 이러한 효율성 문제를 보완하기 위해 음성인식기로부터 인식되어 나오는 결과를 문맥정보와 융합하여 정보를 추출하고 이 정보를 이용한 후처리 모듈을 이용하여 인식시에 발생하는 오류를 적은 비용과 시간으로 수정하여 이동 단말기에 이용할 수 있도록 한다.

  • PDF

Efficient Implementation of SVM-Based Speech/Music Classification on Embedded Systems (SVM 기반 음성/음악 분류기의 효율적인 임베디드 시스템 구현)

  • Lim, Chung-Soo;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.30 no.8
    • /
    • pp.461-467
    • /
    • 2011
  • Accurate classification of input signals is the key prerequisite for variable bit-rate coding, which has been introduced in order to effectively utilize limited communication bandwidth. Especially, recent surge of multimedia services elevate the importance of speech/music classification. Among many speech/music classifier, the ones based on support vector machine (SVM) have a strong selling point, high classification accuracy, but their computational complexity and memory requirement hinder their way into actual implementations. Therefore, techniques that reduce the computational complexity and the memory requirement is inevitable, particularly for embedded systems. We first analyze implementation of an SVM-based classifier on embedded systems in terms of execution time and energy consumption, and then propose two techniques that alleviate the implementation requirements: One is a technique that removes support vectors that have insignificant contribution to the final classification, and the other is to skip processing some of input signals by virtue of strong correlations in speech/music frames. These are post-processing techniques that can work with any other optimization techniques applied during the training phase of SVM. With experiments, we validate the proposed algorithms from the perspectives of classification accuracy, execution time, and energy consumption.

Dynamic Slot Allocation Scheme for Voice Service in WATM (WATM에서 음성 서비스를 위한 동적 슬롯 할당 알고리즘)

  • 김관웅;박준성;정경택;전병실
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.26 no.9A
    • /
    • pp.1601-1608
    • /
    • 2001
  • 본 논문에서는 무선 ATM 환경에서 음성과 같은 실시간 서비스가 요구되는 트래픽의 QoS를 보장하기 위한 구현 방법을 제안하였다. 음성은 셀이 발생되는 토크스퍼트 구간과 셀이 발생되지 않는 휴지구간이 주기적으로 반복되는 특성을 갖는다. 따라서 음성과 같은 실시간 서비스의 QoS를 보장하기 위해서는 휴지구간 상태에 있는 음성단말의 수와 음성단말의 상태를 고려하여 음성단말의 수에 관계없이 일정한 QoS를 보장할 수 있어야 한다. 음성단말의 수에 관계없이 일정한 연결 지연시간을 제공하기 위하여, 휴지 상태에 있는 음성 단말 수와 휴지 상태의 지속시간에 따라서 동적으로 음성 예약 슬롯을 할당하는 방식을 제안한다. 컴퓨터 시뮬레이션을 통하여 slotted-ALOHA나 NC-PRMA 같은 기존의 슬롯 할당방법과 비교하였으며, 그 결과 제안된 방법이 동적으로 예약슬롯을 할당하여 부하에 관계없이 음성 트래픽에 일정한 지연시간과 낮은 충돌율을 제공하면서 프레임에 예약슬롯의 오버헤드를 최소화하므로, 채널 사용 효율을 높일 수 있음을 알 수 있었다.

  • PDF

디지틀 이동 통신을 위한 음성 부호화 기술

  • Jeong, Jong-Tae;Kim, Yeong-Il
    • Electronics and Telecommunications Trends
    • /
    • v.4 no.3
    • /
    • pp.3-12
    • /
    • 1989
  • 디지틀 이동통신 시스팀 개발에 있어서 가용주파수 대역폭의 제한성 때문에 저 전송 속도 음성 부호화기에 관한 연구는 중요하다. 따라서, 음질도 좋고 주파수 효율을 극대화할 수 있는 디지틀 음성 부호화 방식에 대한 연구는 국내 고유모델의 디지틀 이동 통신 시스팀 개발에 초석이 된다고 할 수 있다. 본고에서는 현재 사용되거나 연구가 진행중인 디지틀 음성 부호화 방식들에 대하여 살펴보았고, 세계 각국에서 디지틀 이동통신을 위하여 제안한 디지틀 음성 부호화 방식들을 비교 및 검토 하였다.