• 제목/요약/키워드: speech speed

검색결과 238건 처리시간 0.028초

E-MIND II를 이용한 고립 단어 인식 시스템의 설계 (Isolated Word Recognition with the E-MIND II Neurocomputer)

  • 김준우;정홍;김명원
    • 전자공학회논문지B
    • /
    • 제32B권11호
    • /
    • pp.1527-1535
    • /
    • 1995
  • This paper introduces an isolated word recognition system realized on a neurocomputer called E-MIND II, which is a 2-D torus wavefront array processor consisting of 256 DNP IIs. The DNP II is an all digital VLSI unit processor for the EMIND II featuring the emulation capability of more than thousands of neurons, the 40 MHz clock speed, and the on-chip learning. Built by these PEs in 2-D toroidal mesh architecture, the E- MIND II can be accelerated over 2 Gcps computation speed. In this light, the advantages of the E-MIND II in its capability of computing speed, scalability, computer interface, and learning are especially suitable for real time application such as speech recognition. We show how to map a TDNN structure on this array and how to code the learning and recognition algorithms for a user independent isolated word recognition. Through hardware simulation, we show that recognition rate of this system is about 97% for 30 command words for a robot control.

  • PDF

다단계 구단위화를 이용한 고속 한국어 의존구조 분석 (High Speed Korean Dependency Analysis Using Cascaded Chunking)

  • 오진영;차정원
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.103-111
    • /
    • 2010
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 CRFs(Conditional Random Fields)를 이용하여 최적의 결과를 얻는다. 58,175문장 세종 구문 코퍼스로 10-fold Cross Validation(평균 10.97어절)으로 실험한 결과 평균 86.01%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.

A Study on Stable Motion Control of Humanoid Robot with 24 Joints Based on Voice Command

  • Lee, Woo-Song;Kim, Min-Seong;Bae, Ho-Young;Jung, Yang-Keun;Jung, Young-Hwa;Shin, Gi-Soo;Park, In-Man;Han, Sung-Hyun
    • 한국산업융합학회 논문집
    • /
    • 제21권1호
    • /
    • pp.17-27
    • /
    • 2018
  • We propose a new approach to control a biped robot motion based on iterative learning of voice command for the implementation of smart factory. The real-time processing of speech signal is very important for high-speed and precise automatic voice recognition technology. Recently, voice recognition is being used for intelligent robot control, artificial life, wireless communication and IoT application. In order to extract valuable information from the speech signal, make decisions on the process, and obtain results, the data needs to be manipulated and analyzed. Basic method used for extracting the features of the voice signal is to find the Mel frequency cepstral coefficients. Mel-frequency cepstral coefficients are the coefficients that collectively represent the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. The reliability of voice command to control of the biped robot's motion is illustrated by computer simulation and experiment for biped walking robot with 24 joint.

최적경로와 가중직교인자를 이용한 화자인식 (Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters)

  • 박승규;배철수
    • 한국음향학회지
    • /
    • 제11권2호
    • /
    • pp.68-72
    • /
    • 1992
  • 최근, 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식율의 저하요인이 되고 있다. 본연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교인자와 음성의 동적인 시간특성을 정규화하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식율을 얻어 그 유효성을 확인하였다.

  • PDF

요들송에 대한 전기성문파형검사(EGG)를 이용한 발성학적 접근 (A Phonetic Analysis of Yodel Singing by the Electroglottographic(EGG) Measurement)

  • 서동일;최헝식
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.113-126
    • /
    • 2000
  • A comparative phonetic analysis of Yodel singing and Belcanto singing by the electroglottographic(EGG) measurement was done in three singers. One professional tenor singer(SDI) who is also well trained in Yodel singing, another yodler(KWS) who is not so trained in Belcanto singing, and the other training tenor singer(CSK) who is not well trained both yodel and Belcanto singing. Closed quotient(CQ), speed quotient(SQ) and fundamental frequency (F0) at the initial modal part(I) , middle falsetto part(M), and final modal part(F) of the same phrase were measured by EGG machine and program(Kay model 4338). In the middle part, not only CQ but also SQ of the Yodel singing were much smaller than that of Belcanto singing in all three singers. However, accuracy of parameters in Belcanto singing of the yodler(KWS) and both Yodel singing and Belcanto singing of the training singer(CSK) were inferior to that of trained tenor singer(SDI). Possible advantages of utilizing Yodel singing training under the guidance of feedback control by the EGG for hyperfunctional voice disorders such as vocal nodules were discussed.

  • PDF

소어휘 단어단위의 음성인식 칩 설계 (The Design of Speech Recognition Chip for a Small Vocabulary as a Word-level)

  • 안점영;최영식
    • 한국정보통신학회논문지
    • /
    • 제6권2호
    • /
    • pp.330-338
    • /
    • 2002
  • 소어휘 단어단위의 음성을 인식할 수 있는 음성인식 칩을 설계하였다. 설계된 칩은 음성 신호의 시작과 끝점 검출 부분, LPC 켑스트럼 계수 추출 부분, DTW 실행 부분과 외부 메모리 인터페이스 부분으로 구성되어있다. CMOS 0.35um TLM 공정으로 설계된 이 칩은 4x4mm2의 면적에 126,938개의 게이트로 만들어져 있다. 그리고 전용 H/W의 동작 속도는 5MHz에서 60MHz까지 조정 가능하다. 5MHz 클록을 사용하는 경우, 50∼60 프레임 정도의 소어휘 단어 단위의 음성을 초당 100,000개까지 비교할 수 있는 능력이 있고, 60MHz의 클록을 사용하는 경우는 초당 1,200,000개의 단어를 비교할 수 있다.

최적경로와 가중직교인자를 이용한 화자인식 (Speaker Recognition Using Optimal Path and Weighted Orthogonal Parameters)

  • 남기환;배철수
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1539-1544
    • /
    • 2003
  • 최근 많은 연구자들이 KLT를 이용한 통계적 처리방법으로 화자인식을 수행하고 있으나, 통계적 처리방법의 개인성 포함정도와 음성의 동적인 발성속도는 화자인식률의 저하요인이 되고 있다. 본 연구에서는 각 화자의 직교인자에 개인성을 강조하기 위하여 화자의 고유치를 가중치로 한 가중직교 인자와 음성의 동적인 시간 특성을 정규화 하는 DTW의 최적경로를 이용한 화자인식방법을 연구하였다. 이 방법을 확인하기 위하여 종래의 통계적 처리에 의한 화자인식, 최적경로와 가중직교인자를 이용한 화자인식의 결과를 비교한 결과, 종래의 방법보다 우수한 화자인식률을 얻어 그 유효성을 확인하였다.

MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템 (Vocabulary Recognition Retrieval Optimized System using MLHF Model)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.217-223
    • /
    • 2009
  • 모바일 단말기의 어휘 인식 시스템에서는 통계적 방법에 의한 어휘인식을 수행하고 N-gram을 이용한 통계적 문법 인식 시스템을 사용한다. 인식 대상이 되는 어휘의 수가 증가하면 어휘 인식 알고리즘이 복잡해지고 대규모의 탐색공간을 필요로 하게 되며 처리시간이 길어지므로 제한된 연산처리 능력과 메모리로는 처리하기가 불가능하다. 따라서 본 논문에서는 이러한 단점을 개선하고 어휘 인식을 최적화하기 위하여 MLHF 시스템을 제안한다. MLHF는 FLaVoR의 구조를 이용하여 음향학적 탐색과 언어적 탐색을 분리하여 음향학적 탐색에서는 HMM을 사용하고 언어적 탐색 단계에서는 Levenshtein distance 알고리즘을 사용한다. 시스템 성능 평가 결과 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타냈으며 인식속도는 1.61초로 나타내었다.

음성학적 지식과 DAC 기반 분할 알고리즘 (Phonetic Acoustic Knowledge and Divide And Conquer Based Segmentation Algorithm)

  • 구찬모;왕지남
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.215-222
    • /
    • 2002
  • 본 논문에서는 음절이 잘 발달되어 있는 한국어에 대해서 신뢰할 수 있는 완전 자동화된 레이블링 시스템을 제안한다. 음운 및 음향학적인 정보를 최대한 이용하고 분할에러를 줄이기 위해서 조절 메카니즘의 하나로 DAC개념을 사용하여 음성을 speechlet으로 나누고 분할 된 음성 구간에 대해서 레이블링을 시도하는 DAC기반 분할알고리즘이다. HMM방법이 획일적이고 확정적인 성능을 갖는 반면 본 제안 방법은 음성학적인 특화지식을 컴포넌트로 개발 추가 계속 향상시킬 수 있는 프레임워크를 제시하고 있다는 점에서 주요 의의가 있다고 하겠다. MM과 같은 통계학적인 방법을 이용하지 않고 음운학적, 음향학적 지식만을 이용하는 새로운 방법은 수행속도와 음성학적인 특화 지식컴포넌트를 확장함에 따라 일관성이 있으며 효과적 방법으로 적용가능 할 것이다. 제안 방법을 검증하기 위하여 실험결과를 제시하였다.

노년층과 청년층의 상위범주어 과제 수행력 비교 (Comparison of Performance on Superordinate Word Tasks in Elderly and Young Adults)

  • 김형무;윤지혜
    • 재활복지
    • /
    • 제20권4호
    • /
    • pp.229-246
    • /
    • 2016
  • 본 연구에서는 노년층 40명과 청년층 43명을 대상으로 상위범주어 선택과제를 실시하여 정반응 및 반응시간을 비교하였고, 상위범주어 쓰기과제를 실시하여 정반응 및 오류양상의 차이를 비교하였다. 분석결과, 첫째, 상위범주어 선택 및 쓰기 과제 모두 노년층은 청년층 보다 정반응수가 더 적었다. 둘째, 노년층은 상위범주어 선택과제에서의 반응시간이 유의미하게 느렸다. 셋째, 상위범주어 쓰기과제의 오류양상에서는 노년층은 무관오류보다 연관 오류를 더 빈번하게 보였다. 노년층이 선택과제와 쓰기과제에서 더 낮은 정반응 수를 보인 결과는 정상적인 노화가 진행되면서 의미어휘사전 내 정보 간의 연결이 약화되거나 활성화가 저하되기 때문이라고 볼 수 있다. 반응시간이 긴 이유는 노화에 따른 뇌의 신경생리적 변화와 인지처리 속도 저하에 기인할 수 있다. 목표 상위범주어와 연관된 단어를 산출하는 오류를 보인 것은 비록 노년층이 단어를 완벽히 산출할 수는 없을지라도 목표 단어의 어휘집에 접근하여 의미적으로 연관된 단어를 에둘러 산출하고 목표단어가 가지고 있는 특성들에 대해 우회적으로 설명하는 방식을 취하고 있음을 시사한다.