• Title/Summary/Keyword: 인식률

Search Result 3,099, Processing Time 0.029 seconds

Robust Speech Recognition with Car Noise based on the Wavelet Filter Banks (웨이블렛 필터뱅크를 이용한 자동차 소음에 강인한 고립단어 음성인식)

  • Lee, Dae-Jong;Kwak, Keun-Chang;Ryu, Jeong-Woong;Chun, Myung-Geun
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.12 no.2
    • /
    • pp.115-122
    • /
    • 2002
  • This paper proposes a robust speech recognition algorithm based on the wavelet filter banks. Since the proposed algorithm adopts a multiple band decision-making scheme, it performs robustness for noise as the presence of noisy severely degrades the performance of speech recognition system. For evaluating the performance of the proposed scheme, we compared it with the conventional speech recognizer based on the VQ for the 10-isolated korean digits with car noise. Here, the proposed method showed more 9~27% improvement of the recognition rate than the conventional VQ algorithm for the various car noisy environments.

A Study on Duration Length and Place of Feature Extraction for Phoneme Recognition (음소 인식을 위한 특징 추출의 위치와 지속 시간 길이에 관한 연구)

  • Kim, Bum-Koog;Chung, Hyun-Yeol
    • The Journal of the Acoustical Society of Korea
    • /
    • v.13 no.4
    • /
    • pp.32-39
    • /
    • 1994
  • As a basic research to realize Korean speech recognition system, phoneme recognition was carried out to find out ; 1) the best place which represents each phoneme's characteristics, and 2) the reasonable length of duration for obtaining the best recognition rates. For the recognition experiments, multi-speaker dependent recognition with Bayesian decision rule using 21 order of cepstral coefficient as a feature parameter was adopted. It turned out that the best place of feature extraction for the highest recognition rates were 10~50ms in vowels, 40~100ms in fricatives and affricates, 10~50ms in nasals and liquids, and 10~50ms in plosives. And about 70ms of duration was good enough for the recognition of all 35 phonemes.

  • PDF

Analysis of Unaspirated sound for Korean (한국어의 경음에 대한 분석)

  • Lim Soo-Ho;Kim Joo-Gon;Kim Bum-Guk;Jung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.41-44
    • /
    • 2004
  • 본 논문에서는 한국어에만 나타나는 경음에 대하여 음운학적, 음향학적 특성을 고찰하고 이를 기반으로 음성인식 실험을 수행한 후 그 결과를 분석하였다. 음성인식 실험을 위하여 입력 음성을 48개의 유사음소단위 (PLU; Phoneme Likely Unit)로 레이블링을 한 후 각각의 음소군에 대하여 LPC (Liner Predictive Coding) 분해능을 증가시키면서 음소인식 및 단어인식 실험을 수행하였다. 그 결과, 음소 인식 실험에서 경음군의 인식률이 가장 낮게 나타나 경음에 대한 분석이 보다 많이 필요함을 알 수 있었다. 또한 PLC의 분해 차원이 23차 일 때 경음과 전체 음소 인식률이 각각 $34.11\%,\;46.1\%$로 나타나 가장 양호함을 알 수 있었으며 단어인식 실험에서도 LPC 23차와 25차 일 때 $81.68\%,\;81.87\%$로 인식률이 가장 좋음을 알 수 있었다. 이상의 실험 결과에서 한국어의 경음은 전체 시스템의 인식 성능과 밀접한 관계가 있음을 알 수 있었다.

  • PDF

Fast computation of Observation Probability for Speaker-Independent Real-Time Speech Recognition (실시간 화자독립 음성인식을 위한 고속 확률계산)

  • Park Dong-Chul;Ahn Ju-Won
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.30 no.9C
    • /
    • pp.907-912
    • /
    • 2005
  • An efficient method for calculation of observation probability in CDHMM(Continous Density Hidden Markov Model) is proposed in this paper. the proposed algorithm, called FCOP(Fast Computation of Observation Probability), approximate obsewation probabilities in CDHMM by eliminating insignificant PDFs(Probability Density Functions) and reduces the computational load. When applied to a speech recognition system, the proposed FCOP algorithm can reduce the instruction cycles by $20\%-30\%$ and can also increase the recognition speed about $30\%$ while minimizing the loss in its recognition rate. When implemented on a practical cellular phone, the FCOP algorithm can increase its recognition speed about $30\%$ while suffering $0.2\%$ loss in recognition rate.

A Study on Efficient Face Recognition using Pseudo 2D-HMM (Pseudo 2D-HMM을 이용한 효율적인 얼굴인식에 관한 연구)

  • Lee, Wu-Ju;Lim, Jeong-Hoon;Noh, Kyung-Seok;Seo, Hee-Kyung;Lee, Bae-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11a
    • /
    • pp.493-496
    • /
    • 2003
  • 본 논문에서는 계산의 복잡성을 단순화하고, 얼굴영상에 대해 높은 얼굴 인식률을 얻기 위해 2D-HMM(Midden Markov Model) 얼굴인식 방법을 제안하고 실험하였다. 계산의 복잡성을 줄이기 위해 기존의 픽셀값 대신에 2D-DCT계수를 관측벡터로 사용함으로써 관측벡터의 크기와 인식 시스템의 복잡성을 줄일 수 있었다. 얼굴인식 시스템의 성능을 평가하기 위하여 Yale, ORL의 얼굴 데이터베이스에 대하여 기존의 얼굴인식 방법으로 널리 알려진 Eigenface 방법, LDA 방법과 본 논문에서 제안한 방법인 1D-HMM, 2D-HMM방법의 인식률을 비교 평가하였다. 실험결과 2D-HMM 방법의 인식률이 99.5%로 기존의 얼굴인식 방법들보다 우수한 성능을 나타냈다. 또한 일정 state수에 대해 mixture의 수가 증가할수록 인식결과가 좋아짐을 알 수 있었다.

  • PDF

Speech Recognition Optimization Learning Model using HMM Feature Extraction In the Bhattacharyya Algorithm (바타차랴 알고리즘에서 HMM 특징 추출을 이용한 음성 인식 최적 학습 모델)

  • Oh, Sang-Yeob
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.199-204
    • /
    • 2013
  • Speech recognition system is shall be composed model of learning from the inaccurate input speech. Similar phoneme models to recognize, because it leads to the recognition rate decreases. Therefore, in this paper, we propose a method of speech recognition optimal learning model configuration using the Bhattacharyya algorithm. Based on feature of the phonemes, HMM feature extraction method was used for the phonemes in the training data. Similar learning model was recognized as a model of exact learning using the Bhattacharyya algorithm. Optimal learning model configuration using the Bhattacharyya algorithm. Recognition performance was evaluated. In this paper, the result of applying the proposed system showed a recognition rate of 98.7% in the speech recognition.

Robust Motorbike License Plate Detection and Recognition using Image Warping based on YOLOv2 (YOLOv2 기반의 영상 워핑을 이용한 강인한 오토바이 번호판 검출 및 인식)

  • Dang, Xuan Truong;Kim, Eung Tae
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.17-20
    • /
    • 2019
  • 번호판 자동인식 (ALPR: Automatic License Plate Recognition)은 지능형 교통시스템 및 비디오 감시 시스템 등 많은 응용 분야에서 필요한 기술이다. 대부분의 연구는 자동차를 대상으로 번호판 감지 및 인식을 연구하였고, 오토바이를 대상으로 번호판 감지 및 인식은 매우 적은 편이다. 자동차의 경우 번호판이 차량의 전방 또는 후방 중앙에 위치하며 번호판의 뒷배경은 주로 단색으로 덜 복잡한 편이다. 그러나 오토바이의 경우 킥 스탠드를 이용하여 세우기 때문에 주차할 때 오토바이는 다양한 각도로 기울어져 있으므로 번호판의 글자 및 숫자 인식하는 과정이 훨씬 더 복잡하다. 본 논문에서는 다양한 각도로 주차된 오토바이 데이트세트에 대하여 번호판의 문자 인식 정확도를 높이기 위하여 2-스테이지 YOLOv2 알고리즘을 사용하여 오토바이 영역을 선 검출 후 번호판 영역을 검지한다. 인식률을 높이기 위해 앵커박스의 사이즈와 개수를 오토바이 특성에 맞추어 조절하였다. 그 후 기울어진 번호판을 검출한 후 영상 워핑(Image Warping) 알고리즘을 적용하였다. 모의실험 결과, 기존 방식의 인식률이 47,74%에 비해 제안된 방식은 80.23%의 번호판의 인식률을 얻었다. 제안된 방법은 전체적으로 오토바이 번호판 특성에 맞는 앵커박스와 이미지 워핑을 통해서 다양한 기울기의 오토바이 번호판 문자 인식을 높일 수 있었다.

  • PDF

Endpoint Detection in the Car Noise Environment for Speech Recognition (음성인식을 위한 자동차 소음환경에서의 끝점 검출)

  • 서동권;신원호;양태영;김원구;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • v.17 no.1
    • /
    • pp.76-79
    • /
    • 1998
  • 소음이 존재하지 않는 환경에서는 에너지 파라메터만으로도 정확한 끝점 검출을 수 행할 수 있으나 신호대 잡음비가 0dB에 가까운 자동차 환경에서는 끝점 검출이 거의 불가 능하다. 본 논문에서는 자동차 소음 환경에서 음성 구간 검출을 위하여 단구간 영교차율과 2∼4kHz의 주파수 영역 에너지를 사용한 끝점 검출 방법을 제안하였다. 제안된 방법과 기 존의 방법의 성능을 DTW를 이용한 단독음 인식 시스템에 적용하여 인식률로 비교하였으 며 제안된 음성 구간 검출 방법을 적용한 경우가 보다 좋은 인식률을 나타내었다.

  • PDF

An Experimental Field Trial of Speech Recognition System Based on Word Rejection (거절기능을 갖는 음성인식 시스템의 시험운용)

  • Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.163-170
    • /
    • 1996
  • 본 논문에서는 거절기능을 갖는 음성인식 시스템의 시험운용에 대해 소개하였다. 거절기능은 소음 단어에 의한 방식과 인식 결과를 확인하는 방식을 둘 다 병행 사용하여 구현하였다. 소음단어는 필러모델을 정의하여 구현하였으며 인식결과를 확인하기 위해서는 선형변별기를 사용하였다. 연구실에서 구축한 음성 DB로 HMM 파라미터를 추출한 후 시험운용 6개월 동안 구한 음성 DB로 실험한 결과 84.1%의 인식률을 구하였으며 이때 거절률은 0.8%였다.

  • PDF

Machine-printed Digit Recognition using Weighted Template Matching (가중 템플릿 정합을 이용한 인쇄체 아라비아 숫자 인식)

  • Jung Minchul
    • Proceedings of the KAIS Fall Conference
    • /
    • 2005.05a
    • /
    • pp.180-183
    • /
    • 2005
  • 본 논문에서는 인쇄체 아라비아 숫자를 인식하기 위해 가중 템플릿 정합 방법을 제안한다. 가중 템플릿 정합은 패턴의 특징이 나타나는 영역에 해밍거리(Hamming Distance) 의 가중치를 두어 패턴 특징을 강조하여 숫자 패턴의 인식률을 높이는 것이다. 또한 패턴의 표면을 울퉁불퉁한 영상으로 만드는 한 두 픽셀의 랜덤 노이즈를 제거하기 위하여 본 연구에서는 트리밍(trimming) 기법을 적용하였다. 실험에서는 트리밍을 하지 않고 단순 템플릿 정합을 사용했을 때의 혼돈 행렬(confusion matrix)과 트리밍을 한 후 가중 템플릿 정합을 사용했을 때 혼돈 행렬을 서로 비교해 인식률이 크게 향상된 것을 보인다.

  • PDF