• 제목/요약/키워드: Model recognition

검색결과 3,389건 처리시간 0.027초

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자 음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition Using the Transformed Successive State Splitting and Demi-syllable Pair)

  • 서은경;최갑근;김순협;이수정
    • 한국멀티미디어학회논문지
    • /
    • 제9권1호
    • /
    • pp.23-32
    • /
    • 2006
  • 본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, Finile State Network(FSN) 노드를 두 음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단 음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 인한 오 인식을 줄이기 위해 인식단위를 반음절 쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징부분에서 K-means 알고리즘으로 군집화 하여, 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문맥종속 음소모델에서 10.5%, 음향모델에서 인식단위를 반음절 쌍으로 하였을 경우 문맥종속 음소모델에 비해 12.5%, 변형된 연쇄 상태분할을 하였을 경우 1.5%의 인식률을 향상시킬 수 있었다.

  • PDF

Gaussian Mixture Model을 이용한 넓은 관측각에서의 효율적인 레이더 표적인식 (Radar target recognition using Gaussian mixture model over wide-angular region)

  • 서동규;김경태;김효태
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(1)
    • /
    • pp.195-198
    • /
    • 2002
  • One-dimensional radar signature, such as range profile, is highly dependent on the aspect angle. Therefore, radar target recognition over wide angular region is a very difficult task. In this paper, we propose the Bayes classifier with Gaussian mixture model for radar target recognition over wide-angular region and compare performances of proposed technique and radar target recognition with subclasses concept in the literature of probability of correct classification ratio.

  • PDF

DYNAMICALLY LOCALIZED SELF-ORGANIZING MAP MODEL FOR SPEECH RECOGNITION

  • KyungMin NA
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1052-1057
    • /
    • 1994
  • Dynamically localized self-organizing map model (DLSMM) is a new speech recognition model based on the well-known self-organizing map algorithm and dynamic programming technique. The DLSMM can efficiently normalize the temporal and spatial characteristics of speech signal at the same time. Especially, the proposed can use contextual information of speech. As experimental results on ten Korean digits recognition task, the DLSMM with contextual information has shown higher recognition rate than predictive neural network models.

  • PDF

Ridge Regressive Bilinear Model을 이용한 조명 변화에 강인한 얼굴 인식 (Illumination Robust Face Recognition using Ridge Regressive Bilinear Models)

  • 신동수;김대진;방승양
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.70-78
    • /
    • 2007
  • 얼굴 인식 시스템의 성능은 조명 변화로 인하여 발생하는 개인내 (intra-person) 차이가 개인간 (inter-person)의 차이보다 클 수 있기 때문에 조명 변화에 많은 영향을 받는다. 본 연구에서는 이러한 문제를 해결하기 위해서 대칭형 bilinear 모델을 이용하여 조명 요소와 신원 요소를 분리하는 방법을 제안한다. Bilinear 모델로 조명 요소와 신원 요소를 얻기 위한 translation 과정은 반복적 역행렬을 구하는 것이 요구되는데 입력 데이타에 따라 수렴하지 않는 경우가 발생할 수 있다. 이러한 문제를 완화하기 위해서 ridge regression 모델과 bilinear 모델을 결합한 ridge regressive bilinear 모델을 제안하였다. 제안된 모델은 조명 요소와 신원 요소의 분산을 적절히 줄여줌으로서 bilinear 모델에 안정성을 제공하며, 인식에 더 많은 고차원 요소 정보를 이용하게 함으로써 인식 성능을 높여 준다. 실험 결과에서 제안한 ridge regressive bilinear 모델이 bilinear 모델, 고유얼굴(eigenface) 방법, Quotient image 보다 좋은 인식 성능을 보여줌을 확인 할 수 있다.

사물인식을 위한 딥러닝 모델 선정 플랫폼 (Deep Learning Model Selection Platform for Object Detection)

  • 이한솔;김영관;홍지만
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.66-73
    • /
    • 2019
  • 최근 컴퓨터 비전을 활용한 사물인식 기술이 센서 기반 사물인식 기술을 대체할 기술로 주목을 받고 있다. 센서 기반 사물인식 기술은 일반적으로 고가의 센서를 필요로 하기 때문에 기술이 상용화되기 어렵다는 문제가 있었다. 반면 컴퓨터 비전을 활용한 사물인식 기술은 고가의 센서 대신 비교적 저렴한 카메라를 사용할 수 있다. 동시에 CNN이 발전하면서 실시간 사물인식이 가능해진 이후 IoT, 자율주행자동차 등 타 분야에 활발하게 도입되고 있다. 그러나 사물 인식 모델을 상황에 알맞게 선택하고 학습시키기 위해서는 딥러닝에 대한 전문적인 지식을 요구하기 때문에 비전문가가 사물 인식 모델을 사용하기에는 어려움이 따른다. 따라서 본 논문에서는 딥러닝 기반 사물인식 모델들의 구조와 성능을 분석하고, 사용자가 원하는 조건의 최적의 딥러닝 기반 사물 인식 모델을 스스로 선정할 수 있는 플랫폼을 제안한다. 또한 통계에 기반한 사물 인식 모델 선정이 필요한 이유를 실험을 통해 증명한다.

2단계 히든마코프 모델을 이용한 제스쳐의 성능향상 연구 (Improvement of Gesture Recognition using 2-stage HMM)

  • 정훤재;박현준;김동한
    • 제어로봇시스템학회논문지
    • /
    • 제21권11호
    • /
    • pp.1034-1037
    • /
    • 2015
  • In recent years in the field of robotics, various methods have been developed to create an intimate relationship between people and robots. These methods include speech, vision, and biometrics recognition as well as gesture-based interaction. These recognition technologies are used in various wearable devices, smartphones and other electric devices for convenience. Among these technologies, gesture recognition is the most commonly used and appropriate technology for wearable devices. Gesture recognition can be classified as contact or noncontact gesture recognition. This paper proposes contact gesture recognition with IMU and EMG sensors by using the hidden Markov model (HMM) twice. Several simple behaviors make main gestures through the one-stage HMM. It is equal to the Hidden Markov model process, which is well known for pattern recognition. Additionally, the sequence of the main gestures, which comes from the one-stage HMM, creates some higher-order gestures through the two-stage HMM. In this way, more natural and intelligent gestures can be implemented through simple gestures. This advanced process can play a larger role in gesture recognition-based UX for many wearable and smart devices.

Style-Specific Language Model Adaptation using TF*IDF Similarity for Korean Conversational Speech Recognition

  • Park, Young-Hee;Chung, Min-Hwa
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권2E호
    • /
    • pp.51-55
    • /
    • 2004
  • In this paper, we propose a style-specific language model adaptation scheme using n-gram based tf*idf similarity for Korean spontaneous speech recognition. Korean spontaneous speech shows especially different style-specific characteristics such as filled pauses, word omission, and contraction, which are related to function words and depend on preceding or following words. To reflect these style-specific characteristics and overcome insufficient data for training language model, we estimate in-domain dependent n-gram model by relevance weighting of out-of-domain text data according to their n-. gram based tf*idf similarity, in which in-domain language model include disfluency model. Recognition results show that n-gram based tf*idf similarity weighting effectively reflects style difference.

음질향상 기법과 모델보상 방식을 결합한 강인한 음성인식 방식 (A Robust Speech Recognition Method Combining the Model Compensation Method with the Speech Enhancement Algorithm)

  • 김희근;정용주;배건성
    • 음성과학
    • /
    • 제14권2호
    • /
    • pp.115-126
    • /
    • 2007
  • There have been many research efforts to improve the performance of the speech recognizer in noisy conditions. Among them, the model compensation method and the speech enhancement approach have been used widely. In this paper, we propose to combine the two different approaches to further enhance the recognition rates in the noisy speech recognition. For the speech enhancement, the minimum mean square error-short time spectral amplitude (MMSE-STSA) has been adopted and the parallel model combination (PMC) and Jacobian adaptation (JA) have been used as the model compensation approaches. From the experimental results, we could find that the hybrid approach that applies the model compensation methods to the enhanced speech produce better results than just using only one of the two approaches.

  • PDF

한국인의 영어 인식을 위한 문맥 종속성 기반 음향모델/발음모델 적응 (Acoustic and Pronunciation Model Adaptation Based on Context dependency for Korean-English Speech Recognition)

  • 오유리;김홍국;이연우;이성로
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.33-47
    • /
    • 2008
  • In this paper, we propose a hybrid acoustic and pronunciation model adaptation method based on context dependency for Korean-English speech recognition. The proposed method is performed as follows. First, in order to derive pronunciation variant rules, an n-best phoneme sequence is obtained by phone recognition. Second, we decompose each rule into a context independent (CI) or a context dependent (CD) one. To this end, it is assumed that a different phoneme structure between Korean and English makes CI pronunciation variabilities while coarticulation effects are related to CD pronunciation variabilities. Finally, we perform an acoustic model adaptation and a pronunciation model adaptation for CI and CD pronunciation variabilities, respectively. It is shown from the Korean-English speech recognition experiments that the average word error rate (WER) is decreased by 36.0% when compared to the baseline that does not include any adaptation. In addition, the proposed method has a lower average WER than either the acoustic model adaptation or the pronunciation model adaptation.

  • PDF

ART와 다층 퍼셉트론을 이용한 얼굴인식 시스템의 성능분석 (Performance Analysis of Face Image Recognition System Using A R T Model and Multi-layer perceptron)

  • 김영일;안민옥
    • 전자공학회논문지B
    • /
    • 제30B권2호
    • /
    • pp.69-77
    • /
    • 1993
  • Automatic image recognition system is essential for a better man-to machine interaction. Because of the noise and deformation due to the sensor operation, it is not simple to build an image recognition system even for the fixed images. In this paper neural network which has been reported to be adequate for pattern recognition task is applied to the fixed and variational(rotation, size, position variation for the fixed image)recognition with a hope that the problems of conventional pattern recognition techniques are overcome. At fixed image recognition system. ART model is trained with face images obtained by camera. When recognizing an matching score. In the test when wigilance level 0.6 - 0.8 the system has achievel 100% correct face recognition rate. In the variational image recognition system, 65 invariant moment features sets are taken from thirteen persons. 39 data are taken to train multi-layer perceptron and other 26 data used for testing. The result shows 92.5% recognition rate.

  • PDF