• 제목/요약/키워드: 음성인식알고리즘

검색결과 448건 처리시간 0.024초

전체 경로 제한 조건을 갖는 HMM을 이용한 단독음 인식 (HMM with Global Path constraint in Viterbi Decoding for Insolated Word Recognition)

  • 김원구;안동순;윤대희
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권1E호
    • /
    • pp.11-19
    • /
    • 1994
  • 상태 지속 밀도를 사용하는 hidden Markov Models(HMM/SD)은 음성 신호의 시간적인 변화를 보다 명확하게 나타낼 수 있다 그러나 상태 지속 밀도가 완만하거나 제한된 상태가 길면 이러한 장점은 감소된다. 이러한 문제점을 해결하기 위하여, 본 논문에서는 상태간의 천이가 특정한 시간 구간에서만 발생하도록 하는 전에 경로 제한 조건을 갖는 HMM/GPC를 제한한다. HMM/GPC는 상태 지속을 제한하고 음성 신호의 시간적 변화를 단순하고 효과적으로 표현할 수 있다. 또한 HMM/SD와 HMM/GPC를 결합한 새로운 형태의 HMM/SD+GPC를 제안하고 성능을 비교하였다. HMM/GPC는 기존 Viterbi 알고리즘을 약간 수정하여 구현될 수 있다. HMM/GPC와 HMM/SD+GPC는 기존 HMM과 HMM/SD에 비하여 우수한 성능을 보일 뿐만아니라 계산량도 매우 작다. 화자도립 단독음 인식 실험에서, HMM/GPC(1.6%)의 최소 오차는 기존 HMM보다 1.1% 낮았고 계산량도 57% 감소하였다.

  • PDF

음성인식을 이용한 개인맞춤형 스마트 미러 (Personalized Smart Mirror using Voice Recognition)

  • 강대철;임종석;이길호;이범희;박형근
    • 한국전자통신학회논문지
    • /
    • 제17권6호
    • /
    • pp.1121-1128
    • /
    • 2022
  • 본 논문에서는 일상생활 마이크에 원하는 정보를 입력했을 때 스피커를 통해 그에 대한 정보를 출력하는 스마트 미러를 제작하였다. 스마트 미러의 화면은 LCD 모니터를 사용하여 아크릴판이 결합하여 있는 액자에 하프미러를 붙여 디스플레이를 제외한 공간에는 빛이 투과되지 않도록 하여 거울 기능을 할 수 있게 만들었다. 소프트웨어 구성 중 Raspbian을 이용하여 시스템 환경을 구축하였다. 기본 메뉴는 실제 기능적인 부분에 있어서 사용되는 거울을 통해 다양한 정보를 제공할 수 있는 스마트 미러를 라즈베리 파이를 이용하여 개발하였다. 개발된 스마트 미러는 시간, 날씨, 구글 캘린더, 유튜브 음악, 웹브라우저 검색 기능 등의 다양한 정보를 제공하며, 핸드폰 무선 충전도 가능하게 하드웨어를 제작하였다. 기존의 스마트 미러는 미리 입력된 데이터 혹은 GUI 기능만 수행할 수 있었다면 본 논문의 스마트 미러는 'Google Assistant'를 연동하여 기존의 설정한 기능뿐만 아니라 알고리즘 검색을 활용하여 웹사이트 정보를 제공한다.

머신러닝을 이용한 시각장애인 도로 횡단 보조 임베디드 시스템 개발 (Development of Street Crossing Assistive Embedded System for the Visually-Impaired Using Machine Learning Algorithm)

  • 오선택;정기동;김호민;김영근
    • 한국HCI학회논문지
    • /
    • 제14권2호
    • /
    • pp.41-47
    • /
    • 2019
  • 본 연구는 시각장애인들이 도로를 안전하게 횡단할 수 있도록 신호등 인식 및 음성안내를 제공해주는 임베디드 시스템의 설계를 제안한다. 시각장애인에게 독립보행은 큰 어려움으로 작용하고 있으며, 독립보행의 제한은 그들의 삶의 질을 저하시키는 요인으로 작용하고 있다. 도로횡단에서의 신호등 인식과 도로 및 차로의 구분 불가는 시각장애인의 독립보행을 방해하는 가장 큰 요인 중 하나이다. 본 연구에서 제안하는 스마트기기는 안경에 달린 초소형 카메라로 GPU 보드에 탑재된 머신러닝 알고리즘을 이용하여 보행자 신호등을 검출 및 인식하며, 음성 안내를 유저에게 전달해준다. 휴대성을 위하여, 기기는 충분한 배터리 수명과 함께 소형 및 가볍게 디자인되었다. 또한, 안경 다리에는 외부 소리를 막지 않으면서 음성 안내를 전달해주는 골전도 스피커가 부착되어 있다. 본 연구에서 제안하는 스마트기기는 실험을 통하여 보행자 신호의 초록 신호에 대하여 87.0%의 검출율(recall)과 100%의 정확도(precision)를 가지며, 빨간 신호에 대하여, 94.4%의 검출율(recall) 값과 97.1%의 정확도(precision)를 가지는 것으로 유효성을 확인하였다.

분절 특징 HMM을 이용한 영어 음소 인식 (English Phoneme Recognition using Segmental-Feature HMM)

  • 윤영선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권3호
    • /
    • pp.167-179
    • /
    • 2002
  • 본 논문에서는 여러 프레임 특징으로 표현되는 분절 특징(segmental feature) 표현 방법을 제안하고, HMM 개념 위에서 음향학적 모델과 그 알고리즘을 개발하여 HMM의 약점으로 지적되는 독립관측 가정을 완화시키고자 한다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 한다. 분절 특징은 다항식의 회귀 함수(polynomial regression function)에 의하여 관측 벡터의 궤적으로 표현되고, 이 특징을 패턴 분류에 사용하기 위하여 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM(segmental HMM)을 이용한다. SHMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하며, 외적 분절 변이는 장기적인 변화를, 내적 분절 변이는 단기적인 변화를 나타낸다. 음향학적 모델에서 분절 특성을 고려하기 위하여 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정한 분절 특징 HMM(SFHMM; segmental-feature HMM)을 제안한다. SFHMM에서는 분절의 관측 확률을 분절 우도와 궤적의 추정 오차의 관계로써 표현하며, 추정오차는 특정 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 이들 실험 결과에서, 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

잡음환경에 강인한 HMM기반 화자 확인 시스템에 관한 연구 (Speaker Verification System Based on HMM Robust to Noise Environments)

  • 위진우;강철호
    • 한국음향학회지
    • /
    • 제20권7호
    • /
    • pp.69-75
    • /
    • 2001
  • 화자확인에서 화자내 변이, 잡음환경, 그리고 학습환경과 인식 환경의 불일치는 화자확인 시스템이 실용화될 수 없는 가장 큰 원인이다. 본 연구에서는, 실제 환경에 강인한 화자 확인 시스템의 구현에 초점을 맞추어 음성 전처리 과정인 잡음환경에 강인한 끝점추출 알고리즘, 잡음제거 및 마이크특성 보상기법, LPG(Linear Predictive Coefficient)켑스트럼 가중치에 의한 화자간 변별력 향상 기법을 제안한다. 실험 결과, LPC잔차신호(residue)를 이용한 끝점추출 알고리즘을 사용한 경우 약 17.65% 가량의 끝점 추출 에러율을 향상시켰으며, 제안한 잡음제거 및 마이크특성 보상기법을 사용한 경우 다른 마이크 환경에서 화자 오인식율이 약 36.93% 가량 개선되었다. 또한, 제안한 LPC켑스트럼 가중치에 의한 화자간 변별력 향상 기법은 평균 화자 오인식율을 약 6.515% 향상시켰다.

  • PDF

변형된 상태분할 알고리즘을 이용한 원격 HMI 시스템 제어 (The Remote HMI System Control Using the Transformed Successive State Splitting Algorithm)

  • 이종욱;이정배;황영섭;남지은
    • 융합보안논문지
    • /
    • 제8권4호
    • /
    • pp.135-143
    • /
    • 2008
  • 일반적인 HMI system은 원격 감시제어를 네트워크를 통하여 하고 있으나 기능이 제한 적이다. 본 논문에서는 산업용 HMI 시스템을 변형된 상태분할 알고리즘을 적용 하였다. 이 방법은, 미리 예상되는 질의어에 대한 데이터들을 갖고 모델링을 하였다. 그 결과, 모델링하는데 많은 시간이 절약되었고, 시스템을 안정적이고 정밀하게 구성하여 98.15%의 높은 인식률을 나타냈다. 음성 HMI 시스템을 산업용에 적용하여 인간이 직접적으로 활동할 수 없는 작업 환경에서도 산업용 기기들을 안정적으로 구동시킬 수 있다. HMI 시스템 엔진의 성능을 최적화하였다.

  • PDF

비정상 시변신호의 AR모델 파라메터 인식을 위한 최적의 웨이브렛 선택 (Optimal Wavelet Selection for AR Model Parameter Identification of Nonstationary Time-Varying Signal)

  • 신동환;김성환
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.50-57
    • /
    • 1996
  • 본 논문에서는 최적의 웨이브렛 선택방법과 이 선택된 웨이브렛으로 F-검정을 이용하여 AR파라메터를 전개시키는 방법을 제안하였으며 웨이브렛 선택 방법으로서 평가함수를 도입하였다. 이 평가함수를 이용하여 웨이브렛들(D4-D20)을 합성신호에 대해서 시험하였다. 이때 선택된 웨이브렛을 이용하여 합성신호와 실제 음성신호에 대해서 AR파라메터들을 웨이브렛 전개 했을때의 웨이브렛 계수를 구하였다. 제안된 방법을 평가하기 위해서 칼만필터 알고리즘과 비교하였다. 그 결과 제안된 알고리즘이 칼만필터보다 약5-10dB정도 더 우수한 성능을 나타내었다.

  • PDF

잡음환경에서의 숫자음 인식을 위한 특징파라메타 (Features for Figure Speech Recognition in Noise Environment)

  • 이재기;고시영;이광석;허강인
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.473-476
    • /
    • 2005
  • 본 논문은 잡음에 강한 다양한 특징 파라메타를 제안한다. 기존의 음성인식에서 사용되는 특징 파라메타 MFCC(Mel Frequency Cepstral Coeeficient)는 좋은 성능을 보인다. 그러나 잡음에 보다 강인한 성능을 위해 기존에 사용되는 파라메타 MFCC의 특징공간을 변형시키는 알고리즘인 PCA(Principal Component Analysis)와 ICA(Independent Component Analysis)를 사용하여 특징 공간을 변형시킨 파라메타와 기존의 파라메타 MFCC의 성능을 비교하였다. 그 결과 ICA에 의해 변형된 특징 파라메타가 PCA로 변형된 파라메타와 MFCC보다 우수한 성능을 보였다.

  • PDF

딥 러닝 및 칼만 필터를 이용한 객체 추적 방법 (Object Tracking Method using Deep Learning and Kalman Filter)

  • 김기철;손소희;김민섭;전진우;이인재;차지훈;최해철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.495-505
    • /
    • 2019
  • 딥 러닝의 대표 알고리즘에는 영상 인식에 주로 사용되는 CNN(Convolutional Neural Networks), 음성인식 및 자연어 처리에 주로 사용되는 RNN(Recurrent Neural Networks) 등이 있다. 이 중 CNN은 데이터로부터 자동으로 특징을 학습하는 알고리즘으로 특징 맵을 생성하는 필터까지 학습할 수 있어 영상 인식 분야에서 우수한 성능을 보이면서 주류를 이루게 되었다. 이후, 객체 탐지 분야에서는 CNN의 성능을 향상하고자 R-CNN 등 다양한 알고리즘이 등장하였으며, 최근에는 검출 속도 향상을 위해 YOLO(You Only Look Once), SSD(Single Shot Multi-box Detector) 등의 알고리즘이 제안되고 있다. 하지만 이러한 딥러닝 기반 탐지 네트워크는 정지 영상에서 탐지의 성공 여부를 결정하기 때문에 동영상에서의 안정적인 객체 추적 및 탐지를 위해서는 별도의 추적 기능이 필요하다. 따라서 본 논문에서는 동영상에서의 객체 추적 및 탐지 성능 향상을 위해 딥 러닝 기반 탐지 네트워크에 칼만 필터를 결합한 방법을 제안한다. 탐지 네트워크는 실시간 처리가 가능한 YOLO v2를 이용하였으며, 실험 결과 제안한 방법은 기존 YOLO v2 네트워크에 비교하여 7.7%의 IoU 성능 향상 결과를 보였고 FHD 영상에서 20 fps의 처리 속도를 보였다.

한국어 연속음성중 키워드 인식을 위한 반연속 은닉 마코브 모델과 One-Pass 알고리즘의 개선방안 (Improvement of Semicontinuous Hiden Markov Models and One-Pass Algorithm for Recognition of Keywords in Korean Continuous Speech)

  • 최관선
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.358-363
    • /
    • 1994
  • This paper presents the improvement of the SCHMM using discrete VQ and One-Pass algorithm for keywords recognition in Korean continuous speech. The SCHMM using discrete VQ is a simple model that is composed of a variable mixture gaussian probability density function with dynamic mixture number. One-Pass algorithm is improved such that recognition rates are enhanced by fathoming any undesirable semisyllable with the low likelihood and the high duration penalty, and computation time is reduced by testing only the frame which is dissimilar to the previously testd frame. In recognition experiments for speaker-dependent case, the improved One-Pass algorithm has shown recognition rates as high as 99.7% and has reduced compution time by about 30% compared with the currently abailable one-pass algorithm.

  • PDF