• 제목/요약/키워드: Isolated word

검색결과 156건 처리시간 0.022초

다층 퍼셉트론에서의 빠른 화자 적응을 위한 선택적 주의 학습 (Selective Attentive Learning for Fast Speaker Adaptation in Multilayer Perceptron)

  • 김인철;진성일
    • 한국음향학회지
    • /
    • 제20권4호
    • /
    • pp.48-53
    • /
    • 2001
  • 본 논문에서는 에러 역전파 알고리듬에 기반한 다층 퍼셉트론의 학습 속도를 개선하기 위해 선택적 주의 학습방식을 제안한다. 제안된 방식은 학습 과정에서 세 가지 선택적 주의 기준을 적용하여 학습 데이터베이스 내의 일부 데이터만을 입력 패턴으로 사용하거나 주어진 입력 패턴에 대해 신경회로망내의 특정 영역만 선택적으로 학습이 이루어지도록 한다. 이러한 선택적 주의 기준은 다층 퍼셉트론의 출력층에서 계산된 평균 자승 에러와 은닉층의 각 노드에서 획득된 클래스 의존적인 적합도(relevance)를 이용하여 설정된다. 학습 속도의 개선은 학습 반복 횟수 당 계산량을 줄임으로써 이루어진다. 본 논문에서는 고립 단어 인식시스템에서의 화자 적응 문제에 대해 제안한 선택적 주의 학습방법을 적용하여 그 유효성을 알아보았다. 실험 결과로부터 제안한 선택적 주의 기법이 학습 속도를 평균 60%이상 개선시킬 수 있음을 확인하였다

  • PDF

차량용 항법장치에서의 관심지 인식을 위한 다단계 음성 처리 시스템 (Multi-layer Speech Processing System for Point-Of-Interest Recognition in the Car Navigation System)

  • 방기덕;강철호
    • 한국멀티미디어학회논문지
    • /
    • 제12권1호
    • /
    • pp.16-25
    • /
    • 2009
  • 안전성을 최우선시 해야 하는 자동차 환경에서 관심지 (POI, Point-Of-Interest) 도메인을 대상으로 하는 대용량 고려 단어 인식 시스템은 최적의 인간-기계 상호접속(HMI, Human-Machine Interface) 기술을 요구하고 있다. 하지만, 매우 제한된 연산처리 능력과 메모리를 가지는 텔레매틱스 단말기에서 10만 단어 이상을 일반적인 음성인식 방식으로 처리하기는 불가능하다. 따라서 본 논문에서는 텔레매틱스 단말기의 관심지 인식을 위하여 다단계 구조의 대용량 고립단어 인식 시스템을 제안하였다. 이 관심지 인식 시스템의 성능향상을 위해 음소별 가우시안 혼합모델(GMM, Gaussian Mixture Model)을 사용한 음소 인식기와 음소별 거리 행렬(PDM, Phoneme-distance Matric) 레빈쉬타인(Levenshtein) 거리를 제안하였다. 제안한 방법은 낮은 처리속도와 적은 양의 메모리를 가지는 텔레매틱스 단말기에서도 대용량 고립단어에 대하여 우수한 인식 성능을 나타내었다. 본 논문에서 제안한 다단계 인식 시스템을 사용하였을 경우 실내에서 최대 94.8%, 자동차환경에서는 최대 92.4%의 인식 성능을 얻을 수 있었다.

  • PDF

웹에서의 저가 음성인식 시스템의 구현 (The Low Cost Implementation of Speech Recognition System for the Web)

  • 박용범;박종일
    • 한국정보처리학회논문지
    • /
    • 제6권4호
    • /
    • pp.1129-1135
    • /
    • 1999
  • DTW 알고리즘을 이용한 고립단어 인식은 화자종속이라는 상황에 있어서는 좋은 인식 율을 제공하여 준다. 그러나 DTW 알고리즘은 검색해야 할 단어가 많을 경우 검색시간이 상대적으로 높아지게 되므로 현실적으로 적용하기가 힘들다. 웹에서의 교육용 학습 지와 같이 상황 의존적 단답형 질의 응답을 요구하는 시스템의 경우에 있어서는 주어진 질문에 대한 응답이 비교적 제한되어 있어 검색대상을 줄일 수 있다. 본 논문에서는 이와 같은 상황에서 사용할 수 있는 저가형 음성 인식기를 DTW로 구현하였다. DTW의 단점을 보완하기 위해 검색할 대상을 상황에 따라 줄이는 방법을 이용하였다. 질문에 따라 관심대상을 선정하여 이들만을 검색대상으로 삼았다. 실제적인 구현을 통하여 검색대상을 줄인 결과 높은 인식 율을 얻을 수 있었고, 그룹을 설정한 만큼의 빠른 검색시간을 얻을 수 있었다.

  • PDF

차량 항법용 음성인식 시스템의 구현 (Implementation of a Speech Recognition System for a Car Navigation System)

  • 이태한;양태영;박상택;이충용;윤대희;차일환
    • 전자공학회논문지S
    • /
    • 제36S권9호
    • /
    • pp.103-112
    • /
    • 1999
  • 본 논문에서는 차량 항법영 음성 인식을 위한 화자 독립 단독음 인식 시스템을 범용 DSP를 사용하여 구현하였으며, 잡음 처리 기술로 SNR 정규화와 RAS를 결합한 방법을 제안하여 인식 시스템의 성능을 개선시켰다. 인식 알고리즘으로서 반연속 HMM을 사용하였으며, TMS320C31을 이용하여 구현하였다. 실험에서 사용된 인식 단어는 차량 항법 시스템을 위한 명령어 69단어이며, 구현된 인식 시스템은 자동차 환경에서 녹음된 음성 데이터에 의한 인식 결과와 하드웨어 구현에 따르는 제약 조건을 동시에 고려하여 구현되었다. 주행 중에 녹음된 데이터에 대한 컴퓨터 시뮬레이션 상에서 특징 벡터 중 MFCC-CMS를 이용하고, 잡음 처리 방법으로 SNR 정규화와 스펙트럼 차감법을 결합하여 실험한 경우 최고 93.62%의 인식 성능을 보였으며, 89.93%의 인식률을 갖는 기존 방법보다 3.69%의 인식 성능 향상을 가져왔다. 제안된 잡음 처리 방법은 자동차 안에서의 SNR이 5dB이하에서 좋은 인식 성능을 보이는 것으로 나타났다.

  • PDF

딥러닝 방식의 웨어러블 센서를 사용한 미국식 수화 인식 시스템 (American Sign Language Recognition System Using Wearable Sensors with Deep Learning Approach)

  • 정택위;김범준
    • 한국전자통신학회논문지
    • /
    • 제15권2호
    • /
    • pp.291-298
    • /
    • 2020
  • 수화는 청각 장애인이 다른 사람들과 의사소통할 수 있도록 설계된 것이다. 그러나 수화는 충분히 대중화되어 있지 않기 때문에 청각 장애인이 수화를 통해서 일반 사람들과 원활하게 의사소통하는 것은 쉽지 않은 문제이다. 이러한 문제점에 착안하여 본 논문에서는 웨어러블 컴퓨팅 및 딥러닝 기반 미국식 수화인식 시스템을 설계하고 구현하였다. 이를 위해서 본 연구에서는 손등과 손가락에 장착되는 총 6개의 IMUs(Inertial Measurement Unit) 센서로 구성된 시스템을 구현하고 이를 이용한 실험을 수행하여 156개 특징이 수집된 데이터 추출을 통해서 총 28개 단어에 대한 미국식 수화 인식 방법을 제안하였다. 특히 LSTM (Long Short-Term Memory) 알고리즘을 사용하여 최대 99.89%의 정확도를 달성할 수 있었고 향후 청각 장애인들의 의사소통에 큰 도움이 될 것으로 예상된다.

성도 정규화를 이용한 감정 변화에 강인한 음성 인식 (Robust Speech Recognition using Vocal Tract Normalization for Emotional Variation)

  • 김원구;방현진
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.773-778
    • /
    • 2009
  • 본 논문에서는 인간의 감정 변화에 강인한 음성 인식 시스템을 구현하기 위하여 감정 변화의 영향을 최소화 하는 방법에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화에 따른 음성 신호의 변화를 관찰하였다. 감정이 포함되지 않은 평상의 음성으로 학습된 음성 인식 시스템에 감정이 포함된 인식 데이터가 입력되는 경우 감정에 따른 음성의 차이가 인식 시스템의 성능을 저하시킨다. 본 연구에서는 감정의 변화에 따라 화자의 성도 길이가 변화한다는 것과 이러한 변화는 음성 인식 시스템의 성능을 저하시키는 원인 중의 하나임을 관찰하였다. 본 연구에서는 이러한 음성의 변화를 감소시키는 방법으로 성도 길이 정규화 방법을 사용한 감정 변화에 강인한 음성 인식 시스템을 개발하였다. HMM을 사용한 단독음 인식 실험에서 제안된 학습 방법을 사용하면 감정 데이터의 오차가 기존방법보다 41.9% 감소되었다.

주파수 와핑을 이용한 감정에 강인한 음성 인식 학습 방법 (A Training Method for Emotionally Robust Speech Recognition using Frequency Warping)

  • 김원구
    • 한국지능시스템학회논문지
    • /
    • 제20권4호
    • /
    • pp.528-533
    • /
    • 2010
  • 본 논문에서는 인간의 감정 변화의 영향을 적게 받는 음성 인식 시스템의 학습 방법에 관한 연구를 수행하였다. 이를 위하여 우선 다양한 감정이 포함된 음성 데이터베이스를 사용하여 감정 변화가 음성 신호와 음성 인식 시스템의 성능에 미치는 영향에 관한 연구를 수행하였다. 감정이 포함되지 않은 평상의 음성으로 학습된 음성 인식 시스템에 감정이 포함된 인식 데이터가 입력되는 경우 감정에 따른 음성의 차이가 인식 시스템의 성능을 저하시킨다. 본 연구에서는 감정의 변화에 따라 화자의 성도 길이가 변화한다는 것과 이러한 변화는 음성 인식 시스템의 성능을 저하시키는 원인 중의 하나임을 관찰하였다. 본 연구에서는 이러한 음성의 변화를 포함하는 학습 방법을 제안하여 감정 변화에 강인한 음성 인식 시스템을 개발하였다. HMM을 사용한 단독음 인식 실험에서 제안된 학습 방법을 사용하면 감정 데이터의 오차가 기존 방법보다 28.4% 감소되었다.

지질자원기술 빅데이터 분석을 통한 국민 인식 제고 방안 연구 : 언론 기사 중심으로 (A Study on Enhancement Method of Public Perception about Geoscience using Big Data Analysis: Focusing on Media Article)

  • 김찬석
    • 자원환경지질
    • /
    • 제55권3호
    • /
    • pp.273-280
    • /
    • 2022
  • 본 연구의 목적은 빅데이터 분석을 활용한 지질자원기술에 대한 사회적 인식을 바탕으로 지질자원기술에 대한 국민 인식 제고 방안을 논의하는 데 있다. 이를 위하여 2010년 1월 1일부터 2022년 4월 14일까지 54개 언론사를 대상으로 언론 기사 제목과 본문에 '지질자원기술'이 포함된 5,044건의 기사를 분석대상으로 삼았으며, 빅데이터 분석을 연구방법으로 채택하였다. 분석 결과, 연구소 중심, 미국·중국·일본 중심, 포항시 지진, 연구원 원장 중심으로 주제어가 구성되어 있었으며, 중요 주제어는 지질, 산업, 광물개발, 환경, 에너지, 원자력, 지하수 등으로 나타났다. 또한, 토픽 분석 결과, 토픽들은 개별적으로 위치하지 않고 전문가, 환경, 연구소 등을 중심으로 상호 연계되어 있고, 미래, 산업, 글로벌 토픽 등으로 확인되었다. 이러한 결과를 바탕으로 지질자원기술의 국민 인식 제고 방안을 논의하였다.

강인한 음성인식을 위한 통계적 특징벡터 추출방법의 개선 (An Improvement of Stochastic Feature Extraction for Robust Speech Recognition)

  • 김회린;고진석
    • 한국음향학회지
    • /
    • 제23권2호
    • /
    • pp.180-186
    • /
    • 2004
  • 음성 신호에 존재하는 잡음은 음성 인식기의 성능을 현저하게 감소시킨다. 이것은 잡음이 훈련 조건과 인식 조건 사이의 불일치를 가져오기 때문이다. 본 논문에서는 이러한 불일치를 최소화하기 위해서 통계적 특징벡터의 추출방법을 개선하기 위한 방법을 연구하였다. 밴드 SNR에 따라 잡음 스펙트럼의 차감 레벨을 조절하는 기존의 멀티 밴드 잡음 차감법 (MSS)을 개선하기 위하여 잡음 정규화 상수를 이용하여 잡음 스펙트럼의 차감 레벨을 보다 정확하게 조절하는 방법 (M-MSS)을 제시하였다. 다음으로, 기존의 통계적 특징벡터 추출방법 (SFE)에서 잡음 차감법을 파워 스펙트럼 영역에 적용함으로써 성능을 개선하였다(M-SFE). 마지막으로, 위의 두 가지 방법의 장점을 결합하기 위해서 밴드 SNR에 근거한 통계적 특징벡터 추출방법 (MMSS-MSFE)을 제안하였다. 제안된 방법들은 다양한 잡음 환경 하에서 화자독립 고립 단어 인식으로 성능을 평가하였다. 기본적인 잡음 차감법 (SS)에 비하여 M-MSS, M-SFE와 MMSS-MSFE의 평균 에러율은 각각 18.6%, 15.1%와 33.9% 감소하였다. 위의 결과로부터 제안한 방법이 잡음에 강인한 음성인식을 위해 매우 효과적임을 입증하였다.

잡음에 강한 특징 벡터 및 스펙트럼 차감법을 이용한 음성 인식 (Speech Recognition Using Noise Robust Features and Spectral Subtraction)

  • 신원호;양태영;김원구;윤대희;서영주
    • 한국음향학회지
    • /
    • 제15권5호
    • /
    • pp.38-43
    • /
    • 1996
  • 본 논문에서는 잡음 및 주변 환경에 강인한 것으로 알려져 있는 특징 벡터들을 이용한 인식 성능을 비교하였다. 아울러 스펙트럼 차감법을 적용하여 높은 인식 성능을 얻도록 하였다. 본 논문에서는 환경 변화에 강인한 인식 성능을 얻기 위하여 SMC(Short time Modified Coherence) 분석, 루트(root) 켑스트럼 분석, LDA(Linear Discriminant Analysis), PLP(Perceptual Linear Prediction), RASTA(RelAtive SpecTrAl) 처리 등을 이용하여 인식 실험을 수행하였다. 실험을 위하여 반연속 HMM을 이용한 단독음 인식 시스템을 구현하였고 전시장 및 컴퓨터실의 잡음을 첨가하여 0, 10 및 20dB의 SNR에 대한 인식 실험을 수행하였다. 실험 결과, LPCC(Linear Prediction Cepstral Coefficient)를 이용한 경우에 비하여 SMC나 루트처리를 이용한 멜 켑스트럼(루트_멜 켑스트럼)을 이용한 경우 10dB의 SNR에서 각각 9.86%, 12.68% 향상된 가장 좋은 인식률을 얻었다. 또한 멜 켑스트럼과 루트_멜 켑스트럼을 스펙트럼 차감법과 결합하여 잡음을 제거한 경우 10dB에서 각각 16.7%, 8.4% 향상된 94.91%, 94.28%의 인식률을 얻을 수 있었다.

  • PDF