• 제목/요약/키워드: 환경음 인식

검색결과 110건 처리시간 0.026초

후처리를 이용한 환경음 인식 성능 개선 (Improvement of Environmental Sounds Recognition by Post Processing)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권7호
    • /
    • pp.31-39
    • /
    • 2010
  • 본 연구에 사용된 환경음은 9 가지 상황으로 구분하였으며 생활 속에서 인간의 이동에 따라 변화하는 실제 환경음과 동일한 테스트 데이터 셋을 이용하였다. 실제 환경에서 녹음된 데이터는 Pre-emphasis, Hamming window를 이용하여 전처리하고 MFCC (Mel-Frequency Cepstral Coefficients) 방식으로 특징을 추출한 후 GMM (Gaussian Mixture Model)을 이용하여 분류 실험을 행했다. 후처리가 없는 GMM은 프레임 별로 판정하므로 분류 결과를 보면 상황이 갑자기 변화하는 이상 결과가 나타난다. 이에 본 연구에서는 인접한 프레임 별 확률 값 혹은 분류 순위를 이용해서 갑작스런 상황 변화가 발생하지 않도록 하는 후처리 방식을 제안하였다. 실험 결과에 따르면 GMM 분류방식에 인접 프레임들의 사후확률 값을 이용하는 후처리방법을 적용한 경우 후처리를 적용하지 않은 경우에 비해 10% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

구문 분석과 One-Stage DP를 이용한 연속 숫자음 인식에 관한 연구 (A study on the Recognition of Continuous Digits using Syntactic Analysis and One-Stage DP)

  • 안태옥
    • 한국음향학회지
    • /
    • 제14권3호
    • /
    • pp.97-104
    • /
    • 1995
  • 본 논문은 음성 다이얼링 시스템 구현을 위한 연속 숫자음 인식에 관한 연구로써, 구문 분석을 이용한 One-Stage DP에 의한 음성 인식 방법을 제안하다. 인식 실험을 위해 우선 구간 구분화 알고리즘을 이용하여 DMS (Dynamic Multi-SEction) 모델을 만들며, 제안된 구문 분석을 이용한 One-Stage DP 방법으로 실험 대ㅛ상의 연속 숫자음 데이터를 인식하게 하였다. 본 연구에서는 8명의 ㅣ남성 화자에 의해 2-3번 발음도니 21종의 7자리의 연속 숫자음이 사용되었고, 기존의 One-Stage DP와 제안된 구문 분석을 이용한 One-Stage DP 음성 인식 알고리즘을 사용해서 화자 종속과 화자 독립 실험을 실험실 환경에서 수행하였다. 인식 실험 결과, 기존의 방법보다 제안된 방법이 인식률이 좋은 것으로 나타났으며, 제안된 방법에서는 화자 종속과 화자 독립 실험에서 각각 약 91.7%, 89.7%로 나타났다.

  • PDF

최대 사후 추정 화자 적응을 이용한 가변어휘 고립단어 음성인식기의 사무실 환경에서의 성능 평가 (Performance Evaluation of Variable-Vocabulary Isolated Word Speech Recognizers with Maximum a Posteriori (MAP) Estimation-Based Speaker Adaptation in an Office Environment)

  • 권오욱
    • 한국음향학회지
    • /
    • 제17권2호
    • /
    • pp.84-89
    • /
    • 1998
  • 본 논문에서는 임의의 단어를 인식하기 위하여 음성학적으로 최적화된 (phonetically-optimized word) 음성 데이터베이스를 사용하여 훈련된 가변어휘 고립단위 음 성인식기의 실제 인식기 사용 환경에서의 성능을 평가하였다. 이를 위하여, 훈련 데이터베이 스에서와 상이한 환경에서 수집된 음성학적으로 균형 잡힌(phonetically-balanced word) 고 립 단어 음성을 테스트 데이터로 사용하였다. 테스트 데이터는 일반적인 사무실에서 작동하 는 노트북 PC에서 내장 마이크를 사용하여 녹음되었다. 이렇게 녹음된 음성을 사용하여 고 립단어 인식기의 인식률을 측정하였다. 이 인식기는 최대 사후(maximum a posteriori) 추정 알고리듬을 사용하여 화자의 변화에 적응하였다. 컴퓨터 모의실험 결과에 의하면 화자 적응 을 하지 않은 기본 시스템은 깨끗한 음성에 대하여 81.3%에서 사무실 환경 음성에 대하여 69.8%로 인식률이 저하되었다. 사무실 환경 음성에 대하여, 비교사 점진(unsupervised incremental) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 화자적 응을 하지 않은 경우에 비하여 9%의 에러를 감소시키며, 50단어의 적응 단어를 사용하여 교사 묶음(supervised batch) 모드에서 최대 사후 추정 화자 적응 알고리듬을 적용하였을 경우에는 16%의 에러를 감소시켰다.

  • PDF

FSN을 이용한 금액 인식 시스템 (Price Recognition System using FSN)

  • 함정표
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.331.1-334
    • /
    • 1998
  • 본 논문에서는 금액을 인식 대상으로 하는 음성 인식 시스템의 성능 향상을 위하여 프레임 동기 네트워크(Frame Synchronous Network)을 이용하였다. 연속음 인식에서 인식 대상이 가지는 규칙을 적용했을 경우 성능 향상을 가져올 수 있다. 금액이 가지는 반복적인 특성과 자릿수의 상하 관계가 인식 성능에 미치는 효과를 이용하여 다양한 수준의 제약을 갖는 FSN을 제안하였다. 제안된 FSN의 성능을 다양한 환경과 특징 벡터에 대하여 이산 hidden Markov model[5]을 이용하여 실험을 수행하였다. 인식 결과 제안된 FSN을 이용하여 금액 어휘의 인식 성능을 향상시킬 수 있었다.

  • PDF

잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구 (A Study on Numeral Speech Recognition Using Integration of Speech and Visual Parameters under Noisy Environments)

  • 이상원;박인정
    • 전자공학회논문지CI
    • /
    • 제38권3호
    • /
    • pp.61-67
    • /
    • 2001
  • 본 논문에서는 한국어 숫자음 인식을 위해 음성과 영상 정보를 사용하고, 음성에 사용하는 선형예측계수 알고리즘을 영상에 적용하는 방법을 제안한다. 입력으로 얻어지는 음성신호는 0.95의 매개변수를 통해 고역 신호가 강조되고, 해밍창과 자기상관 분석, Levinson-Durbin 알고리즘에 의해 13차 선형예측계수를 구한다. 마찬가지로, 그레이 영상신호도, 음성의 자기상관 분석, Levinson-Durbin 알고리즘을 사용하여 13차의 2차원 선형예측계수를 구한다, 이러한 음성/영상 신호에 대한 선형예측계수들은 다층 신경회로망에 적용하여 학습이 이루어졌고, 각 레벨의 잡음이 섞인 음성신호를 적용한 결과, 숫자음 '3', '5', '9' 에서 음성만으로 인식한 결과보다 훨씬 좋은 인식결과를 얻을 수 있었다. 결과적으로, 본 연구에서는 영상 신호의 2차원 선형 예측 계수들이 음성인식에 사용될 경우, 특징 추출에 따른 부가적인 알고리즘이 새로 고안될 필요가 없이, 음성특징 계수를 추출하는 방법을 그대로 사용할 수 있으며, 또한 데이터량과 인식율이 잡음 환경에서 보다 향상되는 효율적인 방법을 제시하고 있음을 알 수 있었다.

  • PDF

사무음환경 개선을 위한 컴퓨터 소음의 감성적 평가 (Subjective Evaluation of Computer Noise for Improving the Acoustical Environment of Open-plan Offices)

  • 정정호;송희수;전진용;조문재
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2002년도 춘계학술대회 논문집
    • /
    • pp.101-106
    • /
    • 2002
  • 최근 사무환경에서 컴퓨터 사용시간이 급증함에 따라 컴퓨터 소음의 불쾌감으로 인한 저소음형 컴퓨터에 대한 요구가 증가하고 있다. 이에 따라 효율적인 소음조절을 위하여 컴퓨터 소음에 대한 실태 조사를 위하여 설문조사를 실시하였으며, 물리적 측정치와 더불어 심리음향학적 각종 파라메타를 계산하였다. 또한 일반적 업무 Task가 주어진 상태에서 컴퓨터 소음에 대한 근무자의 상하한계치 설정을 위한 청감실험을 실시하였다. 설문조사 결과, 가장 시끄럽게 인식되는 소음은 팬소음(사용자 컴퓨터)과 키보드 사용음(타인 컴퓨터)으로 나타났으며, 약 55%의 사용자들이 보통 컴퓨터 소음에 대해 시끄럽게 느끼고 있는 것으로 나타났다. 또한 현재 사용중인 컴퓨터의 소음에 대해 사용자의 약 20% 정도만이 조용하게 느끼며, 컴퓨터 소음이 업무효율을 떨어뜨린다는 응답도 약 35%로 나타났다. 팬소음, CD-Rom 구동음, HDD 작동음에 대해 청감실험을 실시한 결과, 각 소음의 상하한치는 각각 31∼51dB(A), 34∼54dB(A), 34∼58dB(A)로 나타났다.

  • PDF

초저주파음에 대한 인간의 반응 (Human Response to Infrasound)

  • 이정권;이병호
    • 대한인간공학회지
    • /
    • 제1권2호
    • /
    • pp.33-37
    • /
    • 1982
  • 인간의 가청 영역은 어린이의 경우에 20 Hz-20KHz로 알려져 있다. 그러나, 20Hz 이하의 초저주파 영역에서도 그 음압 레벨이 높은 경우에는 인간이 감지할 수 있다는 사실이 알려졌는데, 그것은 듣느다기 보다는 느낀다는 것으로 표현되고 있다. 초저주파 음이 인간에게 미친다고 생각되는 좋지않은 영향 때문에, 60년대말 이후에 새로운 종류의 연구 과제로서, 음향학자, 심리학자, 의학자 등에 의해 활발히 연구되고 있다. 게다가 경제의 고도성장 및 환경 개선의 노력에 따라, 대기 오염, 가청 소음, 진동 등의 전형적인 환경 공해 외의 초저주파음 공해에 대한 사람들의 인식과 불평이 문제시 되고 있다. 즉, 고주파수의 음이 잘 소음된 곳에서, 소리가 잘 들리지는 않으나 항상 사람들을 불안하게 하는 그 무엇이 있다는 것이다. 이에따라 지난 몇 년간 인간의 산업 활동과 관계 있는 높은 레벨의 초조주파 소음의 발생원이 확인되었고, 그에 따른 대책 및 설계 단계에서의 고려가 요구되고 있다.

  • PDF

소음 환경에서 body-conducted 신호를 이용한 음성인식 성능 비교 (Performance Comparison of Speech Recognition Using Body-conducted Signals in Noisy Environment)

  • 최대림;이광현;이용주;김종교
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.57-60
    • /
    • 2004
  • 본 논문에서는 음성정보기술산업지원센터(SiTEC)에서 현재 배포중인 고소음 환경 음성 DB를 이용하여 air-conducted 음성과 body-conducted 음성의 인식 성능을 비교 실험하였다. 소음 환경에서 일반적인 마이크로폰으로부터 수집된 air-conducted 음성은 잡음의 영향을 받기 쉬우며 이는 인식률을 저하시킨다. 반면에 진동 픽업 마이크로폰에서 수집된 body-conducted 음성은 소음에 보다 강인한 특성을 보인다. 이러한 특성에 근거하여 소음 환경에서 일반 다이나믹 마이크로폰 음성에 음질 개선 방법과 채널 보상 방법을 적용한 인식 결과와 3종류의 진동 픽업 마이크로폰에서 수집된 음성과의 인식 성능을 비교 분석하여 body-conducted 음성 인식 시스템의 환용 가능성을 살펴보았다.

  • PDF

HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구 (A Study on the Voice Dialing using HMM and Post Processing of the Connected Digits)

  • 양진우;김순협
    • 한국음향학회지
    • /
    • 제14권5호
    • /
    • pp.74-82
    • /
    • 1995
  • 본 논문은 HMM과 연결 숫자음의 후처리를 이용한 음성 다이얼링에 관한 연구이다. HMM(Hidden Markov Model)은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, HMM의 학습 방법인 maximum like-lihood estimation은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 었다. 이러한 문제점을 보완하기 위하여 Segmental K-means 학습 과정에 후저리를 이용하여 인식 실험을 하였다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level Building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가하였다. 이렇게 추가된 단어 모델들에 대한 몇 가지 규칙을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시 스템은 TMS320C30 프로세서를 내장한 DSP 보드와 IBM PC 상에서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성 화자3명을 대상으로 작성하였다. 인식 실험 결과 21종 전화 번호 252개 데이타에 대하여 화자 종속의 경우 $91.6\%$, 회자 독립의 경우 $80.5\%$의 인식률을 나타내었다.

  • PDF

증권거래시스템 구축을 위한 음성 DB의 구축 (A Study on the Construction of Speech DB to build a Stock sales system)

  • 어범석;김학진;김순협
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.95-98
    • /
    • 2000
  • 음성 인식 시스템의 개발을 위해서는 음성 데이터베이스 구축이 중요한 과제의 하나로써, 많은 시간과 노력이 요구된다. 본 논문은 ARS 주식거래 시스템에서 사용되는 주식의 매수, 매도, 증시 현황에 관련된 문장과 숫자음에 대하여 DB 구축한다. 이 DB 구축을 위하여 Dialogic 사의 D/41ESC보드를 장착하고, Window NT4.0 플렛폼에서 음성을 수집하였다. 본 논문에서는 음성 수집을 위해 전국의 20대에서 50대까지의 남녀에 대해 1명당 50개의 문장 또는 숫자음에 대하여, 유선 및 무선을 통하여 데이터를 수집하였다. 또한 화자 독립 음성 인식을 위하여 1200명의 화자로 구성되어 있다. 지역별로 보면, 서울 및 경기, 강원 지역과 영호남, 충청 지역으로 나누었으며, 일반폰, 휴대폰, 공중전화의 환경에서, 그리고 실내와 실외환경에서 각각 수집하였다.

  • PDF