통합 검색 | Korea Science

잡음환경하의 연속 음성인식을 위한 유사음소단위 분석 (An Analysis on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments)

신광호;임수호;서준배;김주곤;정호열;정현열
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
- /
- pp.123-126
- /
- 2004
본 논문은 잡음환경 하에서의 효율적인 문맥의존 음향 모델 구성에 대한 기초연구로서 잡음환경 하에서의 유사 음소단위 수에 따른 연속 음성인식 성능을 비교, 평가한 결과에 대한 보고이다. 기존의 연구[1,2]로부터 연속음성 인식의 경우 문맥종속모델은 변이음을 고려한 39유사음소를 이용한 경우가 48유사음소를 이용하는 것보다 더 좋은 인식성능을 나타냄을 알 수 있었다. 이 연구 결과를 바탕으로 본 연구에서는 잡음환경에서도 효율적인 문맥 의존 음향모델을 구성하기 위한 기초 연구를 수행하였다. 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음을 신호 대 잡음비(Signal to Noise Ratio) 5dB, 10dB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따른 연속음성인식 실험을 수행하였다. 그 결과, 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 clear 환경인 경우에 약 $7\%$와 $17\%$ 향상된 단어인식률과 문장 인식률을 얻을 수 있었으며, 각 잡음환경에서도 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 평균 적으로 $17\%$와 $28\%$ 향상된 단어인식률과 문장인식률을 얻을 수 있어 39유사음소 단위가 한국어 연속음성인식에 더 적합하고 잡음환경에서도 유효함을 확인할 수 있었다.
PDF

Attention-long short term memory 기반의 화자 임베딩과 I-vector를 결합한 원거리 및 잡음 환경에서의 화자 검증 알고리즘 (Speaker verification system combining attention-long short term memory based speaker embedding and I-vector in far-field and noisy environments)

배아라;김우일
- 한국음향학회지
- /
- 제39권2호
- /
- pp.137-142
- /
- 2020
문장 종속 짧은 발화에서 문장 독립 긴 발화까지 다양한 환경에서 I-vector 특징에 기반을 둔 많은 연구가 수행되었다. 본 논문에서는 원거리 잡음 환경에서 녹음한 데이터에서 Probabilistic Linear Discriminant Analysis(PLDA)를 적용한 I-vector와 주의 집중 기법을 접목한 Long Short Term Memory(LSTM) 기반의 화자 임베딩을 추출하여 결합한 화자 검증 알고리즘을 소개한다. LSTM 모델의 Equal Error Rate(EER)이 15.52 %, Attention-LSTM 모델이 8.46 %로 7.06 % 성능이 향상되었다. 이로써 본 논문에서 제안한 기법이 임베딩을 휴리스틱 하게 정의하여 사용하는 기존 추출방법의 문제점을 해결할 수 있는 것을 확인하였다. PLDA를 적용한 I-vector의 EER이 6.18 %로 결합 전 가장 좋은 성능을 보였다. Attention-LSTM 기반 임베딩과 결합하였을 때 EER이 2.57 %로 기존보다 3.61 % 감소하여 상대적으로 58.41 % 성능이 향상되었다.
https://doi.org/10.7776/ASK.2020.39.2.137 인용 PDF KSCI

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자 음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition Using the Transformed Successive State Splitting and Demi-syllable Pair)

서은경;최갑근;김순협;이수정
- 한국멀티미디어학회논문지
- /
- 제9권1호
- /
- pp.23-32
- /
- 2006
본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, Finile State Network(FSN) 노드를 두 음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단 음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 인한 오 인식을 줄이기 위해 인식단위를 반음절 쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징부분에서 K-means 알고리즘으로 군집화 하여, 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문맥종속 음소모델에서 10.5%, 음향모델에서 인식단위를 반음절 쌍으로 하였을 경우 문맥종속 음소모델에 비해 12.5%, 변형된 연쇄 상태분할을 하였을 경우 1.5%의 인식률을 향상시킬 수 있었다.
PDF

신경 회로망을 이용한 연속 음성에서의 keyword spotting 인식 방식에 관한 연구 (A study on the Method of the Keyword Spotting Recognition in the Continuous speech using Neural Network)

양진우;김순협
- 한국음향학회지
- /
- 제15권4호
- /
- pp.43-49
- /
- 1996
본 논문은 keyword spotting 기술을 이용한 247개의 DDD 지역명을 인식 대상으로 하여 화자 독립의 한국어 연속 음성인식을 위한 시스템을 제안하였다. 적용된 인식 알고리즘은 음성에서 시간축의 변화와 스펙트럼의 왜곡을 흡수할 수 있는 모델로 DP와 MLP로 구성된 동적 프로그래밍 신경회로망(DPNN)을 사용하였다. 이와 같은 실험을 위해 단어 모델을 만들고 이에 대한 단어 모델을 keyword 모델과 non-keyword 모델로 구분하여 성능을 향상시킬 수 있도록 하였다. 또한 잘못된 결과를 출력시키지 않기 위해서 후처리 과정을 두고 실험을 하였다. 실험결과, 단독어에 대한 화자 종속 실험은 93.45%의 결과를 보였고, 단독어에 대한 화자 독립 실험은 84.05%의 실험결과를 보였으며, 가장 중요한 간단한 대화체 문장의 keyword spotting 실험은 화자 종속으로 77.34%의 결과를 보였으며, 화자 독립 실험은 70.63%의 결과를 얻었다.
PDF

반음절쌍과 변형된 연쇄 상태 분할을 이용한 연속 숫자음 인식의 성능 향상 (Performance Improvement of Continuous Digits Speech Recognition using the Transformed Successive State Splitting and Demi-syllable pair)

김동옥;박노진
- 한국정보통신학회논문지
- /
- 제9권8호
- /
- pp.1625-1631
- /
- 2005
본 논문에서는 언어모델과 음향모델을 개선함으로써 단위 숫자음의 인식성능 최적화에 대해 설명한다. 언어모델은 한국어 단위 숫자음 문장의 문법적 특징을 분석하고, FSN 노드를 두음절로 구성하여 오 인식률을 감소시켰다. 음향모델은 단음절로 구성되어 발성기간이 짧고 조음이 많이 생기는 불명확한 음소, 음절의 분할로 연한 오 인식을 줄이기 위해 인식단위를 반음절쌍으로 하였다. 인식단위의 특징을 효과적으로 모델링하기 위해 특징레벨에서 K-means 알고리즘(4)으로 클러스터링 하여 상태를 분할하는 변형된 연쇄 상태 분할방법을 이용하였다. 실험 결과 제안된 언어모델의 적용 후 동일 문백종속 음소모델에서 $10.5\%$, 음향모델에서 인식단위를 반음절쌍으로 하였을 경우 문백종속 음소모델에 비해 $12.5\%$, 변형된 연쇄 상태분할을 하였을 경우 $1.5\%$의 인식률을 향상시킬 수 있었다.
PDF KSCI

비핵심어 모델의 가중치 기반 핵심어 검출 성능 향상에 관한 연구 (A Study of Keyword Spotting System Based on the Weight of Non-Keyword Model)

김학진;김순협
- 정보처리학회논문지B
- /
- 제10B권4호
- /
- pp.381-388
- /
- 2003
본 논문에서는 핵심어 검출기의 성능 향상을 위해 가베지 클라스 클러스터링과 함께 필러 모델에 가중치론 부여하는 방안 및 태스크 도메인 이용자들의 발화 음성의 성향 분석을 통해 핵심어 천이 확률을 계산하여 핵심어 검출기반 대화 음성처리 시스템의 처리 시간 단축 방안을 제안한다. 제안한 방법은 음성학적으로 유사한 음소끼리 묶어서 사용함으로써 하나의 음소는 잘 표현하지 못하지만 비슷한 음소 그룹의 표현에는 유용한 방법으로 본 논문에서는 한국어 형태론과 태스크 도메인으로 선정한 증권거래 대화음성처리 시스템에서 활용되는 발화 문장을 분석하여 5 음소군을 제시한다. 또한 이들 음소군에 태스크 종속적인 필러 모델 가중치를 부여하며, 두 번째로는 시스템의 처리시간 단축을 위해 연속 발화 문장 속에 포함되어 있는 핵심어 천이 확률을 계산하여 시스템에 적용 실험한다. 제안한 시스템의 성능 평가를 위해 태스크 도메인에 활용되는 4,970 문장의 코퍼스를 구축하고, 이용자 중 20대∼30대 5명이 발성하게 하여 실험한 결과, 제안한 5 음소군에 가중치를 부여한 방법의 FOM은 87.5%로 Yapanel[1]의 7음소군 85.5%보다 우수한 성능을 보였으나, LVCSR의 89.8%보다는 약간 뒤지는 성능을 확인하였다. 계산시간에 있어서도 0.70초로 7음소군의 0.72초보다 우수한 성능을 보였다. 핵심어 천이 확률 분석을 통한 인식 시간 단축 실험에서는 천이 확률을 적용했을 때 약 0.04초∼0.07초의 처리 시간을 단축하는 것을 확인하였다.
https://doi.org/10.3745/KIPSTB.2003.10B.4.381 인용 PDF KSCI

음성 신호를 이용한 화자의 5가지 감성 인식 (Recognizing Five Emotional States Using Speech Signals)

강봉석;한철희;우경호;양태영;이충용;윤대희
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
- /
- pp.101-104
- /
- 1999
본 논문에서는 음성 신호를 이용해서 화자의 감정을 인식하기 위해 3가지 시스템을 구축하고 이들의 성능을 비교해 보았다. 인식 대상으로 하는 감정은 기쁨, 슬픔, 화남, 두려움, 지루함, 평상시의 감정이고, 각 감정에 대한 감정 음성 데이터베이스를 직접 구축하였다. 피치와 에너지 정보를 감성 인식의 특징으로 이용하였고, 인식 알고리듬은 MLB(Maximum-Likelihood Bayes)분류기, NN(Nearest Neighbor)분류기 및 HMM(Hidden Markov Model)분류기를 이용하였다. 이 중 MLB 분류기와 NN 분류기에서는 특징벡터로 피치와 에너지의 평균과 표준편차, 최대값 등 통계적인 정보를 이용하였고, TMM 분류기에서는 각 프레임에서의 델타 피치와 델타델타 피치, 델타 에너지와 델타델타 에너지 등 시간적 정보를 이용하였다. 실험은 화자종속, 문장독립형 방식으로 하였고, 인식 실험 결과는 MLB를 이용해서 $68.9\%, NN을 이용해서 $66.7\%를 얻었고, HMM 분류기를 이용해서 $89.30\%를 얻었다.
PDF

JAVA 프로그래밍 언어에서 단일루프구조의 무시적 병렬성 검출 (Exploiting Implicit Parallelism for Single Loops in Java Programming Language)

권오진
- 정보관리연구
- /
- 제29권3호
- /
- pp.1-26
- /
- 1998
순차 Java 프로그램을 병렬 머쉰에서 실행할 경우 루프는 전체 수행 시간 중 많은 부분을 차지하므로 병렬성 검출의 기본이 된다. 본 논문은 기존에 작성된 단일 루프 구조를 갖는 Java 프로그래밍 언어에서 종속성 분석을 수행하여 묵시적 병렬성을 검출하는 방법을 제안한다. 또한 재구성 컴파일러에 의하여 병렬 코드를 생성하는 방법과 Java 원시 프로그램을 Java 프로그래밍 언어 자체에서 지원하는 다중스레드 기법으로 변환하는 방법을 제안한다. 스레드 문장으로 변환된 프로그램에 대해 루프의 반복계수와 쓰레드 수를 매개변수로 하여 성능 분석을 하였다. 재구성 컴파일러에 의한 장점은 사용자의 병렬성 검출에 대한 오버헤드를 줄이고, 순차 Java 프로그램에 대한 효과적인 병렬성 검출을 가능하게 한다.
PDF

HPF FORALL 구조의 스칼라화(Scalarization) (Scalarization of HPF FORALL Construct)

구미순
- 한국컴퓨터정보학회논문지
- /
- 제12권5호
- /
- pp.121-129
- /
- 2007
스칼라화(Scalarization)는 포트란 90의 array statement나 HPF FORALL 등의 병렬 구조를 동일한 의미의 순차 DO 루프로 변환하는 과정이다. 표준 자료 병렬 언어인 HPF 컴파일러도 HPF로 작성된 프로그램을 메시지 패싱 프리미티브가 삽입된 포트란 77 프로그램으로 변환하고, 병렬 구조인 FORALL을 스칼라화하여 포트란 77의 순차 DO 루프로 변환해야 한다. 본 논문에서는 병렬 구조의 시맨틱을 지닌 다중문장 FORALL 구조를 개선된 성능의 순차 DO 루프로 변환하는 스칼라화 알고리즘을 제안한다. 이를 위해 필요한 종속성 정보를 유지하는 수단으로 관계거리벡터를 정의하여 사용한다. 끝으로 제안된 알고리즘을 적용하여 생성된 코드와 기존 PARADIGM 컴파일러에 의해 생성된 코드의 성능을 비교 평가한다.
PDF

소스코드와 실행코드의 상관관계 분석을 통한 최악실행시간 측정 방법 (Measuring Method of Worst-case Execution Time by Analyzing Relation between Source Code and Executable Code)

서용진;김현수
- 인터넷정보학회논문지
- /
- 제17권4호
- /
- pp.51-60
- /
- 2016
내장 소프트웨어는 실시간성 및 실행 환경으로부터의 독립성을 요구사항으로 갖는다. 실시간성 요구사항은 탑재된 태스크의 최악 실행 시간으로부터 영향을 받는다. 따라서 실시간성을 보장하기 위해서는 정적 분석 기반의 최악 실행 시간 분석 방법을 사용하여 프로그램의 최악 실행 시간을 파악하여야 한다. 그러나 기존의 최악 실행 시간 분석은 실행 환경으로부터 독립성을 고려하지 않는다. 이에 우리는 실행 환경으로부터 독립성을 제공하기 위해 소스코드로부터 실행 시간을 측정하는 방법을 제시한다. 이를 위해 실행 코드가 아닌 소스코드로부터 생성된 제어 흐름 그래프를 통해 실행 시간을 측정한다. 또한 소스코드로부터 생성된 제어 흐름 그래프에는 실행 시간 정보가 존재하지 않기 때문에, 이를 제공하기 위해 소스코드의 문장과 실행코드의 명령어와의 관계를 분석한다. 결과적으로 실행 시간 측정이 가능한 제어 흐름 그래프를 생성할 수 있다. 이를 통해 프로세서로부터 종속적인 부분을 매개변수화할 수 있기 때문에, 최악 실행 시간 분석 도구의 유연성을 향상시킬 수 있다.
https://doi.org/10.7472/jksii.2016.17.4.51 인용 PDF KSCI

검색결과 54건 처리시간 0.02초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)