통합 검색 | Korea Science

연속 음성 인식을 위한 PTM 음절 모델 (Phonetic Tied-Mixture Syllable Model for CSR)

김봉완;이용주
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
- /
- pp.33-36
- /
- 2004
최근 연속 음성 인식에서의 성능 향상을 위하여 음절을 인식 단위로 사용하고자 하는 노력들이 보고되고 있다. 그러나 음절의 경우 음소에 비해 학습성이 좋지 않고 모델의 수가 많으므로 음절 경계에서의 문맥 종속 모델링이 어렵다는 단점을 갖고 있다. 본 논문에서는 음절의 이러한 단점을 극복하기 위하여 모노폰과 트라이폰을 이용하여 음절 모델을 합성하는 방법을 제안한다. 제안된 모델은 트라이폰에 비하여 평균 $55\%$, PTM에 비하여 평균 $13\%$의 인식 속도 향상을 보이며, 동일한 속도일 경우 PTM, 트라이폰 모델 모두에 대하여 ERR이 약$8\%$ 향상됨을 볼 수 있었다.
PDF

전화음성인식을 위한 멀티채널 음성인식 시스템 구현 (Implementation of the Multi-Channel Speech Recognition System for the Telephone Speech)

이승훈;서영주;강동규
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
- /
- pp.179-182
- /
- 2000
본 논문은 전화음성 서비스 시스템의 핵심 기술인 멀티채널 음성인식 시스템의 구현에 대해서 기술하고자 한다. 구현한 시스템은 전화망 인터페이스 모듈, 음성입력 모듈, 음성인식 모듈, 및 서비스 제어모듈로 구성되어 있다. 전화망 인터페이스 모듈은 전화망을 이용한 교환기와의 호 처리 및 이벤트 처리를 담당하며, 전화망 접속카드와 밀접한 관계를 가지고 있다. 음성입력 및 인식 모들은 호 접속이 이루어진 채널로부터 음성을 입력받아 단어인식 기능을 수행하는 부분으로서 멀티 채널을 수용할 수 있는 구조로 설계되어 있다. 음성인식 모델은 문맥 종속형 CHMM 모델이며, 각각의 HMM 모델은 3-state, skip path 로 구성되어 있다. 음성인식 모듈내의 함수들은 모두 re-entrant 하도록 구성함으로써 멀티 채별이 가능하며, 각각의 채널은 모두 독립적인 메모리 공간에서 동작하도록 되어있다. 이와 같은 멀티채널 전화음성인식 시스템은 Dialogic보드를 이용하여 Windows NT에서 동작하도록 구현하였다. 실험결과, 구현된 시스템은 실시간으로 상용서비스가 가능한 인식율을 보였으며 원활한 멀티채널 지원이 가능하였다.
PDF

SNR을 이용한 프레임별 유사도 가중방법을 적용한 문맥종속 화자인식에 관한 연구 (A Study on the Context-dependent Speaker Recognition Adopting the Method of Weighting the Frame-based Likelihood Using SNR)

최홍섭
- 대한음성학회지:말소리
- /
- 제61호
- /
- pp.113-123
- /
- 2007
The environmental differences between training and testing mode are generally considered to be the critical factor for the performance degradation in speaker recognition systems. Especially, general speaker recognition systems try to get as clean speech as possible to train the speaker model, but it's not true in real testing phase due to environmental and channel noise. So in this paper, the new method of weighting the frame-based likelihood according to frame SNR is proposed in order to cope with that problem. That is to make use of the deep correlation between speech SNR and speaker discrimination rate. To verify the usefulness of this proposed method, it is applied to the context dependent speaker identification system. And the experimental results with the cellular phone speech DB which is designed by ETRI for Koran speaker recognition show that the proposed method is effective and increase the identification accuracy by 11% at maximum.
PDF

다중스레드 코드 생성을 위한 배열 지역화 (Array Localization for Multithreaded Code Generation)

양창모;유원희
- 한국정보처리학회논문지
- /
- 제3권6호
- /
- pp.1407-1417
- /
- 1996
지금까지 다중스레드 모델을 위한 다중스레드 코드의 생성 및 스레드 분할에 대 하여 이루어진 연구는 실행시간을 번역시간에 예측할 수 없는 연산을 경계로 삼아 스 레드를 분할하고, 스레드의 길이를 증가시키기 위하여 주어진 제약조건내에서 스레드 를 병합하는 것이다. 이러한 정책으로 인하여 병렬성이 적은 프로그램이라 하여도 원 격자료 접근이 많으면 스레드의 길이가 짧아지고 그에 따라 문맥전환이 늘어나기 때 문에 시스템에 부담이 된다. 본 논문에서는 스레드의 길이를 늘이고, 메세지 전송횟 수를 감소시키기 위한 다른 방법으로 프로그램의 루프에서 접근되는 배열의 첨자를 분석하고 이를 바탕으로 루프 액티베이션에서 참조되는 배열의 원소를 해당 루프 액 티베이션이 수행되는 노드에 분산 저장하는 배열의 지역화방안을 제안한다. 배열을 지역화하기 위하여 먼저 루프 액티베이션에서 접근되는 배열의 이름, 루프 첨자와 접 근되는 배열원소의 첨자간의 차이인 종속거리 그리고 배열원소의 용도에 관한 정보를 얻기 위한 원소 접근 형태 분석을 수행한다. 원소 접근 형태 분석으로 부터 얻어진 정보를 이용하여 가능한한 지역 기억장치에서 필요한 배열의 원소를 읽어올 수 있도 록 배열 원소에 접근하는 루프 액티베이션이 수행되는 처리기 모임의 지역 기억장치 에 배열원소를 저장하는 배열 지역화를 수행한다. 실험결과, 배열을 지역화함으로써 다른 처리기 모임의 지역 기억장치로부터 배열의 원소를 읽어오기 위한 원격자료 접 근을 지역자료 접근으로 대치함으로써 원격접근의 수가 줄어든다. 이로 인하여 스레 드의 길이가 증가하며, 원격접근 횟수 및 문맥 전환의 수가 줄어들어 시스템의 성능 향상을 꾀할 수 있었다.
PDF

DP 알고리즘에 의한 발음사전 전처리와 문맥종속 자소별 MLP를 이용한 영어 발음사전 생성기의 개선 (Improvements of an English Pronunciation Dictionary Generator Using DP-based Lexicon Pre-processing and Context-dependent Grapheme-to-phoneme MLP)

김회린;문광식;이영직;정재호
- 한국음향학회지
- /
- 제18권5호
- /
- pp.21-27
- /
- 1999
본 논문에서는 가변어휘 단어 인식기에 사용하기 위한 개선된 MLP 기반 영어 발음사전 생성기를 제안한다. 가변어휘 단어 인식기는 인식대상 도메인이 수시로 바뀌는 상황에서 현재의 인식 도메인에 의해 결정되는 임의의 한국어 어휘들에 대해 처리 할 수 있다. 이 시스템을 영어 단어에 대해서도 처리할 수 있도록 하기 위해서는 미리 정의된 사전에 포함할 수 없는 영어 고유명사와 같은 단어의 발음열을 구할 수 있는 방법이 필요하다. 영어 발음사전 생성기를 구현하기 위하여 본 연구에서는 각 자소를 음소로 변환해 주는 문맥종속 다층 퍼셉트론 구조를 제안한다. 각 자소별 다층 퍼셉트론을 훈련하기 위해서는 표준 발음사전으로부터 각 자소에 대응하는 음소 학습용 데이터를 준비해야 한다. 이를 위해 본 연구에서는 적절한 거리척도를 사용하는 동적 프로그래밍 알고리즘을 사용한다. 훈련 및 평가를 위한 데이터로는 116,191개 영어 단어의 발음사전을 사용하였다. 평가 결과 각각 30～50개의 히든 노드를 가지는 26개 자소별 MLP와 예외 자소 발음사전을 가지고 표준 발음사전에 대하여 72.8%의 단어 정확도를 얻었으며, 이것은 기존의 규칙 에 기반한 발음사전 생성의 정확도인 24.0% 보다 매우 우수한 결과임을 보여주었다.
PDF

문맥종속 화자인식을 위한 준비반복 벡터 양자기 설계 알고리즘 (A Semi-Noniterative VQ Design Algorithm for Text Dependent Speaker Recognition)

임동철;이행세
- 정보처리학회논문지B
- /
- 제10B권1호
- /
- pp.67-72
- /
- 2003
이 논문은 문맥 종속 화자인식에 사용될 벡터 앙자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 기준 화자를 제외한 모든 비기준 화자에 대해 비반복적 학습 방법을 사용하여, 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 이 제안된 준비반복 벡터 양자기 설계법은, 종래의 설계법이 모든 화자의 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 준비반복 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 단지 기준 화자에 대하여만 반복 학습을 수행하고 비기준 화자에 대하여는 반복 학습을 하지 않는다. 둘째, 설계된 비기준 화자의 양자 영역은 기준화자의 양자 영역을 원용하며, 양자점은 자신의 통계 분포에 대해 최적점으로 설정된다. 수치 실험은 화자 20명에 대하여 멜켑스트럼 12차 특징벡터를 사용하였고 코드북 크기를 2부터 32까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 코드북 크기가 적절하고 학습 데이터 길이가 충분한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 준비반복 벡터 양자기 설계법은, 설계에 필요한 학습 횟수가 획기적으로 줄면서 인식률은 보존되어, 새로운 대안이 될 것으로 사료된다.
https://doi.org/10.3745/KIPSTB.2003.10B.1.067 인용 PDF KSCI

한국인의 영어 인식을 위한 문맥 종속성 기반 음향모델/발음모델 적응 (Acoustic and Pronunciation Model Adaptation Based on Context dependency for Korean-English Speech Recognition)

오유리;김홍국;이연우;이성로
- 대한음성학회지:말소리
- /
- 제68권
- /
- pp.33-47
- /
- 2008
In this paper, we propose a hybrid acoustic and pronunciation model adaptation method based on context dependency for Korean-English speech recognition. The proposed method is performed as follows. First, in order to derive pronunciation variant rules, an n-best phoneme sequence is obtained by phone recognition. Second, we decompose each rule into a context independent (CI) or a context dependent (CD) one. To this end, it is assumed that a different phoneme structure between Korean and English makes CI pronunciation variabilities while coarticulation effects are related to CD pronunciation variabilities. Finally, we perform an acoustic model adaptation and a pronunciation model adaptation for CI and CD pronunciation variabilities, respectively. It is shown from the Korean-English speech recognition experiments that the average word error rate (WER) is decreased by 36.0% when compared to the baseline that does not include any adaptation. In addition, the proposed method has a lower average WER than either the acoustic model adaptation or the pronunciation model adaptation.
PDF

분산 메모리 다중프로세서 환경에서의 병렬 음성인식 모델 (A Parallel Speech Recognition Model on Distributed Memory Multiprocessors)

정상화;김형순;박민욱;황병한
- 한국음향학회지
- /
- 제18권5호
- /
- pp.44-51
- /
- 1999
본 논문에서는 음성과 자연언어의 통합처리를 위한 효과적인 병렬계산모델을 제안한다. 음소모델은 연속 Hidden Markov Model(HMM)에 기반을 둔 문맥종속형 음소를 사용하며, 언어모델은 지식베이스를 기반으로 한다. 또한 지식베이스를 구성하기 위해 계층구조의 semantic network과 병렬 marker-passing을 추론 메카니즘으로 쓰는 memory-based parsing 기술을 사용한다. 본 연구의 병렬 음성인식 알고리즘은 분산메모리 MIMD(Multiple Instruction Multiple Data) 구조의 다중 Transputer 시스템을 이용하여 구현되었다. 실험결과, 본 연구의 지식베이스 기반 음성인식 시스템의 인식률이 word network 기반 음성인식 시스템보다 높게 나타났으며 code-phoneme 통계정보를 활용하여 인식성능의 향상도 얻을 수 있었다. 또한, 성능향상도(speedup) 관련 실험들을 통하여 병렬 음성인식 시스템의 실시간 구현 가능성을 확인하였다.
PDF

형상 형성 제어를 이용한 어휘인식 공유 모델의 가우시안 최적화 (Gaussian Optimization of Vocabulary Recognition Clustering Model using Configuration Thread Control)

안찬식;오상엽
- 한국컴퓨터정보학회논문지
- /
- 제15권2호
- /
- pp.127-134
- /
- 2010
연속 어휘 인식 확률 분포의 공유 방법에서는 사용될 모델 파라미터들의 초기 추정치를 생성하기 위한 각 문맥들에 대한 음소 데이터가 반드시 필요하지만 이들 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 가우시안 모델의 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하고, 음소 단위로 데이터를 탐색을 지원하는 형상 형성 시스템을 제안한다. 본 논문의 형상 형성 시스템은 확장 facet 분류를 이용하여 사용자에게 음소 단위의 형상 형성 정보를 제공하므로 가우시안 모델의 정확성을 제공한다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.31%, 어휘 독립 인식률은 97.63%의 인식률을 나타내었다.
https://doi.org/10.9708/jksci.2010.15.2.127 인용 PDF KSCI

HEVC 구문요소에 적응적인 파이프라인-병렬 CABAC 복호화기 설계 (A Design of Pipelined-parallel CABAC Decoder Adaptive to HEVC Syntax Elements)

배봉희;공진흥
- 전자공학회논문지
- /
- 제52권5호
- /
- pp.155-164
- /
- 2015
본 연구에서는 다양한 HEVC 구문요소들을 적응적으로 파이프라인 및 병렬 처리할 수 있는 CABAC 복호화기 아키텍처를 설계 및 구현하였다. CABAC는 높은 압축률을 제공하지만, 구문요소 단위 순차적 복호화와 문맥간 강한 데이터 종속성, 빈 단위 복호화 과정 때문에 고성능 복호화 처리를 어렵게 한다. CABAC의 복호화 처리 성능을 높이기 위하여 연속된 flag 타입의 구문요소에 대해서는 다음에 복호될 구문요소들을 선행 연산하여 적응적으로 파이프라인 처리하였고, 멀티빈으로 구성된 구문요소는 최대 3개 빈까지 병렬 처리하는 고성능 구조를 설계하였다. 또한 이진산술복호기를 가속화하기 위해 문맥모델 업데이트와 재정규화를 선행 병렬 연산하고, 복호화 결과값에 따라 선택해서, 이진산술복호기의 임계 지연시간을 개선하였다. 제안하는 HEVC CABAC 아키텍처는 최대 1.01bins/cycle의 처리 성능으로 기존 구조대비 약 2배의 가속화 성능을 갖는다. 65nm ASIC 합성 결과 224M bins/sec.의 복호화 성능을 보이며, QFHD영상의 실시간 처리를 가능하게 하였다.
https://doi.org/10.5573/ieie.2015.52.5.155 인용 PDF KSCI

검색결과 54건 처리시간 0.025초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)