통합 검색 | Korea Science

한국어 음성인식 성능향상을 위한 문맥의존 음향모델에 관한 연구 (A Study-on Context-Dependent Acoustic Models to Improve the Performance of the Korea Speech Recognition)

황철준;오세진;김범국;정호열;정현열
- 융합신호처리학회논문지
- /
- 제2권4호
- /
- pp.9-15
- /
- 2001
본 연구에서는 한국어 음성인식 성능향상을 위한 문맥의존 음향 모델을 개선하기 위하여 한국어 음성학적 지식과 결정트리를 접목한 음소결정트리 기반 상태분할 알고리즘으로 한국어에 적합한 문맥의존 음향 모델에 관해 고찰한다. HMM (Hidden Markov Model)의 각 상태를 네트워크로 연결하여 문맥의존 음향모델로 표현하는 HM-Net(Hidden Markov Network)이 있는데 이는 SSS(Successive State Splitting) 알고리즘으로 작성한다. 이 방법은 음향 모델의 상태공유관계와 모델의구조를 결정하는데 효율적이지만 모델을 학습할때 문맥환경에 따라 출현하지 않는 문맥이 존재하는 문제점이 있다 본 연구에서는 이러한 문제점을 해결하기 위해 2진 결정트리와 SSS 알고리즘의 장점을 결합하여 문맥방향 상태분할을 수행할 때 각 노드에서 한국어 음성학적 지식으로 구성된 음소 질의어에 따라 상태분할 하는 방법으로서 PDT-SSS(Phonetic Decision Tree-based SSS) 알고리즘을 적용한다. 적용한 방법으로 작성한 문맥의존 음향 모델의 유효성을 확인하기 위해 국어공학센터 (KLE)m이 452 단어와 항공편 예약관련 200문장(YNU 200)에 대해 화자독립 음소, 단어 및 연속음성인식 실험을 수행하였다. 인식실험결과, 문맥 의존 음향모델에 대한 화자독립 음소, 단어 및 연속음성 인식실험에서 기존의 단일 HMM 모델보다 향상된 인식률을 보여, 한국어에 적합한 문맥의존 음향 모델을 작성하는데 한국어 음성학적 지식과 음소결정트리 기반 상태분할 알고리즘이 유효함을 확인하였다.
PDF

Hidden Markov Network를 이용한 음향학적 음소모델 작성에 관한 검토 (A Study on Construction of Acoustical Phoneme Models Using Hidden Markov Network)

오세진;임영춘;황철준;김범국;정현열
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
- /
- pp.29-32
- /
- 2000
본 논문에서는 음성인식 시스템의 음향모델 개선을 위한 기초적 연구로서, 문맥적인 요소를 필요로 하는 SSS(Successive State Splitting)와 필요로 하지 않는 SSS-free 알고리즘을 이용한 HMnet(Hidden Markov Network) 음향모델 작성방법에 대해 검토하고 작성한 음향모델을 한국어에 적용하여 그 유효성을 확인하였다. HMnet을 이용한 음소모델의 작성방법은 전체 학습 데이터에 대해서 각각 2개의 상태를 가지는 초기 모델을 작성한 후, 이를 시간과 문맥방향으로의 최대 분포를 가지는 상태를 재분할한 후 임의의 상태수가 될 때까지 상태분할을 계속적으로 수행케 하여 각 음소모델을 작성하게 된다. 작성한 HMnet 음향모델의 유효성을 확인하기 위해 ETRI 445 단어의 3인에 대한 화자종속 음소인식 실험을 수행하였다. 인식실험 결과, SSS 알고리즘을 이용한 화자종속실험의 경우 상태수 520에서 평균 $62.8\%$의 인식률을, SSS-free 알고리즘의 경우 상태수 420에서 평균 $64.2\%$의 인식률을 얻었다. 이 결과는 HMM을 이용한 경우(약$43.4\%$)보다 $20\%$이상의 인식률 향상을 보여 이 알고리즘의 유효성을 확인할 수 있었다. SSS와 SSS-free를 비교한 경우, SSS-free가 SSS보다 낮은 상태수에서 평균 $1.4\% 향상된 인식률을 보였다.
PDF

적응 프루닝 알고리즘과 PDT-SSS 알고리즘을 이용한 한국어 연속음성인식에 관한 연구 (A Study on the Korean Continuous Speech Recognition using Adaptive Pruning Algorithm and PDT-SSS Algorithm)

황철준;오세진;김범국;정호열;정현열
- 한국멀티미디어학회논문지
- /
- 제4권6호
- /
- pp.524-533
- /
- 2001
연속음성인식 시스템의 실용화를 위해서 가장 중요한 것은 높은 인식 성능을 가지면서 동시에 실시간으로 인식되어야 한다. 이를 위하여 본 연구에서는 먼저 연속음성인식의 인식률 향상을 위하여 효과적인 음향모델을 구성하기 위하여 PDT-SSS(Phonetic Decision Tree-based Successive State Splitting) 알고리즘을 도입하여 HM-Net을 구성하고, 언어모델로서 반복학습을 이용하여 인식률 향상을 제고한다. 그리고, 기존의 연구에서 유효함이 입증된 프레임 단위 적응 프루닝 알고리즘을 연속음성에 적용하여 인식 속도를 개선하고자 한다. 제안된 방법의 유효성을 확인하기 위하여, 남성 4인이 항공편 예약 관련 음성에 대하여 인식 실험을 수행하였다. 그 결과 연속음성인식률 90.9%, 단어인식률 90.7%의 높은 인식성능을 얻었으며, 적응 프루닝 알고리즘을 적용한 경우 인식성능의 저하없이 약 1.2초(전체의 15%)의 인식시간을 줄일 수 있어 제안된 방법의 유효성을 확인할 수 있었다.
PDF

3GPP LTE 하향링크 시스템의 초기 셀 탐색기 SSS 검출 시 복잡도 최소화를 위한 CP 길이 선 결정 알고리즘 (Complexity Reduced CP Length Pre-decision Algorithm for SSS Detection at Initial Cell Searcher of 3GPP LTE Downlink System)

김영범;김종훈;장경희
- 한국통신학회논문지
- /
- 제34권9A호
- /
- pp.656-663
- /
- 2009
3GPP (3rd Generation Partnership Project) LTE (Long Term Evolution) 시스템의 하양링크에서는 초기 동기화 및 셀 탐색 과정을 수행하기 위해 PSS (primary synchronization signal) 와 SSS (secondary synchronization signal) 시퀀스를 사용한다. 단말기는 PSS를 이용하여 슬롯 타이밍과 주파수 동기, 그리고 셀 ID를 획득한 후 SSS를 검출해야 하는데, 3GPP LTE에서 지원되는 2 종류의 CP (Cyclie Prefix) 길이로 인해 2번의 FFT를 수행하여 SSS reference 신호와의 cross-correlation을 이용해 무선 프라밍 타이밍과 셀 그룹 ID를 획득한다. 본 논문에서는 단말기의 셀 탐색기에서 SSS 검출 시 복잡도를 최소화하기 위해 extended CP로 전송한 경우 CP 길이를 선 결정하여 FFT와 cross-correlation의 계산 복잡도를 최대 50%까지 감소시키는 알고리즘을 제안한다. 컴퓨터 모의실험을 통해 매우 작은 성능 열화를 가지면서, 복잡도는 크게 감소하는 결과를 확인할 수 있었다.
PDF KSCI

결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘을 이용한 음성인식에 관한 연구 (A Study on Speech Recognition Using the HM-Net Topology Design Algorithm Based on Decision Tree State-clustering)

정현열;정호열;오세진;황철준;김범국
- 한국음향학회지
- /
- 제21권2호
- /
- pp.199-210
- /
- 2002
본 논문은 한국어 음성인식에서 음향모델의 성능개선을 위한 기초적 연구로서 결정트리 상태 클러스터링에 의한 HM-Net (Hidden Markov Network)의 구조결정 알고리즘을 이용한 음성인식에 관한 연구를 수행하였다. 한국어는 다른 언어와 비교하여 많은 문법과 변이음이 존재하는데, 국어 음성학에서 정의한 다양한 변이음을 조사하고, 음소결정트리를 위한 음소 질의어 집합을 작성하였다. 본 논문의 HM-Net 구조결정 알고리즘의 아이디어는 SSS (Successive State Splitting) 알고리즘의 구조를 가지면서 미리 작성해 둔 문맥의존 음향모델의 상태를 다시 분할하는 방법이다. 즉, 모델의 각 상태위치마다 음소 질의어 집합에 의해 음소결정트리를 생성하고, PDT-SSS (Phonetic Decision Tree-based SSS) 알고리즘에 의해 문맥의존 음향모델의 상태열을 다시 학습하는 방법이다. 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하기 위해, 국어공학센터 (KLE)의 452단어와 항공편 예약에 관련된 YNU200 문장을 대상으로 음성인식 실험을 수행하였다. 인식실험 결과, 음소, 단어, 연속음성인식 실험에서 상태분할을 수행한 후 상태수의 변화에 따라 인식률이 점진적으로 향상됨을 확인하였다. 상태수 2,000일 때 음소, 단어 인식률이 평균 71.5%, 99.2%를 각각 얻었으며, 연속음성인식률은 상태수 800일 때 평균 91.6%를 얻었다. 또한 HM-Net 구조결정 알고리즘의 파라미터 공유관계를 비교하기 위해 상태공유를 수행하는 HTK를 이용한 단어인식 실험을 수행하였다. 실험결과, HTK를 이용한 문맥의존 음향모델에 비해 평균 4.0%의 인식률 향상을 보여, 본 논문에서 적용한 결정트리 상태 클러스터링에 의한 HM-Net 구조결정 알고리즘의 유효성을 확인하였다.
PDF KSCI

GOCI를 이용한 동중국해 표층 염분 산출 알고리즘 개발 (A Development for Sea Surface Salinity Algorithm Using GOCI in the East China Sea)

김대원;김소현;조영헌
- 대한원격탐사학회지
- /
- 제37권5_2호
- /
- pp.1307-1315
- /
- 2021
매년 여름철 양자강에서 유출되는 저염분수는 동중국해 뿐만 아니라 제주도 주변 해역의 염분 변화에 큰 영향을 미치며 때때로 그 영향은 한반도 연안에 국한되지 않고 대한해협을 통과하여 동해 외해 까지 확장되기도 한다. 한반도 주변으로 확장된 양자강 유출수는 해양 물리 및 생태학적으로 많은 영향을 끼치며 어업 및 양식업에 큰 피해를 유발하기도 한다. 그러나 현장조사의 한계점 때문에 동중국해에서 확산되는 저염분수를 지속적으로 관측하기에는 현실적으로 어려움이 있다. 이러한 이유로 양자강 유출수의 확산을 실시간으로 모니터링하기 위해 인공위성을 활용한 표층 염분 산출 연구가 많이 진행되어 왔다. 본 연구에서는 시간 및 공간 해상도가 상대적으로 좋은 GOCI(Geostationary Ocean Color Imager)를 활용한 동중국해 표층 염분 산출 알고리즘을 개발하였다. 알고리즘 개발을 위해 기계학습 기법 중 하나인 MPNN(Multilayer Perceptron Neural Network)을 이용하였으며, 출력층에는 SMAP(Soil Moisture Active Passive) 위성의 표층 염분 자료를 활용하였다. 이전 연구에서 2016년 자료를 이용한 표층 염분 산출 알고리즘이 개발되었으나 본 연구에서는 연구 기간을 2015년 부터 2020년까지로 확장하여 알고리즘 성능을 개선하였다. 2011년부터 2019년까지 동중국해에서 관측된 국립수산과학원의 정선조사자료를 이용하여 알고리즘 성능을 검증한 결과로 R²는 0.61과 RMSE는 1.08 psu로 나타났다. 본 연구는 GOCI를 이용한 동중국해 표층 염분 모니터링 알고리즘 개발을 위해 수행되었으며, 향후 GOCI-II의 표층 염분 산출 알고리즘 개발에 많은 기여를 할 것으로 기대된다.
https://doi.org/10.7780/kjrs.2021.37.5.2.8 인용 PDF KSCI HTML

하이퍼스펙트럴 영상의 무감독 변화탐지를 위한 SSS 알고리즘과 기대최대화 기법의 적용 (The Application of the Spectral Similarity Scale Algorithm and Expectation-Maximization for Unsupervised Change Detection using Hyperspectral Image)

김용현;김대성;김용일;유기윤
- 한국공간정보시스템학회:학술대회논문집
- /
- 한국공간정보시스템학회 2007년도 GIS 공동춘계학술대회 논문집
- /
- pp.139-144
- /
- 2007
Recording data in hundreds of narrow contiguous spectral intervals, hyperspectral images have provided the opportunity to detect small differences in material composition. But a limitation of a hyperspectral image is the signal to noise ratio (SNR) lower than that of a multispectral image. This paper presents the efficiency of Spectral Similarity Scale (SSS) in change detection of hyperspectral image and the experiment was performed with Hyperion data. SSS is an algorithm that objectively quantifies differences between reflectance spectra in both magnitude and direction dimensions. The thresholds for detecting the change area were determined through Expectation-Maximization (EM) algorithm. The experimental result shows that the SSS algorithm and EM algorithm are efficient enough to be applied to the unsupervised change detection of hyperspectral images.
PDF

음성의 시간변이와 상태분할을 고려한 강건한 문맥의존 음향모델에 관한 연구 (A study on the robust context-dependent acoustic models by considering the state splitting and the time variant of speech)

오세진;김광동;노덕규;정현열
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
- /
- pp.229-231
- /
- 2003
일반적으로 음성은 시간함수로 표현되며 음성인식에서 표준모델을 모델링하는 것은 매우 중요한 문제이다. 음절 단어, 연속음성을 발성할 때 자음과 모음에 따라 발성시간에 차이가 있으며 이를 잘 모델링하는 것 또한 음성인식에서는 중요한 문제라고 할 수 있다. 따라서 본 연구에서는 강건한 음향모델을 학습하기 위해 시간의 변화와 상태분할과정에서의 모델의 변화를 고려하여 다양한 구조의 초기모델을 작성하였다. 각 초기모델에 의한 HM-Net 문맥의존 음향모델은 음소결정트리 기반 SSS 알고리즘(PDT-SSS)을 이용하였다. PDT-SSS 알고리즘은 미지의 문맥정보를 해결하기 위해 문맥방향과 시간방향으로 목표 상태수에 도달할 때까지 상태분할을 수행하여 모델을 작성하는 방법이다. 음성의 시간변이를 고려한 강건한 문맥의존 음향모델을 작성하기 위해 설정한 각 모델의 구조에 대한 유효성을 확인하기 위해 국어공학센터의 452 단어를 대상으로 음소와 단어인식 실험을 수행한 결과. 음소인식의 경우 상태수 2000개에서 2상태 구조의 모델에 비해 4상태 구조가 약 11.4% 향상된 인식성능과 39.2초의 인식시간을 단축할 수 있었다. 또한 단어인식의 경우 상태수 2000개에서 1상태 구조의 모델에 비해 4상태 구조가 약 5% 향상된 인식성능과 4상태 구조에서 한 단어를 인식하는데 평균 0.8초가 소요되었다. 따라서 강건한 문맥의존 음향모델을 작성하기 위해 수행한 초기모델의 구조에 관한 연구가 향후 음성인식 시스템을 구축하는데 유효함을 확인할 수 있었다.
PDF

강건한 음향모델을 위한 모델의 상태와 문맥환경에 관한 연구 (A Study on Context Environment and Model State for Robustness Acoustic Models)

최재영;오세진;황도삼
- 한국멀티미디어학회:학술대회논문집
- /
- 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
- /
- pp.366-369
- /
- 2003
본 연구에서는 강건한 문맥의존 음향모델을 작성하기 위한 기초적인 연구로서 문맥환경과 상태수의 변화에 따른 음향모델의 성능을 고찰하고자 한다. 음성은 시간함수로 표현되며 음절, 단어, 연속음성을 발성할때 자음과 모음에 따라 발성시간에 차이가 있으며 음성인식의 최소 인식단위로 널리 사용되는 음소의 앞과 뒤에 오는 문맥환경에 따라 인식성능에 많은 차이를 보이고 있다. 따라서 본 연구에서는 시간의 변화(상태수의 변화)와 상태분할 과정에서 문맥환경의 변화를 고려하여 다양한 형태의 문맥의존 음향모델을 작성하였다. 모델학습은 음소결정트리 기반 SSS 알고리즘(Phonetic Decision Tree-based Successive State Splitting： PDT-555)을 이용하였다 PDT-SSS 알고리즘은 미지의 문맥정보를 해결하기 위해 문맥방향과 시간방향으로 목표 상태수에 도달할 때까지 상태분할을 수행하여 모델을 작성하는 방법이다. 본 연구에서 강건한 문맥의존 음향모델을 학습하기 위한 방법의 유효성을 확인하기 위해 국어공학센터의 452 단어를 대상으로 음소와 단어인식 실험을 수행하였다. 실험결과, 음성의 시간변이에 따른 모델의 상태수와 각 음소의 문맥환경에 따라 인식성능의 변화를 고찰할 수 있었다. 따라서 본 연구는 향후 음성인식 시스템의 강건한 문맥의존 음향모델을 작성하는데 유효할 것으로 기대된다.
PDF

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

오세진;김광동;노덕규;위석오;송민규;정현열
- 융합신호처리학회논문지
- /
- 제4권4호
- /
- pp.30-39
- /
- 2003
본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.
PDF

검색결과 22건 처리시간 0.041초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)