통합 검색 | Korea Science

SpecAugment와 Kaldi기반 한국어 음성인식 비교 연구 (Comparative study of Korean speech recognition based on SpecAugment and Kaldi)

이승훈;박찬준;서재형;김경민;임희석
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- pp.152-157
- /
- 2021
Kaldi는 음성인식 오픈소스 플랫폼이며 많은 기업에서 이를 이용하여 비즈니스 및 연구를 진행하고 있다. 그러나 국문으로 된 Kaldi에 대한 자세한 모듈 설명과 활용법은 아직 미비한 실정이다. 본 논문은 음성인식 오픈소스인 Kaldi에 대한 각 모듈별 자세한 설명과 더불어 데이터 증강 기법인 SpecAugment를 한국어 음성인식 시스템에 적용하여 성능 향상 여부를 검증하였다. 그리고 Kaldi의 음향모델과 언어모델을 변경하면서 어떠한 모듈들로 구성된 한국어 음성인식 모델을 사용하는 것이 가장 결과가 좋은 지를 검증하고 실시간 디코딩에 있어서 실용적인지를 비교하였다.
PDF

소형 원두커피자판기 "KALDI"

한국자동판매기공업협동협회
- 벤딩인더스트리
- /
- 제6권2호통권17호
- /
- pp.18-20
- /
- 2006
커피자판기 시장의 새로운 트랜드를 찾아라. 침체일로의 커피자판기 시장이 새로운 타개책을 찾기 위해선 인스턴트커피자판기 일변도의 시장을 탈피하는 일이 급선무 과제이다. 그래서 대안으로 등장한게 원두커피자판기 시장이다. 이 시장 개척을 위한 도전들이 진행된지 어언 6년. 시장 개척을 위한 선각자의 길은 항상 외롭고 힘든 법이다. 커피자판기의 새로운 트랜드 조성을 위한 원두의 시대를 여는 일은 악전고투의 연속이었다. 소비자의 트랜드는 쉽사리 변하지 않았고, 일부 시장에서 선전하며 보급이 조금씩 늘어가는게 위안이었다. 하지만 분명한 것은 언젠가는 원두커피자판기의 시대가 올 것이라는 확신을 가지고 포기하지 않았다는 사실이다. 그러한 가운데 소비자 인식확대와 제품 운영 효율은 꾸준히 향상되어 왔다. 특히 지하철 로케이션에 다량 제품이 설치 운영된 이후부터 원두커피자판기에 대한 소비자 인식은 급속도로 좋아지고 있다. 원두커피자판기 시장에 일대 훈풍이 불어온다 할 정도로 시장성은 호전되고 있는 상황. 이러한 가운데 새로운 사업방식으로 원두커피자판기 시장의 일대 돌풍을 일으키려는 야심에 찬 업체가 있다. 대형과는 차별화된 소형 원두커피자판기 "KALDI"로 파급력 있는 임대사업을 펼칠 내외시스템의 사업행보를 따라가 봤다.
PDF

잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합 (Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments)

윤성욱;권오욱
- 한국음향학회지
- /
- 제40권5호
- /
- pp.439-451
- /
- 2021
본 논문에서는 실제 환경에서의 연속 음성 강화를 위한 딥러닝 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합한 빔포머를 제안한다. 기존 빔포밍 시스템은 컴퓨터에서 음성과 잡음을 완전히 겹친 방식으로 혼합하여 생성된 사전 분할 오디오 신호를 사용하여 대부분 평가되었다. 하지만 실제 환경에서는 시간 축으로 음성 발화가 띄엄띄엄 발성되기 때문에, 음성이 없는 잡음 신호가 시스템에 입력되면 기존 빔포밍 알고리듬의 성능이 저하된다. 이러한 효과를 경감하기 위하여, 심층 학습 기반 온라인 빔포밍 알고리듬과 스펙트럼 감산을 결합하였다. 잡음 환경에서 온라인 빔포밍 알고리듬을 평가하기 위해 연속 음성 강화 세트를 구성하였다. 평가 세트는 CHiME3 평가 세트에서 추출한 음성 발화와 CHiME3 배경 잡음 및 MUSDB에서 추출한 연속 재생되는 배경음악을 혼합하여 구성되었다. 음성인식기로는 Kaldi 기반 툴킷 및 구글 웹 음성인식기를 사용하였다. 제안한 온라인 빔포밍 알고리듬 과 스펙트럼 감산이 베이스라인 빔포밍 알고리듬에 비해 성능 향상을 보임을 확인하였다.
https://doi.org/10.7776/ASK.2021.40.5.439 인용 PDF KSCI

문자소 기반의 한국어 음성인식 (Korean speech recognition based on grapheme)

이문학;장준혁
- 한국음향학회지
- /
- 제38권5호
- /
- pp.601-606
- /
- 2019
본 논문에서는 한국어 음성인식기 음향모델의 출력단위로 문자소를 제안한다. 제안하는 음성인식 모델은 한글을 G2P(Grapheme to Phoneme)과정 없이 초성, 중성, 종성 단위의 문자소로 분해하여 음향모델의 출력단위로 사용하며, 특별한 발음 정보를 주지 않고도 딥러닝 기반의 음향모델이 한국어 발음규정을 충분히 학습해 낼 수 있음을 보인다. 또한 기존의 음소기반 음성인식 모델과의 성능을 비교 평가하여 DB가 충분한 상황에서 문자소 기반 모델이 상대적으로 뛰어난 성능을 가진다는 것을 보인다.
https://doi.org/10.7776/ASK.2019.38.5.601 인용 PDF KSCI

검색결과 4건 처리시간 0.015초

SpecAugment와 Kaldi기반 한국어 음성인식 비교 연구 (Comparative study of Korean speech recognition based on SpecAugment and Kaldi)

소형 원두커피자판기 "KALDI"

잡음 환경에서의 음성인식을 위한 온라인 빔포밍과 스펙트럼 감산의 결합 (Combining deep learning-based online beamforming with spectral subtraction for speech recognition in noisy environments)

문자소 기반의 한국어 음성인식 (Korean speech recognition based on grapheme)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)