Search | Korea Science

SPHINX : Hidden Markov Model 기반 음성인식 시스템

Kim, Myeong-Won;Lee, Yeong-Jik;Jeon, In-Heng
- Electronics and Telecommunications Trends
- /
- v.5 no.2
- /
- pp.63-77
- /
- 1990
HMM(Hidden Markov Model)은 음성을 기술하는데 적합한 model이다. 본 고는 최근 CMU에서 개발한 HMM에 기반을 둔 화자독립, 연속음성 system인 SPIHNX에 대하여 기술한다. SPHINX는 단순한 음소의 HMM model을 적용한 baseline SPHINX로부터 시작하여 새로운 지식의 추가 및 음성단위의 조정 등을 통하여 지속적으로 그 성능이 개선되어 왔다. SPHINX의 최종 version은 어휘 약 1000단어 정도의 재원 관리에 관한 질문 형태의 문장을 인식하는데 96%의 높은 인식율을 보인다. SPHINX는 가장 발전된 음성인식 시스템의 하나이며 이는 화자독립, 대용량어휘의 연속음성 인식 시스템의 실현 가능성을 제시한다.
https://doi.org/10.22648/ETRI.1990.J.050205 인용 PDF

Acoustic Analysis of Respiration and Phonation Method

문영일;정성민;김문정
- Proceedings of the KSLP Conference
- /
- 1998.11a
- /
- pp.180-180
- /
- 1998
목소리를 많이 사용하는 사람들에서 발생되는 음성장애는 대부분 잘못된 발성방법으로 인한 후두의 과긴장으로 인해 야기되는 것으로, 흡기 및 호기를 자발적으로 조절할 수 있는 호흡방법과 성대 및 주변 근육의 긴장을 줄이도록 하는 훈련하는 음성치료가 주된 치료 방법으로 대두되고 있다. 지금까지 음성치료의 효과는 주로 청음인지적(perceptual) 측면에서 많이 논의되어 왔으며 객관적인 자료는 아직까지 별로 없는 상태이다. 더욱이 호흡 및 발성 방법에 따른 음성 분석은 미진한 상황이다. (중략)
PDF

Survey on Packetized Voice Technology (패킷 음성 기술의 연구개발 동향)

Yang, S.H.;Chung, T.S.
- Electronics and Telecommunications Trends
- /
- v.13 no.3 s.51
- /
- pp.27-41
- /
- 1998
본 고에서는 최근 들어 멀티서비스 통합망 솔루션으로 많은 관심을 끌고 있는 패킷 음성 기술에 대해 조사 분석한 내용을 기술한다. 패킷 음성 기술은 데이터 서비스 위주의 패킷망에 음성 트래픽을 통합하여 전달해 줌으로써 가입자 관점에서는 저가에 음성 서비스를 제공받게 되고, 망사업자 입장에서는 망 구축운용 비용의 절감과 망자원 사용 효율의 개선, 서비스 제공 능력의 강화에 의한 경쟁력 확보를 보장해 준다. 멀티서비스 통합 통신망의 구축은 초기에는 주로 업무용 가입자들을 주요 대상으로 WAN/LAN 도메인에서 진행이 되고, 이후 일반 가입자들을 대상으로 공중망으로 확산될 것으로 예상된다. 패킷 음성 기술의 기술적 대안으로는 인터넷을 통한 Voice over Internet (VoIP) 기술과 ATM 망을 통한 Voice and Telephony over ATM (VTOA) 기술 및 프레임 릴레이 망을 이용하는 Voice over Frame Relay (VoFR) 기술이 많은 관심을 끌고 있으며, 표준규격의 추진과 시스템 개발이 활발히 진행되고 있는 상태이다.
https://doi.org/10.22648/ETRI.1998.J.130302 인용 PDF

Voice inactivity detection for Analysis of Acoustic data of Emergency Rescue (응급구조에서의 음향데이터 분석을 위한 음성 부재구간 검출 기술)

Huang, Seng Hyun;Chang, Joon-Hyuk
- Proceedings of the Korea Information Processing Society Conference
- /
- 2015.10a
- /
- pp.1348-1349
- /
- 2015
본 논문에서는 응급구조의 신고 상황에서의 수보자의 보다 정확하고 신속한 대응를 위하여 수화자의 음향환경을 분석하여 주변상황에 대한 정보를 알고자 심화 신경망 기반의 음성 부재구간 검출 기법을 제안한다. 제안한 알고리즘은 음성 신호에서의 23차의 Mel-filter bank를 추출하고 이를 심화 신경망 기법을 이용하여 음성 부재구간을 검출한다. 객관적인 성능 평가를 위해 제안된 기법은 실제 응급구조 상황에서 평가되었으며, 기존의 음성검출기를 이용한 음성 부재구간 검출 성능에 비하여 향상된 성능을 보였다.
https://doi.org/10.3745/PKIPS.y2015m10a.1348 인용 PDF

Voice Recognition Speech Correction Application Using Big Data Analysis (빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션)

Kim, Han-Kyeol;Kim, Do-Woo;Lim, Sae-Myung;Hong, Du-Pyo
- Proceedings of the Korea Information Processing Society Conference
- /
- 2019.10a
- /
- pp.533-535
- /
- 2019
최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.
https://doi.org/10.3745/PKIPS.y2019m10a.533 인용 PDF

신경망을 이용한 음성인식 시스템

석용호;김기철;한일송;이황수
- Information and Communications Magazine
- /
- v.11 no.9
- /
- pp.93-107
- /
- 1994
본 글에서는 음성인식에 적용된 신경망 구조를 알아본다. 또한 신경망 VLSI와 국내에서 개발된 신경망 VLSI인 URAN에 대해서 살펴보고 URAN을 이용한 음성인식 시스템의 설계에 관해 기술한다. 시뮬레이션을 통해 낮은 정밀도의 입출력 및 연결강도, 선형 출력함수를 가지는 뉴런을 사용하는 신경망 음성인식 시스템의 성능을 분석하고 잡음 환경에서 낮은 정밀도를 사용한 신경망의 성능저하 정도를 검토한다.
PDF

내전성 연축성 발성장애의 음성학적 및 근전도학적 진단 특성

김형태;조승호;김민식;선동일;박영학
- Proceedings of the KSLP Conference
- /
- 1997.11a
- /
- pp.266-266
- /
- 1997
배경 : 내전성 연축성 발성장애의 원인은 아직까지 완전히 밝혀지지는 않았으며 객관적 진단방법에 어려움이 있는 질환이다. 목적 : 내전성연축성발성장애 환자에서 객관적으로 진단할 수 있는 음성분석의 특징과 근전도를 통한 근신경학적 특성을 알아보고자 하였다. (중략)
PDF

음성인식을 위한 화자적응 기술 동향

김동국
- Review of Korea Contents Association
- /
- v.2 no.1
- /
- pp.95-106
- /
- 2004
음성인식(speech recognition) 기술이란 사람이 말하는 음성을 기계나 컴퓨터가 이를 분석하고, 인식하여 단어나 문장형태로 변환하여 기계와 인간이 상호작용을 할 수 있도록 관련 알고리즘을 개발 및 구현하는 기술이다. 최근 음성인식 기술이 대두되는 가장 큰 이유는 인간과 기계간의 통신을 원활하게 하는 편리한 휴먼인터페이스 기능이라 할 수 있다. (중략)
https://doi.org/10.20924/CCTHBL.2004.2.1.095 인용 PDF

음성의 음향 스펙트로그램 분석

지민제
- Proceedings of the KSLP Conference
- /
- 1995.11a
- /
- pp.111-127
- /
- 1995
한국어 모음과 자음의 파형, 스펙트로그램을 통해 다음 사항을 중점적으로 다룬다. - 모음과 자음의 조음 및 음향적 특성, - 모음의 좁힙점과 음향적 특성, - /모음＋모음/과 /반모음＋모음/의 차이, - 자음의 조음 방법 및 조음장소에 따른 음향적 특성, - 음성환경에 따른 음향적 특성, - 유/무성에 따른 음향적 특성, - 연/경성에 따른 음향적 특성, - 동시조음에 따른 음향적 특성, - 소리의 길이 (중략)
PDF

Speech/Music Discrimination Using Spectrum Analysis and Neural Network (스펙트럼 분석과 신경망을 이용한 음성/음악 분류)

Keum, Ji-Soo;Lim, Sung-Kil;Lee, Hyon-Soo
- The Journal of the Acoustical Society of Korea
- /
- v.26 no.5
- /
- pp.207-213
- /
- 2007
In this research, we propose an efficient Speech/Music discrimination method that uses spectrum analysis and neural network. The proposed method extracts the duration feature parameter(MSDF) from a spectral peak track by analyzing the spectrum, and it was used as a feature for Speech/Music discriminator combined with the MFSC. The neural network was used as a Speech/Music discriminator, and we have reformed various experiments to evaluate the proposed method according to the training pattern selection, size and neural network architecture. From the results of Speech/Music discrimination, we found performance improvement and stability according to the training pattern selection and model composition in comparison to previous method. The MSDF and MFSC are used as a feature parameter which is over 50 seconds of training pattern, a discrimination rate of 94.97% for speech and 92.38% for music. Finally, we have achieved performance improvement 1.25% for speech and 1.69% for music compares to the use of MFSC.
https://doi.org/10.7776/ASK.2007.26.5.207 인용 PDF KSCI

Search Result 3,079, Processing Time 0.032 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)