• Title/Summary/Keyword: 음성 특성

Search Result 1,835, Processing Time 0.029 seconds

The phoneme segmentatioi with MLP-based postprocessor on speech synthesis corpora (합성용 운율 DB 구축에서의 MLP 기반 후처리가 포함된 음소분할)

  • 박은영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.344-349
    • /
    • 1998
  • 음성/언어학적 및 음성의 과학적 연구를 위해서는 대량의 음소 단위 분절 레이블링된 데이터베이스 구축이 필수적이다. 따라서, 본 논문은 음성 합성용 DB 의 구축 및 합성 단위 자동 생성 연구의 일환으로 자동 음소 분할기의 경계오류를 보상할 목적으로 MLP 기반 호처리기가 포함된 음소 분할 방식을 제안한다. 최근 자동 음소 분할기의 성능 향상으로 자동 분절 결과를 이용하여 음성 합성용 운율 DB를 작성하고 있으나, 여전히 경계오류를 수정하지 않고서는 합성 단위로 직접 사용하기 어렵다. 이로 인해 보다 개선된 자동 분절 기술이 요구된다. 따라서, 본 논문에서는 음성에 내제된 음향적 특징을 다층 신경회로망으로 학습하고, 자동 분절기 오류의 통계 특성을 이용하여 자동 분절 경계 수정에 용이한 방식을 제안한다. 고립단어로 발성된 합성 데이터베이스에서, 제안된 후처리기를 도입 후, 기존 자동 분절 시스템이 분할율에 비해 약 25% 의 향상된 성능을 보였으며, 절대 오류는 약 39%가 향상되었다.

  • PDF

Feature Compensation with Model-based Estimation for Noise Masking (잡음마스킹을 이용한 환경보상기법)

  • Kim, Young-Joon;Kim, Nam-Soo;Lee, Yun-Gun
    • Proceedings of the KSPS conference
    • /
    • 2006.11a
    • /
    • pp.7-10
    • /
    • 2006
  • 본 논문에서는 음성의 모델을 이용하여 확률적인 기반으로 잡음의 마스킹 정도를 측정하는 방법에 대해서 제시한다. 잡음의 마스킹 정도를 측정하는 기준으로서 '잡음 마스킹 확률'을 구하는 방법에 대해서 설명하고 이의 특성에 대해서 알아본다. 그리고 잡음에 대한 '잡음 마스킹 확률'을 이용하여 잡음 환경에서의 음성인식 특징벡터의 성능 향상에 대해 적용해 보았다. 제안된 방법은 ETSI 에서 음성인식 표준실험으로 제시한 Aurora2 데이터베이스 상에서 실험해 보았다. 그 결과 기존의 알고리즘에 비해 16.58%의 성능 향상을 이루어 낼 수 있었다.

  • PDF

The Real-time Monitoring for SIP-based VoIP Network (SIP 기반 음성 통신 환경에서의 실시간 모니터링 플랫폼 개발)

  • Woo, Ho-Jin;Lee, Won-Suk
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.05a
    • /
    • pp.365-368
    • /
    • 2009
  • 고속 인터넷 망 구축과 멀티미디어 통신 수요의 증가에 따라 VoIP는 기존의 PSTN 망의 대체 혹은 확장 기술로서 지속적으로 검증되어 왔다. 음성 데이터 처리 규약들 중 SIP는 다른 규약에 비해 신호 처리 단계가 간단하기 때문에 이를 기반으로 RTP를 활용하여 음성 통신 시스템을 구축하는 사례가 늘어나고 있다. 그러나 RTP의 특성상 패킷을 처리할 때마다 복원 과정이 필요하며, 다중 세션으로 통신이 발생할 경우 전체 패킷들의 관리가 복잡해지므로 이들 간에 혼선 없이 데이터를 처리 및 유지할 수 있는 방법론이 요구된다. 본 논문에서는 SIP 기반의 IP 전화를 통해서 고객과 상담원 간의 통화 이벤트가 발생하는 일반 콜센터 환경에서 RTP 음성 데이터를 처리하는 다중 세션 어플리케이션의 구축 사례를 제시한다. 구현한 시스템은 IP 전화에서 발생하는 통화 내역을 통합 스위치 서버에서 포트 미러링하여 녹취 및 녹음 서버로 전송하며, 전송된 패킷 정보들의 세션이 유지되고 있는 동안 음성 데이터를 실시간으로 모니터링한다.

  • PDF

Development of Speech recognition emotion analysis program using machine learning (기계학습을 활용한 음성인식 감정분석 프로그램 개발)

  • Lee, Sangwoo;Yoon, Yeongjae;Lee, KyungHee;Cho, Jungwon
    • Proceedings of The KACE
    • /
    • 2018.08a
    • /
    • pp.71-73
    • /
    • 2018
  • 사람의 음성이 가진 고유한 특성을 이용하여 그 안에 담긴 감정을 분석하여 파악할 수 있다면 효과적인 의사소통이 가능할 것이다. 본 연구에서는 음성이 가진 피치 값과, 속도의 변화와 같은 요소를 데이터화 하여 그 안에 담긴 감정을 기계학습을 통해 분류 및 예측하는 과정을 거친다. 감정 별 음성 데이터 분석을 위해 다양한 기계학습 알고리즘을 활용하며 선행 연구들보다 높은 정확도로 신뢰할 수 있는 측정 결과를 제공해 줄 수 있을 것이다. 이를 통해 음성만으로 사람의 감정을 파악하여 효과적인 의사소통 및 다양한 분야에 활용될 수 있을 것으로 기대한다.

  • PDF

Speech Recognition in Noise Environments Using SPLICE with Phonetic Information (음성학적인 정보를 포함한 SPLICE를 이용한 잡음환경에서의 음성인식)

  • Kim Doo Hee;Kim Hyung Soon
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.83-86
    • /
    • 2002
  • 훈련과정과 인식과정에서의 주변환경 잡음과 채널 특성 등의 불일치는 음성인식 성능을 급격히 저하시킨다. 이러한 불일치를 보상하기 위해서 켑스트럼 영역에서의 다양한 전처리 방법이 시도되고 있으며 최근에는 stereo 데이터와 잡음 음성의 Gaussian Mixture Model (GMM)을 이용해 보상벡터를 구하는 SPLICE 방법이 좋은 결과를 보이고 있다(1). 기존의 SPLICE가 전체 발성에 대해서 음향학적인 정보만으로 Gaussian 모델을 구하는 반면 본 논문에서는 발성에 해당하는 음소정보를 고려하여 전체 음향 공간을 각 음소에 대해 나누어서 모델링하고 각 음소에 대한 Gaussian 모델과 그 음소에 해당하는 음성데이터만을 이용하여 음소별 보상벡터가 훈련되도록 하였다. 이 경우 보상벡터는 잡음이 각 음소에 미치는 영향을 보다 자세히 나타내게 된다. Aurora 2 데이터베이스를 이용한 실험결과, 제안된 방법이 기존의 SPLICE방법에 비해 성능향상을 보였다.

  • PDF

A Study on Glottal Spectrum Analysis According to the Distance between the Microphone and the lips (Microphone 거리에 따른 Glottal Spectrum 성분 분석에 관한 연구)

  • Park Hyunyoung;Jang Kyunga;Bae Myungjin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.65-68
    • /
    • 2002
  • 현재 음성인식기는 다 채널의 음성입력방식을 사용하고 있는 추세이다. 이런 방법으로 음성인식기를 사용할 때에 자동적으로 음성을 검출하는 음성입력 방식은 발성자와 마이크간의 거리에 따라 Glottal Spectrum 성분이 변하는 특성을 가지고 있다. 이러한 Glottal Spectrum 성분은 a=R1/R0 (LPC 포락선의 기울기) 로 나타낼 수 있다. 본 논문에서는 발성자와 마이크 거리에 따른 Glottal Spectrum 성분을 비교 분석 하고자 한다.

  • PDF

A Study on the Intergrated Voice/Data transmission Algorithm characteristics on Local Area Network (유선 LAN상의 음성/데이타 혼합전송 알고리즘 특성에 관한 연구)

  • 김동일
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.1 no.2
    • /
    • pp.137-143
    • /
    • 1997
  • From now on, the network is being developed into PSTN(public switched telephone network) and PDN(public data network), that is depend on the form of data. The former one pursues sending voice, and the latter one pursues sending data. But it causes big loss of the economy and efficiency. So, ISDN, processing voice and data at same time, gives a big profit to user. To enlarge the ISDN at the narrow area, it is necessary that study to send the mixture form of voice and data in LAN environment. So, this paper proposes the algorithm about the mixture form of voice and data in ethernet and token-ring. that is widely used in these days.

  • PDF

후두전적출술후 음성재활방법에 따른 음향학적 비교

  • 박현민;백무진;왕수건;김대현;조철우;양병곤
    • Proceedings of the KSLP Conference
    • /
    • 1998.11a
    • /
    • pp.196-196
    • /
    • 1998
  • 후두전적출술후 음성재활방법은 식도발성, 기관식도발성, 전기후두발성, 기체역학형 인공후두 발성등이 있다. 본 연구에서는 각각의 음향학적 특성과 어떤 방법이 음성의 발성에 효과적이고, 음의 고저를 잘 나타낼 수 있는 지를 연구하였고 식도발성과 기관식도발성이 동시에 가능한 환자에서도 위와 같이 어떤 것이 음의 고저를 잘 나타낼 수 있는 지를 보고자 본 연구를 시행하였다. 식도발성자 5명, 기관식도발성자 7명(2가지가 다 가능한 발성자 2명을 포함하여), 전기후두발성자 3명과 공기를 이용한 인공후두(Pneumatic speech aid) 발성자 3명을 대상으로 하여 Maximal phonation time(sec), Sound intensity (dB SPL), Fundemental frequency (F0), Jitter(%), Shimmer(%)를 Matlab V5.1을 기초로 저자들이 고안한 프로그램인 Laryngeal analyser Vl.0 으로 측정하였다. 각각의 발성법에 따라 특징적인 변수의 차이가 있었으며 그중 공기를 이용한 인공후두 발성자에서 음의 고저를 가장 잘 표현하였다. (p<0.01). 그리고 식도발성과 기관식도발성을 같이 사용할 수 있는 2명에서 식도발성이 기관식도발성보다 더 효과적으로 음의 고저를 잘 나타냈다.

  • PDF

Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

  • Jin, Hye-won;Lee, A-Hyeon;Chae, Ye-Jin;Park, Su-Hyun;Kang, Yu-Jin;Lee, Soowon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.10
    • /
    • pp.1-7
    • /
    • 2021
  • Recently, since most of the research on correcting speech recognition errors is based on English, there is not enough research on Korean speech recognition. Compared to English speech recognition, however, Korean speech recognition has many errors due to the linguistic characteristics of Korean language, such as Korean Fortis and Korean Liaison, thus research on Korean speech recognition is needed. Furthermore, earlier works primarily focused on editorial distance algorithms and syllable restoration rules, making it difficult to correct the error types of Korean Fortis and Korean Liaison. In this paper, we propose a context-sensitive post-processing model of speech recognition using a LSTM-based sequence-to-sequence model and Bahdanau attention mechanism to correct Korean speech recognition errors caused by the pronunciation. Experiments showed that by using the model, the speech recognition performance was improved from 64% to 77% for Fortis, 74% to 90% for Liaison, and from 69% to 84% for average recognition than before. Based on the results, it seems possible to apply the proposed model to real-world applications based on speech recognition.

A Study on the Reliability of Voice Payment Interface (음성결제 인터페이스의 신뢰도에 관한 연구)

  • Gwon, Hyeon Jeong;Lee, Jee Yeon
    • Journal of the Korean Society for information Management
    • /
    • v.38 no.3
    • /
    • pp.101-140
    • /
    • 2021
  • As the payment service sector actively embraces artificial intelligence technology, "Voice Payments" is becoming a trend in contactless payment services. Voice payment services can execute payments faster and more intuitively through "voice," the most natural means of communication for humans. In this study, we selected richness, intimacy, and autonomy as factors for building trust with artificial intelligence agents. We wanted to determine whether the trust will be formed if the factors were applied to the voice payment services. The experiment results showed that the higher the richness and autonomy of the voice payment interface and the lower the intimacy, the higher the trust. In addition, the two-way interaction effects of richness and autonomy were significant. We analyzed and synthesized the collected short-answer system to identify users' anxiety when using voice payment services and proposed speech interface design ideas to increase their trust in the voice payment.