• Title/Summary/Keyword: 음성의 다양화

Search Result 298, Processing Time 0.036 seconds

Effect of Energy Normalization on the Quality of Synthetic Speech (음성합성시 에너지 정규화가 음질에 미치는 영향)

  • 정은석;최의선;이철희
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1998.06a
    • /
    • pp.95-98
    • /
    • 1998
  • 본 논문에서는 코퍼스 기반 음성합성시 각 음성 세그머트의 에너지 정규화가 합성된 음성의 음질에 미치는 영향에 대하여 연구한다. 음성합성에 사용되는 음성 세그먼트를 실제 자연 음성 데이터로부터 추출된 것으로 다양한 발음세기를 가진다. 따라서 이들을 조합하여 만든 합성음성의 음질은 일반적으로 음량이 고르지 못하고 듣기에 부자연스럽다. 이러한 문제를 해결하기 위해 음성합성시 음성 세그먼트의 에너지를 정규화하는 방법을 제안하고 정규화방법으로 최대진폭 정규화방식을 사용하였다. 녹음환경이 비교적 일정한 코퍼스와 그렇지 않은 환경에서 녹음된 코퍼스를 사용하여 정규화 없이 합성한 음성의 음질과 정규화를 거쳐서 합성한 음성의 음질을 비교한다. 실험결과 음성 세그먼트의 에너지를 정규화한 경우 합성음성의 음질이 개선되었다.

  • PDF

Service Mechanism for Enhanced Voice Traffic (음성 트래픽 향상을 위한 서비스 메커니즘)

  • 김성태;강현국
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.757-759
    • /
    • 2001
  • 인터넷의 확산 및 고속화로 인하여 사용자들이 급격하게 증가하고 있으며, 이에 따라 인터넷을 이용한 다양한 멀티미디어 서비스들이 전개되고 있다. 또한, 기존 PSTN 위주의 음성 통신이 인터넷을 이용한 음성통신으로 급속히 바뀌고 있으며, 이를 효율적으로 연동하고 제어하기 위한 다양한 표준들이 나타나고 있다. 본 논문에서는 급속하게 발전되고 있는 인터넷 텔레포니 기술 중 세션제어를 위한 기녈 프로토콜 표준인 SIP를 살펴보고, 서비스 품질 향상을 위한 RSVP를 이용하여 보다 향상된 음성통신을 위한 기존의 시그널링 메커니즘을 살펴보고, 음성 트래픽 서비스 품질 향상을 위한 가장 효율적인 새로운 메커니즘을 제시 하고자 한다.

  • PDF

Comparison of Adult and Child's Speech Recognition of Korean (한국어에서의 성인과 유아의 음성 인식 비교)

  • Yoo, Jae-Kwon;Lee, Kyoung-Mi
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.5
    • /
    • pp.138-147
    • /
    • 2011
  • While most Korean speech databases are developed for adults' speech, not for children's speech, there are various children's speech databases based on other languages. Because there are wide differences between children's and adults' speech in acoustic and linguistic characteristics, the children's speech database needs to be developed. In this paper, to find the differences between them in Korean, we built speech recognizers using HMM and tested them according to gender, age, and the presence of VTLN(Vocal Tract Length Normalization). This paper shows the speech recognizer made by children's speech has a much higher recognition rate than that made by adults' speech and using VTLN helps to improve the recognition rate in Korean.

International Cooperative Works Preparing for Speech Database (음성DB 구축을 위한 국제간 활동현황 (COCOSDA '94에서 발표된 내용을 중심으로))

  • 조철우
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.261-264
    • /
    • 1995
  • 최근 음성처리기술의 정교화, 고도화를 위해서 대량의 다양한 데이터베이스가 필요하게 되었고, 또 자동통역전화등 국제적 연결을 위한 응용분야가 개발됨에 따라 자국이 언어가 아닌 다른 나라의 음성에 관한 데이터베이스가 필요하게 되었다. 이에 따라 자연히 필요한 데이터베이스의 규격이나 종류등의 상호 공동 관심사를 논의할 필요가 있게 되었고 이의논의를 위한 워크샵등의 모임이 형성되게 되었다. 본 고에서는 이러한 모임중의 대표격인 COCOSDA의 활동에 관하여 언급하고 우리나라에서 음성데이타베이스분야에 관련하여 관심을 기울여야할 부분에 대하여 열거해 보았다.

  • PDF

Platform Library Development for Real-time Audio Communications in the Internet (인터넷을 위한 음성 통신 플랫폼 라이브러리 개발)

  • Seo, Dong-Won;Kim, Dong-Hyun;Lee, Myung-Jin
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2005.11a
    • /
    • pp.260-263
    • /
    • 2005
  • 본 논문에서는 차세대 유무선 광대역 통합망에서 실시간 멀티미디어의 응용 계층 품질을 평가하기 위한 실시간 음성 전송 플랫폼 라이브러리를 개발하였다. 개발된 라이브러리는 실시간 음성 통신시 사용자가 요구할 수 있는 다양한 품질을 제공하기 위해 전송률과 압축 방식에 따른 음성 코덱들을 포함하고 있다. 본 라이브러리는 다양한 환경에도 동일 입출력, 다중스레드, 인터넷 통신 등이 가능한 PWLIB를 기반으로 한다. 음성 데이터는 RTP/UDP/IP를 이용하여 패킷화되고 RTCP를 이용하여 전송 품질이 모니터링된다. 개발된 음성 통신 라이브러리를 이용하여 간단한 음성 통신 시스템을 구현하였으며, 음성 코덱별로 네트워크 상에서 송수신 테스트를 진행하였다. 본 라이브러리는 비디오 코덱 및 시그널링 및 네트웍 자원 예약 프로토콜과 결합되어 멀티미디어 통신 단말 개발에 사용 될 수 있다.

  • PDF

Intelligent Classification and Context Analysis System of Voice Data (음성 데이터의 지능적 분류 및 컨텍스트 분석 시스템 구현)

  • Choi, HyeonSeok;Joo, SungHwan;Kim, DaeCheon;Park, YeChan;Yeom, Sanggil;Choo, HyeonSeung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.162-163
    • /
    • 2016
  • 사람은 의사소통을 위해 음성, 글자, 몸짓 등 다양한 매개체를 활용한다. 오늘날 스마트폰의 발달로 문자의 비중이 높아지고 있지만 음성 대화는 여전히 사람들 사이에서 가장 많이 사용되어지는 의사소통 수단이다. 음성 대화는 녹음해서 음성 데이터로 남길 수 있다. 음성을 녹음하는 과정은 간편하지만 녹음파일에서 원하는 데이터를 찾는 것은 많은 시간이 소모된다. 본 논문에서는 음성 데이터를 인식하여 텍스트화 시키고 문자화 된 데이터를 분석하여 사용자에게 효율적으로 분류하는 시스템을 제안한다. 이 시스템으로 사용자는 음성 데이터의 내용을 들어보지 않고 파악할 수 있으며 원하는 내용을 찾을 수도 있다.

Voice Activity Detection in Noisy Environment using Speech Energy Maximization and Silence Feature Normalization (음성 에너지 최대화와 묵음 특징 정규화를 이용한 잡음 환경에 강인한 음성 검출)

  • Ahn, Chan-Shik;Choi, Ki-Ho
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.169-174
    • /
    • 2013
  • Speech recognition, the problem of performance degradation is the difference between the model training and recognition environments. Silence features normalized using the method as a way to reduce the inconsistency of such an environment. Silence features normalized way of existing in the low signal-to-noise ratio. Increase the energy level of the silence interval for voice and non-voice classification accuracy due to the falling. There is a problem in the recognition performance is degraded. This paper proposed a robust speech detection method in noisy environments using a silence feature normalization and voice energy maximize. In the high signal-to-noise ratio for the proposed method was used to maximize the characteristics receive less characterized the effects of noise by the voice energy. Cepstral feature distribution of voice / non-voice characteristics in the low signal-to-noise ratio and improves the recognition performance. Result of the recognition experiment, recognition performance improved compared to the conventional method.

Systematic Quality Assurance Activity for TDX-10 ISDN Switching System (TDX-10 ISDN 시스템의 시험 및 평가분석 체계화에 따른 품질보증 활동)

  • Lee, Haeryong;Jeong, Taegwon
    • Journal of Korean Society for Quality Management
    • /
    • v.23 no.1
    • /
    • pp.127-141
    • /
    • 1995
  • 대용량 ISDN(Integrated Services Digital Network)용 전전자 교환기 TDX-10 연구개발 사업의 궁극적 목적은 미래 통신망이 요구하는 다양한 음성 및 비음성 정보통신 서비스를 제공하고 정보의 교환, 가공, 축적 및 처리에 고도의 융통성을 부여할 수 있는 국내표준 전전자 교환기를 개발하여 통신투자의 경제적 통신운영기술 자립화를 달성하는데 있다. 현재 대용량 전전자 교환기인 TDX-10 ISDN의 상용화 단계의 마무리 업무가 진행중이며, 통신서비스의 다양화, 광대역화, 고속화를 위한 광대역통신망의 주축이 되는 ATM교환기가 개발중에 있다. 본 고에서는 TDX-10 ISDN 시스템개발단계에서 구현된 시스템 시험수행 과정 및 평가작업을 토대로한 체계적이며 전략적인 품질보증 활동에 관해 기술하였으며, 신뢰성 있는 시험결과를 도출할 수 있는 다양한 시험관리 기법과 그 결과를 분석하고 차후 시험 및 보완작업을 위한 제반 활동체계가 소개된다.

  • PDF

A policy study for the voice recognition technology based on elderly health care (음성인식기술의 노인간병 적용을 위한 정책연구)

  • Cho, Byung-Chul;Cheon, Sooyoung;Kim, Kab-Nyun;Yuk, Hyun-Seung
    • Journal of Digital Convergence
    • /
    • v.16 no.2
    • /
    • pp.9-17
    • /
    • 2018
  • The purpose of this study is to find out how voice recognition technology can be utilized to solve the elderly problem rapidly aging in Korea. Public support services and civilian nursing services for the elderly are expected to expand in Korea. In this case, voice recognition technology can be used variously for the elderly who are not familiar with the media interface. To this end, our researchers visited Japan and examined the achievements obtained by voice recognition technology in the elderly care. Especially, when caregivers write reports, they have greatly reduced their working hours by replacing the handwritten reports with ones using voice recognition technology. This method can be easily implemented in Korea. In addition, the social cost of the elderly support can be gradually reduced through the development of a robot equipped with voice recognition technology. Consequently, we realize that when voice recognition technology is combined with artificial intelligence programs of various emotion recognition functions and various policy possibilities as well.

Cepstrum PDF Normalization Method for Speech Recognition in Noise Environment (잡음환경에서의 음성인식을 위한 켑스트럼의 확률분포 정규화 기법)

  • Suk Yong Ho;Lee Hwang-Soo;Choi Seung Ho
    • The Journal of the Acoustical Society of Korea
    • /
    • v.24 no.4
    • /
    • pp.224-229
    • /
    • 2005
  • In this paper, we Propose a novel cepstrum normalization method which normalizes the probability density function (pdf) of cepstrum for robust speech recognition in additive noise environments. While the conventional methods normalize the first- and/or second-order statistics such as the mean and/or variance of the cepstrum. the proposed method fully normalizes the statistics of cepstrum by making the pdfs of clean and noisy cepstrum identical to each other For the target Pdf, the generalized Gaussian distribution is selected to consider various densities. In recognition phase, we devise a table lookup method to save computational costs. From the speaker-independent isolated-word recognition experiments, we show that the Proposed method gives improved Performance compared with that of the conventional methods, especially in heavy noise environments.