• 제목/요약/키워드: speech quality

검색결과 807건 처리시간 0.031초

A nonlinear transformation methods for GMM to improve over-smoothing effect

  • Chae, Yi Geun
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제38권2호
    • /
    • pp.182-187
    • /
    • 2014
  • We propose nonlinear GMM-based transformation functions in an attempt to deal with the over-smoothing effects of linear transformation for voice processing. The proposed methods adopt RBF networks as a local transformation function to overcome the drawbacks of global nonlinear transformation functions. In order to obtain high-quality modifications of speech signals, our voice conversion is implemented using the Harmonic plus Noise Model analysis/synthesis framework. Experimental results are reported on the English corpus, MOCHA-TIMIT.

RPE 검색을 이용한 CELP 보코더의 불규칙 코드북 검색 (On a Reduction of Codebook Searching Time by using RPE Searching Tchnique in the CELP Vocoder)

  • 김대식
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.141-145
    • /
    • 1995
  • Code excited linear prediction speech coders exhibit good performance at data rates as low as 4800 bps. The major drawback to CELP type coders is their large computational requirements. In this paper, we propose a new codebook search method that preserves the quality of the CELP vocoder with reduced complexity. The basic idea is to restrict the searching range of the random codebook by using a searching technique of the regular pulse excitation. Applying the proposed method to the CELP vocoder, we can get approximately 48% complexity reduction in the codebook search.

  • PDF

고음질 합성을 위한 피치변경법 (On the Pitch Alteration Methods for a High Quality Speech Synthesis)

  • 배명진
    • 한국음향학회지
    • /
    • 제12권2호
    • /
    • pp.66-77
    • /
    • 1993
  • 고음질 합성을 위해서는 파형부호화법이 바람직하다. 파형부호화법을 규칙에 의한 음성합성기법에 적용하기 위해서는 메모리용량의 문제와 피치변경법이 해결되어져야 한다.메모리 용량의 문제는 최근 반도체 기술에 의해 극복되어 졌으며 이제는 음원피치변경의 문제가 남아있다. 따라서 본 논문에서는 성도 포먼트의 특성은 변화시키지 않고, 음원피치를 변경시키는 문제에 대해 정리하였다. 먼저 기존의 제안된 몇가지 기법들의 장단점들을 열거한 다음에 우리 연구실에서 제안했던 방법들에 대해 논의하고자 한다.

  • PDF

지하 전력 구내에서 신호 전송 시스템의 실현에 관한 연구 (A Study on the Implementation of Signal Transmission System Within Electric Culvert)

  • 진달복;오상기;최성주;나채동
    • 한국조명전기설비학회지:조명전기설비
    • /
    • 제7권3호
    • /
    • pp.49-56
    • /
    • 1993
  • 본 논문에서는 지하전력구 환경하에서 통신신뢰도가 높고 확장성이 용이하며 복합전송(음성+데이터+영상신호)이 가능한 누설동축케이블을 전송 매체로 하여 지하전력구내 신호전송시스템을 설계 및 설치하였다.그리고 시험시스템에서 각종 전송특성시험을 실시하여 성능을 평가하였다. 음성신호의 경우, 전송손실 특성은 설계치보다 5∼10[dB]정도의 수신레벨이 향상되었으며 통화 품질평가시험에서 통화강도가 3(QSA 값), 명료도가 4(QRK 값)정도의 양호한 특성을 나타냈다. 또한 데이터 및 영상신호 전송특성에 대한 감시제어기능시험에서는 98[%]의 통신성공율을 확보할 수 있었다.그리고 전송로 및 시스템의 전송특성 측정결과에 의해서 중계기 없이 전송범위를 6[km]까지 확대할 수 있는 LCX 통신시스템을 전력구내 종합관리 시스템의 기본 구성방법으로 제시하였다.

  • PDF

FEC기능을 추가한 AMR-WB 음성 부호화기를 이용한 음성 패킷 전송 (Speech Packet Transmission Using the AMR-WB Coder with FEC)

  • 황정준;이인성
    • 대한전자공학회논문지TC
    • /
    • 제40권11호
    • /
    • pp.63-71
    • /
    • 2003
  • 본 논문에서는 인터넷 환경에서 실시간 음성 통신을 가능하게 하기 위해 부가 정보를 이용한 손실 패킷 복구 방법이 첨가된 전송 방법을 제시한다. 3GPP에서 기본적으로 이동 통신 환경에서의 사용을 위해 표준화되었고, 인터넷 환경에서의 사용을 위해 최근에 ITU-T에서 개선된 AMR-WB 음성 부호화기를 사용하였다. 인터넷과 같은 패킷 교환망 서비스에서의 패킷손실은 음질 저하를 유발하고 실시간 통신이 불가능하도록 한다. 따라서 본 논문에서는 단일 손실 발생시에 FEC(Foward Error Correction) 방법을 적용하였고 연속 손실의 경우에는 오류 은닉을 하였다. 또한 손실율에 따라 AMR-WR(Adaptive Multi-Rate Wideband) 부호화기의 특성을 이용하여 여러 모드로 동작하는 방법을 제시한다. 인터넷 환경의 실험을 위해 길버트 모델을 이용하였다. 손실율을 변화시키며 AMR-WB 23.05 kbit/s 모드로 전송하는 방법과 SNR(Signal to Noise Rate)과 MOS(Mean Opinion Score) 측정을 통해 비교하였다. 실험한 결과 손실율이 30% 에서도 SNR은 9.8㏈ MOS 값은 3.0정도의 통신 가능한 높은 음질을 보였다.

Fibular flap for mandible reconstruction in osteoradionecrosis of the jaw: selection criteria of fibula flap

  • Kim, Ji-Wan;Hwang, Jong-Hyun;Ahn, Kang-Min
    • Maxillofacial Plastic and Reconstructive Surgery
    • /
    • 제38권
    • /
    • pp.46.1-46.7
    • /
    • 2016
  • Background: Osteoradionecrosis is the most dreadful complication after head and neck irradiation. Orocutaneous fistula makes patients difficult to eat food. Fibular free flap is the choice of the flap for mandibular reconstruction. Osteocutaneous flap can reconstruct both hard and soft tissues simultaneously. This study was to investigate the success rate and results of the free fibular flap for osteoradionecrosis of the mandible and which side of the flap should be harvested for better reconstruction. Methods: A total of eight consecutive patients who underwent fibula reconstruction due to jaw necrosis from March 2008 to December 2015 were included in this study. Patients were classified according to stages, primary sites, radiation dose, survival, and quality of life. Results: Five male and three female patients underwent operation. The mean age of the patients was 60.1 years old. Two male patients died of recurred disease of oral squamous cell carcinoma. The mean dose of radiation was 70.5 Gy. All fibular free flaps were survived. Five patients could eat normal diet after operation; however, three patients could eat only soft diet due to loss of teeth. Five patients reported no change of speech after operation, two reported worse speech ability, and one patient reported improved speech after operation. The ipsilateral side of the fibular flap was used when intraoral soft tissue defect with proximal side of the vascular pedicle is required. The contralateral side of the fibular flap was used when extraoral skin defect with proximal side of the vascular pedicle is required. Conclusions: Osteonecrosis of the jaw is hard to treat because of poor healing process and lack of vascularity. Free fibular flap is the choice of the surgery for jaw bone reconstruction and soft tissue fistula repair. The design and selection of the right or left fibular is dependent on the available vascular pedicle and soft tissue defect sites.

음성인식에 기초한 치매환자 노인을 위한 대화시스템 (Dialog System based on Speech Recognition for the Elderly with Dementia)

  • Kim, Sung-Il;Kim, Byoung-Chul
    • 한국정보통신학회논문지
    • /
    • 제6권6호
    • /
    • pp.923-930
    • /
    • 2002
  • 본 연구는 치매노인환자의 생활의 질을 향상시키기 위한 대화시스템의 개발에 목표를 둔다. 제안된 시스템은 주로 세 가지 모듈, 즉, 음성인식, 시간테이블에 의해 구분된 대화 데이터베이스의 자동검색, 그리고 간호사의 녹음음성으로 이루어진 맞장구 등의 긍정적인 대답, 등으로 구성되어 있다. 첫 단계로서, 치매환자가 간호시설에서 자주 발화하는 대화의 내용을 조사하였다. 다음으로, 환자들의 요구를 충족시키기 위해 그들의 발화 음성을 자동인식 하도록 구성하였다. 여기서 시스템의 응답은 전문 간호사의 녹음음성으로 설계되었다. 시스템의 평가를 위해서 시스템이 도입되었을 때와 되지 않았을 때의 비교연구를 실시하였고, 치료 전문가(occupational therapist)들이 비디오 촬영을 통해서 남성 대상자의 반응을 평가하였다. 평가 견과는 치매환자의 요구를 충족시키는데 있어서 대화 시스템이 전문간호사들보다 더욱 답적이었다는 것을 보여준다. 게다가 제안된 시스템은 상호 대화에 있어서 간호사들보다 환자가 더 많이 말하도록 유도함을 알 수 있었다.

치매환자를 위한 대화 보조 시스템 (Communication Aid System For Dementia Patients)

  • Sung-Ill Kim;Byoung-Chul Kim
    • 대한의용생체공학회:의공학회지
    • /
    • 제23권6호
    • /
    • pp.459-465
    • /
    • 2002
  • 본 연구는 치매노인 환자들과 간호사들의 생활의 질의 향상에 목표를 준다. 이를 위해 치매환자를 위한 대화보조 시스템이 제안되었고, 이 시스템은 주로 세가지 모듈, 즉, 음성인식엔진, 화상 에이전트, 간호 시케쥴에 의해 구분된 대화 데이터베이스 등으로 구성되었다. 남성 치매환자에 시스템을 도입함에 의해서 간호시설의 실제적인 환경에서 시스템의 평가가 이루어졌고 시스템이 도입되었을 때와 되지 않았을 때의 비교연구도 실시하였다. 치료 전문가(occupational therapist)들이 비디오 촬영을 통해서 대상자의 반응을 평가한 결과, 치매환자의 요구를 충족시키는데 있어서 대화 시스템이 전문간호사들보다 더 응답적이었다는 것을 보여준다. 게다가, 시스템을 도입함에 의해서 대상자의 발화를 유도하는 빈도가 증가함을 알 수 있었다.

KEMAR 마네킹을 이용한 단이 보청기용 FDSI 빔포밍 알고리즘의 정량적 평가 (Quantitative Evaluation of the Performance of Monaural FDSI Beamforming Algorithm using a KEMAR Mannequin)

  • 조경원;남경원;한종희;이상민;김동욱;홍성화;장동표;김인영
    • 대한의용생체공학회:의공학회지
    • /
    • 제34권1호
    • /
    • pp.24-33
    • /
    • 2013
  • To enhance the speech perception of hearing aid users in noisy environment, most hearing aid devices adopt various beamforming algorithms such as the first-order differential microphone (DM1) and the two-stage directional microphone (DM2) algorithms that maintain sounds from the direction of the interlocutor and reduce the ambient sounds from the other directions. However, these conventional algorithms represent poor directionality ability in low frequency area. Therefore, to enhance the speech perception of hearing aid uses in low frequency range, our group had suggested a fractional delay subtraction and integration (FDSI) algorithm and estimated its theoretical performance using computer simulation in previous article. In this study, we performed a KEMAR test in non-reverberant room that compares the performance of DM1, DM2, broadband beamforming (BBF), and proposed FDSI algorithms using several objective indices such as a signal-to-noise ratio (SNR) improvement, a segmental SNR (seg-SNR) improvement, a perceptual evaluation of speech quality (PESQ), and an Itakura-Saito measure (IS). Experimental results showed that the performance of the FDSI algorithm was -3.26-7.16 dB in SNR improvement, -1.94-5.41 dB in segSNR improvement, 1.49-2.79 in PESQ, and 0.79-3.59 in IS, which demonstrated that the FDSI algorithm showed the highest improvement of SNR and segSNR, and the lowest IS. We believe that the proposed FDSI algorithm has a potential as a beamformer for digital hearing aid devices.

동일 후적자가 산출하는 기관식도 발성($PROVOX^{(R)}$ 발성)과 식도 발성에 대한 음향학적 및 공기역학적 특성 비교 (The Comparison of the Acoustic and Aerodynamic Characteristics of $PROVOX^{(R)}$ Voice and Esophageal Voice Produced by the Same Laryngectomee)

  • 표화영;최홍식;임성은;최성희
    • 음성과학
    • /
    • 제5권1호
    • /
    • pp.121-139
    • /
    • 1999
  • Our experimental subject was a laryngectomee who had undergone total laryngectomy with $PROVOX^{(R)}$ insertion, and learned esophageal speech after the surgery, so he could produce both $PROVOX^{(R)}$ voice and esophageal voice. With this subject's production of $PROVOX^{(R)}$ and esophageal voice, we are to compare the acoustic and aerodynamic characteristics of the two voices, under the same physical conditions of the same person. As a result, the fundamental frequency of esophageal voice was 137.2 Hz, and that of $PROVOX^{(R)}$ was 97.5 Hz. $PROVOX^{(R)}$ voice showed lower jitter, shimmer and NHR than esophageal voice, which means that $PROVOX^{(R)}$ voice showed better voice quality than esophageal voice. In spectrographic analysis, the formation of formants and pseudoformants were more distinct in esophageal voice and several temporal aspects of acoutic features such as VOT and closure duration were more similar with normal voice in $PROVOX^{(R)}$ voice. During the sentence utterance, esophageal voice showed longer pause or silence duration than $PROVOX^{(R)}$ voice. Maximum phonation time and mean flow rate of $PROVOX^{(R)}$ voice were much longer and larger than esophageal voice, but mean and range of sound pressure level, subglottic pressure and voice efficiency were similar in the two voices. Glottal resistance of esophageal voice was much larger than $PROVOX^{(R)}$ voice which showed still larger glottal resistance than normal voice.

  • PDF