• Title/Summary/Keyword: 발성율

Search Result 218, Processing Time 0.031 seconds

Multi channel far field speaker verification using teacher student deep neural networks (교사 학생 심층신경망을 활용한 다채널 원거리 화자 인증)

  • Jung, Jee-weon;Heo, Hee-Soo;Shim, Hye-jin;Yu, Ha-Jin
    • The Journal of the Acoustical Society of Korea
    • /
    • v.37 no.6
    • /
    • pp.483-488
    • /
    • 2018
  • Far field input utterance is one of the major causes of performance degradation of speaker verification systems. In this study, we used teacher student learning framework to compensate for the performance degradation caused by far field utterances. Teacher student learning refers to training the student deep neural network in possible performance degradation condition using the teacher deep neural network trained without such condition. In this study, we use the teacher network trained with near distance utterances to train the student network with far distance utterances. However, through experiments, it was found that performance of near distance utterances were deteriorated. To avoid such phenomenon, we proposed techniques that use trained teacher network as initialization of student network and training the student network using both near and far field utterances. Experiments were conducted using deep neural networks that input raw waveforms of 4-channel utterances recorded in both near and far distance. Results show the equal error rate of near and far-field utterances respectively, 2.55 % / 2.8 % without teacher student learning, 9.75 % / 1.8 % for conventional teacher student learning, and 2.5 % / 2.7 % with proposed techniques.

Study on the Improvement of Speech Recognizer by Using Time Scale Modification (시간축 변환을 이용한 음성 인식기의 성능 향상에 관한 연구)

  • 이기승
    • The Journal of the Acoustical Society of Korea
    • /
    • v.23 no.6
    • /
    • pp.462-472
    • /
    • 2004
  • In this paper a method for compensating for thp performance degradation or automatic speech recognition (ASR) is proposed. which is mainly caused by speaking rate variation. Before the new method is proposed. quantitative analysis of the performance of an HMM-based ASR system according to speaking rate is first performed. From this analysis, significant performance degradation was often observed in the rapidly speaking speech signals. A quantitative measure is then introduced, which is able to represent speaking rate. Time scale modification (TSM) is employed to compensate the speaking rate difference between input speech signals and training speech signals. Finally, a method for compensating the performance degradation caused by speaking rate variation is proposed, in which TSM is selectively employed according to speaking rate. By the results from the ASR experiments devised for the 10-digits mobile phone number, it is confirmed that the error rate was reduced by 15.5% when the proposed method is applied to the high speaking rate speech signals.

Mean Value of Aerodynamic Study in Normal Korean (음성검사 중 공기역학적 검사에서 한국인 정상 평균치)

  • 서장수;송시연;권오철;정옥란
    • Proceedings of the KSLP Conference
    • /
    • 1996.11a
    • /
    • pp.79-79
    • /
    • 1996
  • 최근 들어 음성에 대한 일반인들의 관심이 높아지면서 음성이상을 호소하며 이비인후과 외래를 방문하는 환자가 점차적으로 증가하는 추세에 있다. 그러나 이러한 음성이상을 객관적으로 평가할 수 있는 기준이 국내에는 거의 없는 실정이다. 이에 저자들은 본 연구에서 기왕력 상 폐질환이나 신경계질환, 후두질환을 앓은 적이 없으며 음성조율 기관에 이상이 없고 정상적인 청력을 가진 10세에서 69세까지의 무작위 추출된 정상 한국인 남자 112명과 여자 122명을 대상으로 Aerophone II voice function analyzer를 이용하여 공기역동학적 검사 중 최대발성지속시간(maximum phonation time), 평균호기류율(mean airflow rate), 발성율(phonation quotient), 발성시 기류량(phonatory flow volume) 및 성문하압(subglottal pressure)의 정상 한국인의 남녀 년령별 평균치를 측정하고자 하였다. (중략)

  • PDF

A Study on the Text-Independent Speaker Recognition Using Frequency Energy (주파수 에너지를 이용한 텍스트 독립 화자인식에 관한 연구)

  • 조연아
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.235-240
    • /
    • 1994
  • 모음 검출을 통하여 미리 등록한 단어가 아닌 경우에도 화자를 인식할 수 있도록 특징 파라메터를 개발하고, 실용화가 가능하도록 처리 방법을 간략화한 텍스트 독립 화자 인식 연구를 진행하였다. 이를 위해서, 화자가 발성한 음성에서 모음을 검출하여 화자인식에 사용하는 방법을 제안하였으며, 인식은 각 화자가 발성한 음성 신호에서 모음을 검출한 다음, 검출된 모음의 29 채널의 주파수 에너지를 퍼지값으로 효현한 후, 퍼지 추론을 적용하여 수행하였다. 실험을 위해 모음 검출 알고리듬을 개발하였으며, 화자인식의 특징 파라메터로 29 채널 주파수 에너지를 제안하였는데, 별도의 코드북 없이 사용이 가능하고, 기존의 파라메터에 비해 인식율이 높으면서도 구성 및 계산이 간단한 특징이 있다. 실험결과, 미리 작성된 표준패턴과 동일한 단어를 사용한 텍스트 의존 화자 인식 실험은 95.5% 인식율을 보였고, 표준 패턴과 다른 종류의 단어를 사용한 텍스트 독립 화자인식 실험은 94.2% 인식율을 보이고 있다.

  • PDF

Clinical Analysis of Spontaneous Pneumothorax (자연기흉의 임상적 고찰)

  • Son, Ji-Woong;Park, Jae-Yong;Kim, Kwan-Young;Chae, Sang-Chul;Kang, Tae-Kyong;Park, Ki-Su;Kim, Chang-Ho;Jung, Tae-Hoon
    • Tuberculosis and Respiratory Diseases
    • /
    • v.47 no.3
    • /
    • pp.374-382
    • /
    • 1999
  • Background: The aim of this study was to investigate etiologic factor, treatment, prognosis of spontaneous pneumothorax (SP). Material and Methods: The medical records of 225 cases of SP experienced at Kyungpook University Hospital from Jan. 1996 to Dec. 1997 were retrospectively analyzed. Results: The patients were 128 primary SP and 97 secondary SP. The mean age was $30{\pm}15.5$ years in primary SP and $51{\pm}7.4$ years in secondary SP. The ratio of male to female was 8:1 in primary SP and 5.5:1 in secondary SP. Smoker was more common in seconday SP (71.1 %) than primary SP (34.4%). About 70% of patients with primary and secondary SP was underweighted. The previous history of SP was present in 28.9% and 25.8% of primary and secondary SP, respectively. The main underlying lung diseases in secondary SP were inactive tuberculosis (68%), active tuberculosis (12.4%) and COPD (11.3%). Tube thoracostomy was performed in 96.8% and 97.9% of primary and secondary SP, respectively. The duration of chest tube insertion was longer in seconday SP ($18.2{\pm}19.59$ days) than primary SP ($7.5{\pm}6.57$ days). The open thoracotomy were performed in 22.7% and 10.3% of primary and secondary SP, respectively. The most com- mon indication of open thoracotomy was recurrence in primary SP and persistent air leak in secondary SP. During following-up of $17{\pm}7.8$ months, the recurrence rate in patients with conservative treatment was 16.5% and 11.8% of primary and secondary SP, respectively. The recurrence was most common within 1 month after discharge. Conclusion: Greater attention and research about SP are necessary for more efficient patient care.

  • PDF

Primary Pulmonary Artery Sarcoma A Case Report -A Case Report- (원발성 폐동맥 육종)

  • 김성완;구본원
    • Journal of Chest Surgery
    • /
    • v.30 no.10
    • /
    • pp.1036-1039
    • /
    • 1997
  • Primary pulmonary artery sarcoma is a rare tumor and commonly misdiagnosed as pulmonary embolism. The prognosis of these tumors is very poor. The Median length of survival without surgical resection is approximately 1.5 months, but surgical resection has lengthened survival time to approximately 1 year. We encountered a case of primary pulmonary artery sarcoma, with a 55 year-old woman whose symptoms were exertional dysp ea, right chest pain, and hemoptysis. A preoperative chest CT scan revealed mass lesion mimicking pulmonary embolism. Pulmonary angioplasty and right Pneumonectomy were Performed on partial cardiopulmonary bypass. Postoperatively the mass was confirmed as undifferenciated sarcoma histopathologically. The symptoms were somewhat improved, but the patient died of unknown causes about 3 months after surgery.

  • PDF

The Role of the Electroglottography on Laryngeal Articulatory Dynamics (전기 Glottographyy(EGG)에 의한 후두구 음력학적 특성)

  • 홍기환;김현기
    • Proceedings of the KSLP Conference
    • /
    • 1996.11a
    • /
    • pp.93-93
    • /
    • 1996
  • 최근 많은 음성검사기들의 개발에 의해 발성의 원리에 대한 많은 연구가 진행되었고 실제 임상에 이용되므로써 각종 음성질환의 기전을 연구하는데 많은 도움이 되어왔다. 그중 전기 glottogra-phy(EGG)는 값싸고 완전히 noninvasive한 음성검사기로서 각종 음성질환에 대해 진단, 치료 및 예후판정 등에 이용되어왔으며, 또한 정상 발성시의 성대진동 기전에 대해 연구되어왔다. 그러나 판독하는데 있어 실제 많은 논란이 있는데 이러한 논란은 복잡한 성 대진동 양상에 의해 생기는 것으로 EGG에 의한 양측 성대 사이의 전기 저항도는 실제 성문의 열림의 정도를 의미하는 것이 아니라 성문접촉율을 의미하기 때문이다. (중략)

  • PDF

Malignant Melanoma of the Vagina: A Report of 2 Cases (질의 원발성 악성 흑색종: 증례보고)

  • Kim, Ok-Bae;Kim, Jin-Hee;Jung, Young-Yeon;Cho, Chi-Heum;Choi, Tae-Jin
    • Radiation Oncology Journal
    • /
    • v.23 no.2
    • /
    • pp.111-115
    • /
    • 2005
  • Primary malignant melanoma of the vagina is an extremely rare genital neoplasm occurring mainly on postmenopausal women. It has a worse prognosis than cutaneous melanomas, because of the high rate of loco-regional recurrences and rapid systemic dissemination. In the past, radical surgical extirpation as the primary management had been recommended to improve loco-regional control, and possibly overall survival. However, the prognosis was poor In spite of such a radical approache. Recently, more conservative treatment such as wide local excision combined with adjuvant high-dose fraction radiotherapy seems to have premising results. Primary radiation therapy could be served as an alternative to surgery for patients with lesion less than 3 cm in diameter. We report 2 cases of primary vaginal malignant melanoma treated with radiotherapy.

A Study on a comparison and analysis of Speaking rate estimation for adaptive bit rate on CELP vocoder (가변전송률 CELP 부호화기 설계를 위한 발성률 비교 분석에 관한 연구)

  • Jang KyungA;Min SoYeon;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.105-108
    • /
    • 2004
  • 음성 부호화 기술은 전송률과 복잡도를 줄이고 음질을 향상시키는 방향으로 진행되고 있다. 현재 상용화되고 있는 CELP형 보코더는 낮은 전송률에 비해 우수한 음질을 제공한다. 본 논문에서는 기존의 방식과 다르게 보코더 단에 입력 음성이 들어가기 앞서 전처리 기법을 수행하는 전처리단을 부가하여 전송률을 낮추는 방법을 소개하고, 소개된 방법들을 각기 비교하고 분석하고자 한다. 전처리기법들을 음성 인식이나 합성에서 사용되는 파라미터들을 적용시켰으며, 처리시간이나 계산시간에 있어 기존의 방식에서 많은 영향을 미치지 않은 간단한 알고리즘으로 구현하였다. 소개하는 전처리단에서는 기존의 코딩방식에서 사용하지 않은 파라미터들, 발성율, 지속시간, PSOLA 방식들을 이용하였다.

  • PDF

A Study on the Optimal Pitch Alteration According to the Pitch Alteration Ratio (피치변경율에 따른 최적의 피치변경법에 관한 연구)

  • 박형빈
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.460-464
    • /
    • 1998
  • 일반적으로 파형 부호화법에서는 발성자의 개성과 메시지 정보를 보존하여 음질의 명료성이 우수하다. 하지만 파형 부호화법이 규칙에 의한 합성에 적응되도록 하기 위해서는 운유 조절에서 피치 변경법이 요구되어 진다. 본 논문에서는 스펙트럼의 왜곡율을 최소화하면서도 위상을 그대로 보존할 수 있는 시간영역에서의 피치변경법을 적용하였다. 이러한 방법들은 시간영역에서만 처리됨으로써 계산량을 줄여 실시간 운율조절에 적합하다. 결과적으로 피치주기를 100%에서 50%로 압축한 경우 평균 스펙트럼 왜곡율은 5.62%이고, 피치주기를 100%에서 200%로 신장한 경우 평균 스펙트럼 왜곡율은 4.20%정도로 비교적 우수한 결과가 얻어졌다.

  • PDF