As a basic research to realize Korean speech recognition system, phoneme recognition was carried out to find out ; 1) the best place which represents each phoneme's characteristics, and 2) the reasonable length of duration for obtaining the best recognition rates. For the recognition experiments, multi-speaker dependent recognition with Bayesian decision rule using 21 order of cepstral coefficient as a feature parameter was adopted. It turned out that the best place of feature extraction for the highest recognition rates were 10~50ms in vowels, 40~100ms in fricatives and affricates, 10~50ms in nasals and liquids, and 10~50ms in plosives. And about 70ms of duration was good enough for the recognition of all 35 phonemes.
Proceedings of the Acoustical Society of Korea Conference
/
1995.06a
/
pp.155-158
/
1995
150~7,000Hzd의 확대역 전화를 위한 전화 전송특성 설계지침으로 활용하기 위해, 확대역과 300~3400Hz 의 협대역 전화에 대한 통화품질 평가결과를 비교/분석하였다. 토화품질 평가는, 조정법에 의한 선호 라우드니스 레벨고 ㅏ동가 라우드니스 레벨 조정실험, 그리고 단음절 명료도평가로 구성되었다. 선호 라우드니스 레벨 조정실험의 결과, 협대역과 확대역 음성에 대한 피험자의 선호레벨이 각각 70.7dB 및 68.6dB로 약 2dB의 차이를, 피험자간 분산은 2.12와 6.11로 의미있는 차이를 보였는데, 이것은 음성대역의 확장에 따라 사용자들의분산이 크기 때문에 확대역 전화에서 수화음량 조절기능이 필요함을 증명한 결과이다. 그리고, 협/확대역 조건에서의 100개 단음절에 대한 명료도 실험 결과에서, 전체 명료도 점수간에는 통계적으로 의미있는 차이를 보이지 않았지만 단음절중 3,400Hz이상에서 많은 에너지를 갖는, 파열음 'ㅌ', 파찰음 'ㅈ', 'ㅉ', 'ㅊ', 그리고 마찰음 'ㅅ', 'ㅆ' 으로 시작하는 20개 단음절에 대한 부분명료도에 있어서 협대역과 확대역 조건간에 20%의 명료도 차이를 나타내었다. 또한, 비교 라우드니스 레벨 조정실험의 결과, 협대역과 확대역 사이의 평균 라우드니스 레벨 차이가 약 3.4dB (A)로 나타났는데, 이 결과는 국내 확대역 전화의 수화음량적격 설정에 지침으로 활용할 것이다.
Journal of the Korean Society of Laryngology, Phoniatrics and Logopedics
/
v.16
no.2
/
pp.152-157
/
2005
Background and Objectives : 10 normal Korean native speakers participated subjects to investigate the acoustic and aerodynamic study of Korean fricatives, affricates, and plosives and to make good use of the results for the patients with articulation problems. Materials and Method Their productions of [asa], [as'a], [aca], $[ac^ha]$, (ac'a), (ata) , $[at^ha]$, and [at'a] were analyzed with Lx Speech Studio Program (Laryngogrtaph Ltd, UK) for acoustic analysis and Phonatory Function Analyze. (Nagashima Ltd. Model PS 77H, Tokyo, Japan) for aerodynamic analysis. Results : The results are as follows : 1) Plosives showed higher Qx1 in vocal folds closure ratio than fricatives and affricates. 2) Tense fricatives, affricates, and plosives showed higher Qx2 in vocal folds closure ratio than asperated and 1ax. 3) Asperated showed higher Qx1 in vocal folds closure ratio than tense and 1ax. 4) Asperated showed higer peak flow rate than tense and 1ax. Conclusion This results may be helpful for treatment in articulation disorders.
A phoneme is the minimal unit of speech, and it plays a very important role in speech recognition. This paper proposes a novel method that can be used to recognize 'ㅅ', 'ㅈ', and 'ㅊ' among Korean phonemes. The proposed method is based on a volatility indicator and a turning point indicator that are calculated for each constituting block of the input speech signal. The volatility indicator is the sum of the differences between the values of each two samples adjacent in a block, and the turning point indicator is the number of extremal points at which the direction of the increment or decrement of the values of the sample are inverted in a block. A phoneme recognition algorithm combines the two indicators to finally determine the positions at which the three target phonemes mentioned above are recognized by utilizing optimized thresholds related with those indicators. The experimental results show that the proposed method can markedly reduce the error rate of the existing methods both in terms of the false reject rate and the false accept rate.
Journal of rehabilitation welfare engineering & assistive technology
/
v.8
no.3
/
pp.227-232
/
2014
The aim of this study was to investigate phoneme recognition in postlingually deafened adults with cochlear implantation. 21-cochlear implantee were participated. They was used cochlear implants more than 1 year. In order to measure consonant performance abilities, subjects were asked for 18 items of Korean consonants in a "aCa" condition with audition alone. The scores ranged from 11 to 86 ($60{\pm}17$)%. The consonant performance abilities correlated with implanted hearing threshold level, significantly (p<.046). This results suggest that consonant performance abilities of postlingual deafened adults cochlear implantee be important for implanted hearing. They had higher correct rates for fricatives and affricatives with distinctive frequency bands than for plosives, liquids & nasals with the same or adjacent frequency bands. All subjects had confusion patterns among the consonants of the same manner of articulation. The reason of consonant confusions was caused that they couldn't recognize different intensities and durations of consonants with the same or adjacent frequency bands.
This paper proposes acoustic model training using self-attention for low-resource speech recognition. In low-resource speech recognition, it is difficult for acoustic model to distinguish certain phones. For example, plosive /d/ and /t/, plosive /g/ and /k/ and affricate /z/ and /ch/. In acoustic model training, the self-attention generates attention weights from the deep neural network model. In this study, these weights handle the similar pronunciation error for low-resource speech recognition. When the proposed method was applied to Time Delay Neural Network-Output gate Projected Gated Recurrent Unit (TNDD-OPGRU)-based acoustic model, the proposed model showed a 5.98 % word error rate. It shows absolute improvement of 0.74 % compared with TDNN-OPGRU model.
한국어 자음에 대한 생리적인 분류는 조음점 및 조음발법에 따라 다시 세분화할 수 있는데 그중에서 조음발법에 따라 파열음, 마찰음, 파찰음 및 비음들 여러가지로 분류할 수 있다. 그중 특히 파열음은 그 개방하는 방법에 따라 연음(lenis), 경음(glottalized) 및 기식음(aspirated)등으로 구분하는데 이러한 각음을 육안으로 확인하면 모음이 발성되기 위한 성대진동이 있기전의 자음을 위한 성대의 운동의 현상을 보면 기식음에서는 성대열림이 가장 크고 연음에서도 열림이 크지만 기식음보다는 적고 경음에서는 성대의 열림이 가장 작았다. 이러한 현상은 후두내시경에 의해 쉽게 확인할 수 있었는데 이것을 과학적으로 규명하기 위해서는 여러연구에 의해 가능하나 흔히 후두근전도 검사에 의한 성대내전근과 외전근의 역할의 차이를 비교함으로서 가능해지리라 예상되어 본 연구를 시행하였다. 사용된 문형 또는 단어는 한가지를 제외하고는 모두 의미있는 단어를 사용하였으며 EMG recording을 위해 사용된 근육은 후두내전근인 Vocalis muscle과 후두외전근인 Posterior cricoarytenoid muscle이 사용되었고 전기신호는 computer data processing system에 의해 분석되어졌다. 결과는 내시경에 의한 성대열림의 거리측정 결과를 분석함과 동시에 후두내근에 대한 근전도검사에 의한 분석을 토대로 하였으며 이를 간단히 설명하면 이제까지 많은 사람들은 한국어 자음에 대한 각각의 특징적인 현상들을 주로 성대내전근의 역할에 의해 규명하였으나 본 결과로는 성대내전근의 역할도 중요하지만 성대외전근의 역할 또한 상호 연관성을 가지면서 매우 중요한 역할을 한다는 점이다.for the Isotropic plates can be used. Use of some coefficients can produce "exact" value for laminates with such configuration.trap with 2.88[eV] deep of injected space charge from the chathode in the crystaline regions. The origin of ${\alpha}$$_2$ peak was regarded as the detrapping process of ions trapped with 0.9[eV] deep originated from impurity-ion remained in the specimen during production process of the material, in the crystalline regions. The origin of ${\beta}$ peak was concluded to be due to the depolarization process of "C=0"dipole with the activation energy of 0.75[eV] in the amorphous regions. The origin of ${\gamma}$ peak was responsible to the process combined with the depolarization of "CH$_3$", chain segment, with the activation energy of carriers from the shallo
This paper proposed a new time adapted threshold using the standard deviations of Wavelet coefficients after Wavelet transform by frame scale. The time adapted threshold is set up using the sum of standard deviations of Wavelet coefficient in cA3 and weighted cDl. cA3 coefficients represent the voiced sound with low frequency and cDl coefficients represent the unvoiced sound with high frequency. From simulation results, it is demonstrated that the proposed algorithm improves SNR and MSE performance more than Wavelet transform and Wavelet packet transform does. Moreover, the reconstructed signals by the proposed algorithm resemble the original signal in terms of plosive sound, fricative sound and affricate sound but Wavelet transform and Wavelet packet transform reduce those sounds seriously.
The present study was to investigate the speech intelligibility of esophageal speech, which is the way that the laryngectomized people who lost their voices by total laryngectomy can phonate by using the airstream driven into esophagus, not trachea. Three normal listeners transcribed the CVVand VCV syllables produced by 10 esophageal speakers. As a result, overall intelligibility of esophageal speech was 27%. Affricates showed the highest intelligibility, and fricatives, the lowest. In the aspect of the place of articulation, palatals were the most intelligble, and alveolars, the least. Most of the aspirated consonants showed a low intelligibility. The consonants in VCV syllables were more intelligible than the ones in CVV syllables. The low intelligibility of esophageal speakers is due to insufficient airflow intake into esophagus. Therefore, training to increase airflow intake, as well as correct articulation training, will improve their low intelligibility.
In order to construct a feature map-based phoneme classification system for speech recognition, two procedures are usually required. One is clustering and the other is labeling. In this paper, we present a phoneme classification system based on the Kohonen's Self-Organizing Feature Map (SOFM) for clusterer and labeler. It is known that the SOFM performs self-organizing process by which optimal local topographical mapping of the signal space and yields a reasonably high accuracy in recognition tasks. Consequently, SOFM can effectively be applied to the recognition of phonemes. Besides to improve the performance of the phoneme classification system, we propose the learning algorithm combined with the classical K-mans clustering algorithm in fine-tuning stage. In order to evaluate the performance of the proposed phoneme classification algorithm, we first use totaly 43 phonemes which construct six intra-class feature maps for six different phoneme classes. From the speaker-dependent phoneme classification tests using these six feature maps, we obtain recognition rate of $87.2\%$ and confirm that the proposed algorithm is an efficient method for improvement of recognition performance and convergence speed.
본 웹사이트에 게시된 이메일 주소가 전자우편 수집 프로그램이나
그 밖의 기술적 장치를 이용하여 무단으로 수집되는 것을 거부하며,
이를 위반시 정보통신망법에 의해 형사 처벌됨을 유념하시기 바랍니다.
[게시일 2004년 10월 1일]
이용약관
제 1 장 총칙
제 1 조 (목적)
이 이용약관은 KoreaScience 홈페이지(이하 “당 사이트”)에서 제공하는 인터넷 서비스(이하 '서비스')의 가입조건 및 이용에 관한 제반 사항과 기타 필요한 사항을 구체적으로 규정함을 목적으로 합니다.
제 2 조 (용어의 정의)
① "이용자"라 함은 당 사이트에 접속하여 이 약관에 따라 당 사이트가 제공하는 서비스를 받는 회원 및 비회원을
말합니다.
② "회원"이라 함은 서비스를 이용하기 위하여 당 사이트에 개인정보를 제공하여 아이디(ID)와 비밀번호를 부여
받은 자를 말합니다.
③ "회원 아이디(ID)"라 함은 회원의 식별 및 서비스 이용을 위하여 자신이 선정한 문자 및 숫자의 조합을
말합니다.
④ "비밀번호(패스워드)"라 함은 회원이 자신의 비밀보호를 위하여 선정한 문자 및 숫자의 조합을 말합니다.
제 3 조 (이용약관의 효력 및 변경)
① 이 약관은 당 사이트에 게시하거나 기타의 방법으로 회원에게 공지함으로써 효력이 발생합니다.
② 당 사이트는 이 약관을 개정할 경우에 적용일자 및 개정사유를 명시하여 현행 약관과 함께 당 사이트의
초기화면에 그 적용일자 7일 이전부터 적용일자 전일까지 공지합니다. 다만, 회원에게 불리하게 약관내용을
변경하는 경우에는 최소한 30일 이상의 사전 유예기간을 두고 공지합니다. 이 경우 당 사이트는 개정 전
내용과 개정 후 내용을 명확하게 비교하여 이용자가 알기 쉽도록 표시합니다.
제 4 조(약관 외 준칙)
① 이 약관은 당 사이트가 제공하는 서비스에 관한 이용안내와 함께 적용됩니다.
② 이 약관에 명시되지 아니한 사항은 관계법령의 규정이 적용됩니다.
제 2 장 이용계약의 체결
제 5 조 (이용계약의 성립 등)
① 이용계약은 이용고객이 당 사이트가 정한 약관에 「동의합니다」를 선택하고, 당 사이트가 정한
온라인신청양식을 작성하여 서비스 이용을 신청한 후, 당 사이트가 이를 승낙함으로써 성립합니다.
② 제1항의 승낙은 당 사이트가 제공하는 과학기술정보검색, 맞춤정보, 서지정보 등 다른 서비스의 이용승낙을
포함합니다.
제 6 조 (회원가입)
서비스를 이용하고자 하는 고객은 당 사이트에서 정한 회원가입양식에 개인정보를 기재하여 가입을 하여야 합니다.
제 7 조 (개인정보의 보호 및 사용)
당 사이트는 관계법령이 정하는 바에 따라 회원 등록정보를 포함한 회원의 개인정보를 보호하기 위해 노력합니다. 회원 개인정보의 보호 및 사용에 대해서는 관련법령 및 당 사이트의 개인정보 보호정책이 적용됩니다.
제 8 조 (이용 신청의 승낙과 제한)
① 당 사이트는 제6조의 규정에 의한 이용신청고객에 대하여 서비스 이용을 승낙합니다.
② 당 사이트는 아래사항에 해당하는 경우에 대해서 승낙하지 아니 합니다.
- 이용계약 신청서의 내용을 허위로 기재한 경우
- 기타 규정한 제반사항을 위반하며 신청하는 경우
제 9 조 (회원 ID 부여 및 변경 등)
① 당 사이트는 이용고객에 대하여 약관에 정하는 바에 따라 자신이 선정한 회원 ID를 부여합니다.
② 회원 ID는 원칙적으로 변경이 불가하며 부득이한 사유로 인하여 변경 하고자 하는 경우에는 해당 ID를
해지하고 재가입해야 합니다.
③ 기타 회원 개인정보 관리 및 변경 등에 관한 사항은 서비스별 안내에 정하는 바에 의합니다.
제 3 장 계약 당사자의 의무
제 10 조 (KISTI의 의무)
① 당 사이트는 이용고객이 희망한 서비스 제공 개시일에 특별한 사정이 없는 한 서비스를 이용할 수 있도록
하여야 합니다.
② 당 사이트는 개인정보 보호를 위해 보안시스템을 구축하며 개인정보 보호정책을 공시하고 준수합니다.
③ 당 사이트는 회원으로부터 제기되는 의견이나 불만이 정당하다고 객관적으로 인정될 경우에는 적절한 절차를
거쳐 즉시 처리하여야 합니다. 다만, 즉시 처리가 곤란한 경우는 회원에게 그 사유와 처리일정을 통보하여야
합니다.
제 11 조 (회원의 의무)
① 이용자는 회원가입 신청 또는 회원정보 변경 시 실명으로 모든 사항을 사실에 근거하여 작성하여야 하며,
허위 또는 타인의 정보를 등록할 경우 일체의 권리를 주장할 수 없습니다.
② 당 사이트가 관계법령 및 개인정보 보호정책에 의거하여 그 책임을 지는 경우를 제외하고 회원에게 부여된
ID의 비밀번호 관리소홀, 부정사용에 의하여 발생하는 모든 결과에 대한 책임은 회원에게 있습니다.
③ 회원은 당 사이트 및 제 3자의 지적 재산권을 침해해서는 안 됩니다.
제 4 장 서비스의 이용
제 12 조 (서비스 이용 시간)
① 서비스 이용은 당 사이트의 업무상 또는 기술상 특별한 지장이 없는 한 연중무휴, 1일 24시간 운영을
원칙으로 합니다. 단, 당 사이트는 시스템 정기점검, 증설 및 교체를 위해 당 사이트가 정한 날이나 시간에
서비스를 일시 중단할 수 있으며, 예정되어 있는 작업으로 인한 서비스 일시중단은 당 사이트 홈페이지를
통해 사전에 공지합니다.
② 당 사이트는 서비스를 특정범위로 분할하여 각 범위별로 이용가능시간을 별도로 지정할 수 있습니다. 다만
이 경우 그 내용을 공지합니다.
제 13 조 (홈페이지 저작권)
① NDSL에서 제공하는 모든 저작물의 저작권은 원저작자에게 있으며, KISTI는 복제/배포/전송권을 확보하고
있습니다.
② NDSL에서 제공하는 콘텐츠를 상업적 및 기타 영리목적으로 복제/배포/전송할 경우 사전에 KISTI의 허락을
받아야 합니다.
③ NDSL에서 제공하는 콘텐츠를 보도, 비평, 교육, 연구 등을 위하여 정당한 범위 안에서 공정한 관행에
합치되게 인용할 수 있습니다.
④ NDSL에서 제공하는 콘텐츠를 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 이용할 경우
저작권법 제136조에 따라 5년 이하의 징역 또는 5천만 원 이하의 벌금에 처해질 수 있습니다.
제 14 조 (유료서비스)
① 당 사이트 및 협력기관이 정한 유료서비스(원문복사 등)는 별도로 정해진 바에 따르며, 변경사항은 시행 전에
당 사이트 홈페이지를 통하여 회원에게 공지합니다.
② 유료서비스를 이용하려는 회원은 정해진 요금체계에 따라 요금을 납부해야 합니다.
제 5 장 계약 해지 및 이용 제한
제 15 조 (계약 해지)
회원이 이용계약을 해지하고자 하는 때에는 [가입해지] 메뉴를 이용해 직접 해지해야 합니다.
제 16 조 (서비스 이용제한)
① 당 사이트는 회원이 서비스 이용내용에 있어서 본 약관 제 11조 내용을 위반하거나, 다음 각 호에 해당하는
경우 서비스 이용을 제한할 수 있습니다.
- 2년 이상 서비스를 이용한 적이 없는 경우
- 기타 정상적인 서비스 운영에 방해가 될 경우
② 상기 이용제한 규정에 따라 서비스를 이용하는 회원에게 서비스 이용에 대하여 별도 공지 없이 서비스 이용의
일시정지, 이용계약 해지 할 수 있습니다.
제 17 조 (전자우편주소 수집 금지)
회원은 전자우편주소 추출기 등을 이용하여 전자우편주소를 수집 또는 제3자에게 제공할 수 없습니다.
제 6 장 손해배상 및 기타사항
제 18 조 (손해배상)
당 사이트는 무료로 제공되는 서비스와 관련하여 회원에게 어떠한 손해가 발생하더라도 당 사이트가 고의 또는 과실로 인한 손해발생을 제외하고는 이에 대하여 책임을 부담하지 아니합니다.
제 19 조 (관할 법원)
서비스 이용으로 발생한 분쟁에 대해 소송이 제기되는 경우 민사 소송법상의 관할 법원에 제기합니다.
[부 칙]
1. (시행일) 이 약관은 2016년 9월 5일부터 적용되며, 종전 약관은 본 약관으로 대체되며, 개정된 약관의 적용일 이전 가입자도 개정된 약관의 적용을 받습니다.