• Title/Summary/Keyword: 음소

Search Result 529, Processing Time 0.02 seconds

A Study On the Realization of the Lexical Contrastive Focus and the Segmental Contrastive Focus (어휘 대조 초점과 음소 대조 초점 실현에 관한 음성학적 연구)

  • Kwak, Sook-young;Shin, Ji-young
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.179-184
    • /
    • 2005
  • The aim of this paper is to analyze the phonetic features of the lexical contrastive focus and the segmental contrastive focus. In this paper, I made two variables to study the realization of the contrastive focus. One is the three phonation types of the Korean plosive, a lenis, a fortis and an aspirate. The other is the positions of the segmental contrastive focus syllable in a word. I examined pitch, duration, intensity, VOT, formant, and so on. The realization of focus is different by the phonation types and the positions of the focused syllable.

  • PDF

Standardization of XML based Meta-data for Industrial Speech Databases (산업용 음성 DB 메타데이터 표준화)

  • Joo, Young-Hee;Hong, Ki-Hyung
    • Proceedings of the KSPS conference
    • /
    • 2005.11a
    • /
    • pp.211-214
    • /
    • 2005
  • 본고에서는 산업용 음성 DB를 위한 XML 기반 메타데이터의 표준화에 대한 현재 상황과 표준화 활동에 대하여 소개한다. 산업용 음성 DB는 구축에 많은 시간과 비용을 요구하며, 양질의 음성 처리 시스템 (인식/합성/인증)의 개발을 위해서는 가능한 많은 양의 음성 데이터가 필요하다. 산업용 음성 DB 메타데이터 표준화는 서로 다른 기관에서 구축한 음성 DB의 공유와 재사용을 원활히 하기 위하여, 2004년 9월부터 요구사항 분석을 시작하여, 2005년 3월 초안이 완성되었다. 본 표준안은 음성 DB 메타데이터의 구조를 XML 기반으로 정의한 것이며, 음성 파일 이름, 화자 식별자, 음소 기호와 같은 구조 외의 표준화 대상에 대해서는 다루지 않는다. 이미 ETRI와 SiTEC [5]에서 XML 기반의 메타데이터 구조와 내용 표준안을 제안한 바 있으나. [5]에서 제안한 구조는 평면 구조를 취하고 있어 내용의 중복성등의 단점이 있어, 이를 보완하여 음성 DB 데이터 모델을 객체지향 방식으로 설계하였다.

  • PDF

Korean speech recognition based on grapheme (문자소 기반의 한국어 음성인식)

  • Lee, Mun-hak;Chang, Joon-Hyuk
    • The Journal of the Acoustical Society of Korea
    • /
    • v.38 no.5
    • /
    • pp.601-606
    • /
    • 2019
  • This paper is a study on speech recognition in the Korean using grapheme unit (Cho-sumg [onset], Jung-sung [nucleus], Jong-sung [coda]). Here we make ASR (Automatic speech recognition) system without G2P (Grapheme to Phoneme) process and show that Deep learning based ASR systems can learn Korean pronunciation rules without G2P process. The proposed model is shown to reduce the word error rate in the presence of sufficient training data.

認知建枸主義教學說計 在漢語發音教育中的必要性

  • Lee, Seon-Hui
    • 중국학논총
    • /
    • no.66
    • /
    • pp.85-103
    • /
    • 2020
  • We use prototypes (also known as referent in semiotics) when we understand the outside world. Different language users use different prototypes to decode the same sound. When we learn Chinese language as a foreign language, during it's sound perceptual process, Korean learners' target language prototypes are different from Chinese native speakers'. The purpose of the paper is to examine the theory of speech perception and the theory of constructivism teaching, and to suggest to the Chinese language teachers to have Cunstructivist approach while they design there teaching course. For this, we concerned three things: First is to review speech perception theory and constructivism teaching theory. Second based on the preceding study, we review that learner's prototypes are different from Chinese native speaker and this cause the error of listening and pronunciation. Finally, we introduced two simple speech visualization programs developed to help us learn pronunciation.

A Study on Hangeul Mobile Handwriting Practice and Analyzing Application Development Based on Deep Learning (딥러닝 기반 한글 전자 필기 연습 및 분석 앱 개발에 대한 연구)

  • Ko, Ju-Eun;Oh, Jee-Eun;Min, Kyoung-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.322-325
    • /
    • 2022
  • 전 세계적으로 코로나바이러스가 유행함에 따라 비대면 활동을 비롯하여 전자 필기 이용 및 상품 소비가 증가하였다. 전자 필기에 대한 수요가 늘어남에 따라 전자 필기 글씨체 교정에 대한 관심 또한 증가하는 추세이다. 본 논문에서는 전자 필기 이미지에서 음절과 음소 영역을 추출하여 글씨를 분석하고, 이를 사용하여 사용자의 손글씨에서 개선점을 찾아낼 수 있는 딥러닝 알고리즘을 제안한다. 제안한 알고리즘을 통해 사용자가 원하는 전자 필기 글씨체를 효과적으로 습득할 수 있도록 사용자 글씨에 대해 구체적인 피드백을 제공하는 딥러닝 기반 태블릿 PC 용 한글 전자 필기 연습 및 분석 앱에 대한 연구를 소개하였다.

A Study on Korean Pause Prediction based Large Language Model (대규모 언어 모델 기반 한국어 휴지 예측 연구)

  • Jeongho Na;Joung Lee;Seung-Hoon Na;Jeongbeom Jeong;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

A Study on Regression Class Generation of MLLR Adaptation Using State Level Sharing (상태레벨 공유를 이용한 MLLR 적응화의 회귀클래스 생성에 관한 연구)

  • 오세진;성우창;김광동;노덕규;송민규;정현열
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.8
    • /
    • pp.727-739
    • /
    • 2003
  • In this paper, we propose a generation method of regression classes for adaptation in the HM-Net (Hidden Markov Network) system. The MLLR (Maximum Likelihood Linear Regression) adaptation approach is applied to the HM-Net speech recognition system for expressing the characteristics of speaker effectively and the use of HM-Net in various tasks. For the state level sharing, the context domain state splitting of PDT-SSS (Phonetic Decision Tree-based Successive State Splitting) algorithm, which has the contextual and time domain clustering, is adopted. In each state of contextual domain, the desired phoneme classes are determined by splitting the context information (classes) including target speaker's speech data. The number of adaptation parameters, such as means and variances, is autonomously controlled by contextual domain state splitting of PDT-SSS, depending on the context information and the amount of adaptation utterances from a new speaker. The experiments are performed to verify the effectiveness of the proposed method on the KLE (The center for Korean Language Engineering) 452 data and YNU (Yeungnam Dniv) 200 data. The experimental results show that the accuracies of phone, word, and sentence recognition system increased by 34∼37%, 9%, and 20%, respectively, Compared with performance according to the length of adaptation utterances, the performance are also significantly improved even in short adaptation utterances. Therefore, we can argue that the proposed regression class method is well applied to HM-Net speech recognition system employing MLLR speaker adaptation.

Improvements of an English Pronunciation Dictionary Generator Using DP-based Lexicon Pre-processing and Context-dependent Grapheme-to-phoneme MLP (DP 알고리즘에 의한 발음사전 전처리와 문맥종속 자소별 MLP를 이용한 영어 발음사전 생성기의 개선)

  • 김회린;문광식;이영직;정재호
    • The Journal of the Acoustical Society of Korea
    • /
    • v.18 no.5
    • /
    • pp.21-27
    • /
    • 1999
  • In this paper, we propose an improved MLP-based English pronunciation dictionary generator to apply to the variable vocabulary word recognizer. The variable vocabulary word recognizer can process any words specified in Korean word lexicon dynamically determined according to the current recognition task. To extend the ability of the system to task for English words, it is necessary to build a pronunciation dictionary generator to be able to process words not included in a predefined lexicon, such as proper nouns. In order to build the English pronunciation dictionary generator, we use context-dependent grapheme-to-phoneme multi-layer perceptron(MLP) architecture for each grapheme. To train each MLP, it is necessary to obtain grapheme-to-phoneme training data from general pronunciation dictionary. To automate the process, we use dynamic programming(DP) algorithm with some distance metrics. For training and testing the grapheme-to-phoneme MLPs, we use general English pronunciation dictionary with about 110 thousand words. With 26 MLPs each having 30 to 50 hidden nodes and the exception grapheme lexicon, we obtained the word accuracy of 72.8% for the 110 thousand words superior to rule-based method showing the word accuracy of 24.0%.

  • PDF

Event-Related Potentials of a Monosyllabic Word (단음절 단어의 사건 관련 전위)

  • Min, Byoung-Kyong;Kim, Myung-Sun;Yoon, Tak;Kim, Jae-Jin;Kwon, Jun-Soo
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.211-215
    • /
    • 2002
  • 본 실험은 종합적 인지과정을 추론할 수 있는 결합 문제(binding problem)를 언어적인지 과정을 통해 알아 본 실험으로, 총 10 명(남:61여:4, 평균나이:24.40 $\pm$ 1.35)의 정상군을 대상으로, 4개의 음소로 이루어진 단음절 명사를 목표 자극(target stimulus)으로 하고, 4개 음소의 임의적인 조합으로서 글자를 이루지 못하는 비목표 자극(non-target stimulus)을, 각각 200 회와 800 회씩 시각적으로 0.5초씩 무작위로 제시하여 128 채널 고밀도 사건관련전위(ERP)를 측정하였다. 이번 실험 결과의 주요 특징은 글자가 아닌 비목표 자극보다 글자인 목표 자극에서 두드러지게 나타난 두정엽 부근의 P500 과 N900 이라고 할 수 있다. 자극 제시 비율의 차이에서 오는 oddball 효과로 인한 기존 P300 의 인지적 의미를 이번 결과의 P500 이 함축한다고 볼 수 있으며, 단음절 단어를 인지할 때, 글자임을 인식하는 순간은 의미적인지 과정이 진행되었다기보다 그 글자의 형태만으로 낯익은 글자인지를 분간하는 것으로 보인다 따라서, 이 경우 기존 언어 실험에 자주 등장하던 의미론적 peak 인 N400 은 보이지 않고, 곧바로 형태적이고, 통사적(syntactic)인 인지 처리 과정인 P500이 나타났다고 해석할 수 있다. 하지만, 이번 실험에서는 N400 대신에 N900 이 나타났다. 이 결과는 이번 ERP 실험과 병행된 프로토콜 분석을 통해, 피험자가 자극 제시 후, 약 900ms 정도에, 이미 제시되고 사라진 글자 자극을 다시 한번 떠올리는 인지 과정이 일어난다는 점과 관련 지어 해석하면, 기존에 의미적(semantic) 인지 과정으로만 해석했던 negative-peak 를 생각(thinking)과 같은 내재적인지 과정(internal cognitive process)으로 확장하여 일반화하는 추론도 생각해 볼 수 있다. 요컨대, 언어인지를 통한 이번 실험을 통해, 뇌파에서 검출되는 negative-peak 은 internal cognitive process로 추측되고, positive-peak 는 external cognitive process 라고 생각된다. 덧붙여, 유의해서 볼 점은 각 peak-topology 에서 Cz 의 진폭이 Fz 보다 크게 나온 점과, 일반적으로 언어 기능을 담당한다는 좌측 측두엽(T7)이 우측(T8)보다 통계적으로 더 유의미한 차이를 보였다는 점등이다.

  • PDF

Phonological development of children aged 3 to 7 under the condition of sentence repetition (문장 따라말하기 과제에서 3~7세 아동의 말소리발달)

  • Kim, Soo-Jin;Park, Na rae;Chang, Moon Soo;Kim, Young Tae;Shin, Moonja;Ha, Ji-Wan
    • Phonetics and Speech Sciences
    • /
    • v.12 no.1
    • /
    • pp.85-95
    • /
    • 2020
  • Sentence repetition is a way of evaluating speech sound production to improve the limitation of word tests and spontaneous speech analysis. Speech sounds produced by children can be evaluated using several indicators. This study examined the progression of the percentage of correct consonants-revised (PCC-R) and phonological whole-word measure in different age and gender groups after setting consonants in various vowel contexts and implementing sentence repetition tasks that were designed to give all phonemes the chance to appear at least three times. For this study, 11 sentence repetition tasks were applied to 535 children aged 3 to 7 across the country, after which the resulting PCC-R and whole-word measure were analyzed. The study results showed that all the indicators improved in older age groups and there were significant differences depending on age, however, no significant differences dependent on gender were found. The sentence repetition conditions data used in this study were collected from across the country, and the age difference between each age group was six months. This study is noteworthy because it collected a sufficient amount of data from each group, highlighted the limitation of the word naming and the spontaneous speech analysis, and suggests new criteria of evaluation through the analysis of each whole-word measure in sentence repetition, which was not applied in previous studies.