• Title/Summary/Keyword: 모델 발화

Search Result 204, Processing Time 0.032 seconds

Comparison of Classification Performance Between Adult and Elderly Using Acoustic and Linguistic Features from Spontaneous Speech (자유대화의 음향적 특징 및 언어적 특징 기반의 성인과 노인 분류 성능 비교)

  • SeungHoon Han;Byung Ok Kang;Sunghee Dong
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.8
    • /
    • pp.365-370
    • /
    • 2023
  • This paper aims to compare the performance of speech data classification into two groups, adult and elderly, based on the acoustic and linguistic characteristics that change due to aging, such as changes in respiratory patterns, phonation, pitch, frequency, and language expression ability. For acoustic features we used attributes related to the frequency, amplitude, and spectrum of speech voices. As for linguistic features, we extracted hidden state vector representations containing contextual information from the transcription of speech utterances using KoBERT, a Korean pre-trained language model that has shown excellent performance in natural language processing tasks. The classification performance of each model trained based on acoustic and linguistic features was evaluated, and the F1 scores of each model for the two classes, adult and elderly, were examined after address the class imbalance problem by down-sampling. The experimental results showed that using linguistic features provided better performance for classifying adult and elderly than using acoustic features, and even when the class proportions were equal, the classification performance for adult was higher than that for elderly.

Subspace analysis of Poisson Model to extract Firing Characteristics in Visual Cortex (시각 피질의 발화 특성 추출을 위한 포아송 모델의 부공간 해석)

  • Lee, Youngseok
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.15 no.1
    • /
    • pp.1-7
    • /
    • 2022
  • It has been found through physiological experiments that the visual neurons constituting the human visual cortex do not respond to all visual stimuli, but to a visual stimuli with specific conditions. In order to interpret such physiological experiments, a model that can simulate the firing characteristics of neurons including a linear filter with random gain was proposed. It has been proven through experiments that subspaces are formed. To verify the validity of the implemented model, the distribution of values for two pixels randomly extracted from four different visual stimulus data was observed. The difference between the two distributions was confirmed by extracting the central coordinate value, that is, the coordinate value with the most values, from the distribution of the total stimulus data and the spike ignition stimulus data. In the case of the entire set, it was verified through experiments that the stimulus data generating spikes is a subset or subspace of the entire stimulus data. This study can be used as a basic study related to the mechanism of spikes in response to visual stimuli.

The influences of speech rate, utterance length and sentence complexity of disfluency in preschool children who stutter and children who do not stutter (문장 따라말하기에서 말속도, 발화길이 및 통사적 복잡성에 따른 말더듬 아동과 일반아동의 비유창성 비교)

  • Kim, Yesul;Sim, Hyunsub
    • Phonetics and Speech Sciences
    • /
    • v.13 no.1
    • /
    • pp.53-64
    • /
    • 2021
  • According to Demand and Capacity Model (DCM), external and internal environments influence the disfluency of children who stutter (CWS). This study investigated the effects of simultaneous changes in motoric and linguistic demands on CWS and children who do not stutter (CWNS). Participants were 4-6 years old CWS and CWNS. A sentence imitation task with changes in speech rate, utterance length, and sentence complexity was used to examine their effects on children's disfluency. When the utterance length changed, CWS showed more disfluency regardless of utterance length and as the speech rate changed, CWS showed more disfluency at fast speech rate than CWNS. When the utterance length and speech rate changed, at fast speech rate, CWS showed more disfluency in both utterances than CWNS. When sentence complexity changed, CWS showed more disfluency than CWNS in complex sentences. Changes in linguistic elements such as speech rate, utterance length, and sentence complexity affect disfluency in CWS, especially when they were exposed to faster, longer, and more complex sentences. This indicates that CWS are vulnerable to fast and complex speech motor control and language processing ability than CWNS. Thus, this study suggests that parents and therapists consider both the speech rate and the utterance length when talking with CWS.

Relationship between Autoigniton Temperature(AIT) and Ignition Delay Time for Acids (산(Acid)류의 자연발화온도와 방화지연시간의 관계)

  • 하동명
    • Fire Science and Engineering
    • /
    • v.18 no.2
    • /
    • pp.27-33
    • /
    • 2004
  • An accurate knowledge of the AIT(Autoignition temperatures) of chemicals is important in developing appropriate prevention and control measures in industrial fire protection. The AITs describe the minimum temperature to which a substance must be heated, without the application of a flame or spark, which will cause that substance to ignite. The measurement AITs are dependent upon many factors. namely initial temperature. pressure, volume, fuel/air stoichiometry. catalyst material, concentration of vapor, ignition delay time. This study measured the AITs of acids from ignition delay time by using ASTM E659-78 apparatus which was produced in the year 1994. The experiment AITs were a good agreement with the calculated AITs by the proposed equations with a few A.A.P.E.(average absolute percent error) and A.A.D.(average absolute deviation).

Reference-based Utterance Generation Model using Multi-turn Dialogue (멀티턴 대화를 활용한 레퍼런스 기반의 발화 생성 모델)

  • Sangmin Park;Yuri Son;Bitna Keum;Hongjin Kim;Harksoo Kim;Jaieun Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.88-91
    • /
    • 2022
  • 디지털 휴먼, 민원 상담, ARS 등 칫챗의 활용과 수요가 증가함에 따라 칫챗의 성능 향상을 위한 다양한 연구가 진행되고 있다. 특히, 오토 인코더(Auto-encoder) 기반의 생성 모델(Generative Model)은 높은 성능을 보이며 지속적인 연구가 이루어지고 있으나, 이전 대화들에 대한 충분한 문맥 정보의 반영이 어렵고 문법적으로 부적절한 답변을 생성하는 문제가 있다. 이를 개선하기 위해 검색 기반의 생성 모델과 관련된 연구가 진행되고 있으나, 현재 시점의 문장이 유사해도 이전 문장들에 따라 의도와 답변이 달라지는 멀티턴 대화 특징을 반영하여 대화를 검색하는 연구가 부족하다. 본 논문에서는 이와 같은 멀티턴 대화의 특징이 고려된 검색 방법을 제안하고 검색된 레퍼런스(준정답 문장)를 멀티턴 대화와 함께 생성 모델의 입력으로 활용하여 학습시키는 방안을 제안한다. 제안 방안으로 학습된 발화 생성 모델은 기존 모델과 비교 평가를 수행하며 Rouge-1 스코어에서 13.11점, Rouge-2 스코어에서 10.09점 Rouge-L 스코어에서 13.2점 향상된 성능을 보였고 이를 통해 제안 방안의 우수성을 입증하였다.

  • PDF

Alzheimer's Diagnosis and Generation-Based Chatbot Using Hierarchical Attention and Transformer (계층적 어탠션 구조와 트랜스포머를 활용한 알츠하이머 진단과 생성 기반 챗봇)

  • Park, Jun Yeong;Choi, Chang Hwan;Shin, Su Jong;Lee, Jung Jae;Choi, Sang-il
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.333-335
    • /
    • 2022
  • 본 논문에서는 기존에 두 가지 모델이 필요했던 작업을 하나의 모델로 처리할 수 있는 자연어 처리 아키텍처를 제안한다. 단일 모델로 알츠하이머 환자의 언어패턴과 대화맥락을 분석하고 두 가지 결과인 환자분류와 챗봇의 대답을 도출한다. 일상생활에서 챗봇으로 환자의 언어특징을 파악한다면 의사는 조기진단을 위해 더 정밀한 진단과 치료를 계획할 수 있다. 제안된 모델은 전문가가 필요했던 질문지법을 대체하는 챗봇 개발에 활용된다. 모델이 수행하는 자연어 처리 작업은 두 가지이다. 첫 번째는 환자가 병을 가졌는지 여부를 확률로 표시하는 '자연어 분류'이고 두 번째는 환자의 대답에 대한 챗봇의 다음 '대답을 생성'하는 것이다. 전반부에서는 셀프어탠션 신경망을 통해 환자 발화 특징인 맥락벡터(context vector)를 추출한다. 이 맥락벡터와 챗봇(전문가, 진행자)의 질문을 함께 인코더에 입력해 질문자와 환자 사이 상호작용 특징을 담은 행렬을 얻는다. 벡터화된 행렬은 환자분류를 위한 확률값이 된다. 행렬을 챗봇(진행자)의 다음 대답과 함께 디코더에 입력해 다음 발화를 생성한다. 이 구조를 DementiaBank의 쿠키도둑묘사 말뭉치로 학습한 결과 인코더와 디코더의 손실함수 값이 유의미하게 줄어들며 수렴하는 양상을 확인할 수 있었다. 이는 알츠하이머병 환자의 발화 언어패턴을 포착하는 것이 향후 해당 병의 조기진단과 종단연구에 기여할 수 있음을 보여준다.

  • PDF

The design of Plan based dialogue system in Task execution domain (작업수행영역에서 계획에 기반한 대화 시스템의 설계)

  • 오종건;서정연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.450-452
    • /
    • 2000
  • 대화 시스템이란 자연어를 이용하여 인간과 정보를 교환하거나 업무를 수행하는 프로그램이다. 자연언어는 인간이 사용할 수 있는 쉽고 효율적인 인터페이스이기 때문에 이를 이용한 대화 시스템의 필요성이 증대되고 있다. 본 논문에서는 지금까지 주로 인식에 초점이 맞추어져 연구되어 왔던 계획 기반 대화 모델을 이용하여 발화하여 생성하는 시스템을 설계하고자 한다. 본 논문에서 설계하고자 하는 대화 시스템은 사용자의 질의에 응답할 뿐 아니라 자신의 행위를 능동적으로 수행할 수 있는 협조적 대화 시스템이다. 또한 대화의 효율성을 고려하여 사용자가 필요로 하는 정보를 능동적으로 제공하는 시스템이다. 대화의 효율성을 고려한 발화를 위해 본 논문에서는 새로운 시스템의 행위를 정의하여 실제 가능한 대화 예를 보이고자 한다.

  • PDF

A Characteristics of Cellulra Automata Neural Systems (셀룰라 오토마타 신경망의 특성)

  • 이동욱;심귀보
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 1998.10a
    • /
    • pp.267-273
    • /
    • 1998
  • 셀룰라 오토마타 신경망은 저자에 의하여 개발된 신경망으로써 주변의 셀과 국소적인 연결을 가지며 셀룰라 오토마타의 발생규칙에 따라 생성되는 신경망이다. 셀룰라 오토마타 신경망을 간단히 줄여서 ECANS라고 한다. 본 신경망은 카오스 뉴런 모델을 사용하며 뉴런사이의 연결강도는 흥분성 또는 억제성 결합을 갖는다. 신호의 전달방식은 펄스의 형태로서 뉴런이 발화하면 '1' 발화하지 않으면 '0'이 된다. 본 논문에서는 셀룰라 오토마타를 구성하는 요소별 특징을 살펴보고 주어진 문제에 적합한 셀룰라 오토마타 신경망을 얻어내기 위한 진화방법으로서 DNA 코딩방법을 제안한다. 제안한 방법의 유효성을 시뮬레이션을 통하여 검증한다.

  • PDF

Applying feature normalization based on pole filtering to short-utterance speech recognition using deep neural network (심층신경망을 이용한 짧은 발화 음성인식에서 극점 필터링 기반의 특징 정규화 적용)

  • Han, Jaemin;Kim, Min Sik;Kim, Hyung Soon
    • The Journal of the Acoustical Society of Korea
    • /
    • v.39 no.1
    • /
    • pp.64-68
    • /
    • 2020
  • In a conventional speech recognition system using Gaussian Mixture Model-Hidden Markov Model (GMM-HMM), the cepstral feature normalization method based on pole filtering was effective in improving the performance of recognition of short utterances in noisy environments. In this paper, the usefulness of this method for the state-of-the-art speech recognition system using Deep Neural Network (DNN) is examined. Experimental results on AURORA 2 DB show that the cepstral mean and variance normalization based on pole filtering improves the recognition performance of very short utterances compared to that without pole filtering, especially when there is a large mismatch between the training and test conditions.

Plan-based Ellipsis Resolution for Utterances in Noun-Phrase-Form in Restricted Domain Dialogues (제한된 영역의 대화에서 체언구 형태의 발화 이해를 위한 계획기반 생략 처리)

  • 윤철진;서정연
    • Korean Journal of Cognitive Science
    • /
    • v.11 no.1
    • /
    • pp.81-92
    • /
    • 2000
  • Elliptical fragments are common in natural language dialogues between humans. Since most elliptical fragments should be interpeted within the context. it is not easy for computers to recognize the speaker's intention from the elliptical fragments. In t this paper we propose a model to recognize speaker's intention from elliptical fragments 1 in Korean by expanding the tripartite plan-based model proposed by Lambert. We add new discourse recipes to define user's discourse actions through elliptical fragments. In order to use plan inference process. we must represent utterances as actions. e. g .. r e elliptical fragments are represented as surface speech acts. In surface speech act representation. we include the information of 'Josa' (case markers in Korean), because t the information of 'Josa' plays a very important role in analysing speakers' intention in Korean. Finally. by using an object and discourse focus theory, the system can recognize the intention that a user is trying to compare between two plans by uttering elliptical fragments

  • PDF