• 제목/요약/키워드: 발화자

Search Result 178, Processing Time 0.026 seconds

Segmentation Methods for Different Speech Rate in Simultaneous Interpretation (발화자별 발화 속도를 고려한 실시간 동시통역 분절 방법론)

  • Koo, Youngeun;Kim, Jiyoun;Hong, Jungpyo;Hong, Munpyo;Choi, Sung-Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.369-374
    • /
    • 2020
  • 동시통역은 원천텍스트의 의미를 잘 전달하는 것 뿐만 아니라, 순차통역이나 번역과 달리, 지연 시간없이 즉각적으로 번역하는 것이 매우 중요하다. 따라서 적절한 길이의 지점에서 원천텍스트를 분절해야 한다. 그러나 발화자마다 발화 속도가 서로 다르며, 이 발화 속도는 전체 발화에서 늘 일정하지 않기 때문에, 분절단위의 적절한 길이를 설정하는 것은 상당히 어려운 과제이다. 본 연구에서는 발화자마다 발화 속도가 다른 상황과 발화가 진행되는 동안 실시간으로 발화 속도가 변화하는 상황에 적응 가능한 동시통역 분절 방법론(개인화 기법)을 제안한다. 이를 위해 본 논문에서는 먼저 동시통역 데이터를 이용하여 기준 발화 속도를 설정하였다. 그 다음 이를 원천 발화의 현재 속도와 비교하여 실시간으로 해당 발화자에게 있어 최적의 분절길이가 얼마인지 계산한다. 제안한 개인화 기법의 효력을 검증하기 위해 실험을 진행하였고, 그 결과 개인화를 적용하면 분절 성능이 높아졌다.

  • PDF

Analysis of utterance intent classification of cutomer in the food industry using Pretrained Model (사전학습 모델을 이용한 음식업종 고객 발화 의도 분류 분석)

  • Kim, Jun Hoe;Lim, HeuiSeok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.43-44
    • /
    • 2022
  • 기존 자연어 처리 모델은 문맥 단위 단어 임베딩을 처리하지 못하는 한계점을 가지고 있는 한편 최근 BERT 기반 사전학습 모델들은 문장 단위 임베딩이 가능하고 사전학습을 통해 학습 효율이 비약적으로 개선되었다는 특징이 있다. 본 논문에서는 사전학습 언어 모델들을 이용하여 음식점, 배달전문점 등 음식 업종에서 발생한 고객 발화 의도를 분류하고 모델별 성능을 비교하여 최적의 모델을 제안하고자 한다. 연구결과, 사전학습 모델의 한국어 코퍼스와 Vocab 사이즈가 클수록 고객의 발화 의도를 잘 예측하였다. 한편, 본 연구에서 발화자의 의도를 크게 문의와 요청으로 구분하여 진행하였는데, 문의와 요청의 큰 차이점인 '물음표'를 제거한 후 성능을 비교해본 결과, 물음표가 존재할 때 발화자 의도 예측에 좋은 성능을 보였다. 이를 통해 음식 업종에서 발화자의 의도를 예측하는 시스템을 개발하고 챗봇 시스템 등에 활용한다면, 발화자의 의도에 적합한 서비스를 정확하게 적시에 제공할 수 있을 것으로 기대한다.

  • PDF

Prediction of the age of speakers based on Convolutional Neural Networks and polarization model (합성곱 신경망 모델과 극단 모델에 기반한 발화자 연령 예측)

  • Heo, Tak-Sung;Kim, Ji-Soo;Oh, Byoung-Doo;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.614-615
    • /
    • 2018
  • 본 연구는 심층학습 기법을 활용하여 양극 데이터에 대해 학습된 모델로부터 예측된 결과를 바탕으로 언어 장애 여부를 판단하고, 이를 바탕으로 효율적인 언어 치료를 수행할 수 있는 방법론을 제시한다. 발화자의 개별 발화에 대해 데이터화를 하여 합성곱 신경망 모델(CNN)을 학습한다. 이를 이용하여 발화자의 연령 집단을 예측하고 결과를 분석하여 발화자의 언어 연령 및 장애 여부를 판단을 할 수 있다.

  • PDF

Speaker classification and prediction with language model (언어모델을 활용한 문서 내 발화자 예측 분류 모델)

  • Kim, Gyeongmin;Han, Seunggyu;Seo, Jaehyung;Lee, Chanhee;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.317-320
    • /
    • 2020
  • 연설문은 구어체와 문어체 두 가지 특성을 모두 갖고 있는 복합적인 데이터 형태이다. 발화자의 문장 표현, 배열, 그리고 결합에 따라 그 구조가 다르기 때문에, 화자 별 갖는 문체적 특성 또한 모두 다르다. 국정을 다루는 정치인들의 연설문은 국정 현황을 포함한 다양한 주요 문제점을 다룬다. 그러면 발화자의 문서 내 문체적 특성을 고려할 경우, 해당 문서가 어느 정치인의 연설문인지 파악 할 수 있는가? 본 연구에서는 대한민국 정책 브리핑 사이트로부터 한국어 기반 사전 학습된 언어 모델을 활용하여 연설문에 대한 미세조정을 진행함으로써 발화자 예측 분류 모델을 생성하고, 그 가능성을 입증하고자 한다. 본 연구는 5-cross validation으로 모델 성능을 평가하였고 KoBERT, KoGPT2 모델에서 각각 90.22%, 84.41% 정확도를 보였다.

  • PDF

Speaker age estimation and acoustic characteristics: According to pitch and speech rate (화자 연령 지각과 음성적 특성: 음높이와 발화 속도를 중심으로)

  • Seo, YoonJeong;Shin, Jiyoung
    • Phonetics and Speech Sciences
    • /
    • v.11 no.4
    • /
    • pp.9-18
    • /
    • 2019
  • This study aimed to investigate the correlation between speaker's chronological age (CA) and perceived age (PA) and to specify the effect of pitch and speech rate as acoustic cue on judging age, using perceptual testing and acoustic analysis. Three tasks were conducted to identify the degree of listener's accuracy about age estimation. Three perception tasks were conducted to measure the accuracy of 80 Korean listeners when presented with different types of speech. In all the tasks, participants listened to speech samples and gave their estimate of the speaker's age in figures. It was found that Korean listeners are able to gauge the age of a speaker fairly precisely. CA and mean PA were positively correlated in all three tasks. It is clear that the amount and type of information included in the voice samples affected the accuracy of a listener's judgement. Moreover, the result revealed that listeners make use of acoustic information such as pitch and speech rate to estimate speaker's age.

A Speaker Detection System based on Stereo Vision and Audio (스테레오 시청각 기반의 화자 검출 시스템)

  • An, Jun-Ho;Hong, Kwang-Seok
    • Journal of Internet Computing and Services
    • /
    • v.11 no.6
    • /
    • pp.21-29
    • /
    • 2010
  • In this paper, we propose the system which detects the speaker, who is speaking currently, among a number of users. A proposed speaker detection system based on stereo vision and audio is mainly composed of the followings: a position estimation of speaker candidates using stereo camara and microphone, a current speaker detection, and a speaker information acquisition based on a mobile device. We use the haar-like features and the adaboost algorithm to detect the faces of speaker candidates with stereo camera, and the position of speaker candidates is estimated by a triangulation method. Next, the Time Delay Of Arrival (TDOA) is estimated by the Cross Power Spectrum Phase (CPSP) analysis to find the direction of source with two microphone. Finally we acquire the information of the speaker including his position, voice, and face by comparing the information of the stereo camera with that of two microphone. Furthermore, the proposed system includes a TCP client/server connection method for mobile service.

A Study on Noise-Robust Speaker Recognition Methods Based on Ensemble of Decision Scores (앙상블 기법을 이용한 잡음 환경에서의 화자인식 방법에 관한 연구)

  • Yang, Joon-Young;Chang, Joon-Hyuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.457-459
    • /
    • 2018
  • 화자인식 기술은 주어진 임의의 두 발화로부터 발화자의 일치 여부를 판단하여 등록된 화자의 목록으로부터 임의로 입력된 발화의 발화자를 식별하는 기술이다. 그러나, 배경잡음이나 반향이 존재하는 경우에는 음성신호가 왜곡되어 화자인식 성능이 저하될 수 있기 때문에 별도의 음성신호 전처리 알고리즘을 함께 사용할 수 있다. 본 논문에서는 배경잡음이 존재하는 환경에서 다수의 마이크로폰을 통해 수집한 음성신호에 대해 화자인식을 수행하는 방법으로써 parametric multi-channel Wiener filter (PMWF)를 이용한 화자일치 점수 앙상블 기법을 제안한다. 입력신호의 신호대잡음비를 기준으로 점수 결합 시 사용되는 결합계수를 정하고, Wiener filter 로 잡음을 제거하여 얻은 점수와 minimum variance distortionless response (MVDR) 빔포머를 통해 잡음을 제거하여 얻은 정수를 가중결합하는 방식으로 동일오류율을 측정한 결과, 각 전처리 알고리즘을 독립적으로 사용하여 점수를 계산한 경우보다 우수한 성능을 보임을 확인할 수 있었다.

Effects of Lecturer Appearance and Speech Rate on Learning Flow and Teaching Presence in Video Learning (동영상 학습에서 교수자 출연여부와 발화속도가 학습몰입과 교수실재감에 미치는 효과)

  • Tai, Xiao-Xia;Zhu, Hui-Qin;Kim, Bo-Kyeong
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.22 no.1
    • /
    • pp.267-274
    • /
    • 2021
  • The purpose of this study is to investigate differences in learning flow and teaching presence according to the lecturer's appearance and the lecturer's speech rate. For this experiment, 183 freshman students from Xingtai University in China were selected as subjects of the experiment, and a total of four types of lecture videos were developed to test the lecturer's appearance and their speech rates. Data was analyzed through multivariate analysis of variance. According to the results of the analysis, first, learning flow and teaching presence of groups who experienced the presence of the lecturer appeared were significantly higher than the groups who learned without the appearance of the lecturer. Second, the groups who learned from videos with a fast speech rate showed higher learning flow and teaching presence than the group who learned at a slow speech rate. Third, there were no significant differences in both learning flow and teaching presence according to the lecturer's appearance and speech rate. This result provides a theoretical and practical basis for developing customized videos according to learners' characteristics.

Production of English Vowels by Korean Learners (한국인 학습자의 영어 모음 발화 연구)

  • Lee, Kye-Youn;Cho, Mi-Hui
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.9
    • /
    • pp.495-503
    • /
    • 2013
  • The purpose of this study was to investigate how Korean speakers produce English vowels. Twenty one Korean learners produced the vowels [i, ɪ, eɪ, ɛ, æ, ɑ, ʌ, ɔ, oʊ, ʊ, u] in bVt or pVt forms of real words. Acoustic measurements were conducted for the vowel formant frequencies (F1, F2) and duration. Results showed that Korean learners tended to produce the vowel duration longer than native English speakers. Also, the front vowels produced by Korean participants tended to be produced at the more frontal part of the tongue. In addition, Korean participants distinguished the tense and lax pairs not through quality(F1, F2) but through vowel duration. This is different from the native English speakers in that they differentiate tense and lax pairs by quality(F1, F2) as well as vowel duration. Based on these results, pedagogical implications are discussed.

Deep learning-based speech recognition for Korean elderly speech data including dementia patients (치매 환자를 포함한 한국 노인 음성 데이터 딥러닝 기반 음성인식)

  • Jeonghyeon Mun;Joonseo Kang;Kiwoong Kim;Jongbin Bae;Hyeonjun Lee;Changwon Lim
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.1
    • /
    • pp.33-48
    • /
    • 2023
  • In this paper we consider automatic speech recognition (ASR) for Korean speech data in which elderly persons randomly speak a sequence of words such as animals and vegetables for one minute. Most of the speakers are over 60 years old and some of them are dementia patients. The goal is to compare deep-learning based ASR models for such data and to find models with good performance. ASR is a technology that can recognize spoken words and convert them into written text by computers. Recently, many deep-learning models with good performance have been developed for ASR. Training data for such models are mostly composed of the form of sentences. Furthermore, the speakers in the data should be able to pronounce accurately in most cases. However, in our data, most of the speakers are over the age of 60 and often have incorrect pronunciation. Also, it is Korean speech data in which speakers randomly say series of words, not sentences, for one minute. Therefore, pre-trained models based on typical training data may not be suitable for our data, and hence we train deep-learning based ASR models from scratch using our data. We also apply some data augmentation methods due to small data size.