• 제목/요약/키워드: 발화자

검색결과 176건 처리시간 0.026초

발화자별 발화 속도를 고려한 실시간 동시통역 분절 방법론 (Segmentation Methods for Different Speech Rate in Simultaneous Interpretation)

  • 구영은;김지연;홍정표;홍문표;최승권
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.369-374
    • /
    • 2020
  • 동시통역은 원천텍스트의 의미를 잘 전달하는 것 뿐만 아니라, 순차통역이나 번역과 달리, 지연 시간없이 즉각적으로 번역하는 것이 매우 중요하다. 따라서 적절한 길이의 지점에서 원천텍스트를 분절해야 한다. 그러나 발화자마다 발화 속도가 서로 다르며, 이 발화 속도는 전체 발화에서 늘 일정하지 않기 때문에, 분절단위의 적절한 길이를 설정하는 것은 상당히 어려운 과제이다. 본 연구에서는 발화자마다 발화 속도가 다른 상황과 발화가 진행되는 동안 실시간으로 발화 속도가 변화하는 상황에 적응 가능한 동시통역 분절 방법론(개인화 기법)을 제안한다. 이를 위해 본 논문에서는 먼저 동시통역 데이터를 이용하여 기준 발화 속도를 설정하였다. 그 다음 이를 원천 발화의 현재 속도와 비교하여 실시간으로 해당 발화자에게 있어 최적의 분절길이가 얼마인지 계산한다. 제안한 개인화 기법의 효력을 검증하기 위해 실험을 진행하였고, 그 결과 개인화를 적용하면 분절 성능이 높아졌다.

  • PDF

사전학습 모델을 이용한 음식업종 고객 발화 의도 분류 분석 (Analysis of utterance intent classification of cutomer in the food industry using Pretrained Model)

  • 김준회;임희석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.43-44
    • /
    • 2022
  • 기존 자연어 처리 모델은 문맥 단위 단어 임베딩을 처리하지 못하는 한계점을 가지고 있는 한편 최근 BERT 기반 사전학습 모델들은 문장 단위 임베딩이 가능하고 사전학습을 통해 학습 효율이 비약적으로 개선되었다는 특징이 있다. 본 논문에서는 사전학습 언어 모델들을 이용하여 음식점, 배달전문점 등 음식 업종에서 발생한 고객 발화 의도를 분류하고 모델별 성능을 비교하여 최적의 모델을 제안하고자 한다. 연구결과, 사전학습 모델의 한국어 코퍼스와 Vocab 사이즈가 클수록 고객의 발화 의도를 잘 예측하였다. 한편, 본 연구에서 발화자의 의도를 크게 문의와 요청으로 구분하여 진행하였는데, 문의와 요청의 큰 차이점인 '물음표'를 제거한 후 성능을 비교해본 결과, 물음표가 존재할 때 발화자 의도 예측에 좋은 성능을 보였다. 이를 통해 음식 업종에서 발화자의 의도를 예측하는 시스템을 개발하고 챗봇 시스템 등에 활용한다면, 발화자의 의도에 적합한 서비스를 정확하게 적시에 제공할 수 있을 것으로 기대한다.

  • PDF

합성곱 신경망 모델과 극단 모델에 기반한 발화자 연령 예측 (Prediction of the age of speakers based on Convolutional Neural Networks and polarization model)

  • 허탁성;김지수;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.614-615
    • /
    • 2018
  • 본 연구는 심층학습 기법을 활용하여 양극 데이터에 대해 학습된 모델로부터 예측된 결과를 바탕으로 언어 장애 여부를 판단하고, 이를 바탕으로 효율적인 언어 치료를 수행할 수 있는 방법론을 제시한다. 발화자의 개별 발화에 대해 데이터화를 하여 합성곱 신경망 모델(CNN)을 학습한다. 이를 이용하여 발화자의 연령 집단을 예측하고 결과를 분석하여 발화자의 언어 연령 및 장애 여부를 판단을 할 수 있다.

  • PDF

언어모델을 활용한 문서 내 발화자 예측 분류 모델 (Speaker classification and prediction with language model)

  • 김경민;한승규;서재형;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-320
    • /
    • 2020
  • 연설문은 구어체와 문어체 두 가지 특성을 모두 갖고 있는 복합적인 데이터 형태이다. 발화자의 문장 표현, 배열, 그리고 결합에 따라 그 구조가 다르기 때문에, 화자 별 갖는 문체적 특성 또한 모두 다르다. 국정을 다루는 정치인들의 연설문은 국정 현황을 포함한 다양한 주요 문제점을 다룬다. 그러면 발화자의 문서 내 문체적 특성을 고려할 경우, 해당 문서가 어느 정치인의 연설문인지 파악 할 수 있는가? 본 연구에서는 대한민국 정책 브리핑 사이트로부터 한국어 기반 사전 학습된 언어 모델을 활용하여 연설문에 대한 미세조정을 진행함으로써 발화자 예측 분류 모델을 생성하고, 그 가능성을 입증하고자 한다. 본 연구는 5-cross validation으로 모델 성능을 평가하였고 KoBERT, KoGPT2 모델에서 각각 90.22%, 84.41% 정확도를 보였다.

  • PDF

화자 연령 지각과 음성적 특성: 음높이와 발화 속도를 중심으로 (Speaker age estimation and acoustic characteristics: According to pitch and speech rate)

  • 서윤정;신지영
    • 말소리와 음성과학
    • /
    • 제11권4호
    • /
    • pp.9-18
    • /
    • 2019
  • 본고는 한국인 피험자를 대상으로 지각 실험을 진행하여 화자의 실제 연령(Chronological age)과 지각 연령(Perceived age) 간의 상관관계를 살피고, 한국인 피험자가 얼마나 정확하게 익명의 화자의 연령을 지각할 수 있는지를 밝히고자 한다. 또한, 이러한 연령 지각에 음성적 단서가 되는 음높이와 발화 속도와 지각 연령 간의 영향 관계를 검토하고자 한다. 이를 위해, 성인 80명을 대상으로 3가지 과제로 구성된 지각 실험을 진행하였다. 실험 자극은 표준어 화자 40명에게서 추출되었으며, 자유 발화, 낭독 발화, 모음 연장 발성으로 구성되었다. 각 실험은 10초 내외의 음성을 듣고 연령을 구체적인 숫자로 답하는 방식으로 진행되었다. 분석 결과, 한국인 피험자들은 상당히 높은 판단 정확도를 보였으며, 모음 연장 발성을 들었을 때보다 자유 발화와 낭독 발화를 들었을 때 화자의 연령을 더욱 정확하게 짐작하였다. 이러한 결과는 음성이 포함하고 있는 정보량의 차이에 기인한 것으로 보인다. 또한, 음성 분석을 수행한 결과 피험자들은 화자의 음높이와 발화 속도를 참고하여 화자의 연령을 추정하는 것으로 나타났으며, 음높이보다는 발화 속도가 연령 지각에 더 적극적으로 기여한 것으로 나타났다.

스테레오 시청각 기반의 화자 검출 시스템 (A Speaker Detection System based on Stereo Vision and Audio)

  • 안준호;홍광석
    • 인터넷정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.21-29
    • /
    • 2010
  • 본 논문에서 다수의 사용자 중에서 현재 발성하고 있는 화자를 검출하는 스테레오 시청각 기반의 화자 검출 시스템을 제안한다. 제안한 시스템은 두 개의 마이크를 이용한 음원 위치추정, 스테레오 카메라를 이용한 영상정합 및 발화자 후보 위치 추정, 그리고 모바일 기반의 화자 검출 정보 획득으로 구성되어 있다. 스테레오 카메라로부터 획득한 화자의 영상정보를 바탕으로 Adaboost 알고리즘과 Haar-like 특징을 이용하여 발화자 후보들의 얼굴을 검출하고 이를 기반으로 삼각측량법을 이용하여 발화자 후보들의 위치를 추정한다. 그리고 2개의 마이크로부터 획득한 화자의 음성정보를 바탕으로 CPSP(Cross Power Spectrum Phase)기반의 TDOA(Time Differnce of Arrival)추정을 통해 음원의 방향을 추정한다. 최종적으로 스테레오 카메라를 통해 측정된 정보와 마이크를 통해 얻은 정보를 비교 분석하여 현재 발화자를 검출한다. 검출된 화자 정보에 대한 보다 차별화 된 서비스 제공을 위해 TCP 서버/클라이언트 구조 기반의 모바일 화자 검출 정보 획득 시스템을 구현하고 평가하였다.

앙상블 기법을 이용한 잡음 환경에서의 화자인식 방법에 관한 연구 (A Study on Noise-Robust Speaker Recognition Methods Based on Ensemble of Decision Scores)

  • 양준영;장준혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.457-459
    • /
    • 2018
  • 화자인식 기술은 주어진 임의의 두 발화로부터 발화자의 일치 여부를 판단하여 등록된 화자의 목록으로부터 임의로 입력된 발화의 발화자를 식별하는 기술이다. 그러나, 배경잡음이나 반향이 존재하는 경우에는 음성신호가 왜곡되어 화자인식 성능이 저하될 수 있기 때문에 별도의 음성신호 전처리 알고리즘을 함께 사용할 수 있다. 본 논문에서는 배경잡음이 존재하는 환경에서 다수의 마이크로폰을 통해 수집한 음성신호에 대해 화자인식을 수행하는 방법으로써 parametric multi-channel Wiener filter (PMWF)를 이용한 화자일치 점수 앙상블 기법을 제안한다. 입력신호의 신호대잡음비를 기준으로 점수 결합 시 사용되는 결합계수를 정하고, Wiener filter 로 잡음을 제거하여 얻은 점수와 minimum variance distortionless response (MVDR) 빔포머를 통해 잡음을 제거하여 얻은 정수를 가중결합하는 방식으로 동일오류율을 측정한 결과, 각 전처리 알고리즘을 독립적으로 사용하여 점수를 계산한 경우보다 우수한 성능을 보임을 확인할 수 있었다.

동영상 학습에서 교수자 출연여부와 발화속도가 학습몰입과 교수실재감에 미치는 효과 (Effects of Lecturer Appearance and Speech Rate on Learning Flow and Teaching Presence in Video Learning)

  • 태효하;제혜금;김보경
    • 한국산학기술학회논문지
    • /
    • 제22권1호
    • /
    • pp.267-274
    • /
    • 2021
  • 본 연구는 동영상 학습에서 교수자 출연 여부와 교수자 발화속도가 학습몰입과 교수실재감의 효과에 차이를 나타내는지를 실험을 통해 밝히는 것이다. 실험 대상자는 중국 형태대학교 1학년 183명이며, 이들에게 교수자가 출연여부와 발화속도 고저의 4가지 동영상을 학습하도록 한 후, 학습몰입과 교수실재감을 측정하였다. 수집된 자료는 다변량분산분석을 통해 분석하였다. 분석결과 첫째, 교수자가 출연한 동영상을 학습한 집단이 그렇지 않은 집단보다 학습몰입과 교수실재감이 모두 높게 나타났다. 둘째, 교수자의 발화속도가 높은 동영상으로 학습한 집단이 낮은 동영상으로 학습한 집단보다 학습몰입과 교수실재감이 모두 높게 나타났다. 셋째, 교수자 출연여부와 발화속도의 학습몰입과 교수실재감에 대한 상호작용 효과는 유의한 차이가 없는 것으로 나타났다. 이러한 연구결과는 대학 수업에서 효과적인 학습을 위한 강의 동영상을 개발할 때 교수자의 출연여부와 발화속도를 어떻게 설계할 것인지에 대한 이론적·실천적 근거를 제공한다. 즉 가급적 동영상에 교수자가 출연하여 표정, 몸짓과 같은 비언어적 방식으로 사회적 단서를 제시하는 것이 중요하다. 또한 교수자는 동영상에서 약간 빠른 속도로 설명함으로써 학생이 학습에 더 집중하여 몰입하게 할 수 있다. 교수자 출연과 빠른 발화속도는 학습에 몰입하게 하고, 동영상에서 교수행위가 실재로 이루어지고 있다는 느낌을 주게 한다는 것을 시사한다.

한국인 학습자의 영어 모음 발화 연구 (Production of English Vowels by Korean Learners)

  • 이계윤;초미희
    • 한국콘텐츠학회논문지
    • /
    • 제13권9호
    • /
    • pp.495-503
    • /
    • 2013
  • 21명의 한국인 대학생의 영어모음 발화와 원어민의 발화를 비교하여 두 집단의 음향적 특성을 밝히는 것이 본 연구의 목적이다. 따라서 한국인 영어학습자들의 전반적인 영어 모음의 발화 양상을 알아보기 위하여 11개의 영어모음([i, ɪ, eɪ, ɛ, æ, ɑ, ʌ, ɔ, oʊ, ʊ, u])을 사료로 하여 발화테스트를 실시하였다. 원어민과 한국인 사이의 포먼트값(F1, F2)과 모음의 길이를 비교한 결과 전체적으로는 원어민에 비해 전설 모음에서 한국인이 더 앞쪽에서 발화하고, 또한 모음들을 길게 발화한 특징이 보였다. 특히 긴장과 이완모음의 경우, 원어민은 이 모음들을 발화시 음향적인 단서(F1, F2)와 발화 길이를 모두 사용하여서 음향적으로도 두 모음을 구별하여 발화하였고, 길이에 있어서도 긴장모음을 이완모음 보다 더 길게 발화하여 구별하였다. 반면에, 한국인은 긴장과 이완모음을 구별할 때 음향적인 차이로 구별하지 않고, 긴장모음을 더 길게 발화함으로써 길이로써 긴장과 이완모음을 구별하는 것으로 나타났다. 끝으로 이러한 모든 결과를 종합하여 교육적인 함축점도 논의되었다.

치매 환자를 포함한 한국 노인 음성 데이터 딥러닝 기반 음성인식 (Deep learning-based speech recognition for Korean elderly speech data including dementia patients)

  • 문정현;강준서;김기웅;배종빈;이현준;임창원
    • 응용통계연구
    • /
    • 제36권1호
    • /
    • pp.33-48
    • /
    • 2023
  • 본 연구에서는 발화자가 동물이나 채소와 같은 일련의 단어를 무작위로 일 분 동안 말하는 한국어 음성 데이터에 대한 자동 음성 인식(ASR) 문제를 고려하였다. 발화자의 대부분은 60세 이상의 노인이며 치매 환자를 포함하고 있다. 우리의 목표는 이러한 데이터에 대한 딥러닝 기반 자동 음성 인식 모델을 비교하고 성능이 좋은 모델을 찾는 것이다. 자동 음성 인식은 컴퓨터가 사람이 말하는 말을 자동으로 인식하여 음성을 텍스트로 변환할 수 있는 기술이다. 최근 들어 자동 음성 인식 분야에서 성능이 좋은 딥러닝 모델들이 많이 개발되어 왔다. 이러한 딥러닝 모델을 학습시키기 위한 데이터는 대부분 대화나 문장 형식으로 이루어져 있다. 게다가, 발화자들 대부분은 어휘를 정확하게 발음할 수 있어야 한다. 반면에, 우리 데이터의 발화자 대부분은 60세 이상의 노인으로 발음이 부정확한 경우가 많다. 또한, 우리 데이터는 발화자가 1분 동안 문장이 아닌 일련의 단어를 무작위로 말하는 한국어 음성 데이터이다. 따라서 이러한 일반적인 훈련 데이터를 기반으로 한 사전 훈련 모델은 본 논문에서 고려하는 우리 데이터에 적합하지 않을 수 있으므로, 우리는 우리의 데이터를 사용하여 딥러닝 기반 자동 음성 인식 모델을 처음부터 훈련한다. 또한 데이터 크기가 작기 때문에 일부 데이터 증강 방법도 적용한다.