• 제목/요약/키워드: speaker attention

검색결과 29건 처리시간 0.022초

Attention-long short term memory 기반의 화자 임베딩과 I-vector를 결합한 원거리 및 잡음 환경에서의 화자 검증 알고리즘 (Speaker verification system combining attention-long short term memory based speaker embedding and I-vector in far-field and noisy environments)

  • 배아라;김우일
    • 한국음향학회지
    • /
    • 제39권2호
    • /
    • pp.137-142
    • /
    • 2020
  • 문장 종속 짧은 발화에서 문장 독립 긴 발화까지 다양한 환경에서 I-vector 특징에 기반을 둔 많은 연구가 수행되었다. 본 논문에서는 원거리 잡음 환경에서 녹음한 데이터에서 Probabilistic Linear Discriminant Analysis(PLDA)를 적용한 I-vector와 주의 집중 기법을 접목한 Long Short Term Memory(LSTM) 기반의 화자 임베딩을 추출하여 결합한 화자 검증 알고리즘을 소개한다. LSTM 모델의 Equal Error Rate(EER)이 15.52 %, Attention-LSTM 모델이 8.46 %로 7.06 % 성능이 향상되었다. 이로써 본 논문에서 제안한 기법이 임베딩을 휴리스틱 하게 정의하여 사용하는 기존 추출방법의 문제점을 해결할 수 있는 것을 확인하였다. PLDA를 적용한 I-vector의 EER이 6.18 %로 결합 전 가장 좋은 성능을 보였다. Attention-LSTM 기반 임베딩과 결합하였을 때 EER이 2.57 %로 기존보다 3.61 % 감소하여 상대적으로 58.41 % 성능이 향상되었다.

화자 검증을 위한 마스킹된 교차 자기주의 인코딩 기반 화자 임베딩 (Masked cross self-attentive encoding based speaker embedding for speaker verification)

  • 서순신;김지환
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.497-504
    • /
    • 2020
  • 화자 검증에서 화자 임베딩 구축은 중요한 이슈이다. 일반적으로, 화자 임베딩 인코딩을 위해 자기주의 메커니즘이 적용되어졌다. 이전의 연구는 마지막 풀링 계층과 같은 높은 수준의 계층에서 자기 주의를 학습시키는 데 중점을 두었다. 이 경우, 화자 임베딩 인코딩 시 낮은 수준의 계층의 영향이 감소한다는 단점이 있다. 본 연구에서는 잔차 네트워크를 사용하여 Masked Cross Self-Attentive Encoding(MCSAE)를 제안한다. 이는 높은 수준 및 낮은 수준 계층의 특징 학습에 중점을 둔다. 다중 계층 집합을 기반으로 각 잔차 계층의 출력 특징들이 MCSAE에 사용된다. MCSAE에서 교차 자기 주의 모듈에 의해 각 입력 특징의 상호 의존성이 학습된다. 또한 랜덤 마스킹 정규화 모듈은 오버 피팅 문제를 방지하기 위해 적용된다. MCSAE는 화자 정보를 나타내는 프레임의 가중치를 향상시킨다. 그런 다음 출력 특징들이 합쳐져 화자 임베딩으로 인코딩된다. 따라서 MCSAE를 사용하여 보다 유용한 화자 임베딩이 인코딩된다. 실험 결과, VoxCeleb1 평가 데이터 세트를 사용하여 2.63 %의 동일 오류율를 보였다. 이는 이전의 자기 주의 인코딩 및 다른 최신 방법들과 비교하여 성능이 향상되었다.

러시아어 발화시 억양의 역할 (On the Role of the Phatic Function of Intonation in Russian)

  • 박근우
    • 음성과학
    • /
    • 제4권1호
    • /
    • pp.81-89
    • /
    • 1998
  • This paper investigates the phatic function of intonation in Russian by recording and analysing 11 female native speakers of standard Moscow Russian. This paper shows that differences in intonation pattern of a sentence are associated with differences in degree of listener's involvement in the speech. Intonation pattern of an utterance having phatic function appears to be determined by 1) the speaker's readiness to talk to evoke the listener's attention ; 2) the speaker's intention to continue the communication. Some emphasis is placed on the relationship between intonation pattern of an utterance and speaker-listener interaction.

  • PDF

인공지능 스피커(AI speaker) 사례 분석을 통한 고찰 (A study on User Experience of Artificial Intelligence speaker)

  • 조규은;김승인
    • 한국융합학회논문지
    • /
    • 제9권8호
    • /
    • pp.127-133
    • /
    • 2018
  • 본 연구는 4차 산업혁명의 핵심 기술로서 활발히 개발되고 있는 인공지능 스피커의 기술 동향을 분석하고 국내외 출시된 인공지능 스피커의 사례분석을 통해 나아가야 할 방향 제안에 목적이 있다. 연구방법으로는 먼저 문헌연구를 통해 인공지능 스피커의 기술적 배경을 고찰하였으며, 이후 국내외 인공지능 스피커 사례를 조사하였다. 그 결과, 음성의 본질적 한계를 극복하고자 시각인터페이스로의 확장하려는 시도를 보인다. 이러한 시도 중 하나로 스크린 내장형 인공지능 스피커에 주목할 필요가 있다. 인공지능 스피커는 단순히 편의 기능 제공을 넘어 인간과 컴퓨터의 상호작용하는 플랫폼이 되어야 한다. 본 연구에 제시된 시사점을 바탕으로 앞으로 국내 인공지능 스피커의 서비스 발전 방향을 예측하는 것에 참고 자료로 사용될 수 있을 것을 기대한다.

다층 퍼셉트론에서의 빠른 화자 적응을 위한 선택적 주의 학습 (Selective Attentive Learning for Fast Speaker Adaptation in Multilayer Perceptron)

  • 김인철;진성일
    • 한국음향학회지
    • /
    • 제20권4호
    • /
    • pp.48-53
    • /
    • 2001
  • 본 논문에서는 에러 역전파 알고리듬에 기반한 다층 퍼셉트론의 학습 속도를 개선하기 위해 선택적 주의 학습방식을 제안한다. 제안된 방식은 학습 과정에서 세 가지 선택적 주의 기준을 적용하여 학습 데이터베이스 내의 일부 데이터만을 입력 패턴으로 사용하거나 주어진 입력 패턴에 대해 신경회로망내의 특정 영역만 선택적으로 학습이 이루어지도록 한다. 이러한 선택적 주의 기준은 다층 퍼셉트론의 출력층에서 계산된 평균 자승 에러와 은닉층의 각 노드에서 획득된 클래스 의존적인 적합도(relevance)를 이용하여 설정된다. 학습 속도의 개선은 학습 반복 횟수 당 계산량을 줄임으로써 이루어진다. 본 논문에서는 고립 단어 인식시스템에서의 화자 적응 문제에 대해 제안한 선택적 주의 학습방법을 적용하여 그 유효성을 알아보았다. 실험 결과로부터 제안한 선택적 주의 기법이 학습 속도를 평균 60%이상 개선시킬 수 있음을 확인하였다

  • PDF

도착시간지연 특성행렬을 이용한 휴머노이드 로봇의 공간 화자 위치측정 (Spatial Speaker Localization for a Humanoid Robot Using TDOA-based Feature Matrix)

  • 김진성;김의현;김도익;유범재
    • 로봇학회논문지
    • /
    • 제3권3호
    • /
    • pp.237-244
    • /
    • 2008
  • Nowadays, research on human-robot interaction has been getting increasing attention. In the research field of human-robot interaction, speech signal processing in particular is the source of much interest. In this paper, we report a speaker localization system with six microphones for a humanoid robot called MAHRU from KIST and propose a time delay of arrival (TDOA)-based feature matrix with its algorithm based on the minimum sum of absolute errors (MSAE) for sound source localization. The TDOA-based feature matrix is defined as a simple database matrix calculated from pairs of microphones installed on a humanoid robot. The proposed method, using the TDOA-based feature matrix and its algorithm based on MSAE, effortlessly localizes a sound source without any requirement for calculating approximate nonlinear equations. To verify the solid performance of our speaker localization system for a humanoid robot, we present various experimental results for the speech sources at all directions within 5 m distance and the height divided into three parts.

  • PDF

Symbolic Violence of the Native Speaker Fallacy: A Qualitative Case Study of an NNES Teacher

  • Choi, Soo-Joung
    • 영어어문교육
    • /
    • 제15권3호
    • /
    • pp.33-57
    • /
    • 2009
  • Taking the issues of inequity and power between NES and NNES teachers as a starting point, this qualitative study explores the way the widespread belief of the native speaker fallacy manifests itself in one NNES teacher's teaching life and is linked to the teacher's understanding of herself as an English teacher. Guided by critical applied linguistics (Pennycook, 2001) and using Bourdieu's (1991) theorization of symbolic violence, I conducted an instrumental case study (Stake, 1995) in an ESL writing class at a US university. I collected data through classroom observations and interviews over a nine-month period and analyzed the data using the constant comparison method (Glaser and Strauss, 1967). The findings illustrate the ways the dominant ideology of the native speaker fallacy works to maintain and reproduce the status quo unequal relation between NES and NNES teachers by making all parties involved believe in the artificial sociocultural arrangements that favor NES teachers as legitimate. The findings direct our attention to the importance of critical teacher education that will enable future TESOL professionals to engage in critical reflection on diverse issues and envision transformative change. The findings, in particular, point to the need for language support for NNES teachers in TESOL teacher education.

  • PDF

AI 스피커를 활용한 어텐션 메커니즘 기반 멀티모달 우울증 감지 시스템 (Multimodal depression detection system based on attention mechanism using AI speaker)

  • 박준희;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.28-31
    • /
    • 2021
  • 전세계적으로 우울증은 정신 건강 질환으로써 문제가 되고 있으며, 이를 해결하기 위해 일상생활에서의 우울증 탐지에 대한 연구가 진행되고 있다. 따라서 본 논문에서는 일상생활에 밀접하게 연관되어 있는 AI 스피커를 사용한 어텐션 메커니즘(Attention Mechanism) 기반 멀티모달 우울증 감지 시스템을 제안한다. 제안된 방법은 AI 스피커로부터 수집할 수 있는 음성 및 텍스트 데이터를 수집하고 CNN(Convolutional Neural Network)과 BiLSTM(Bidirectional Long Short-Term Memory Network)를 통해 각 데이터에서의 학습을 진행한다. 학습과정에서 Self-Attention 을 적용하여 특징 벡터에 추가적인 가중치를 부여하는 어텐션 메커니즘을 사용한다. 최종적으로 음성 및 텍스트 데이터에서 어텐션 가중치가 추가된 특징들을 합하여 SoftMax 를 통해 우울증 점수를 예측한다.

  • PDF

인공지능 음성 스피커의 의인화 특성 지각 정도가 지속적 이용 의향에 미치는 영향: 통합 수용 모델을 기반으로 (The Effect of Perceived Anthropomorphic Characteristics on Continuous Usage Intention of Artificial Intelligence Voice Speaker : Based on the Integrated Adoption Model)

  • 이성준
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.41-55
    • /
    • 2021
  • AI(Artificial Intelligence) 음성 스피커는 많은 이들의 관심을 받으며 AI 기술 기반 제품 관련 초기 시장 형성과 발전에 중요한 역할을 하고 있다. 이런 가운데 본 연구는 확장된 기술 수용 모델과 인지된 즐거움 및 혁신 저항 요인을 통합한 통합 수용 모델을 기반으로 AI 음성 스피커 지속적 이용 의향 영향 요인들을 살펴보았다. 또한, AI 음성 스피커만의 차별화된 요소로서 3가지 인지된 의인화된 특성들(인지된 이성적지지, 인지된 친밀성, 인지된 인지적 개방성) 요인들이 어떻게 AI 음성 스피커 지속적 이용 의향에 영향을 미치는 지를 살펴 보았다. 자료는 20-30대 AI 음성 스피커 이용 경험자를 중심으로 온라인 설문을 통해 수집되었으며, 수집된 자료는 구조방정식모델(Structural Equation Modeling)을 통하여 분석되었다. 연구결과, 인지된 용이성, 인지된 유용성, 인지된 즐거움 및 혁신 저항 모두 지속적 이용 의향에 유의미한 영향을 미치는 것으로 나타났다. 또한, 인지된 이성적지지, 인지된 친밀성, 인지된 인지적 개방성 3가지 인지된 의인화된 특성들 인지된 용이성, 인지된 유용성 및 인지된 즐거움에 영향을 미치는 것으로 나타났다. 본 연구가 지니는 다양한 함의들도 같이 논의된다.

$Gei^3ta^1$ in Taiwan Mandarin--- A Particular Construction

  • Lee, Chia-Chun
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.268-274
    • /
    • 2007
  • The present paper investigates a particular structure in Taiwan Mandarin, "(NP) + (intensifier) + $gei^3ta^1$ "give him/it"+ adjective" in terms of construction grammar. The structure is mostly observed in utterances of younger generation. Though it is not regarded as a grammatical or standard structure, it is still a register of language. The structure lays emphasis on speaker's attitude toward an undesired, unpleasant event. In most cases, the attitude tends to be negative. The events or propositions must have existed or been completed. The adjectives compatible with this structure belong to category of higher degree. The grammatical usage illustrates semantic bleaching of $gei^3ta^1$. And the changes from giving to a grammatical particle denoting subjective belief is a kind of subjectification. Moreover, $ta^1$ could refer to events or situation expressed by a more complicated grammatical structure, or denotes nothing as a dummy word. Though many previous studies paid attention to the newly developed structure resulted from language contact, the adequate account was not provided. It is hoped through this investigation, we will get a better understanding of this particular structure.

  • PDF