• 제목/요약/키워드: Speech Learning Model

검색결과 187건 처리시간 0.026초

Knowledge Transfer Using User-Generated Data within Real-Time Cloud Services

  • Zhang, Jing;Pan, Jianhan;Cai, Zhicheng;Li, Min;Cui, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권1호
    • /
    • pp.77-92
    • /
    • 2020
  • When automatic speech recognition (ASR) is provided as a cloud service, it is easy to collect voice and application domain data from users. Harnessing these data will facilitate the provision of more personalized services. In this paper, we demonstrate our transfer learning-based knowledge service that built with the user-generated data collected through our novel system that deliveries personalized ASR service. First, we discuss the motivation, challenges, and prospects of building up such a knowledge-based service-oriented system. Second, we present a Quadruple Transfer Learning (QTL) method that can learn a classification model from a source domain and transfer it to a target domain. Third, we provide an overview architecture of our novel system that collects voice data from mobile users, labels the data via crowdsourcing, utilises these collected user-generated data to train different machine learning models, and delivers the personalised real-time cloud services. Finally, we use the E-Book data collected from our system to train classification models and apply them in the smart TV domain, and the experimental results show that our QTL method is effective in two classification tasks, which confirms that the knowledge transfer provides a value-added service for the upper-layer mobile applications in different domains.

확산적 사고력 함양을 위한 안드로이드 기반 토론학습 시스템 개발 (A Development of Android Based Debate Learning System for Divergent Thinking Cultivation)

  • 김은길;김종훈
    • 컴퓨터교육학회논문지
    • /
    • 제14권1호
    • /
    • pp.137-146
    • /
    • 2011
  • 에드워드 드 보노가 개발한 육색 사고모자 기법은 사고의 수월성을 높이고 확산적 사고력 함양에 효과적이다. 특히 토론학습에서 문제를 다양한 입장에서 분석함으로써 합리적인 해결 방안을 모색하는데 효과적이다. 본 논문에서는 효과적인 토론학습을 위하여 육색 사고모자 기법을 바탕으로 학습자의 사고를 안드로이드 기기의 센서를 활용하여 음성과 이미지로 공유할 수 있는 시스템을 개발하였다. 시스템 설계를 위해 토론학습 설계구조모형을 제작하여 도구 및 가이드라인을 분석하였다. 이를 바탕으로 토론학습 시스템을 개발하여 현장교육전문가를 대상으로 시연과 실습을 통해 시스템의 효용성 검증과 개선 방향을 분석하였다. 평가 결과 개발한 시스템은 기존의 웹 기반 토론 학습 시스템에 비해 학습 동기 유발 및 토론 능력 향상에 효과적일 것으로 분석되었다.

  • PDF

주의집중 메커니즘 기반의 양방향 GRU-CRF를 이용한 화행 분석과 슬롯 필링 공동 학습 모델 (A Joint Learning Model for Speech-act Analysis and Slot Filling Using Bidirectional GRU-CRF Based on Attention Mechanism)

  • 윤정민;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-255
    • /
    • 2018
  • 화행 분석이란 자연어 발화를 통해 나타나는 화자의 의도를 파악하는 것을 말하며, 슬롯 필링이란 자연어 발화에서 도메인에 맞는 정보를 추출하기 위해 미리 정의되어진 슬롯에 대한 값을 찾는 것을 말한다. 최근 화행 분석과 슬롯 필링 연구는 딥 러닝 기반의 공동 학습을 이용하는 연구가 많이 이루어지고 있고 본 논문에서는 한국어 특허상담 도메인 대화 말뭉치를 이용하여 공동 학습 모델을 구축하고 개별적인 모델과 성능을 비교한다. 또한 추가적으로 공동 학습 모델에 주의집중 메커니즘을 적용하여 성능이 향상됨을 보인다. 최종적으로 주의집중 메커니즘 기반의 공동 학습 모델이 기준 모델과 비교하여 화행 분류와 슬롯 필링 성능이 각각 3.35%p, 0.54%p 향상되어 85.41%, 80.94%의 성능을 얻었다.

  • PDF

Variational autoencoder for prosody-based speaker recognition

  • Starlet Ben Alex;Leena Mary
    • ETRI Journal
    • /
    • 제45권4호
    • /
    • pp.678-689
    • /
    • 2023
  • This paper describes a novel end-to-end deep generative model-based speaker recognition system using prosodic features. The usefulness of variational autoencoders (VAE) in learning the speaker-specific prosody representations for the speaker recognition task is examined herein for the first time. The speech signal is first automatically segmented into syllable-like units using vowel onset points (VOP) and energy valleys. Prosodic features, such as the dynamics of duration, energy, and fundamental frequency (F0), are then extracted at the syllable level and used to train/adapt a speaker-dependent VAE from a universal VAE. The initial comparative studies on VAEs and traditional autoencoders (AE) suggest that the former can efficiently learn speaker representations. Investigations on the impact of gender information in speaker recognition also point out that gender-dependent impostor banks lead to higher accuracies. Finally, the evaluation on the NIST SRE 2010 dataset demonstrates the usefulness of the proposed approach for speaker recognition.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.

영화를 활용한 사람돌봄이론 교육프로그램 개발 (Development of Interpersonal Caring Theory Education Program Using Films)

  • 김희영
    • 한국콘텐츠학회논문지
    • /
    • 제21권10호
    • /
    • pp.508-519
    • /
    • 2021
  • 본 연구의 목적은 사람돌봄이론(Interpersonal Caring Theory; ICT)의 이해와 적용의 확장을 위하여 영화를 활용한 ICT 교육프로그램을 개발하는 것이었다. 본 연구는 2020년 2월부터 10월까지 수행되었다. ICT 10개 요소를 분석해 영화를 선정하였고, Kolb(1984)의 경험학습모형에 따라 프로그램을 개발하였다. 영화 선정의 타당성은 간호사 11명이 임상전문가로서 프로그램의 시범 운영에 참여한 후 평가하였다. 선정된 영화는 블라인드 사이드(알아봐 줌), 바베트의 만찬(동참함), 굿 윌 헌팅(공유함), 킹스 스피치(경청함), 굿바이 마이프렌드(동행함), 홀랜드 오퍼스(칭찬함), 패치 아담스(안위 제공함), 쇼생크 탈출(희망 불어넣음), 미션(용서함), 사도(수용함)이었다. 프로그램은 총 12회기로 구성되었으며 각 회기에는 경험학습모형의 단계를 위한 토의질문이 포함되었다. 프로그램을 시범 운영한 후 ICT의 요소에 따른 영화 선정의 타당성을 평가한 결과 선정된 영화는 모두 적절한 것으로 평가되었다(I-CVI=0.98). 영화를 활용한 ICT 교육프로그램은 간호사와 간호대학생을 대상으로 돌봄의 역량을 증진시키기 위해 사용될 수 있을 것이다.

소 부류 객체 분류를 위한 CNN기반 학습망 설계 (Training Network Design Based on Convolution Neural Network for Object Classification in few class problem)

  • 임수창;김승현;김연호;김도연
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.144-150
    • /
    • 2017
  • 최근 데이터의 지능적 처리 및 정확도 향상을 위해 딥러닝 기술이 응용되고 있다. 이 기술은 다층의 데이터 처리 레이어들로 구성된 계산 모델을 통해 이루어지는데, 이 모델은 여러 수준의 추상화를 거쳐 데이터의 표현을 학습한다. 딥러닝의 한 부류인 컨볼루션 신경망은 인간 행동 추정, 얼굴 인식, 이미지 분류, 음성 인식 같은 연구 분야에서 많이 활용되고 있다. 이미지 분류에 좋은 성능을 보여주는 컨볼루션 신경망은 깊은 학습망과 많은 부류를 이용하면 효과적으로 분류율을 높일수 있지만, 적은 부류의 데이터를 사용할 경우, 과적합 문제가 발생할 확률이 높아진다. 따라서 본 논문에서는 컨볼루션 신경망기반의 소부류의 분류을 위한 학습망을 제작하여 자체적으로 구축한 이미지 DB를 학습시키고, 객체를 분류하는 연구를 실험 하였으며, 1000개의 부류를 분류하기 위해 제작된 기존 공개된 망들과 비교 실험을 통해 기존 망보다 평균 7.06%이상의 상승된 분류율을 보여주었다.

딥러닝 기술을 활용한 차별 및 혐오 표현 탐지 : 어텐션 기반 다중 채널 CNN 모델링 (Bias & Hate Speech Detection Using Deep Learning: Multi-channel CNN Modeling with Attention)

  • 이원석;이현상
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1595-1603
    • /
    • 2020
  • 포털 사이트의 인터넷 뉴스 댓글, SNS, 커뮤니티 사이트 등의 온라인상에서 명예 훼손 사건이 최근 점점 증가하고 있다. 온라인상의 차별 및 혐오 표현은 명예 훼손 문제뿐만 아니라 사생활 침해, 인신 공격 등 다양한 형태로 온라인 서비스 이용자들을 위협하고 있다. 지난 몇 년간 산업계와 학계는 이러한 문제를 해결하고자 다양한 방법으로 연구해왔다. 하지만 한국어 대상으로 수행된 딥러닝 기반 혐오 표현 탐지 연구는 아직까지 부족한 상황이다. 본 연구의 목적은 혐오 표현뿐만 아니라 다양한 차별적 표현에 대한 탐지를 위해 데이터셋을 구축하고 이를 분류하기 위한 딥러닝 모델링을 실험하는 것이다. 데이터셋 구축은 10명의 인원이 교차적으로 검토를 하면서 7개 항목에 대한 라벨링 기준을 확립했다. 본 연구는 약 137,111개에 해당하는 한국어 인터넷 뉴스 댓글 데이터셋에 대해 7개의 항목을 각각 이진 분류하고, 이를 딥러닝 기법을 통해 분석한다. 본 연구에서 제안하는 기법은 어텐션 기반 다중 채널 CNN 모델링 기법이다. 실험 결과 7개 항목에 대해 가중 평균 f1 점수를 평가했을 때, 70.32%의 성능을 달성했다.

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.