• 제목/요약/키워드: Voice learning

검색결과 262건 처리시간 0.026초

Gender Classification of Speakers Using SVM

  • Han, Sun-Hee;Cho, Kyu-Cheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권10호
    • /
    • pp.59-66
    • /
    • 2022
  • 본 논문에서는 음성 데이터에서 특징벡터를 추출한 후 이를 분석하여 화자의 성별을 분류하는 연구를 진행하였다. 본 연구는 고객이 전화 등 음성을 통해 서비스를 요청할 시 요청한 고객의 성별을 자동으로 인식함으로써 직접 듣고 분류하지 않아도 되는 편의성을 제공한다. 학습된 모델을 활용하여 성별을 분류한 후 성별마다 요청 빈도가 높은 서비스를 분석하여 고객 맞춤형 추천 서비스를 제공하는 데에 유용하게 활용할 수 있다. 본 연구는 공백을 제거한 남성 및 여성의 음성 데이터를 기반으로 각각의 데이터에서 MFCC를 통해 특징벡터를 추출한 후 SVM 모델을 활용하여 기계학습을 진행하였다. 학습한 모델을 활용하여 음성 데이터의 성별을 분류한 결과 94%의 성별인식률이 도출되었다.

Voxceleb과 한국어를 결합한 새로운 데이터셋으로 학습된 ECAPA-TDNN을 활용한 화자 검증 (Speaker verification with ECAPA-TDNN trained on new dataset combined with Voxceleb and Korean)

  • 윤금재;박소영
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.209-224
    • /
    • 2024
  • 화자검증(speaker verification)이란 두개의 음성 데이터로부터 같은 화자의 목소리 인지 아닌지를 판단하는것을 말한다. 범죄현장에서 범인의 목소리만이 증거로 남는경우, 두개의 목소리를 객관적이고 정확하게 비교할 수 있는 화자 검증 시스템 또는 화자 매칭 시스템의 구축이 시급하다. 본 연구에서는 한국어에 대한 화자검증 딥러닝 모형을 새롭게 구축하고, 학습에 필요한 적절한 형태의 학습데이터셋에 대해 연구한다. 음성데이터는 고차원이면서 백그라운드 노이즈를 포함하는 등의 변동성이 큰 특징이 있다. 따라서 화자 검증 시스템을 구축하기위해 딥러닝 기반의 방법 선택하는경우가 많다. 본 연구에서는 ECAPA-TDNN 모형을 선택하여 화자 매칭 알고리즘을 구축하였다. 구축한 모형을 학습시키는데 사용한 Voxceleb은 대용량의 목소리 데이터로 다양한 국적을 가진 사람들로부터 음성데이터를 포함하지만 한국어에 대한 정보는 포함하지 않는 다. 본 연구에서는 한국어 음성데이터를 학습에 포함시켰을때와 포함시키지 않았을때 학습 데이터 내 해당언어의 존재 유무가 모델의 성능에 미치는 영향에 대해 파악하였다. Voxceleb으로만 학습한 모델과 언어와 화자의 다양성을 최대로 하기 위해 Voxceleb과 한국어 데이터셋을 결합한 데이터셋으로 학습한 모델을 비교하였을 때, 모든 테스트 셋에 대해 한국어를 포함한 학습데이터의 성능이 개선됨을 보인다.

음성패턴인식 인터랙티브 콘텐츠 개발 (Interactive content development of voice pattern recognition)

  • 나종원
    • 한국항행학회논문지
    • /
    • 제16권5호
    • /
    • pp.864-870
    • /
    • 2012
  • 언어 학습 콘텐츠에서 공통적으로 가질 수 있는 문제점들을 분석하고 문제점에 대하여 음성 패턴인식기술을 적용하여 기존의 문제점을 해결하였다. 언어 학습 콘텐츠의 첫 번째 문제점은 온라인 학습 자세이다. 수업 진행은 되었지만 다른 웹 페이지를 열어 게임을 하는 등 학생들의 집중력은 떨어졌다. 두 번 째 문제점은 Speaking 학습 과정을 만들었지만 실제로 따라 읽는지 판단할 수가 없었다. 세 번 째 문제점은 학습 관리 시스템에 의한 기계적 진행이 아니라 선생님들의 평가에 의해 잘하는 학생들과 못하는 학생간의 학습 진행에 차이를 둘 필요가 생겼다. 마지막으로 가장 큰 문제는 기존에 만들어 놓은 콘텐츠들은 그대로 유지되면서 위의 문제들을 해결할 수 있어야 했다. 이러한 배경 하에 음성 패턴인식기술은 말하기 학습 전용 학습 프로그램으로 학습 진행을 위한 음성인식은 물론 학습 자체를 위한 음성인식 기능들을 모두 가지고 있으며 인식 절차에 사용된 학습자의 발화 데이터를 원하는 형태의 오디오 파일로 변경하여 서버의 특정 위치로 전송하거나 SQL서버에 등록할 수도 있으며, 또한 컴포넌트이기 때문에 그 어떠한 시스템이나 프로그램이라도 모두 적용 가능하고 이미 만들어진 콘텐츠 전체를 손상시키지 않고 쉽게 삽입하여 새로운 기능들을 사용할 수 있었다. 본 논문으로 교육 방식을 보다 인터렉티브하게 바꾸어 적극적인 수업참여가 되도록 기여하였다.

A Voice Controlled Service Robot Using Support Vector Machine

  • Kim, Seong-Rock;Park, Jae-Suk;Park, Ju-Hyun;Lee, Suk-Gyu
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2004년도 ICCAS
    • /
    • pp.1413-1415
    • /
    • 2004
  • This paper proposes a SVM(Support Vector Machine) training algorithm to control a service robot with voice command. The service robot with a stereo vision system and dual manipulators of four degrees of freedom implements a User-Dependent Voice Control System. The training of SVM algorithm that is one of the statistical learning theories leads to a QP(quadratic programming) problem. In this paper, we present an efficient SVM speech recognition scheme especially based on less learning data comparing with conventional approaches. SVM discriminator decides rejection or acceptance of user's extracted voice features by the MFCC(Mel Frequency Cepstrum Coefficient). Among several SVM kernels, the exponential RBF function gives the best classification and the accurate user recognition. The numerical simulation and the experiment verified the usefulness of the proposed algorithm.

  • PDF

한국어 언어 모델을 활용한 보이스피싱 탐지 기능 개선 (Exploiting Korean Language Model to Improve Korean Voice Phishing Detection)

  • ;박동주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권10호
    • /
    • pp.437-446
    • /
    • 2022
  • 보이스피싱 통화 내용을 탐지하고 분류하는데 핵심 엔진으로 최신 머신러닝(ML) 및 딥러닝(DL) 알고리즘과 결합된 자연어 처리(NLP)의 텍스트 분류 작업이 널리 사용된다. 비대면 금융거래의 증가와 더불어 보이스피싱 통화 내용 분류에 대한 많은 연구가 진행되고 양호한 성과를 보이고 있지만, 최신 NLP 기술을 활용한 성능 개선의 필요성이 여전히 존재한다. 본 논문은 KorCCVi라는 레이블이 지정된 한국 보이스 피싱 데이터의 텍스트 분류를 기반으로 여러 다른 최신 알고리즘과 비교하여 사전 훈련된 한국어 모델 KoBERT의 한국 보이스 피싱 탐지 성능을 벤치마킹한다. 실험 결과에 따르면 KoBERT 모델의 테스트 집합에서 분류 정확도가 99.60%로 다른 모든 모델의 성능을 능가한다.

빅데이터와 FDS를 활용한 보이스피싱 피해 예측 방법 연구 (A Study on the Prediction Method of Voice Phishing Damage Using Big Data and FDS)

  • 이승용;이주락
    • 시큐리티연구
    • /
    • 제62호
    • /
    • pp.185-203
    • /
    • 2020
  • 2009년 이후 전체 범죄는 감소하고 있지만, 보이스피싱은 오히려 급증하고 있다. 정부와 학계에서는 이를 근절하기 위해 다양한 대책을 제시하고 연구를 진행해 왔으나 진화하는 보이스피싱을 따라잡기에는 역부족이다. 이 연구에서 연구자들은 범인 검거와 피해회복이 어려운 보이스피싱의 피해 예방에 초점을 두었다. 특히, 피해자가 금융거래행위(계좌이체 등)를 한다는 점이 금융사기(이상거래)와 유사하다는 점에 착안하여, 금융사기 탐지에 활용되고 있는 이상거래탐지시스템(FDS)을 활용한 보이스피싱 예측 방안을 연구하였다. 그 결과 머신러닝 기반의 이상거래탐지시스템(FDS)에 보이스피싱과 관련한 통화내역, 메신저내역, 대포통장, 보이스피싱 유형과 112신고 등 빅데이터를 결합한 방안을 개념적으로 도출하였다. 이 연구에서는 주로 정부 대책과 빅데이터 활용과 관련한 문헌연구를 중심으로 연구를 진행했다. 그러나 데이터 수집의 한계와 FDS의 보안 문제로 구체적인 모델까지를 제시하지는 못하였다. 다만, 관련된 선행연구가 없는 현실에서 머신러닝을 위해 필요한 데이터 종류와 FDS를 융합한 보이스피싱 대응방안의 개념을 최초로 제시했다는 점에 의미가 있다. 향후 이 연구를 바탕으로 '보이스피싱 피해 예측 시스템'이 개발되어 보이스피싱 피해가 근절되기를 기대한다.

Phonetic Posterior Grams에 의해 조건화된 적대적 생성 신경망을 사용한 음성 변환 시스템 (Voice Conversion using Generative Adversarial Nets conditioned by Phonetic Posterior Grams)

  • 임진수;강천성;김동하;김경섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.369-372
    • /
    • 2018
  • 본 논문은 매핑 되지 않은 입력 음성과 목표음성 사이에 음성 변환하는 비 병렬 음성 변환 네트워크를 제안한다. 기존 음성 변환 연구에서는 변환 전후 스펙트로그램의 거리 오차를 최소화하는 방법을 주로 학습 한다. 이러한 방법은 MSE의 이미지를 평균 내는 특징으로 인하여 생성된 스펙트로그램의 해상도가 저하되는 문제점이 있었다. 또한, 병렬 데이터를 사용해 연구를 진행했기 때문에 데이터를 수집하는 것에도 어려움이 많았다. 본 논문에서는 입력 음성의 발음 PPGs를 사용하여 비 병렬 데이터 간 학습을 진행 하며, GAN 학습을 통해 더욱 선명한 음성을 생성하는 방법을 사용하였다. 제안한 방법의 유효성을 검증하기 위해서 기존 음성 변환 시스템에서 많이 사용하는 GMM 기반 모델과 MOS 테스트를 진행하였으며 기존 모델에 비하여 성능이 향상되는 결과를 얻었다.

  • PDF

VoiceXML을 이용한 Web 연동 학습 시스템 설계 및 구현 (Design and Implementation of Web Interworking Learning System Using VoiceXML)

  • 김동현;조창수;신정훈;홍광석
    • 전자공학회논문지CI
    • /
    • 제42권2호
    • /
    • pp.21-30
    • /
    • 2005
  • 멀티미디어 및 통신망 기술의 발전은 학습 시스템 구현 측면에서의 많은 변화를 이룩하였다. 보다 창의적이며, 보다 효율적인 학습 시스템 구축을 위한 연구가 Web 및 전화망을 이용하여 시도되었다. 그러나 현재까지 구현된 학습 시스템의 경우 웹 또는 전화망을 이용한 단독 시스템으로 각각의 장 단점을 가지고 있다. 즉, Web을 이용한 학습 시스템의 활용을 통한 학습시 단점으로는 컴퓨터를 활용한 정적인 상태에서의 학습만 가능하며, 컴퓨터를 사용하지 못하는 사람들에겐 이용하기 위한 새로운 시스템 활용법을 익혀야 하는 문제점이 존재하였다. 또한, 전화망을 이용한 학습 시스템의 경우 언제 어디서나 전화를 활용학습이 가능하다는 장점을 가지고 있으나, 컴퓨터를 활용한 시스템과 같이 심도있게 효율적으로 정보의 전달이 이루어지지 않는다는 단점을 가지고 있다. 이에 본 논문에서는 VoiceXML을 활용하며 전화망을 경유한 학습 시스템과 Web 기반 학습 시스템의 연동을 통한, 효율적이며 편리한, 언제 어디서나 활용 가능한 학습 시스템을 제안 한다. 또한 전화망을 사용한 학습 시스템에서 사용자 ID, password, 이름 등록 기능의 새로운 알고리즘을 제안하고 전화망과 Web을 사용한 학습시스템에서는 개인학습 진도 저장 기능을 제안한다.

컴퓨터 네트워크 학습을 위한 시뮬레이션형 웹 코스웨어 설계 및 구현 (Design and Implementation of a Web Courseware Based on Simulation for Learning the Computer Network)

  • 정상욱;송태옥;김태영
    • 컴퓨터교육학회논문지
    • /
    • 제3권2호
    • /
    • pp.39-46
    • /
    • 2000
  • 본 논문은 컴퓨터 네트워크 학습을 위해 그래픽, 음성 등의 멀티미디어 요소와 애니메이션, 시뮬레이션과 같은 다양한 기법을 코스웨어에 접목시켜 학습자의 학습 의욕과 학습 성취도를 높일 수 있도록 제작된 컴퓨터 네트워크 웹 코스웨어이다. 강의 음성이 함께 제공되어지는 학습내용을 바탕으로 학습이 진행되도록 구성되어 있으며, 학습 내용에 따라 애니메이션 또는 시뮬레이션을 통한 학습이 제공된다. 특히 시뮬레이션을 통한 학습에서는 단순한 시뮬레이션에서부터 복잡한 시뮬레이션까지 학습자가 선택할 수 있으므로 기존의 웹 코스웨어보다 학습자가 더욱더 이해하기 쉽고 재미있게 학습을 진행해 나갈 수 있다.

  • PDF

음성녹음 기반의 실감형 어학시스템 콘텐츠 개발 (Development of tangible language content system based on voice recording)

  • 나종원
    • 한국항행학회논문지
    • /
    • 제17권2호
    • /
    • pp.234-239
    • /
    • 2013
  • 기존의 어학시스템 콘텐츠의 문제점은 수업에 대한 집중력 저하와 실제 학습여부를 판단할 수 없었고, 수업 진행자의 평가로 많은 결정이 되었다. 이로 인해 음성녹음 기반에 유비쿼터스 기술과 가상현실 기술을 조합하여 강의실에 프로젝터를 설치하고 각 강의실의 RFID 리더기 부착과 학생의 RFID 태그 부착된 학생증을 통해 영어 등급에 해당하는 콘텐츠를 학습한다. 3차원 영상 콘텐츠로 가상 현실상의 외국인과의 질의응답을 음성녹음 기술을 이용하여 발음과 억양을 동시에 체크 하여 레벨 패스 또는 레벨 실패를 판가름 한다. 이렇게 구성된 시스템은 학생 교육 데이터를 중앙 서버에 DB로 저장후 피드백 과정을 통해 정보를 제공하게 된다. 본 연구로 어학 콘텐츠에서 공통적으로 가질 수 있는 문제점들을 분석하고 문제점에 대하여 음성 녹음기술을 적용하여 기존의 어학콘텐츠에서 해결하지 못했던 문제점을 해결하였고 레벨위주의 수업이 가능하였다. 또한, 흥미위주의 적극적인 수업참여가 되도록 기여하였다.