• 제목/요약/키워드: Voice Training

검색결과 177건 처리시간 0.025초

켑스트럼 변수와 랜덤포레스트 알고리듬을 이용한 MTD(근긴장성 발성장애) 여성화자 음성과 정상음성 분류 (Classification of muscle tension dysphonia (MTD) female speech and normal speech using cepstrum variables and random forest algorithm)

  • 윤주원;심희정;성철재
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.91-98
    • /
    • 2020
  • 근긴장성 발성장애(cepstral peak prominence, MTD) 환자의 모음 발성과 문장읽기 과제를 켑스트럼 기반 변수를 이용하여 분석하였으며 음성장애 환자의 GRBAS청지각적 특성과 음향학적 특성의 상관관계를 살펴보고, 랜덤포레스트 머신러닝 분류 알고리듬을 이용한 MTD 감별 진단 가능성을 논의하였다. 내원 시 MTD로 진단받은 여성 36명과 정상음성을 사용하는 여성 36명이 연구에 참여했으며, 수집한 음성샘플은 ADSVTM를 사용하여 분석하였다. 연구 결과, 음향학적 측정치 중 MTD의 CSID(cepstral spectral index of dysphonia)는 대조군보다 높았으며, CPP(cepstral peak prominence), CPP_Fo 값이 대조군보다 유의하게 낮았다. 이는 모음 발성과 읽기 과제에서 모두 동일하게 나타났다. MTD 환자의 음질 특성은 전반적인 음성중증도(G)가 가장 두드러졌으며, 조조성(R), 기식성(B), 노력성(S)순으로 음성 특성을 보였다. 이 특성이 높아질수록 CPP가 감소하는 부적 상관을 보이고, CSID는 증가하는 정적 상관이 관찰되었다. 켑스트럴 변수 중 모음과 문장읽기과제 모두에서 집단간 유의한 차이를 보여준 CPP와 CPP_F0를 이용하여 MTD와 대조군의 음성분류를 시도하였다. 머신러닝 알고리듬인 랜덤포레스트로 모델링한 결과 문장읽기 과제에서 모음연장발성보다 조금 더 높은 분류 정확도(83.3%)가 나왔으며, 모음 발성과 문장 읽기 과제 모두에서 CPP변수가 더 중심적 역할을 수행하였음을 알 수 있었다.

음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법 (DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition)

  • 오상엽
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.1-6
    • /
    • 2021
  • 음성 인식 분야에서 DNN이 적용됨에 따라 음성 인식의 이용이 증대되고 있으나 기존의 GMM 보다 병렬 훈련에 대한 계산의 양이 많아야 되며, 데이터의 양이 적으면 오버피팅이 발생한다. 이를 해결하기 위해 데이터의 양이 작은 경우에도 강인한 음성 특징 추출과 음성 신호 잡음 제거에 효율적인 방안을 제시한다. 음성 특징 추출은 음성에 대한 프레임 에너지의 차이와 음성 신호에 영향을 받는 영 교차율과 레벨 교차율을 적용하여 음성 에너지의 효율적 추출을 한다. 또한, 잡음 제거를 위해 음성 신호에 대한 검출에서 음성의 고유 특성을 유지하면서 음성 정보 손상이 적은 평균 예측 LMS 필터를 개선하여 음성 신호의 잡음을 제거하여 데이터양이 적은 경우의 문제를 해결한다. 개선된 LMS 필터는 입력 신호에 대한 활성 파라미터 임계치를 조정하여 입력된 음성 신호에 대한 잡음을 처리하는 방법을 사용한다. 본 논문에서 제안한 방법을 사용하여 기존의 프레임 에너지를 이용한 방법과 비교한 결과 음성의 시작점의 오차율은 7%, 끝나는 점 오차율에서 11% 향상된 성능을 확인하였다.

비대면 헤어 스타일링 재현을 위한 VR 인터렉션 연구 (A Study of VR Interaction for Non-contact Hair Styling)

  • 박성준;유상욱;진성아
    • 문화기술의 융합
    • /
    • 제8권2호
    • /
    • pp.367-372
    • /
    • 2022
  • 최근 뉴노멀시대가 도래하면서 실감형 기술과 언택트 기술은 사회적 관심을 받고 있다. 하지만 헤어 스타일링 분야는 헤어 시뮬레이션을 중점으로 헤어 자체의 연출이나, 개별적인 움직임, 모델링에 초점을 두고 있다. 시대적 요구와 개선된 실습환경 조성을 위해 본 연구에서는 비대면 헤어 스타일링 VR 시스템을 제안하였다. 이론 고찰에서는 기존 헤어 컷 연구 사례에 대해 조사하였다. 기존 헤어 컷 관련 그래픽스 연구는 주로 힘 기반 피드백 위주의 연구이다. 본 논문에서 주장하는 가상환경에서 인터랙티브한 헤어 컷 작업에 대한 연구는 아직 이루어지고 있지 않다. 본 연구에서는 미용에 필요한 동작을 핑거 트래킹이 가능한 VR 컨트롤러에서 미용도구 선택, 자르기, 회전 등이 가능하도록 하였으며 비대면 협업 환경으로 구축하였다. 연구 결과로서, 정확한 헤어 절단 작업을 위해 소지걸이 애니메이션에 따른 핑거 트래킹과 가위의 움직임이 위치 보정에 따른 동기화 작업의 결과와 다중 사용자 기반의 가상 협업 환경에서의 실시간 인터랙티브 헤어 컷 작업을 실험하였다, 비대면 상황에서 헤어 스타일링에 필요한 커트동작에 관한 학습이 가능하게 되었으며 교수자와 학습자는 VR HMD 내장 마이크와 Photon Voice로 상호 간의 의사소통이 가능하게 되었다.

드론 소음 환경에서 심층 신경망 기반 음성 향상 기법 적용에 관한 연구 (A study on deep neural speech enhancement in drone noise environment)

  • 김지민;정재희;여찬은;김우일
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.342-350
    • /
    • 2022
  • 본 논문에서는 재난 환경과 같은 환경에서의 음성 처리를 위해 실제 드론 소음 데이터를 수집하여 오염 음성 데이터베이스를 구축하고 음성 향상 기법인 스펙트럼 차감법과 심층 신경망을 이용한 마스크 기반 음성 향상 기법을 적용하여 성능을 평가한다. 기존의 심층 신경망 기반의 음성 향상 모델인 VoiceFilter(VF)의 성능 향상을 위해 Self-Attention 연산을 적용하고 추정한 잡음 정보를 Attention 모델의 입력으로 이용한다. 기존 VF 모델 기법과 비교하여 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)에 대해 각각 3.77 %, 1.66 %, 0.32 % 향상된 결과를 나타낸다. 인터넷에서 수집한 오염 음성 데이터를 75 % 혼합하여 훈련한 경우, 실제 드론 소음만을 사용한 경우에 비해 상대적인 성능 하락률 평균이 SDR, PESQ, STOI에 대해 각각 3.18 %, 2.79 %, 0.96 %를 나타낸다. 이는 실제 데이터를 취득하기 어려운 환경에서 실제 데이터와 유사한 데이터를 수집하여 음성 향상을 위한 모델 훈련에 효과적으로 활용할 수 있음을 확인해준다.

로봇 인터페이스 활용을 위한 가속도 센서 기반 제스처 인식 (Accelerometer-based Gesture Recognition for Robot Interface)

  • 장민수;조용석;김재홍;손주찬
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.53-69
    • /
    • 2011
  • 로봇 자체 또는 로봇에 탑재된 콘텐츠와의 상호작용을 위해 일반적으로 영상 또는 음성 인식 기술이 사용된다. 그러나 영상 음성인식 기술은 아직까지 기술 및 환경 측면에서 해결해야 할 어려움이 존재하며, 실적용을 위해서는 사용자의 협조가 필요한 경우가 많다. 이로 인해 로봇과의 상호작용은 터치스크린 인터페이스를 중심으로 개발되고 있다. 향후 로봇 서비스의 확대 및 다양화를 위해서는 이들 영상 음성 중심의 기존 기술 외에 상호보완적으로 활용이 가능한 인터페이스 기술의 개발이 필요하다. 본 논문에서는 로봇 인터페이스 활용을 위한 가속도 센서 기반의 제스처 인식 기술의 개발에 대해 소개한다. 본 논문에서는 비교적 어려운 문제인 26개의 영문 알파벳 인식을 기준으로 성능을 평가하고 개발된 기술이 로봇에 적용된 사례를 제시하였다. 향후 가속도 센서가 포함된 다양한 장치들이 개발되고 이들이 로봇의 인터페이스로 사용될 때 현재 터치스크린 중심으로 된 로봇의 인터페이스 및 콘텐츠가 다양한 형태로 확장이 가능할 것으로 기대한다.

장애학생의 학습을 위한 화상과 이러닝 시스템의 융합 개발 (Convergence Development of Video and E-learning System for Education Disabled Students)

  • 손엽명;정병수
    • 한국융합학회논문지
    • /
    • 제6권4호
    • /
    • pp.113-119
    • /
    • 2015
  • 현재 정상적인 학생의 교육 규칙으로만 되어있는 학교체제에 대한 장애 학생에 대한 교육적인 환경의 대안을 제시한다. 신체장애가 있는 학생들을 위한 연구로, 특히 손사용이 어려운 신체장애인이 사용할 수 있도록 설계되었다. 장애자학습 화상 e-러닝 시스템의 개발 목적은 장애학생의 자기주도적 학습이 가능할 수 있도록 하는데 있다. 이러닝 시스템의 구성은 웹 기반의 멀티미디어 시스템으로 화상회의시스템과 음성을 글자로 바꾸어주는 시스템을 이용해 청각장애 학생이 채팅 시스템을 통해서 1:1통신함으로써 교사와 양방향 통신할 수 있다. 본 논문에서 개발한 장애자학습 이러닝 시스템은 교사와 장애학생 사이의 1:1양방향 통신 알고리즘을 이용하여 교육이 진행된다.

수술실 간호오류 예방을 위한 사례중심 멀티미디어 학습콘텐츠 개발 (Development of Case-based Multimedia Learning Contents for Preventing Malpractice in Operating Room)

  • 박지명;황선영
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.522-532
    • /
    • 2016
  • 본 연구에서는 수술실에서의 간호오류 예방을 위한 간호사 대상의 교육을 목적으로 문헌고찰과 실제 경험한 오류사례와 요구도 조사 및 수술실 사건보고서 자료 분석을 통하여 사진, 음성녹음, 플래시 애니메이션, 동영상 자료를 활용한 사례중심 멀티미디어 학습콘텐츠를 개발하였다. 1시간 분량의 학습콘텐츠는 4가지 학습영역으로 구성되었으며, 학습영역별로 성우의 음성과 함께 플래시애니메이션을 활용한 실제 간호오류 사례를 이야기 형식으로 제공함으로써 학습자로부터 흥미와 현장감을 높였다. 또한 각 영역별 사례를 통해 학습자에게 비판적 사고를 유도하였고 표준화된 수술실 간호업무프로토콜을 대처방안으로 제시함으로써 교육의 효과성을 높이고자 하였다. 본 연구에서 개발된 학습콘텐츠는 신규간호사 뿐만 아니라 경력 간호사의 수술실 간호오류 예방을 위한 교육용 자료로써 실무에서 활용될 수 있기를 바라며, 콘텐츠의 지속적인 수정 보완을 위한 시스템 마련과 지원이 필요할 것으로 본다.

스마트 피트니스 웨어 연동형 모바일 피트니스 앱 게임의 개발 방향 탐색 (An Explorative Study on Development Direction of a Mobile Fitness App Game Associated with Smart Fitness Wear)

  • 박서연;이주현
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권7호
    • /
    • pp.1225-1235
    • /
    • 2018
  • 본 연구에서는 신체활동 모니터링이 가능한 스마트 의류와 연동되는 스마트 피트니스 콘텐츠와 관련하여 실용성을 갖춘 소비자 맞춤형 스마트 콘텐츠 개발 기획 연구의 일환으로, 타겟소비자의 잠재적 수요를 반영한 셀프트레이닝 지원용 스마트 피트니스 콘텐츠 개발의 구체적인 구현방향을 탐색하였다. 그 결과, 스마트 피트니스 콘텐츠에 대한 잠재적 수요는 시간 경과의 순서에 따라 '운동시작 전'의 단계에서는 '사용 접근성', '흥미유도', '다각적 스토리라인'의 범주어가 도출되었고, '운동수행 중'의 단계에서는 '실시간 음성코칭', '정확한 운동자세 모니터링', '개인 맞춤형 운동처방'이 도출되었다.'운동 직후'의 단계에서는 '실질적 보상제도', '등급제도', '체형변화 모니터링', '일상생활 모니터링'이 도출되었고, '다음 운동으로 연결'의 단계에서는 '동기유발', '높은 지속성' 이 도출되었다.

생체신호를 활용한 학습기반 영유아 스트레스 상태 식별 모델 연구 (A Machine Learning Approach for Stress Status Identification of Early Childhood by Using Bio-Signals)

  • 전유미;한태성;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.1-18
    • /
    • 2017
  • 오늘날 감정 표현이 서툰 영유아가 처한 극도의 스트레스 상태를 자동적으로 파악하는 것은 영유아의 안전을 위협하며 지속적으로 발생하는 위험 상황의 실시간적인 인지를 위해 반드시 필요한 기술이다. 따라서 본 논문에서는 생체신호를 활용하여 영유아의 스트레스 상태를 분류하기 위한 기계학습 기반의 모델과 생체신호 수집용 스마트 밴드 및 모니터링용 모바일 어플리케이션을 제안한다. 구체적으로 본 연구에서는 영유아의 감정을 나타내는 주요한 요인이 되는 음성 및 심박 데이터의 조합을 활용하여 기존에 널리 알려진 데이터 마이닝 기법을 통해 영유아의 스트레스 상태 패턴을 학습하고 예측한다. 본 연구를 통해 생체신호를 활용하여 영유아의 스트레스 상태 식별을 자동화할 수 있는 가능성을 확인하였으며 나아가서 궁극적으로 영유아의 위험 상황 예방에 활용될 수 있을 것으로 기대된다.

베이지안 분류를 이용한 립 리딩 시스템 (Lip-reading System based on Bayesian Classifier)

  • 김성우;차경애;박세현
    • 한국산업정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.9-16
    • /
    • 2020
  • 음성 정보를 배제하고 영상 정보만을 이용한 발음 인식 시스템은 다양한 맞춤형 서비스에 적용될 수 있다. 본 논문에서는 베이지안 분류기를 기반으로 입술 모양을 인식하여 한글 모음을 구분하는 시스템을 개발한다. 얼굴 이미지의 입술 모양에서 특징 벡터를 추출하고 설계된 기계 학습모델을 적용하여 실험한 결과 'ㅏ' 발음의 경우 94%의 인식률을 보였으며, 평균 인식률은 약 84%를 나타내었다. 또한 비교군으로 실험한 CNN 환경에서의 인식률보다 높은 결과를 보였다. 이를 통해서 입술 영역의 랜드 마크로 설계된 특징 값을 사용하는 베이지안 분류 기법이 적은 수의 훈련 데이터에서 보다 효율적일 수 있음을 알 수 있다. 따라서 모바일 디바이스와 같은 제한적 하드웨어에서 응용 가능한 어플리케이션 개발에 활용할 수 있다.