• 제목/요약/키워드: Voice training

검색결과 179건 처리시간 0.023초

베이지안 분류를 이용한 립 리딩 시스템 (Lip-reading System based on Bayesian Classifier)

  • 김성우;차경애;박세현
    • 한국산업정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.9-16
    • /
    • 2020
  • 음성 정보를 배제하고 영상 정보만을 이용한 발음 인식 시스템은 다양한 맞춤형 서비스에 적용될 수 있다. 본 논문에서는 베이지안 분류기를 기반으로 입술 모양을 인식하여 한글 모음을 구분하는 시스템을 개발한다. 얼굴 이미지의 입술 모양에서 특징 벡터를 추출하고 설계된 기계 학습모델을 적용하여 실험한 결과 'ㅏ' 발음의 경우 94%의 인식률을 보였으며, 평균 인식률은 약 84%를 나타내었다. 또한 비교군으로 실험한 CNN 환경에서의 인식률보다 높은 결과를 보였다. 이를 통해서 입술 영역의 랜드 마크로 설계된 특징 값을 사용하는 베이지안 분류 기법이 적은 수의 훈련 데이터에서 보다 효율적일 수 있음을 알 수 있다. 따라서 모바일 디바이스와 같은 제한적 하드웨어에서 응용 가능한 어플리케이션 개발에 활용할 수 있다.

음질 및 속도 향상을 위한 선형 스펙트로그램 활용 Text-to-speech (Text-to-speech with linear spectrogram prediction for quality and speed improvement)

  • 윤혜빈
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.71-78
    • /
    • 2021
  • 인공신경망에 기반한 대부분의 음성 합성 모델은 고음질의 자연스러운 발화를 생성하기 위해 보코더 모델을 사용한다. 보코더 모델은 멜 스펙트로그램 예측 모델과 결합하여 멜 스펙트로그램을 음성으로 변환한다. 그러나 보코더 모델을 사용할 경우에는 많은 양의 컴퓨터 메모리와 훈련 시간이 필요하며, GPU가 제공되지 않는 실제 서비스 환경에서 음성 합성이 오래 걸린다는 단점이 있다. 기존의 선형 스펙트로그램 예측 모델에서는 보코더 모델을 사용하지 않으므로 이 문제가 발생하지 않지만, 대신에 고품질의 음성을 생성하지 못한다. 본 논문은 뉴럴넷 기반 보코더를 사용하지 않으면서도 양질의 음성을 생성하는 Tacotron 2 & Transformer 기반의 선형 스펙트로그램 예측 모델을 제시한다. 본 모델의 성능과 속도 측정 실험을 진행한 결과, 보코더 기반 모델에 비해 성능과 속도 면에서 조금 더 우세한 점을 보였으며, 따라서 고품질의 음성을 빠른 속도로 생성하는 음성 합성 모델 연구의 발판 역할을 할 것으로 기대한다.

딥러닝 기반 음향 신호 대역 확장 시스템 (Deep Learning based Raw Audio Signal Bandwidth Extension System)

  • 김윤수;석종원
    • 전기전자학회논문지
    • /
    • 제24권4호
    • /
    • pp.1122-1128
    • /
    • 2020
  • 대역 확장(Bandwidth Extension)이란 채널 용량 부족 혹은 이동통신 기기에 탑재된 코덱의 특성으로 인해 부호화 및 복호화 과정에서 대역 제한(band limited)되거나 손상된 협대역 신호(NB, Narrow Band)를 복원, 확장하여 광대역 신호(WB, Wide Band)로 전환 시켜주는 것을 의미한다. 대역 확장 연구는 주로 음성 신호 위주로 대역 복제(SBR, Spectral Band Replication), IGF(Intelligent Gap Filling)과 같이 고대역을 주파수 영역으로 변환하여 복잡한 특징 추출 과정을 거쳐 이를 바탕으로 사라지거나 손상된 고대역을 복원한다. 본 논문에서는 딥러닝 모델 중 오토인코더(Autoencoder)를 바탕으로 1차원 합성곱 신경망(CNN, Convolutional Neural Network)들의 잔차 연결을 활용하여 복잡한 사전 전처리 과정 없이 일정한 길이의 시간 영역 신호를 입력시켜 대역 확장 시킨 음향 신호를 출력하는 모델을 제안한다. 또한 음성 영역에 제한되지 않는 음악을 포함한 여러 종류의 음원을 포함하는 데이터셋에 훈련시켜도 손상된 고대역을 복원할 수 있음을 확인하였다.

WebRTC를 이용한 현장 적응형 다자간 원격협업 시스템 개발 (Development of Multi-person remote collaboration system using WebRTC for fields adaptation)

  • 이관희;김지인;권구락
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.9-14
    • /
    • 2021
  • 기존의 원격협업 경우, 원격지원 서비스 중심의 시스템으로 현장 중심의 다자간 원격 협업 시스템의 활용에는 적합하지 않다. 본 논문은 다양한 산업현장을 위한 원격 협업 시스템 개발로 산업현장의 다양한 요구에 부합하는 관리자의 원격지원 및 작업관리, 작업자 간의 실시간 영상 원격지원, 작업자들 다자간의 실시간 음성 작업공유 기능 개발을 수행한다. 또한 영상 내 암호화를 통해 보안 기능을 강화하여 활용도를 높이고 보다 효율적인 시스템 개발을 목표로 한다. 최종적으로 개발 내용은 원격 관리 및 지원 소프트웨어 개발, 작업자 안드로이드 앱 개발, WebRTC 기반 원격 협업 시스템 구축 및 개발, 시제품 개발이다. 이러한 제품은 산업현장에 설치, 운영하여 수요처 증대 및 매출 증가가 예상되며 인력양성, 트랜드 기술 이해 및 능력 향상을 도모할 수 있다.

동계스포츠 맞춤형 기상지원 서비스를 위한 연구 (A Study on the Weather Support Service for Winter Sports)

  • 백진호;시다르타;이주성;강효민
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권1호
    • /
    • pp.139-156
    • /
    • 2019
  • 동계스포츠는 레저인구의 확대와 함께 국내 및 국제수준의 대회가 자주 개최됨에 따라 수요자 중심의 스포츠 정보가 더욱 필요해지고 있다. 특히 기상 및 환경정보는 동계스포츠대회를 조직체는 물론이고 직접 진행을 하는 경기운영요원 및 지도자와 선수 모두에게 필수적인 요소가 되고 있다. 이 연구는 동계 스포츠 설상 종목을 4개의 종목군으로 그룹화하여 각 그룹별 기상 및 환경정보에 의해 경기운영 및 경기력을 위한 제고하는 중요성 요인이 무엇인가를 구명(究明)하는데 목적이 있었다. 이 연구는 질적연구방법에 의해 이루어졌으며, 11명의 동계스포츠 관련자들이 유목적적 표집법(purposeful sampling)에 의해 정보제공자로서 선정하였다. 심층면담(in-depth interview)을 통해 얻은 자료는 내용분석(content analysis)과 함께 유형화(categorizing)과정으로 분석되었다. 이러한 과정을 통해 얻은 결론은 동계 스포츠경기를 위해 종목별 특화된 기상 및 환경정보 요소들에 의해 경기운영과 경기력에 중요하게 고려해야 하는 요인들이 구명하였다. 이는 동계스포츠 특성에 맞는 세분화된 정보를 제공하여 정보수요자의 활용과 정보재생산의 의미를 갖는다.

영상처리 및 머신러닝 기술을 이용하는 운동 및 식단 보조 애플리케이션 (Application for Workout and Diet Assistant using Image Processing and Machine Learning Skills)

  • 이치호;김동현;최승호;황인웅;한경숙
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.83-88
    • /
    • 2023
  • 본 논문에서는 홈 트레이닝 인구가 늘어나면서 증가한 운동과 식단 보조 서비스에 대한 수요를 충족시키기 위해 운동 및 식단 보조 애플리케이션을 개발하였다. 애플리케이션은 카메라를 통해 실시간으로 촬영되는 사용자의 운동 자세를 분석하여, 안내선과 음성을 이용해 올바른 자세를 유도하는 기능을 가진다. 또한, 사용자가 사진을 촬영하면 사진에 포함된 음식들을 분류하고 각 음식의 양을 추정하여, 칼로리 등의 영양 정보를 계산하여 제공하는 기능을 가진다. 영양 정보 계산은 외부의 서버에서 수행되도록 구성했다. 서버는 계산된 결과를 애플리케이션으로 전송하고, 애플리케이션은 결과를 받아 시각적으로 출력한다. 추가로, 운동 결과와 영양 정보는 날짜별로 저장하고 확인할 수 있도록 하였다.

Gesture Control Gaming for Motoric Post-Stroke Rehabilitation

  • Andi Bese Firdausiah Mansur
    • International Journal of Computer Science & Network Security
    • /
    • 제23권10호
    • /
    • pp.37-43
    • /
    • 2023
  • The hospital situation, timing, and patient restrictions have become obstacles to an optimum therapy session. The crowdedness of the hospital might lead to a tight schedule and a shorter period of therapy. This condition might strike a post-stroke patient in a dilemma where they need regular treatment to recover their nervous system. In this work, we propose an in-house and uncomplex serious game system that can be used for physical therapy. The Kinect camera is used to capture the depth image stream of a human skeleton. Afterwards, the user might use their hand gesture to control the game. Voice recognition is deployed to ease them with play. Users must complete the given challenge to obtain a more significant outcome from this therapy system. Subjects will use their upper limb and hands to capture the 3D objects with different speeds and positions. The more substantial challenge, speed, and location will be increased and random. Each delegated entity will raise the scores. Afterwards, the scores will be further evaluated to correlate with therapy progress. Users are delighted with the system and eager to use it as their daily exercise. The experimental studies show a comparison between score and difficulty that represent characteristics of user and game. Users tend to quickly adapt to easy and medium levels, while high level requires better focus and proper synchronization between hand and eye to capture the 3D objects. The statistical analysis with a confidence rate(α:0.05) of the usability test shows that the proposed gaming is accessible, even without specialized training. It is not only for therapy but also for fitness because it can be used for body exercise. The result of the experiment is very satisfying. Most users enjoy and familiarize themselves quickly. The evaluation study demonstrates user satisfaction and perception during testing. Future work of the proposed serious game might involve haptic devices to stimulate their physical sensation.

군사적 환경에서 음성인식 모델의 취약성에 관한 연구 (Study on the Vulnerabilities of Automatic Speech Recognition Models in Military Environments)

  • 원엘림;나성중;고영진
    • 융합보안논문지
    • /
    • 제24권2호
    • /
    • pp.201-207
    • /
    • 2024
  • 목소리는 인간의 의사소통에서 중요한 요소로, 음성인식 모델의 발전은 인공지능의 중요한 성과 중 하나이며 최근 인간의 생활에 다방면으로 사용되고 있다. 음성인식 모델의 활용은 군사분야에서도 피해갈 수 없는 과제이다. 하지만 인공지능 모델의 군사적 활용 이전에 모델의 취약성에 대한 연구가 필요하다. 본 연구에서는 다국적 음성인식 모델인 Whisper의 군사적 활용 가능성을 알아보기 위해, 전장소음, 잡음, 적대적 공격에 대한 취약성을 평가하였다. 전장소음을 포함하는 실험에서는 Whisper의 성능 저하가 크게 나타났으며, 평균 72.4%의 문자 오류율(CER)을 기록하여 군사적 활용에 어려움이 있는 것으로 나타났다. 또한, 잡음을 포함하는 실험에서는 낮은 강도의 잡음에 대해 Whisper가 강건하였으나, 높은 강도의 잡음에서는 성능이 저하되었고, 적대적 공격 실험에서는 특정 입실론 값에서 취약성이 드러났다. 따라서 Whisper 모델을 군사적 환경에서 사용하기 위해서는 파인튜닝, 적대적 훈련 등을 통해 개선이 필요하다는 것을 시사한다.

음성 분류 인공신경망을 활용한 자폐아 치료용 로봇의 지능화 동작 연구 (Motion Study of Treatment Robot for Autistic Children Using Speech Data Classification Based on Artificial Neural Network)

  • 이진규;이보희
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1440-1447
    • /
    • 2019
  • 현재 아이들의 자폐스펙트럼장애 유병률이 한층 더 높게 보고되고 있으며 다양한 형태의 장애 징후를 보이고 있다. 특히 이들은 사회적 의사소통 영역에서 의사소통장애로 인한 대화에 어려움을 겪고 있으며 이를 훈련을 통해 개선 시킬 필요가 대두된다. 이를 위해 본 연구에서는 사전 연구를 통해 설계된 로봇에 장착된 마이크를 통해 음성 정보를 취득하고 이러한 정보를 이용하여 지능적인 동작을 만드는 방식을 제안한다. 음성 정보를 로봇 동작으로 분류하기 위해 인공신경망을 이용하였으며 여러 신경망 기법중 합성곱 방식을 기본으로 한 순환신경망을 결합하여 정확도를 향상시키려고 하였다. 입력 음성 데이터의 전처리는 MFCC를 이용하여 분석하였으며 여러 데이터 정규화 및 인공신경망 최적화 기법을 활용하여 로봇의 동작을 추정하였다. 아울러 설계된 인공신경망은 기존에 사용한 구조 및 사람이 개입하여 분석하는 방법과의 정확도 비교 실험을 진행하여 분석 결과가 높은 정확도를 나타냈다. 향후 보다 높은 정확도를 가질 수 있는 로봇 동작을 설계하여 실제의 자폐아 치료 및 교육 환경에서 적용할 수 있기 위하여 다양한 형태의 데이터를 수집하고 효율적으로 전처리하는 방식에 대한 연구가 요구된다.

판소리의 영화적 해석과 변모의 과정 (The cinematic interpretation of pansori and its transformation process)

  • 송소라
    • 공연문화연구
    • /
    • 제43호
    • /
    • pp.47-78
    • /
    • 2021
  • 본 연구는 판소리를 소재로 한 영화를 대상으로 영화 속에서 판소리가 수용된 양상을 살핌으로써, 판소리에 대한 현대사회의 인식과 기대의 변화를 탐색하는 것을 목적으로 한다. 조선후기 상하층의 사랑을 두루 받았던 판소리는 일제 강점기와 한국 전쟁을 겪으며 그 위상이 꺾이게 된다. 일본에서 유입된 신문물의 영향과 미국 문화의 유입으로 대중적 관심을 잃게 되며, 고루하고 낡은 전통의 이미지를 갖게 되었다. 이에 국가는 점차 사라지는 판소리를 보호 및 계승하기 위해 1964년 판소리를 중요무형문화재로 지정하지만 1980년대까지도 판소리의 자생적 대중성 확보는 어려웠다. 그러나 판소리는 국가의 꾸준한 지원과 명창들의 판소리 전승 노력, 그리고 2000년대 들어 우리의 것을 세계화하자는 사회문화적 담론 속에서 점차 동시대의 대중과 호흡하는 노력을 해왔고, 문화콘텐츠의 주요 소재로도 각광을 받게 되었다. 그리고 지금은 팝밴드 '이날치'와 현대무용그룹 '앰비규어스 댄스 컴퍼니'가 선보인 뮤직비디오 형식의 'Feel the Rhythm of KOREA'가 보여주듯 현재의 주목받은 대중문화 가운데 하나가 되었다. 현대사회 속에서 점차 변화해가는 판소리에 대한 대중적 인식과 판소리의 위상은 영화라는 대중매체 속에서도 엿볼 수 있다. 본 연구는 1993년 임권택 감독의 <서편제>를 비롯하여 최근의 <소리꾼>까지 판소리를 소재로 한 6편의 영화를 선별하여 이와 같은 변화의 추이를 탐색하였다. 먼저 1990년대에 제작된 영화 <서편제>와 <휘모리>이다. 이 두 편의 영화는 모두 당대에서 그리 멀지 않은 시대의 판소리, 즉 20세기 초중반 전승의 위기와 대중적 관심에서 멀어진 판소리의 현실을 보여주며, 그 속에서도 판소리 자체의 예술적 완성을 위해 치열하게 분투하는 소리꾼의 모습을 영화에 담아내었다. 판소리가 가진 정서로써 '한'과 북과 소리의 조화를 통한 판소리 미학을 강조함으로써 우리 소리의 숭고함과 특수함을 대중에게 선보였다. 판소리에 관해 관심이 적었고, 따라서 이의 가치를 잘 모르던 대중은 즉각 이에 화답하며 우리 음악과 우리의 정서에 대한 폭발적 지지를 보여 이른바 '<서편제> 신드롬'을 불러일으키기도 하였다. <서편제>와 <휘모리>는 우리 소리에 대한 관심과 지식이 부족한 시기, 그러나 그 필요성이 지속적으로 요청되던 1990년대라는 시대적 상황이 영화의 내용과 구성에 반영되며 당대 판소리에 대한 사회적 인식과 기대를 드러내었다. 다음으로 2008년에 제작된 영화 <소리, 아이>와 2012년의 <두레소리>이다. 두 영화는 판소리와 국악을 하는 동시대의 어린이, 학생을 주인공으로 하여 예술을 하는 아이들의 성장기를 그려나가는 데 초점을 맞췄다. 이들 영화에서 판소리는 '요즘 세상에 누가 그것을 하냐'의 소리를 듣는 옛 음악도 아니고, 혹독한 수련과 고통 속에서 완성이 되는 숭고한 음악으로 묘사되지도 않는다. 부모님의 권유, 집안의 사정 속에서 판소리를 시작한 아이들이 소리를 익히고 성장하고, 갈등하고, 고민하는 이야기를 통해 판소리는 동시대의 하나의 자연스러운 예술로 그려질 뿐이다. 판소리를 비롯한 국악의 정통성을 신념화하여 강조하지 않고, 교조적으로 이를 대중에게 전달하지 않는다. 이는 동시대의 예술로 판소리를 바라보는 2000년대의 달라진 대중적 인식을 반영하는 속에서 판소리가 해석된 것이라 볼 수 있다. 마지막으로 2015년의 <도리화가>와 최근 상영된 2020년의 <소리꾼>이다. 흥미롭게도 두 작품 모두 판소리가 민중의 사랑을 가장 많이 받던 조선후기를 영화의 시간적 배경으로 삼고 있다. 영화의 이야기를 판소리의 역사를 토대로 구성하였는데, <도리화가>의 경우는 실존 인물인 신재효와 진채선을 바탕으로 영화적 상상력을 덧붙인 서사를 전개하였다. 그리고 <소리꾼>의 경우는 광대의 소리가 판소리 사설의 원류가 되었다는 판소리 이론과 판소리 <심청가>의 서사를 활용하여 당대 존재했을 법한 소리꾼의 삶의 이야기를 그려냈다. 두 영화는 판소리의 역사에서 이야기의 소재를 찾아 이를 영화화하였다고 할 수 있는데, 이는 전통을 문화콘텐츠의 소재로 삼고자 하는 시대적 분위기와 연결된다. 정보통신 기술의 발달로 국가 간의 문화장벽이 허물어지고 있는 때에, 콘텐츠의 소재는 더욱 다양해지고 있다. 역사를 활용한 이야기가 그간 없었던 것은 아니지만, 전통의 문화를 적극적으로 문화콘텐츠의 소재로 삼고자 하는 시도는 2000년대 들어 본격화되었고, 판소리의 음악뿐만 아니라, 판소리의 역사 또한 활용 가능한 콘텐츠의 대상이 되었다. 지금의 판소리는 향수를 불러일으키는 옛것도, 낡은 전통도 아닌 동시대와 끊임없이 소통하는 예술이자, 다양한 콘텐츠의 소재로 활용 가능한 자리에 온 것이다. 상기 영화들은 현대 판소리가 걸어온 길과 변모하는 위상, 그리고 이에 따라 달라지는 대중적 인식을 보여주고 있다는 점에서 판소리 문화의 흐름을 이해하는 기초가 될 수 있다.