• 제목/요약/키워드: voice classification

검색결과 149건 처리시간 0.025초

음성 분류 인공신경망을 활용한 자폐아 치료용 로봇의 지능화 동작 연구 (Motion Study of Treatment Robot for Autistic Children Using Speech Data Classification Based on Artificial Neural Network)

  • 이진규;이보희
    • 전기전자학회논문지
    • /
    • 제23권4호
    • /
    • pp.1440-1447
    • /
    • 2019
  • 현재 아이들의 자폐스펙트럼장애 유병률이 한층 더 높게 보고되고 있으며 다양한 형태의 장애 징후를 보이고 있다. 특히 이들은 사회적 의사소통 영역에서 의사소통장애로 인한 대화에 어려움을 겪고 있으며 이를 훈련을 통해 개선 시킬 필요가 대두된다. 이를 위해 본 연구에서는 사전 연구를 통해 설계된 로봇에 장착된 마이크를 통해 음성 정보를 취득하고 이러한 정보를 이용하여 지능적인 동작을 만드는 방식을 제안한다. 음성 정보를 로봇 동작으로 분류하기 위해 인공신경망을 이용하였으며 여러 신경망 기법중 합성곱 방식을 기본으로 한 순환신경망을 결합하여 정확도를 향상시키려고 하였다. 입력 음성 데이터의 전처리는 MFCC를 이용하여 분석하였으며 여러 데이터 정규화 및 인공신경망 최적화 기법을 활용하여 로봇의 동작을 추정하였다. 아울러 설계된 인공신경망은 기존에 사용한 구조 및 사람이 개입하여 분석하는 방법과의 정확도 비교 실험을 진행하여 분석 결과가 높은 정확도를 나타냈다. 향후 보다 높은 정확도를 가질 수 있는 로봇 동작을 설계하여 실제의 자폐아 치료 및 교육 환경에서 적용할 수 있기 위하여 다양한 형태의 데이터를 수집하고 효율적으로 전처리하는 방식에 대한 연구가 요구된다.

목적 지향 대화를 위한 효율적 질의 의도 분석에 관한 연구 (Effective Text Question Analysis for Goal-oriented Dialogue)

  • 김학동;고명현;임헌영;이유림;지민규;김원일
    • 방송공학회논문지
    • /
    • 제24권1호
    • /
    • pp.48-57
    • /
    • 2019
  • 본 연구는 목적 지향 대화 시스템 내에서 단일 한국어 텍스트 형식의 질문으로부터 질의자의 의도를 파악하는 것을 목적으로 한다. 목적 지향 대화 시스템은 텍스트 또는 음성을 통한 사용자의 특수한 요구를 만족시켜주는 대화 시스템을 의미한다. 의도 분석 과정은 답변 생성에 앞서 사용자의 질의 의도를 파악하는 단계로, 목적 지향 대화 시스템 전체의 성능에 큰 영향을 준다. 생활화학제품이라는 특정 분야에 제안 모델을 사용하였고, 해당 분야와 관련된 한국어 텍스트 데이터를 이용하였다. 특정 분야에 독립적이며 범용적인 의도를 의미하는 화행과, 특정 분야에 종속적인 의도를 의미하는 개념열로 나누어 분석한다. 화행과 개념열을 분석하기 위하여 단어 임베딩 모델, 합성곱 신경망을 이용한 분류 방법을 제안한다. 단어 임베딩 모델을 통하여 단어의 의미정보를 추상화하고, 추상화된 단어의 의미정보를 기반으로 합성곱 신경망을 통하여 개념열 및 화행 분류를 수행한다.

머신러닝 분류기를 사용한 만성콩팥병 자동 진단 및 중증도 예측 연구 (Automatic detection and severity prediction of chronic kidney disease using machine learning classifiers)

  • 문지현;김선희;김명주;류지원;김세중;정민화
    • 말소리와 음성과학
    • /
    • 제14권4호
    • /
    • pp.45-56
    • /
    • 2022
  • 본 논문은 만성콩팥병 환자의 음성을 사용하여 질병을 자동으로 진단하고 중증도를 예측하는 최적의 방법론을 제안한다. 만성콩팥병 환자는 호흡계 근력의 약화와 성대 부종 등으로 인해 음성이 변화하게 된다. 만성콩팥병 환자의 음성을 음성학적으로 분석한 선행 연구는 존재했으나, 환자의 음성을 분류하는 연구는 진행된 바가 없다. 본 논문에서는 모음연장발화, 유성음 문장 발화, 일반 문장 발화의 발화 목록과, 수제 특징 집합, eGeMAPS, CNN 추출 특징의 특징 집합, SVM, XGBoost의 머신러닝 분류기를 사용하여 만성콩팥병 환자의 음성을 분류하였다. 총 3시간 26분 25초 분량의 1,523개 발화가 실험에 사용되었다. 그 결과, 질병을 자동으로 진단하는 데에는 0.93, 중증도를 예측하는 3분류 문제에서는 0.89, 5분류 문제에서는 0.84의 F1-score가 나타났고, 모든 과제에서 일반 문장 발화, 수제 특징 집합, XGBoost의 조합을 사용했을 때 가장 높은 성능이 나타났다. 이는 만성콩팥병 음성 자동 분류에는 화자의 발화 특성을 모두 반영할 수 있는 일반 문장 발화와 거기로부터 추출한 적절한 특징 집합이 효과적임을 시사한다.

비정형 정보와 CNN 기법을 활용한 이진 분류 모델의 고객 행태 예측: 전자상거래 사례를 중심으로 (Customer Behavior Prediction of Binary Classification Model Using Unstructured Information and Convolution Neural Network: The Case of Online Storefront)

  • 김승수;김종우
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.221-241
    • /
    • 2018
  • 최근 딥러닝 기술이 주목을 받고 있다. 대중들의 관심을 받았던 국제 이미지 인식 기술 대회(ILSVR)와 알파고(AlphaGo)에서 사용된 딥러닝 기술이 바로 합성곱 신경망(CNN; Convolution Neural Network)이다. 합성곱 신경망은 입력 이미지를 작은 구역으로 나누어 부분적인 특징을 인식하고 이것을 결합하여 전체를 인식하는 특징을 가진다. 이러한 딥러닝 기술이 우리의 생활에 있어 많은 변화를 야기할 것이라는 기대를 주고 있지만 현재까지는 이미지 인식과 자연어 처리 등에 그 성과가 국한되어 있다. 비즈니스 문제에 대한 딥러닝 활용은 아직까지 초기 연구 단계로 향후 마케팅 응답 예측이나 허위 거래 식별, 부도 예측과 같은 전통적 비즈니스 문제들에 대해 보다 깊게 활용되고 그 성능이 입증된다면 딥러닝 기술의 활용 가치가 보다 더 주목받게 될 것으로 기대된다. 이러한 때 비교적 고객 식별이 용이하고 활용 가치가 높은 빅데이터를 보유하고 있는 전자상거래 기업의 사례를 바탕으로 하여 딥러닝 기술의 비즈니스 문제 해결 가능성을 진단해보는 것은 학술적으로 매우 의미 있는 시도라 할 수 있겠다. 이에 본 연구에서는 전자상거래 기업의 고객 행태 예측력을 높이기 위한 방안으로 합성곱 신경망을 활용한 '이종 정보 결합(Heterogeneous Information Integration)의 CNN 모델'을 제시한다. 이는 정형과 비정형 정보를 결합하여 다층 퍼셉트론 구조의 합성곱 신경망에서 학습시키는 모델로서 최적의 성능을 발휘하도록 '이종 정보 결합'과 '비정형 정보의 벡터 전환', 그리고 '다층 퍼셉트론 설계'로 하는 3개의 내부 아키텍처를 정의하고 각 아키텍처 단위로 구성되는 방식에 따른 성능을 평가하여 그 결과를 바탕으로 제안 모델을 확정하고 그 성능을 평가해보고자 한다. 고객 행태 예측을 위한 목표 변수는 전자상거래 기업에서 중요하게 관리하고 있는 재구매 고객, 이탈 고객, 고빈도 구매 고객, 고빈도 반품 고객, 고단가 구매 고객, 고할인 구매 고객 등 모두 6개의 이진 분류 문제로 정의한다. 제안한 모델의 유용성을 검증하기 위해서 국내 특정 전자상거래 기업의 실제 데이터를 활용하여 실험을 수행하였다. 실험 결과 정형과 비정형 정보를 결합하여 CNN을 활용한 제안 모델이 NBC(Naïve Bayes classification)과 SVM(Support vector machine), 그리고 ANN(Artificial neural network)에 비해서 예측 정확도와 F1 Measure가 높게 평가되었다. 또 NBC, SVM, ANN에서 정형 정보만을 사용할 때 보다 정형과 비정형 정보를 결합하여 입력 변수로 함께 활용한 경우에 예측 정확도가 향상되는 것으로 나타났다. 따라서 실험 결과로부터 비정형 정보의 활용이 고객 행태 예측의 정확도 향상에 기여한다는 점과 CNN 기법의 특징 추출 알고리즘이 VOC에 사용된 단어들의 분포와 위치 정보를 해석하여 문장의 의미를 파악하는데 효과적이라는 점을 실증적으로 확인하였다는데 그 의미가 있다고 할 수 있겠다. 이를 통해서 CNN 기법이 지금까지 소개된 이미지 인식이나 자연어 처리 분야 외에 비즈니스 문제 해결에도 활용 가치가 높다는 점을 확인하였다는데 이 연구의 의의가 있다 하겠다.

인형연행사 기술의 새로운 모색 (A Study on the description of Puppet Performance History)

  • 허용호
    • 공연문화연구
    • /
    • 제19호
    • /
    • pp.379-418
    • /
    • 2009
  • 본 연구는 인형연행의 역사를 기술하는 새로운 모색의 일환으로 자리한다. 일반적인 문화사적 전개에 의존하는 방식이나 왕조별 접근의 방식, 나아가 이 둘의 결합된 방식을 넘어서서 또 하나의 새로운 방식을 시도한 것이다. 여기에는 인형연행의 '역사'가 아니라 '인형연행'의 역사를 기술하려는 필자의 지향이 함축되어 있다. 이를 위하여 필자는 조선 시대까지의 인형연행 관련 자료를 대상으로 논의를 했다. 이 자료에는 문헌 자료는 물론이고 유물, 그리고 그림까지 포함된다. 논의는 우선 인형연행의 자료를 정리하고 분류 기준을 설정하는 것으로 시작되었다. 50항목에 이르는 자료들을 정리하고, 이를 분류할 기준을 설정하였다. 분류 기준은 1차적으로 인형연행이 자리하는 문맥이 설정되었다. 이는 제의와 오락으로 나타난다. 2차적 분류 기준은 인형연행의 핵심적 사항인 연행방식이다. 이 기준에 따라 조종, 목소리연기, 섬김, 축출, 진열 등의 항목이 설정되었다. 이러한 분류 기준에 따라 인형연행을 유형화하고 시대를 구분하는 논의가 이어졌다. 그 결과 인형연행의 시대는 '다양한 인형 이용의 시대', '섬김의 제의적 인형연행 시대', '조종의 오락적 인형연행 시대', '진열의 제의적 인형연행 시대', '축출의 제의적 인형연행 시대', '조종의 제의적 인형연행 시대', '진열의 오락적 인형연행 시대', '조종과 목소리연기의 오락적 인형연행 시대' 등으로 구분되었다. 이러한 인형연행의 내적 시대 구분에 따라 이를 통시적으로 펼쳐 보이는 인형연행사 기술이 이어서 이루어졌다. 그 기술의 결과, 인형연행은 왕조사적 시대 구분에 메이지 않고 나름의 전개 과정을 보이고 있음을 확인할 수 있었다. 그리고 '정적인형에서 동적인형으로'나 '제의적 연행에서 오락적 연행으로'라는 일반적인 문화사적 전개와는 다른 양상을 보이고 있음도 확인되었다. '무언인형에서 유언인형으로의 전개'를 제외하고는 일반적으로 받아들여지는 인형연행의 문화사적 전개와는 다른 양상을 보였다. '제의적 인형연행에서 오락적 인형연행으로의 전환'이라는 전개과정은, '제의적 인형연행과 오락적 인형연행의 순환'으로 수정되어야 하는 양상이 나타났다. '정적 인형에서 동적 인형으로'라는 전개과정 역시 '정적 인형과 동적 인형의 순환'이라는 차원에서 바라보는 것이 보다 적절한 것으로 판단되었다. 이렇게 일방적인 전환이 아니라 순환으로 나타나는 이면에 자리하고 있는 것은, 인형연행이 한 시대를 마감하게 되었다고 그 시대의 인형연행이 그 전승을 마감하는 것이 아니라는 점이다. 한 시대에서 다른 시대로 인형연행이 전개되는 동시에 이전 시대의 인형연행은 그 나름의 자체적 생명력을 가지고 지속과 변화의 모습을 보였다. 또한 크게는 제의적 인형연행과 오락적 인형연행 사이에, 작게는 각각의 인형연행 유형 사이에 상호영향 관계가 존재한다는 점 역시 인형연행의 역사를 살피는 데 있어 간과해서는 안 될 사항으로 제기되었다. 본 연구를 통해 이루어진 인형연행사의 새로운 모색과 기술은 완결된 것이 아니다. 그야말로 '또 하나'의 인형연행사 기술의 시도였을 따름이다. 이 시도는 인형연행 외부에 자리한 정치·경제·사회적 문맥을 전혀 고려하지 않고 있다. 또한 대단히 조심스러운 태도를 보이고 있지만, 인형연행 전통의 지속을 염두에 둔 기술이었음을 부인하지 못한다. 인형연행 외부 문맥을 감안하고, 지속이 아닌 단절까지 감안하는 인형연행의 문화사 기술이 시도될 필요가 있다. 또한 인형연행사를 넘어서는 다른 전통연행까지 포괄하는 전통연행사를 장기적으로 염두에 두는 포석도 필요하다. 이러한 과정에서 본고에서의 제안이 비판적으로 검토되기를 필자는 기대한다.

현실세계의 증언, 다큐멘터리-애니메이션 분석 (Testimony of the Real World, Documentary-Animation)

  • 오진희
    • 만화애니메이션 연구
    • /
    • 통권45호
    • /
    • pp.27-50
    • /
    • 2016
  • 이 연구는 재현의 층위인 실제 인간의 육성(肉聲)을 기반으로 하는 다큐멘터리-애니메이션이 현실세계의 증언으로 작용하는 애니메이션 매체의 새로운 확장임을 논의하였다. 애니메이션은 매우 다양한 기법으로 제작되어 정의하기 힘들 정도로 복잡한 양상을 띠며, 다큐멘터리는 객관적 재현을 기반으로 하지만 연출과 디지털 영상처리 등 여러 유형의 인위적 개입이 존재한다는 점에서 복잡성이 증폭된다. 두 매체의 혼성 장르로 등장한 다큐멘터리-애니메이션은 실제의 사건과 요소를 작품 안으로 끌어들여 현실 기반의 서사를 개념적으로 공유하며, 애니메이션의 외형을 시각적 특징으로 한다. 일반적으로 '애니메이티드 다큐멘터리'로 분류되어 온 이 장르는 <바시르와 왈츠를> 발표 이후 논의가 촉발되었는데, 이 작품의 기법은 실사를 변환한 로토스코핑 기법을 사용한 것으로 오인되곤 한다. 그렇지만 세밀히 분석해보면 전형적인 애니메이션 기법, 3D프로그램의 사용, 그리고 실사영상의 혼용으로 실체 없는 가상의 시뮬라크르인 애니메이션과 지시대상의 객관적 지표성을 기반으로 하는 다큐멘터리의 특성이 공존하는 모호한 매체로 제시되어 있다. 본고에서 논의하고 있는 <무장>(Going Equipped)과 <스낵 앤 드링크>(Snack and Drink), 그리고 <라이언>(Lyan)은 실제인물의 증언으로 서사가 진행된다는 점에서 다큐멘터리 매체의 특성을 공유하지만 동시에 제작기법과 연출특성으로 인해 애니메이션으로 연결된다. 따라서 기존의 분류체계에 이 매체를 포함하기보다 새로운 확장으로써 논의되어야 하며, 이는 작품의 실체를 직시하고 논의를 발전시키기 위해 반드시 필요한 전제라 하겠다. 이 연구에서는 인터뷰이(Interviewee)의 목소리를 직접 사용하면서도 애니메이션의 특성을 벗어나지 않는 작품들을 통해 다큐멘터리-애니메이션을 정의하고 현실세계의 증언으로 확장되고 있는 매체의 가능성에 대하여 논의하고자 하였다.

스마트 디바이스의 세대별 사용자 경험 변화 연구 (How Does Smart Device User Experience Change by Generation)

  • 이현주;홍미희
    • 한국콘텐츠학회논문지
    • /
    • 제19권3호
    • /
    • pp.252-260
    • /
    • 2019
  • 우리 생활 속 깊숙이 침투해있는 스마트 디바이스는 이용자의 편리함을 높여줄 뿐 아니라 사회, 경제, 문화 등 사회 전반의 생활양식을 변화시키고 있다. 본 논문에서는 세대별 디바이스 구분과 기술을 통한 사용자 경험의 변화 과정을 알아보았다. 이를 위해 디지털 플랫폼인 디바이스를 사용하는 목적과 행태, 개인 전용도와 상호작용에 가장 중요한 디지털 컴포넌트인 입력과 출력방식을 분석하였다. 분석 결과 과거에는 디바이스를 사용하는 목적성이 뚜렷하고, 공동으로 사용하며 별도의 장치를 통한 입력, 출력 방식을 사용하였다. 하지만, 디바이스가 진화함에 따라 사용자들은 목적성보다는 즐거움을 위한 유희적인 측면을 더 중요시하게 되었다. 이에 따라 개인 전용도가 높아졌으며 별도의 장치를 사용하던 과거와는 달리 사용자 신체를 사용해 입력하는 터치스크린을 비롯해 음성, 행위(모션) 등을 통한 인간의 오감을 활용해 입력과 출력이 이루어지는 방식으로 진화하고 있다. 본 논문을 통해 기술을 바탕으로 얻는 사용자들의 총체적 경험이 세대별로 어떻게 변화해 왔는지 알아보았으며, 이를 바탕으로 차후 사용자 경험을 고려한 디바이스가 발전해 가야하는 방향을 제시하였다. 이를 기반으로 앞으로도 출시된 다양한 스마트 디바이스에서 나타나는 총제적인 경험에 관한 연구에 활용 될 수 있을 것으로 기대 된다.

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

데이터 증강을 통한 딥러닝 기반 주가 패턴 예측 정확도 향상 방안 (Increasing Accuracy of Stock Price Pattern Prediction through Data Augmentation for Deep Learning)

  • 김영준;김여정;이인선;이홍주
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.1-12
    • /
    • 2019
  • 인공지능 기술이 발전하면서 이미지, 음성, 텍스트 등 다양한 분야에 적용되고 있으며, 데이터가 충분한 경우 기존 기법들에 비해 좋은 결과를 보인다. 주식시장은 경제, 정치와 같은 많은 변수에 의해 영향을 받기 때문에, 주식 가격의 움직임 예측은 어려운 과제로 알려져 있다. 다양한 기계학습 기법과 인공지능 기법을 이용하여 주가 패턴을 연구하여 주가의 등락을 예측하려는 시도가 있어왔다. 본 연구는 딥러닝 기법 중 컨볼루셔널 뉴럴 네트워크(CNN)를 기반으로 주가 패턴 예측률 향상을 위한 데이터 증강 방안을 제안한다. CNN은 컨볼루셔널 계층을 통해 이미지에서 특징을 추출하여 뉴럴 네트워크를 이용하여 이미지를 분류한다. 따라서, 본 연구는 주식 데이터를 캔들스틱 차트 이미지로 만들어 CNN을 통해 패턴을 예측하고 분류하고자 한다. 딥러닝은 다량의 데이터가 필요하기에, 주식 차트 이미지에 다양한 데이터 증강(Data Augmentation) 방안을 적용하여 분류 정확도를 향상 시키는 방법을 제안한다. 데이터 증강 방안으로는 차트를 랜덤하게 변경하는 방안과 차트에 가우시안 노이즈를 적용하여 추가 데이터를 생성하였으며, 추가 생성된 데이터를 활용하여 학습하고 테스트 집합에 대한 분류 정확도를 비교하였다. 랜덤하게 차트를 변경하여 데이터를 증강시킨 경우의 분류 정확도는 79.92%였고, 가우시안 노이즈를 적용하여 생성된 데이터를 가지고 학습한 경우의 분류 정확도는 80.98%이었다. 주가의 다음날 상승/하락으로 분류하는 경우에는 60분 단위 캔들 차트가 82.60%의 정확도를 기록하였다.

  • PDF