• 제목/요약/키워드: Speaker

검색결과 1,682건 처리시간 0.061초

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

분산 시간지연 회귀신경망을 이용한 피치 악센트 자동 인식 (Automatic Recognition of Pitch Accent Using Distributed Time-Delay Recursive Neural Network)

  • 김성석
    • 한국음향학회지
    • /
    • 제25권6호
    • /
    • pp.277-281
    • /
    • 2006
  • 본 논문에서는 시간지연 회귀신경회로망을 이용한 음절 레벨에서의 피치 악센트 자동 인식 방법을 제안한다. 시간지연 회귀 신경회로망은 두 종류의 동적 문맥정보를 표현한다. 시간지연 회귀신경회로망의 시간지연 입력 노드는 시간 축 상의 피치 및 에너지 궤도를 표현하고, 회귀 노드는 피치 악센트의 특성을 반영하는 문맥 정보를 표현한다. 본 논문에서는 이러한 시간지연 회귀신경회로망을 두 가지 형태로 구성하여 피치 악센트 자동 인식에 적용한다. 하나의 형태는 단일 시간지연 회귀 신경회로망에서 복수 개의 운율 특정파라미터 (피치, 에너지, 지속시간)를 입력 노드에 함께 공급하여 피치 악센트 인식을 수행하고, 다른 하나는 분산 시간지연 회귀 신경회로망을 이용하여 피치 악센트 인식을 수행한다. 분산 시간지연 회귀 신경회로망은 여러 개의 시간지연 회귀 신경회로망으로 구성되고, 각 시간지연 회귀 신경회로망은 단일 운율 특징 파라미터만으로 학습된다. 분산 시간지연 회귀 신경회로망의 인식결과는 개별 시간지연 회귀 신경회로망의 출력 값의 가중치 합으로 결정된다. 화자 독립 피치 악센트 인식 실험을 위해 보스톤 라디오 뉴스 코퍼스 (BRNC)를 사용하였다. 실험결과, 분산 시간지연 회귀 신경회로망은 83.64%의 피치 악센트 인식률을 보였다.

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델 (Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System)

  • 김민제;이정철
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.319-324
    • /
    • 2006
  • 본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

OATSP를 이용한 마이크로폰의 주파수 특성 응답 측정 알고리즘 (The Measurement Algorithm for Microphone's Frequency Character Response Using OATSP)

  • 박병욱;김학윤
    • 한국음향학회지
    • /
    • 제26권2호
    • /
    • pp.61-68
    • /
    • 2007
  • 마이크로폰의 주파수 응답 특성은 마이크로폰이 레벨 허용 범위로 재생할 수 있는 주파수 범위를 나타내는 것으로, 마이크로폰이 가지고 있는 특성을 평가하는 기준으로 사용되는 가장 중요한 음향 특성 파라메타 중의 하나이다. 이와 같은 마이크로폰의 주파수 응답 특성을 측정하기 위한 기존의 방법들은 그 측정 조건이 매우 까다로울 뿐만 아니라, 고가의 장비를 사용하여 측정하여야 한다는 문제점을 갖고 있다. 이러한 단점을 보완하기 위하여 본 논문에서는 마이크로폰의 주파수 응답 특성을 간단하게 측정할 수 있는 알고리즘을 제안한다. 제안한 알고리즘은 컴퓨터로 생성한 Optimized Aoshima's Time Stretched Pulse(OATSP) 신호를 표준 스피커를 통하여 발생시킨 다음, 측정하고자 하는 마이크로폰으로 수음된 신호와 역 OATSP 신호를 컨볼루션시켜 마이크로폰의 임펄스 응답을 측정하고, 이 신호를 이용하여 측정할 마이크로폰의 주파수 응답 특성을 구하는 방범이다. 제안한 알고리즘의 성능 평가는 제안한 알고리즘을 이용하여 구한 마이크로폰의 주파수 응답 특성 측정값과 그들이 갖고 있던 주파수 응답 특성 데이터를 비교 분석하였다. 비교 결과, 측정한 각각의 마이크로폰 주파수 응답 특성들 사이에 오차가 발생하였으나, 오차가 그 측정값들이 허용 오차(${\pm}3{\sim}{\pm}5dB$) 범위에 내에 있었으므로 제안한 알고리즘이 마이크로폰의 주파수 응답 특성을 측정하기에 적합한 방법임을 입증하였다.

가변 Break를 이용한 코퍼스 기반 일본어 음성 합성기의 성능 향상 방법 (A Performance Improvement Method using Variable Break in Corpus Based Japanese Text-to-Speech System)

  • 나덕수;민소연;이종석;배명진
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.155-163
    • /
    • 2009
  • Text-to-speech 시스템에서 입력 텍스트로부터 운율 정보를 생성하기 위해서는 운율구 경계, 음소 지속시간, 기본주파수 포락선 설정의 3가지 기본적인 모듈이 필요하다. Break 인덱스 (BI; Break Index)는 합성기에서 운율구의 경계를 나타내고, 자연스러운 합성음을 생성하기 위해서는 BI를 정확히 예측하여야 한다. 그러나 BI는 문장의 의미나 화자의 읽기 습관(reading style)에 따라 임의적으로 결정되는 경우가 많아 정확한 예측이 매우 어렵다. 특히 일본어 합성기에서는 악센트 구 경계 (APB; Accentual Phrase Boundary)와 major phrase 경계 (MPB; Major Phrase Boundary)의 정확한 예측이 어렵다. 따라서 본 논문에서는 APB와 MPB 예측 오류를 보완할 수 있는 방법을 제안한다. BI를 고정 break (FB; Fixed Break)와 가변 break (VB; Variable Break)로 분류하여 합성단위 선택을 수행한다. 일반적으로 BI는 한번 생성되면 변하지 않는다. 따라서 BI가 잘못 생성된 경우 최적의 합성음을 생성할 수 없게 되는데, VB는 생성된 BI와 그것과 유사한 BI를 함께 이용하여 합성단위 선택을 수행함으로써 합성음의 BI가 생성된 BI와 다를 수 있는 것을 의미한다. APB와 MPB에 해당하는 BI에 대하여 VB인지 FB인지 CART(Classification and Regression Tree)를 이용하여 예측하고, VB인 경우 기본 주파수와 음소 지속시간에 대해 다중 운율 모델을 생성하여 합성단위 선택을 수행하였다. MOS 테스트 결과 원음이 4.99, 제안한 방법을 4.25, 기존의 방법은 4.01로 합성음의 자연성을 향상시킬 수 있었다.

범용 디지털 신호처리기를 이용한 국악기 사운드 엔진 개발 (Sound Engine for Korean Traditional Instruments Using General Purpose Digital Signal Processor)

  • 강명수;조상진;권순덕;정의필
    • 한국음향학회지
    • /
    • 제28권3호
    • /
    • pp.229-238
    • /
    • 2009
  • 본 논문에서는 TMS3320F2812 신호처리기를 이용하여 가야금과 태평소의 사운드 엔진을 구현하였다. Commuted Waveguide Synthesis (CWS) 기반의 가야금과 태평소 모델을 신호처리기에 탑재하고 악기 선택 버튼을 두어 해당 악기의 사운드 샘플을 매 일정 시간마다 합성하도록 하였다. 합성음은 SPI 통신을 이용하여 DAC로 전송되며 오디오 인터페이스를 거쳐 스피커를 통해 재생된다. 합성 모델의 지연 라인은 합성음의 피치를 조절하는데, 이 지연라인의 길이를 결정하기 위해 GPIO를 이용하여 한 샘플을 합성하는데 필요한 시간을 측정하였다. 가야금은 $28.6{\mu}s$, 태평소는 $21{\mu}s$가 소요되었다. 태평소와 가야금의 동시 발음수를 고려하였을 때 태평소는 동시 발음수 1을 가지므로 $21{\mu}s$, 가야금은 일반적으로 동시 발음수가 2이므로 $57.2{\mu}s$의 연산시간이 필요하다. 이는 실시간 연주가 충분히 가능한시간이다. 제안한 사운드 엔진의 경우, 인터럽트 서비스 루틴에서 각 사운드 샘플의 합성과 DAC로의 전송이 일어난다. 인터럽트 서비스 루틴은 시스템의 안정성을 보장하기 위해 타이머의 주기 매칭 이벤트를 이용하여 $60{\mu}s$마다 주기적으로 호출된다. 이와 같이 합성된 음을 녹음하여 원음과 스펙트럼으로 비교한 결과, 가야금은 원음과 매우 유사한 음을 합성할 수 있었고, 태평소는 '무(無), 황(黃), 태(太), 중(仲)' 음을 제외한 나머지 음에 대해서 태평소의 음색을 잘 표현하는 음을 합성 할 수 있었다.

한국어 스펙트럼과 캡스트럼 측정시 안면마스크의 영향: 남녀 성우 2인 사례 연구 (Impact of face masks on spectral and cepstral measures of speech: A case study of two Korean voice actors)

  • 양원영;권미지
    • 한국음향학회지
    • /
    • 제43권4호
    • /
    • pp.422-435
    • /
    • 2024
  • 본 연구의 목적은 안면 마스크가 한국어에 미치는 영향을 음향적, 공기역학적, 포먼트 매개변수 측면에서 검증하고자 하였다. 국내에서 판매되는 모든 종류의 마스크를 필터 성능과 접이식 방식을 기준으로 선택하였다. 본 연구에는 표준 한국어를 구사하는 경력 20년 이상의 한국인 전문 성우 2명(남녀)이 음성 데이터의 화자로 참여하였다. 연구 결과, 안면 마스크는 고주파수 범위를 약화시켜 Vowel Space Area(VSA) 및 Vowel Articulation Index(VAI) 점수를 감소시키고 모든 음성 샘플에서 Low-to-High spectral ratio(L/H ratio)을 증가시킨 것으로 나타났다. 이로 인해 음성 명료도가 낮아질 수 있음을 파악하였다. 그러나 음성 특성에 따라 증가 및 감소 정도가 결정되며 여성 화자의 경우 안면 마스크 두께가 증가함에 따라 Speech Level(SL)과 Cepstral Peak Prominence(CPP)가 증가하였다. 그러나 남성 화자의 경우 안면 마스크 두께가 증가함에 따라 이 두 매개변수가 감소하였다. 결론적으로, 본 연구에서는 마스크의 유무나 필터 성능이 음성 특성에 따른 음성 음향 매개변수에 영향을 미치는 것으로 나타났다. 안면 마스크는 음성 강도가 충분히 강하지 않거나 환경의 반향이 덜할 때 음성 노력에 영향을 미치는 것으로 나타났다. 마스크 착용시 음향 변형을 극복하기 위해 안면 마스크로 유도된 음성 노력에 대한 추가적인 연구가 수행되어야 함을 시사한다.

몇가지 어류 및 갑각류의 발음과 주음성에 관한 연구 (Study on Sound Production and Phonotaxis of Some Fishes and Crabs)

  • 김상한
    • 수산해양기술연구
    • /
    • 제14권1호
    • /
    • pp.15-36
    • /
    • 1978
  • 몇 가지 어류와 갑각류의 식이음과 울음소리를 분석하고, 그 소리를 방음할 때의 주음반응을 조사 연구하였다. 1. 어류의 식이음의 주파수는 참돔(Chrysophrys major)과 말쥐치(Navodon modestus)는 63~125Hz로서 낮고, 까치복(Fugu xanthopterus)은 400~500Hz로서 높으며, 소조기(Nibea albiflora)와 방어(Seriola quinqueradiata)는 그들의 중간인 125~250Hz이였다. 말쥐치와 참돔의 식이음과 음압은 55~59db로서 낮고, 까치복은 60~64db로서 높으며, 소조기와 방어는 57~62db로 이들의 중간이었다. 2. 수조기의 울음소리의 주파수는 125~250Hz로서 식이음과 같으나, 음압준위는 62~63db로서 식이음보다 높았다. 3. 갑각류의 울음소리의 주파수는 왕게(Scylla serrata)가 125~250Hz로서 낮고, 민꽃게(Charybdis japonica)와 왕밤송이게(Telmessus acutidens)가 500~1,000Hz로서 높으며, 꽃게(Portunus trituberculatus)는 250~500Hz로서 그들의 중간이었다. 음압준위는 왕게가 68~70db로서 높고, 꽃게, 민꽃게와 왕밤송이게는 54~61db로써 낮았다. 4. 수조기와 방어의 식이음에 대한 주음률은 56~87%였으며, 말쥐치와 까치복은 주음성을 확인하기 어려웠다. 수조기의 울음소리에 대한 주음률은 52~63%였다. 5. 수조기, 방어, 까치복, 말쥐치, 참돔 등은 주파수가 50~9,000Hz인 정현파에는 주음하지 않았다. 6. 꽃게의 울음소리에 대한 주음은 대형군(갑폭 15.1~18.5cm)이 방음할 때, 소형군(8.5~12.5cm)의 주음률(13~58%)보다는 소형군이 방음할 때 대형군의 주음률(44~98%)이 높았다. 중소형군(각폭 8.5~15.0cm)까지는 암컷이 방음할 때 수컷의 주음률(88~100%)은 암컷의 주음률(56~91%)보다 높은 편이며, 수컷이 방음할 때 수컷의 주음률(19~63%)보다 암컷의 주음률(66~100%)이 높은 편이었다.

  • PDF

외국인 노동자의 특성과 의료이용 실태 (The Characteristics and Medical Utilization of Migrant Workers)

  • 주선미
    • 한국직업건강간호학회지
    • /
    • 제7권2호
    • /
    • pp.164-176
    • /
    • 1998
  • This study deals with the current medical utilization for migrant workers and the characteristics of them. The purpose of this study is to provide the basic information to establish proper medical policy. For the study self-made questionnaire was used, which was answered by 453 migrant workers working in the area of manufacturing and non-technical work in 10 cities like Seoul, Inchon, Namyangju, Sungnam, Kwangju, Pyungchon, Kunpo, Kimpo, Masuk in Kyungki-do and Chunan in Chungchungnam-do. Besides, 303 medical records of those who had visited free medical check-up center were analyzed. The period of accumulating data is 6 months, from November 1st, 1996 to April 30th, 1997. The characteristics of migrant workers and current medical utilization are analyzed by percentage and the relation between characteristics and current medical utilization were analyzed using ${\chi}^2$-test, t-test, ANOVA. The finding of this study was as follows : 1) The number of nationality was 16. The first majority was Philippians as 32.0%. Among 16 nationalities Southeastern and Northern Asians were 48.9%, Southwestern Asian was 46.5%, the rest was 7.3%. Men were 81.0%, those who are aged from 26 to 30 were 39.0%, Graduatee from high school 92.7%, Christians 56.3%, unmarried 55.4% and salary from 600,000 Won to 800,000 Won 53.8% averaging monthly payment 669,810 Won. As for their residence, those who resided over 3 years were 31.9% and the illegal residence reached 77.4%. As for Korean language, those who speak in middle level were 5.6%. 2) As for kind of work and circumstances, manufacturing was 81.1%, 4 off-days per month 72.2% and 9-10 working hours per day 42.1%. As for accommodation, residence in fabric was 62.6% and one or two members as roommate 40.2%. 3) The characteristics of health behavior showed that 89.4% of migrant workers had 3 meals, 70.9% of them did not drink alcohol, 73.5% of them did not smoke. 4) As a characteristic of health status, 71.8% of them perceived of their health. 76.1% thought that they had no illness before coming Korea. Among them who recognized their illness, those who had problem in circulatory system was 35.3%, respiratory system ENT 19.1% and nervous system 19.1%.66.2% of those having illness had already had sickness when coming to Korea. 5) During last one month, 79.2% of them were known as ones having no illness. Among the sick, those who had problem in circulatory system was 31.6%, nervous system 23.7% and respiratory system 21.1%. 60.3% of the sick were not cured at that time. 6) Sorting the symptom of those who visited free medical check up, dental care was 24.2%, orthopedic 14.0% and digestive system 13.8%. Teethache was 34.4%, stomach problem 11.6%, upper respiratory inflammation 10.2% and back pain 5.9%. Averagely they visited free medical check up 1-2 times. According to symptom, epilepsy 25.5 times, heart and vascular disease 9 times, constipation 2.8%, neurosis 2.38 times and stomach problem 2.34 times. 7) The most frequently visited medical service by migrant workers was hospital. The most mentioned reason was good healing as 36.3%. The medical service satisfied migrant workers mostly was hospital as 64.3%. The reason of satisfaction was also good healing as 45.9%. 8) 77.2% of respondents did not spend money for medical check. Average monthly medical cost was 25,100 Won, 3.7% of income. Those who had no medical security was 73.4%. In their case, 67.7% got discount from hospital or support from working place and religious organization. 9) As for the difference of medical utilization according for the characteristics of migrant workers, legal workers and no-Korean speaker used hospital more frequently. 10) Those who were satisfied most of all with the service of hospital were female workers, hinduists and buddhists, legal workers or manufacture workers. 11) Christians, those who have 3 meals or recognize themselves as healthy ones mostly had no illness. As a result, the most of migrant workers in Korea are from Asia. They are good educated but are working in manufacturing and illegal. Their average income is under 700,000 Won which in not enough for medical cost. They have no medical security and medical fee is supported by religious organization or discounted. Considering these facts the medical policy by government is to be established.

  • PDF