• 제목/요약/키워드: 음성 분석

검색결과 3,062건 처리시간 0.029초

표정과 음성 감성 분석을 통한 통합 스트레스 분석 시스템 (An Integrated Stress Analysis System using Facial and Voice Sentiment)

  • 이애진;전지원;유수화;김윤희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.9-12
    • /
    • 2021
  • 현대 사회에서 극심한 스트레스로 고통을 호소하는 사람들이 많아짐에 따라 효과적인 스트레스 측정 시스템의 필요성이 대두되었다. 본 연구에서는 영상 속 인물의 표정과 음성 감성 분석을 통한 통합 스트레스 분석 시스템을 제안한다. 영상 속 인물의 표정과 음성 감성 분석 후 각 감성값에서 스트레스 지수를 도출하고 정량화한다. 표정과 음성 스트레스 지수로 도출된 통합 스트레스 지수가 높을수록 스트레스 강도가 높음을 증명하였다.

임신돈의 분만시기 예측을 위한 음성 분석 시스템 개발 (Development of a Sow Voice Analysis System for Forecasting Parturition Time)

  • 장동일;임정택;임영일;한원석;박창식
    • 한국축산시설환경학회지
    • /
    • 제6권2호
    • /
    • pp.121-130
    • /
    • 2000
  • 신호 분석용 컴퓨터와 음성을 획득하기 위한 고성능 마이크로폰, 획득된 음성에서 노이즈 제거 및 음성 신호 증폭을 위한 증폭기 그리고 음성 신호를 저장하기 위한 데이터 레코더와 신호 분석용 오실로스코프로 이루어진 음성 분석 시스템을 개발하여 임신돈의 분만시기 예측한 결과는 다음과 같다. 1. 임신돈은 분만일에 가까워지면서 소리자르는 회수가 증가하고, 눕는 위치를 바꾸는 행동을 빈번하게 함으로써 이러한 행동시 발생되는 소리의 회수가 증가하는 것을 관찰할 수 있다. 따라서 임신돈의 분만 예측을 위해 이러한 소리의 발생회수와 시간을 기록 분석하도록 알고리즘을 개발하였고, Labwindows/CVI로 Software를 개발하였다. 2. 임신돈의 음성 특성은 오실로스코프와 상용 프로그램(Sound Forge)을 사용하여 분석하였으며, 그 결과 임신돈의 순수 음성은 30~2,500Hz 사이의 진동수와 -35~-75dB의 크기로 나타났다. 3. 임신돈의 분만 예측을 위해 분만시간과 음성 및 발생 소리의 출연회수의 상환관계를 분석하였으며, 그 결과 분만 예정일로부터 3일 동안 발생된 소리의 출연 횟수는 8일 동안 발생된 총 소리의 출현 합계의 85%에 해당되었고, 분만 예정 8시간 동안 발생된 소리의 출연 횟수는 46%에 해당되었다. 4. 음성 및 소리의 출현 회수에 의한 분만 예측의 성공률은 분만 1일전임을 예측하는 것에 목표를 두고 이루어졌으며, 그 결과 공시 돼지 모두 분만일에 가까워지면서 계속적인 자리바꿈 행동에 의해 소리 출현 횟수가 증가하여 분만 1일전과 6시간전임을 예측시 모두 100% 성공률을 보였다.

  • PDF

임신돈의 분만시기 예측을 위한 음성 분석 시스템 개발 (Development of a sow voice analysis system for forecasting parturition time)

  • 장동일;임정택
    • 농업과학연구
    • /
    • 제27권2호
    • /
    • pp.107-116
    • /
    • 2000
  • 신호 분석용 컴퓨터와 음성을 획득하기 위한 고성능 마이크로폰, 획득된 음성에서 노이즈 제거 및 음성 신호 증폭을 위한 증폭기 그리고 음성 신호를 저장하기 위한 데이터 레코더와 신호 분석용 오실로스코프로 이루어진 음성 분석 시스템을 개발하여 임신돈의 분만시기 예측한 결과는 다음과 같다. 1. 임신돈은 분만일에 가까워지면서 소리지르는 회수가 증가하고, 눕는 위치를 바꾸는 행동을 빈번하게 함으로써 이러한 행동시 발생되는 소리의 회수가 증가하는 것을 관찰할 수 있다. 따라서 임신돈의 분만 예측을 위해 이러한 소리의 발생회수와 시간을 기록 분석하도록 알고리즘을 개발하였고, Labwindows/CVI로 Software를 개발하였다. 2. 임신돈의 음성 특성은 오실로스코프와 상용 프로그램(Sound Forge)을 사용하여 분석하였으며, 그 결과 임신돈의 순수 음성은 30~2,500Hz 사이의 진동수와 -35~-75dB의 크기로 나타났다. 3. 임신돈의 분만 예측을 위해 분만시간과 음성 및 발생 소리의 출현회수의 상관관계를 분석하였으며, 그 결과 분만 예정일로부터 3일 동안 발생된 소리의 출현 횟수는 8일 동안 발생된 총 소리의 출현 합계의 85%에 해당되었고, 분만 예정 8시간 동안 발생된 소리의 출현 횟수는 46%에 해당되었다. 4. 음성 및 소리의 출현 회수에 의한 분만 예측의 성공률은 분만 1일전임을 예측하는 것에 목표를 두고 이루어졌으며, 그 결과 공시 돼지 모두 분만일에 가까워지면서 계속적인 자리바꿈 행동에 의해 소리 출현 횟수가 증가하여 분만 1일전과 6시간전임을 예측시 모두 100% 성공률을 보였다.

  • PDF

다중 서버 구조를 갖는 Web 기반 음성 수집 시스템

  • 홍문기;강선미;장문수
    • 대한음성언어의학회:학술대회논문집
    • /
    • 대한음성언어의학회 2003년도 제19회 학술대회
    • /
    • pp.230-232
    • /
    • 2003
  • 음성에 관련된 연구분야에 있어서 음성 데이터 수집의 중요성은 매우 크다. 개발된 인식기나 분석기의 성능이 좋다 하더라도 실험에 사용된 음성 데이터의 질과 양에 따라서 실험 결과를 확정짓기가 어려운 점이 있다. 대개의 경우 음성 수집은 오프라인으로 이루어지는데, 실험에서 요구되는 특정 수집자에 대해서 일정 기간과 정해진 장소에서 반복 수집하는 것은 어려움이 많이 따른다. 그러므로 본 연구에서는 Web을 이용하여 음성 데이터 수집자로 하여금 다양한 시간과 장소에서 자유롭게 음성을 수집할 수 있도록 하였다. 이에 대하여 수집된 음성 데이터의 크기가 커짐에 따른 통신상에서 종종 발생하는 문제점을 개선하려는 목적으로 다중 서버를 두어 수집된 데이터는 지역 서버에 일단 저장되었다가 적절한 상황에서 메인 서버로 자동 전송하는 시스템을 구축하였다. 본 시스템은 서로 다른 실험에서 수집되는 데이터를 수집 지역서버를 지정해 줌으로서 수집자가 원하는 특정 지역 서버에서 별도로 관리할 수 있도록 구성되어 있다. 시간, 위치의 제약 없이 인터넷이 연결된 장소에서는 음성을 수집할 수 있고, 웹상 ActiveX 프로그램을 제공함으로써 일관된 끝점처리 및 잡음처리 기능을 반영할 수 있다. 또한 다양한 응용에 적절한 수집기의 인터페이스를 관리자 모드에서 변경하여 사용할 수 있도록 함으로서 넓은 층에서의 활용도를 높였다. (중략)

  • PDF

n-best 리랭킹을 이용한 한-영 통계적 음성 번역 (Korean-English statistical speech translation Using n-best re-ranking)

  • 이동현;이종훈;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-176
    • /
    • 2006
  • 본 논문에서는 n-best 리랭킹을 이용한 한-영 통계적 음성 번역 시스템에 대해 논하고 있다. 보통의 음성 번역 시스템은 음성 인식 시스템, 자동 번역 시스템, 음성 합성 시스템이 순차적으로 결합되어 있다. 하지만 본 시스템은 음성 인식 오류에 보다 강인한 시스템을 만들기 위해 음성 인식 시스템으로부터 n-best 인식 문장을 추출하여 번역 결과와 함께 리랭킹의 과정을 거친다. 자동 번역 시스템으로 구절기반 통계적 자동 번역 모델을 사용하여, 음성 인식기의 발음 모델에서 기본 단어 단위와 맞추어 번역 모델과 언어 모델을 훈련시킴으로써 음성 번역 시스템에서 형태소 분석기를 제거할 수 있다. 또한 음성 인식 시스템에서 상황 별로 언어 모델을 분리하여 처리함으로써 자동 번역 시스템에 비해 부족한 음성 인식 시스템의 처리 범위를 보완할 수 있었다.

  • PDF

STT 성능 향상을 위한 딥러닝 기반 발화 음성 분리학습 (Deep Learning-based Speech Voice Separation Training To Enhance STT Performance)

  • 김보경;양영준;황용해;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.851-853
    • /
    • 2022
  • 인공지능을 활용한 다양한 딥러닝 기술의 보급과 상용화로 오디오 음성 인식 분야에서도 음성 인식의 정확도를 높이기 위한 다양한 연구가 진행되고 있다. 최근 STT 를 위한 음성 인식 엔진은 딥러닝 기술을 기반으로 과거에 비해 높은 정확도를 보이고 있다. 하지만 예능 프로그램, 드라마, 스포츠 방송 등과 같이 비음성 신호와 음성 신호가 함께 녹음되는 오디오의 경우 음성 인식 정확도가 크게 낮아지는 문제가 발생한다. 이에 본 연구에서는 다양한 장르의 오디오를 음성과 음악을 분리하는 딥러닝 모델을 활용하여 음성 신호와 비음성 신호로 분리하는 방법을 제시하고, STT 결과를 분석하여 음성 인식의 정확도를 높이기 위한 연구 방향을 제시한다.

  • PDF

한국어 노인 음성 데이터 증강 및 인식 연구 (A Study of Data Augmentation and Auto Speech Recognition for the Elderly)

  • 김건희;박서윤;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2023
  • 기존의 음성인식은 청장년 층에 초점이 맞추어져 있었으나, 최근 고령화가 가속되면서 노인 음성에 대한 연구 필요성이 증대되고 있다. 그러나 노인 음성 데이터셋은 청장년 음성 데이터셋에 비해서는 아직까지 충분히 확보되지 못하고 있다. 본 연구에서는 부족한 노인 음성 데이터셋 확보에 기여하고자 희소한 노인 데이터셋을 증강할 수 있는 방법론에 대해 연구하였다. 이를 위해 노인 음성 특징(feature)을 분석하였으며, '주파수'와 '발화 속도' 특징을 일반 성인 음성에 합성하여 데이터를 증강하였다. 이후 Whisper small 모델을 파인 튜닝한 뒤 노인 음성에 대한 CER(Character Error Rate)를 구하였고, 기존 노인 데이터셋에 증강한 데이터셋을 함께 사용하는 것이 가장 효과적임을 밝혀내었다.

  • PDF

정현파 모델을 이용한 2.4kbps 음성부호화 알고리즘 (2.4kbps Speech Coding Algorithm Using the Sinusoidal Model)

  • 백성기;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.123-126
    • /
    • 2000
  • STC(Sinusoidal Transform Coding) 방식은 음성신호의 주파수 영역에서 스펙트럼 피크치들을 정현파로 모델링하여 합성하는 방식을 말한다. 저전송률 STC 방식에서는 전송되는 정보량을 줄이기 위해 스펙트럼 피크를 대신해 음성신호의 스펙트럼 포락선 정보와, 피치정보를 이용하여 얻어지는 고조파 성분들을 정현파로 모델링하여 음성을 합성한다. 본 논문에서는 음성신호의 정현파 모델에 기반하여 2.4kbps 전송속도를 갖는 음성부호화 알고리즘을 제안하였으며, 실험결과로 합성음의 파형과 스펙트럼 특성, 위상특성, 그리고 MOS(Mean Opinion Score) 테스트를 이용한 합성음의 음질을 비교/분석 하였다.

  • PDF

음성 신호처리를 위한 군중잡음 제거 모델 (A Crowd Noise Reduction Model for Speech Signal processing)

  • 안용운;김중환;김상철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.502-504
    • /
    • 2002
  • 군중잡음(crowd noise)이 발생하는 환경에서 음성 통화 및 화자 인식을 할 때에는 음성에 파열음이나 마찰음과 같은 유색잡음(colored noise)이 부가되어 원래 음성이 왜곡된다. 이와 같이 왜곡된 음성 신호를 처리할 때에는 군중잡음을 제거하는 과정이 반드시 필요하다. 본 논문에서는 군중잡음의 특성을 분석하고, 그 결과를 이용하여 음성 신호처리 시에 효과적으로 군중잡음만을 제거할 수 있는 모델을 제안한다. 제안된 모델은 시간 영역에서는 침묵 구간을 검출하여 마찰음과 파열음을 제거하는 과정과 주파수 영역에서는 잡음 평균을 생성하고 이를 이용한 스펙트럼 차감법(spectral subtraction)으로 군중 잡음을 제거하는 과정으로 이루어진다.

  • PDF

SPHINX : Hidden Markov Model 기반 음성인식 시스템

  • 김명원;이영직;전인흥
    • 전자통신동향분석
    • /
    • 제5권2호
    • /
    • pp.63-77
    • /
    • 1990
  • HMM(Hidden Markov Model)은 음성을 기술하는데 적합한 model이다. 본 고는 최근 CMU에서 개발한 HMM에 기반을 둔 화자독립, 연속음성 system인 SPIHNX에 대하여 기술한다. SPHINX는 단순한 음소의 HMM model을 적용한 baseline SPHINX로부터 시작하여 새로운 지식의 추가 및 음성단위의 조정 등을 통하여 지속적으로 그 성능이 개선되어 왔다. SPHINX의 최종 version은 어휘 약 1000단어 정도의 재원 관리에 관한 질문 형태의 문장을 인식하는데 96%의 높은 인식율을 보인다. SPHINX는 가장 발전된 음성인식 시스템의 하나이며 이는 화자독립, 대용량어휘의 연속음성 인식 시스템의 실현 가능성을 제시한다.