• 제목/요약/키워드: 음성 분석

검색결과 3,084건 처리시간 0.027초

A study on the Voiced, Unvoiced and Silence Classification (유, 무성음 및 묵음 식별에 관한 연구)

  • 김명환;김순협
    • The Journal of the Acoustical Society of Korea
    • /
    • 제3권2호
    • /
    • pp.46-58
    • /
    • 1984
  • 본 논문은 한국어 음성 인식을 위한 유성음, 무성음, 묵음 식별에 관한 연구이다. 주어진 음성 구간을 3가지 음성 신호 부류로 식별하기 위하여 패턴 인식 방법을 사용하였다. 여기에 사용한 분석 파 라메타는 음성 신호의 영교차율, 대수 에너지, 정규화 된 첫 번째 자동 상관 계수, 선형 예측 분석에서 얻은 첫 번째 예측 계수, 그리고 예측 오차의 에너지이다. 한편 측정된 파라메타들이 다차원 가우스 확 률 밀도 함수에 따라 분산되었다는 가정하에서 어어진 최소 거리 법칙에 기본을 두고 음성 구간을 결정 하였다. 측정된 파라메타들을 여러 가지 방법으로 조합하여 식별한 결과 영교차율, 첫 번째 예측계수, 예측 오차의 에너지를 측정 파라메타로 사용했을 때 1%보다 적은 식별 오차율을 얻었다.

  • PDF

Realtime Synthesis of Virtual Faces with Facial Expressions and Speech (표정짓고 말하는 가상 얼굴의 실시간 합성)

  • 송경준;이기영;최창석;민병의
    • The Journal of the Acoustical Society of Korea
    • /
    • 제17권8호
    • /
    • pp.3-11
    • /
    • 1998
  • 본 논문에서는 고품질의 얼굴 동영상과 운율이 첨가된 음성을 통합하여 자연스런 가상얼굴을 실시간으로 합성하는 방법을 제안한다. 이 방법에서는 한글 텍스트를 입력하여, 텍스트에 따라 입모양과 음성을 합성하고, 얼굴 동영상과 음성의 동기를 맞추고 있다. 먼저, 텍스트를 음운 변화한 후, 문장을 분석하고 자모음사이의 지속시간을 부여한다. 자모음과 지 속시간에 따라 입모양을 변화시켜 얼굴 동영상을 생성하고 있다. 이때, 텍스트에 부합한 입 모양 변화뿐만 아니라, 두부의 3차원 동작과 다양한 표정변화를 통하여 자연스런 가상얼굴 을 실시간으로 합성하고 있다. 한편, 음성합성에서는 문장분석 결과에 따라 강세구와 억양구 를 정하고 있다. 강세구와 억양구를 이용하여 생성된 운율모델이 고품질의 음성합성에 필요 한 지속시간, 억양 및 휴지기를 제어한다. 합성단위는 무제한 어휘가 가능한 반음절과 triphone(VCV)의 조합이며, 합성방식은 TD-PSOLA를 사용한다.

  • PDF

Chaotic Speech Secure Communication Using Feedback Masking Techniques (피드백 마스킹 기법을 사용한 카오스 음성비화통신)

  • 이익수;여지환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 한국퍼지및지능시스템학회 2002년도 추계학술대회 및 정기총회
    • /
    • pp.353-356
    • /
    • 2002
  • 본 논문은 카오스 신호를 이용하여 안전한 음성신호의 전송을 위한 아날로그 비화통신 시스템의 성능분석에 관한 연구이다. 기존의 카오스 동기화 및 카오스 변조통신 알고리즘을 개선하여 실제 통신환경에서 발생하는 다양한 조건들을 적용하여 음성신호의 복원능력을 모의실험으로 분석하였다. 일반적인 PC 제어기법과 제안한 피드백 마스킹 기법을 사용하여 송신단에서 음성신호를 카오스 신호로 마스킹하여 변조하고, 통신채널에 잡음신호를 추가하여 전송하였다. 수신단에서는 카오스 응답시스템을 이용하여 음성신호를 복조하고, 복원성능을 계산하기 위하여 아날로그 복원 에러신호의 평균전력을 제안하여 계산하였다. 실험결과 마스킹 정도, 파라미터들의 민감성, 채널잡음 등에 대하여 PC 제어기법보다 피드백 제어기법의 복원성능이 우수함을 확인할 수 있었다. 또한 로렌쯔 카오스 시스템을 비화통신시스템에 사용할 경우 파라미터들의 조합으로 암호키를 구성해야 하므로 키값들의 선정에 기준이 되는 파라미터 변화율에 대응하는 복원에러율의 관계를 실험 값으로 구하였다.

Data Sampling Strategy for Korean Speech Emotion Classification using wav2vec2.0 (wav2vec2.0을 활용한 한국어 음성 감정 분류를 위한 데이터 샘플링 전략)

  • Mirr-Shin;Youhyun Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.493-494
    • /
    • 2023
  • 음성 기반의 감정 분석은 인간의 감정을 정확하게 파악하는 데 중요한 연구 분야로 자리잡고 있다. 최근에는 wav2vec2.0과 같은 트랜스포머 기반의 모델이 음성 인식 분야에서 뛰어난 성능을 보이며 주목받고 있다. 본 연구에서는 wav2vec2.0 모델을 활용하여 한국어 감성 발화 데이터에 대한 감정 분류를 위한 데이터 샘플링 전략을 제안한다. 실험을 통해 한국어 음성 감성분석을 위해 학습 데이터를 활용할 때 감정별로 샘플링하여 데이터의 개수를 유사하게 하는 것이 성능 향상에 도움이 되며, 긴 음성 데이터부터 이용하는 것이 성능 향상에 도움이 됨을 보인다.

Voice Change Associated with Swallowing Disorder Caused by a Stroke After Neuromuscular Electrical Stimulation (뇌졸중으로 인한 삼킴장애 환자의 경부근육전기자극치료에 따른 음성 변화)

  • Byeon, Hae-Won
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • 제13권4호
    • /
    • pp.1665-1671
    • /
    • 2012
  • The purpose of this study was to look into changes in voice using acoustic analysis during the process of neuromuscular electrical stimulation targeting dysphagia treatment. Fifteen man with dysphagia caused by stroke was treated neuromuscular electrical stimulation for two months and intensity of voice, $F_0$, Jitter, Shimmer, NNE were measured. The results of this study that improvement in functions of dysphagia and Jitter, Shimmer were stabilized. But there was not significantly changes of $F_0$. NNE was improved after the intervention, but still showed abnormal levels. This result suggests a possibility of effects that Neuromuscular electrical stimulation has on stabilization of Jitter, Shimmer and intensity of voice.

Development of medical/electrical convergence software for classification between normal and pathological voices (장애 음성 판별을 위한 의료/전자 융복합 소프트웨어 개발)

  • Moon, Ji-Hye;Lee, JiYeoun
    • Journal of Digital Convergence
    • /
    • 제13권12호
    • /
    • pp.187-192
    • /
    • 2015
  • If the software is developed to analyze the speech disorder, the application of various converged areas will be very high. This paper implements the user-friendly program based on CART(Classification and regression trees) analysis to distinguish between normal and pathological voices utilizing combination of the acoustical and HOS(Higher-order statistics) parameters. It means convergence between medical information and signal processing. Then the acoustical parameters are Jitter(%) and Shimmer(%). The proposed HOS parameters are means and variances of skewness(MOS and VOS) and kurtosis(MOK and VOK). Database consist of 53 normal and 173 pathological voices distributed by Kay Elemetrics. When the acoustical and proposed parameters together are used to generate the decision tree, the average accuracy is 83.11%. Finally, we developed a program with more user-friendly interface and frameworks.

Visual analysis of attention-based end-to-end speech recognition (어텐션 기반 엔드투엔드 음성인식 시각화 분석)

  • Lim, Seongmin;Goo, Jahyun;Kim, Hoirin
    • Phonetics and Speech Sciences
    • /
    • 제11권1호
    • /
    • pp.41-49
    • /
    • 2019
  • An end-to-end speech recognition model consisting of a single integrated neural network model was recently proposed. The end-to-end model does not need several training steps, and its structure is easy to understand. However, it is difficult to understand how the model recognizes speech internally. In this paper, we visualized and analyzed the attention-based end-to-end model to elucidate its internal mechanisms. We compared the acoustic model of the BLSTM-HMM hybrid model with the encoder of the end-to-end model, and visualized them using t-SNE to examine the difference between neural network layers. As a result, we were able to delineate the difference between the acoustic model and the end-to-end model encoder. Additionally, we analyzed the decoder of the end-to-end model from a language model perspective. Finally, we found that improving end-to-end model decoder is necessary to yield higher performance.

Analysis of transmission packet size and codec for enhancing the VoIP voice quality (VoIP 음성품질 개선을 위한 전송패킷의 크기와 코덱분석)

  • Kim Yong-Seok;Park Jong-An
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.639-642
    • /
    • 2006
  • 본 논문에서는 다양한 서비스가 운용되고 있는 인터넷 망에서 PCM 및 ADPCM으로 압축된 음성데이터를 전송할 경우에 발생하는 패킷 크기와 한계 지연시간의 변화가 수신측의 음질에 미치는 영향을 분석하였다. 이를 기반으로 주어진 한계 지연시간에 대하여 적절한 음질을 제공하기 위한 전송패킷의 크기에 대하여 분석하여 적절한 코덱 선택 방법을 제안하였다. 제안된 방법의 실험결과를 입증하기 위해 음질 평가인 MOS평가 방법을 사용했으며 측정방법으로는 서울을 중심으로 전국5개 지역 지점별 5회 측정 각 지점의 임의 번호를 서울 콜 센터로 Call Forwarding 설정 후 측정하고, VQT은 PAMS 알고리즘과 ADRA(Audio Direction Reference Audio)를 사용하여 측정한 결과 음성코덱의 데이터비와 Datagram size에 의해 음성 품질이 달라짐과 적절한 코덱 선택방법임을 확인하였다.

  • PDF

Performance of analysis and extraction of speech feature using characteristics of basilar membrane (기저막 특성을 이용한 새로운 음성 특징 추출 및 성능 분석)

  • 이철희;신유식;정성환;김종교
    • Proceedings of the IEEK Conference
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.153-156
    • /
    • 2000
  • 본 논문에서는 음성 인식률 향상을 위한 여러 가지방법들 중에서 음성특징 파라미터 추출 방법에 관한 한가지 방법을 제시하였다. 본 논문에서는 청각 특성을 기반으로 한 MFCC(met frequency cepstrum coef-ficients)와 성능 향상을 위한 방법으로 GFCC (gamma-tone filter frequency cepstrum coefficients)를 제시하고 음성 인식을 수행하여 성능을 분석하였다. MFCC에서 일반적으로 사용하는 임계 대역 필터로 삼각 필터(triangular filter) 대신 청각 구조의 기저막(basilar membrane)특성을 묘사한 gammatone 대역 통과 필터를 이용하여 특징 파라미터를 추출하였다. DTW 알고리즘으로 인식률을 분석한 결과 삼각 대역 필터를 이용한 것보다 gammatone 대역 통과 필터를 이용한 추출법이 약 2∼3%의 성능 향상을 보였다.

  • PDF

Dependency relation analysis and mutual information technique for ASR rescoring (음성인식 리스코링을 위한 의존관계분석과 상호정보량 접근방법의 비교)

  • Chung, Euisok;Jeon, Hyung-Bae;Park, Jeon-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-166
    • /
    • 2014
  • 음성인식 결과는 다수의 후보를 생성할 수 있다. 해당 후보들은 각각 음향모델 값과 언어모델 값을 결합한 형태의 통합 정보를 갖고 있다. 여기서 언어모델 값을 다시 계산하여 성능을 향상하는 접근 방법이 일반적인 음성인식 성능개선 방법 중 하나이며 n-gram 기반 리스코링 접근 방법이 사용되어 왔다. 본 논문은 적절한 성능 개선을 위하여, 대용량 n-gram 모델의 활용 문제점을 고려한 문장 구성 어휘의 의존 관계 분석 접근 방법 및 일정 거리 어휘쌍들의 상호정보량 값을 이용한 접근 방법을 검토한다.

  • PDF