• Title/Summary/Keyword: 음성 특성

검색결과 1,828건 처리시간 0.031초

의사 형태소 단위의 연속 음성 인식 (Pseudo-Morpheme-Based Continuous Speech Recognition)

  • 이경님
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.309-314
    • /
    • 1998
  • 언어학적 단위인 형태소의 특성을 유지하면서 음성인식 과정에 적합한 분리 기준의 새로운 디코딩 단위인 의사형태소를 정의하였다. 이러한 필요성을 확인하기 위해 새로이 정의된 37개의 품사 태그를 갖는 의사 형태소를 표제어 단위로 삼아 발음사전 생성과 형태소 해석에 초점을 두고 한국어 연속음성 인식 시스템을 구성하였다. 각 음성신호 구간에 해당되는 의사 형태소가 인식되면 언어모델을 사용하여 구성된 의사 형태소 단위의 상위 5개 문장을 기반으로 시작 시점과 끝 시점, 그리고 확률 값을 가진 의사 형태소 격자를 생성하고, 음성 사전으로부터 태그 정보를 격자에 추가하였다. Tree-trellis 탐색 알고리즘 기반에 의사 형태소 접속정보를 사용하여 음성언어 형태소 해석을 수행하였다. 본 논문에서 제안한 의사 형태소를 문장의디코딩 단위로 사용하였을 경우, 사전의 크기면에서 어절 기반의 사전 entry 수를 현저히 줄일 수 있었으며, 문장 인식률면에서 문자기반 형태소 단위보다 약 20% 이상의 인식률 향상을 얻을 수있었다. 뿐만 아니라 형태소 해석을 수행하기 위해 별도의 분석과정 없이 입력값으로 사용되며, 전반적으로 문자을 구성하는 디코딩 수를 안정화 시킬 수 있었다. 이 결과값은 상위레벨 언어처리를 위한 입력?으로 사용될 뿐만 아니라, 언어 정보를 이용한 후처리 과정을 거쳐 더 나은 인식률 향상을 꾀할 수 있다.

  • PDF

카오스 발생회로를 이용한 음성비화통신 제어시스템 (Speech Secure Communication Control System Using Chaos Generation Circuit)

  • 여지환;이익수
    • 한국지능시스템학회논문지
    • /
    • 제6권2호
    • /
    • pp.72-80
    • /
    • 1996
  • 본 논문은 카오스 발생회로(chaos generation circuit)를 설계 및 구현하고, 카오스 회로들간의 카오스 동기화(chaos synchronization) 알고리즘을 기초로 하여 카오스 변조통신을 구성하여 음성비화시스템의 구현에 관하여 실험적으로 검증했다. Pecorra와 Carroll 은 카오스 신호로서 카오스 시스템을 구동하면 카오스 동기화가 가능하다고 발표했다. 이러한 제어기법은 카오스 신호의 마스킹과 복원 알고리즘의 등장을 초래했다. 본 연구는 카오스 신호를 발생하기 위하여 상태변수 기법을 이용하여 로렌쯔(Lorenz) 카오스 발생회로를 하드웨어로 구현했다. 수치 실험 및 보드상의 실험에서 카오스 회로는 카오스의 동적특성을 나타냈으며, 카오스 발생회로들간의 카오스 동기제어를 아루었다. 음성비화를 위한 카오스 신호의 변조는 카오스 신호에 음성신호를 가산하여 송신하며, 광대역)spread spectrum)의 카오스 변조통신 (chaotic modulation communication)에서 음성정보는 수신시스템의 카오스 부시스템에서 카오스 신호를 빼내어 신호를 복원한다. 보드상에서 하드웨어로 구현한 카오스 변.복조 통신시스템을 구성하여 음성신호와 비화통신에 카오스 지능제어기법을 적용하였다.

  • PDF

LSP 분포 특성을 이용한 G.723.1 보코더의 계산량 감소 (The Reduction of the Computation Speed using LSP Distribution in G.723-1 Vocoder)

  • 이희원;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.127-130
    • /
    • 2000
  • 현재까지 발표된 음성 부호화기 중에서 저전송률에서 양호한 음질을 제공하는 CELP 계열 보코더에 대한연구가 가장 많이 이루어지고 있다. 그 중에서 G.723.1부호화기는 인터넷 폰이나 화상회의 등 상용서비스로 개발되었다. G.723.1 부호화기에서는 음성신호의 선형예측 방법 중 LSP 파라미터를 이용하는 방법이 많이 사용된다. 이것은 LSP 파라미터의 전송형 특징 중 낮은 전송률에서도 왜곡이 적고 선형보간 특성이 뛰어나기 때문이다. 하지만 LPC 계수를 LSP 파라미터로 변환하기 위해서는 많은 계산시간이 소요된다[1]. 본 논문에서는 G.723.1 보코더에서 LSP 변환 시 다항식의 근을 찾는 순서를 음성신호의 LSP 분포 특성에 맞게 조정함으로써 전체 계산시간을 평균 2% 단축하였다.

  • PDF

음성특성을 이용한 LSP 변환시간 단축에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time Using the Voice Characteristic)

  • 강은영;민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.557-560
    • /
    • 2000
  • LSP 파라미터는 일정한 ,스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하다는 장점을 갖는다. 피러나 LPC 계수를 LSP 파라미터로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다. 기존의 LSP 변환 방법 중 음성 부호화기에 주로 사용되는 Real Root 방법은 근을 구하기 위해 주파수 역을 순차적으로 검색하기 때문에 계산시간이 많이 소요된다. 본 논문에서 제안하는 방법은 음성 특성을 이용하는 것으로, 묵음의 경우는 묵음 구간에서 일정하게 나타나는 LSP 파라미터의 분포 특성을 이용하여 검색하고 유/무성음에 대해서는 LSP 파라미터의 분포도에 따라 검색구간의 순서와 검색간격을 달리한다. 또한, 모음에 대해서는 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 Real Root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 46.5% 단축되었다.

  • PDF

음성 및 데이터를 포함하는 이동통신 혼합 트래픽의 Erlang 용량 산출방법 (Erlang Capacity Calculation for the Mixed Traffic of 3G1x CDMA Wireless Networks Integration for Voice over Internet Protocol)

  • 정현규
    • 전자통신동향분석
    • /
    • 제17권5호통권77호
    • /
    • pp.37-46
    • /
    • 2002
  • 이동통신에서는 무선자원의 효율적인 사용을 위하여 variable rate vocoder 및 VoX 기법을 이용한 음성 전송이 일반적 추세이며, 버스티 특성을 갖는 패킷 트래픽의 경우 statistical multiplexing을 이용하여 무선 채널의 사용을 극대화 시킨다. 트래픽 밀도를 나타내는 Erlang 용량은 일정속도의 회선교환 트래픽에 대하여 동시에 점유할 수 있는 dedicated circuit의 수에 기초하는 개념이므로 statistical multiplexing으로 처리되는 데이터 패킷의 트래픽 밀도는 queuing model에 근거한 데이터 스루풋이 현실적이다. 그러나 이동통신 시스템에서 트래픽 특성을 달리하는 circuit 및 패킷 타입의 혼합 서비스가 동시에 제공될 경우 네트워크 planning을 위한 구성 시스템의 용량산정을 위해 트래픽 밀도의 통합적인 표현을 요구한다. 따라서 Erlang 용량과 데이터 스루풋의 상호 변환을 통하여 네트워크 구성요소의 용량 산정에 적당한 용량표현을 선택할 수 있다. 본 고에서는 트래픽 처리기로서의 통신시스템을 기술하기 위하여 일반적인 텔레트래픽 시스템 모델과 파라미터를 정의한다. 또한 음성 및 비음성 서비스의 혼합 트래픽 환경에서 트래픽 밀도계산을 위한 Erlang 용량과 데이터 스루풋의 상호 변환 관계를 소개한다. 마지막으로 3G1x 무선접속환경에서 음성 및 HSPD 서비스가 공존할 경우 기지국 CE dimensioning에 필요한 혼합 트래픽 Erlang 용량 산출 방법을 기술한다.

음성 신호를 사용한 감정인식의 특징 파라메터 비교 (Comparison of feature parameters for emotion recognition using speech signal)

  • 김원구
    • 대한전자공학회논문지SP
    • /
    • 제40권5호
    • /
    • pp.371-377
    • /
    • 2003
  • 본 논문에서 음성신호를 사용하여 인간의 감정를 인식하기 위한 특징 파라메터 비교에 관하여 연구하였다. 이를 위하여 여러 가지 감정 상태에 따라 분류된 한국어 음성 데이터 베이스를 이용하여 얻어진 음성 신호의 피치와 에너지의 평균, 표준편차와 최대 값 등 통계적인 정보 나타내는 파라메터와 음소의 특성을 나타내는 MFCC 파라메터가 사용되었다. 파라메터들의 성능을 평가하기 위하여 문장 및 화자 독립 감정 인식 시스템을 구현하여 인식 실험을 수행하였다. 성능 평가를 위한 실험에서는 운율적 특징으로 피치와 에너지와 각각의 미분 값을 사용하였고, 음소의 특성을 나타내는 특징으로 MFCC와 그 미분 값을 사용하였다. 벡터 양자화 방법을 사용한 화자 및 문장 독립 인식 시스템을 사용한 실험 결과에서 MFCC와 델타 MFCC를 사용한 경우가 피치와 에너지를 사용한 방법보다 우수한 성능을 나타내었다.

PCA 기반 파라메타를 이용한 숫자음 인식 (The Recognition of Korean Syllables using Parameter Based on Principal Component Analysis)

  • 박경훈;표창수;김창근;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.181-184
    • /
    • 2000
  • 본 논문에서는 음성 특징추출의 한 방법으로서 기존의 방법들과는 달리 음성의 통계적인 특성들을 고려하여, 입력 공간내에서 변동량이 가장 많은 방향으로 주축을 발견한 다음 그 정보를 이용하여 데이터의 중복성을 제거하는 주성분 해석(PCA:Principal Component Analysis)기법을 사용하여 음성의 특징을 추출하는 방법을 제안한다. 본 논문의 숫자음 인식실험 결과와 비교하기 위하여 기존의 음성특징 파라메타인 Mel-Cepstrum과 비교하였을 때, 0.5%의 인식률 차이가 있었으나, 음성특징 추출시 기존의 파라메타에 비하여 비교적 짧은 시간에 구해지는 점과 데이터의 통계적 특성을 이용한 최적의 기저벡터를 이용한다면 단어나 문장 인식시에 보다 나은 인식률을 얻으리라 사료된다.

  • PDF

Oleamide 및 아라미드 칩을 첨가한 NBR 고무재료의 내소음성 및 물성 연구 (A Study on Noise Resistance and Physical Properties of NBR Rubber Materials Containing Oleamide and Aramid Chip)

  • 김현묵;이창섭
    • Elastomers and Composites
    • /
    • 제41권2호
    • /
    • pp.79-87
    • /
    • 2006
  • 내소음성과 내균열성을 가진 고무재료의 개발을 목적으로 NBR에 oleamide와 아라미드를 첨가하여 함량에 따른 가황특성, 물리적 성질, 내열성, 내유성, 내마모성, 내균열성 및 내소음성을 조사하였다. 가황특성과 Mooney 점도를 측정한 결과, 미가황고무의 가황특성은 oleamide의 양이 증가할수록 torque가 감소하였다. oleamide의 함량이 3 phr까지 증가함에 따라 경도 및 모듈러스 값은 조금씩 감소하였고 신장률은 감소하는 경향을 나타내었으며 인장강도는 거의 변화가 없었다. 내열성 시험(70시간, $120^{\circ}C$) 및 내유성 시험(70시간, $40^{\circ}C$)을 수행한 결과. 인장강도와 신장률이 모두 감소하였으며, TGA/DSC 분석 결과 첨가제에 따른 배합고무재료의 열적특성은 변화가 없었다. 기본물성, 내마모성, 내소음성 및 내균열성을 종합한 결과, NBR 227001 고무재료에서 내마모성과 내소음성에 대한 oleamide의 최적배합비는 3 phr였으며, 내균열성에 대한 아라미드의 최적배합비는 1 phr로 나타났다.

새로운 스펙트럼 완만화에 의한 합성 음질 개선 (Improvement of Synthetic Speech Quality using a New Spectral Smoothing Technique)

  • 장효종;최형일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1037-1043
    • /
    • 2003
  • 본 논문에서는 단위음소로 다이폰을 사용하여 음성을 합성하는 방법에 관하여 기술한다. 음성 합성은 기본적으로 단위음소들의 연결을 통하여 이루어지는데, 이때 발생하는 가장 큰 문제점은 두 단위음소 사이의 연결부분에서 불연속이 발생하는 것이다. 이 문제를 해결하기 위하여 본 논문에서는 포만트 궤적뿐 아니라 스펙트럼의 분포특성과 인간의 청각적인 특성을 반영하여 스펙트럼을 완만화하는 방법을 제안한다. 즉, 제안하는 방법은 단위음소의 연결 구간에서 인간의 청각신경 특성을 고려하여 완만화의 양과 범위를 결정한 다음, 두 다이폰 경계의 스펙트럼 분포를 시간에 따라 가중치를 다르게 주어 스펙트럼 완만화를 수행한다. 이 방법은 불연속을 제거하며 완만화로 인하여 발생할 수 있는 음성의 왜곡을 최소화한다. 제안하는 방법의 성능을 평가하기 위하여 ETRI 음성 DB 샘플과 개인별로 자체 녹음한 총 20여개의 문장에서 추출한 약 500여 개의 다이폰에 대하여 실험을 수행하였다.

뇌성마비 성인과 일반 성인의 음악적 발화과제 시 음성 특성 비교 (Comparison of the Vocal Characteristics of Adults with and without Cerebral Palsy on Musical Speech Tasks)

  • 박한나
    • 인간행동과 음악연구
    • /
    • 제12권2호
    • /
    • pp.1-18
    • /
    • 2015
  • 본 연구의 목적은 뇌성마비 성인과 일반 성인에게 각각 동일한 발화과제(일반, 리듬, 선율 발화)를 제공한 뒤 집단(일반 및 뇌성마비 성인)과 발화과제에 따라 어떠한 음성 특성이 나타나는지 알아보는 것이다. 연구대상은 뇌성마비 성인 20명과 일반 성인 20명이며 프라트(Praat) 프로그램을 사용하여 발화과제에 따른 기본주파수, 음성강도, 주파수 변동률, 진폭 변동률수치를 구하였다. 각 집단의 발화 과제에 따른 음성 특성 분석 결과, 기본주파수와 음성강도의 경우 두 집단 모두 유의한 차이는 없었으나 주파수 변동률 및 진폭 변동률의 경우 일반성인집단과 뇌성마비성인집단 모두 선율 발화 시 유의하게 가장 낮은 수치를 보였다. 집단에 따른 차이를 분석한 결과, 뇌성마비성인집단의 주파수 변동률 및 진폭 변동률이 일반성인집단에 비해 유의하게 높은 수치를 보였다. 또한 일반성인집단과는 달리 뇌성마비성인집단의 경우 리듬 발화 시 주파수 변동률 및 진폭 변동률 수치가 가장 높게 나타났으며 주파수변동률의 경우 집단과 발화과제 종류에 따른 상호작용 효과가 유의해 두 집단 사이에 상이한 양상이 발견되었다. 본 연구는 발화 시 적용된 음악요소에 따라 나타나는 즉각적 음성 특성에 대한 정보를 제공해주는 기초자료로 사용될 수 있다.