• 제목/요약/키워드: 음성망

검색결과 874건 처리시간 0.026초

신경망을 이용한 음성인식의 안내 (Introduction to Speech Recognition using Neural Networks)

  • 정홍
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1992년도 하계학술대회 논문집 A
    • /
    • pp.43-45
    • /
    • 1992
  • 한국의 HAN 인공지능(人工知能)컴퓨터과제나 일본의 NIPT나 성사를 가름할 수 있는 기술 중의 하나가 컴퓨터에 의한 음성인식(音聲認識)의 성공여부이다. 그러나 자동음성인식은 화자독립(話者獨立), 연속음성(連續音聲) 무제한(無制限) 어휘(語彙) 처리라는 세가지 난관을 아직 극복하고 있다. 현재 DTW나 HMM 시스팀은 계속 개선되고있으나 근본적으로 한계가 있다고 보인다. 이와같은 이유로 신경망을 이용한 음성인식연구가 급속히 확산되고 있다. 이와 같은 추세에 따라 본 심포지움에서는 신경망을 이용한 음성인식에 대해 소개한다.

  • PDF

인공 신경망을 이용한 한국어 문장단위 운율 발생에 관한 연구 (A study on the Prosody Generation of Korean Sentences using Artificial Neural networks)

  • 이일구;민경중;강찬구;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.105-108
    • /
    • 1999
  • TTS(Text-To-Speech) 시스템 합성음성의 자연감을 개선하기 위해 하나의 언어에 대해 존재하는 운율 법칙을 정확히 구현해야 한다. 존재하는 운율 법칙을 추출하기 위해서는 방대한 분량의 언어 자료 구축이 필요하다. 그러나 이 방법은 존재하는 운율 현상이 포함된 언어자료에 대해 완벽한 운율을 파악할 수 없으므로 합성음성의 질을 좋게 할 수 없다. 본 논문은 한국어 음성의 운율을 학습하기 위해 2개의 인공 신경망을 제안한다. 하나의 신경망으로 문장의 각 음소에 대한 피치 변화를 학습시키는 것이며, 다른 하나는 에너지 변화를 학습하도록 하였다. 신경망은 BP 신경망을 이용하며 11개의 음소를 나타내기 위해 11개의 입력과, 중간 음소의 피치와 에너지 변화곡선을 근사하는 다항식 계수를 출력하도록 하였다. 신경망시스템의 학습과 평가에 앞서, 음성학적 균형잡힌 고립단어를 기반으로 의미있는 문장을 구성하였다. 문장을 남자 화자로 하여금 읽게 하고 녹음하여 음성 DB를 구축하였다. 음성 DB에 대해 각 음소의 운율 정보를 수집하여 신경망에 맞는 목표 패턴과 훈련 패턴을 작성하였다. 이 목표 패턴은 회귀분석을 통한 추세선을 이용해 피치와 에너지에 대한 2차 다항식계수로 구성하였다. 본 논문은 목표패턴에 맞는 신경망을 학습시켜 좋은 결과를 얻었다.

  • PDF

신경망을 이용한 이중모달 음성 인식 모델링 (Bimodal Speech Recognition Modeling Using Neural Networks)

  • 류정우;성지애;이순신;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.567-569
    • /
    • 2003
  • 최근 잡음환경에서 강인한 음성인식을 위해 음성 잡음에 영향을 받지 않은 영상정보를 이용한 이중모달 음성인식 연구가 활발히 진행되고 있다. 기존 음성인식기로 좋은 성능을 보이는 HMM은 이질적인 정보를 융합하는데 있어 많은 제약과 어려움을 가지고 있다. 하지만 신경망은 이질적인 정보를 효율적으로 융합할 수 있는 장점을 가지고 있으며 그에 대한 많은 연구가 수행되고 있다. 따라서 본 논문에서는 잡음환경에 강인한 이중모달 음성 인식 모델로 이중모달 신경망(BN-NN)을 제안한다. 이중모달 신경망은 특징융합 방법으로 음성정보와 영상정보를 융합하고 있으며. 입력정보의 특성을 고려하기 위해 윈도우와 중복영역의 개념을 적용하여 시제위치를 고려하도록 설계되어있다. 제안된 모델은 잡음환경에서 음성인식기와 성능을 비교하고, 화자독립 고립단어 인식에서 기존 융합방법인 CHMM과 비교하여 그 가능성을 확인한다.

  • PDF

내장형 음성 인식 시스템을 위한 심층 신경망 최적화 방법 (Deep Neural Network Optimization for Embedded Speech Recognition)

  • 정훈;최우용;박전규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-233
    • /
    • 2015
  • 본 논문에서는 심층 신경망 기반의 내장형 음성 인식 시스템에서 음성 인식 속도를 개선하기 위한 최적화 방법에 대해 논한다. 심층 신경망 기반의 음성 인식은 기존의 Gaussian Mixture Model (GMM) 기반에 비해 좋은 인식 성능을 보이지만 높은 연산량으로 인해 리소스가 제약된 내장형 단말기에 적용하기에는 어려움이 따른다. 따라서, 본 연구에서는 심층 신경망의 계산량 문제를 해결하고자 ARM 코어에 내장된 병렬 명령어를 사용한 최적화 기법과 특이값 분해를 통해 심층 신경망 매트릭스 연산량 감소 방안에 대해 제안한다.

  • PDF

공용 음성 데이터 베이스 PBW452의 전화망 변환 (Conversion of Common Speech Database into Telephone Channel Environment)

  • 박준호;김태윤;고한석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.37-40
    • /
    • 2000
  • 전화망 음성 인식 시스템에서 사용할 수 있는 데이터베이스 구축의 질과 양은 인식 시스템의 성능에 중대한 영향을 미친다. 따라서, 전화망 음성 데이터 베이스 구축에 관한 효과적인 방법들이 연구되고 있다. 본 논문은 공용으로 사용할 수 있는 음성 데이터 베이스의 전화망 변환 방법 및 활용 방안에 대하여 소개한다.

  • PDF

복합신경망을 이용한 단음식에 대한 연구 (A Study on the Single Word Recognition using Composite Neural Network)

  • 김석동;이행세
    • 한국음향학회지
    • /
    • 제11권6호
    • /
    • pp.23-31
    • /
    • 1992
  • 신경망을 이용한 음성인식에 관한 연구이다. 우선 음성을 음소로 분리하였다. 그런다음 각각의 음소를 인식하였다. 음소인식을 위해 제어망과 몇 개의 소규모 망으로 구성된 복합신경망을 이용하였다. 제어망은 음소가 어느 집단에 속하는가를 결정하고, 소규모망에서는 각 집단에 속하는 음소를 인식한다. 마지막으로 프레임별 인식 결과를 누적하여 음소를 판별하였다.

  • PDF

모듈화 된 신경 회로망을 이용한 음성의 Narrowband에서 Wideband로의 변환 (Narrowband to Wideband Conversion of Speech using Modularized Neural Network)

  • 우동헌;고참한;강현민;김유신;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.21-24
    • /
    • 2001
  • 본 논문은 신경 회로망을 이용하여, 전화망 대역의 음성, 즉, narrowband 음성에서 wideband 음성을 복원하고자 했다. BP 알고리즘을 사용하는 기존의 신경 회로망의 경우에는 음성과 같이 복잡하고 크기가 큰 훈련데이터에 대해서는 훈련이 제대로 되지 않는 단점이 있다. 그러므로 븐 논문에서는 이를 해결하기 위해 입력으로 들어온 LPC 켑스트럼 벡터를 k-means 알고리즘을 이용하여 미리 정한 개수의 cluster로 나눈 다음, 각각의 cluster에 대해 독립적인 신경 회로망을 적용했다 이로 인해 각각의 신경 회로망은 제한되고 서로 상관관계가 많은 음성들만 훈련하면 되므로, 기존의 신경 회로망에서 생기는 훈련의 정체를 개선할 수 있었다. 또 clustering 과정에서 생기는 오류를 보완하기 위해 후보신경 로망들의 출력에 fuzzy 개념을 적용해서 최종 출력을 내도록 했다 실험 결과에서, 제안한 알고리즘은 기존의 codebook mapping 알고리즘보다 스펙트럼 거리척도에 의한 비교 및 주관적인 음질 평가 양쪽에서 개선된 성능을 보였다.

  • PDF

VoDSL 서비스를 위한 효율적인 동적 대역폭 할당 알고리즘 (An Efficient Dynamic Bandwidth Allocation Algorithm for VoDSL Services)

  • 김훈;박종대;남상식;박광채
    • 한국통신학회논문지
    • /
    • 제27권1C호
    • /
    • pp.48-58
    • /
    • 2002
  • 인터넷 트래픽이 증가하면서 이들을 기존 음성망에 효율적으로 수용해야 하는 문제는 기존 통신사업자들에게는 중요한 현안문제이다. 차세대 교환망의 모습은 인터넷 서비스 등의 데이터 트래픽을 기존 음성망과 연계하는 통합망의 형태로 이루어질 것이며, 망의 구성 시기나 사업의 성격에 따라 너무나 다양한 모습들로 제시될 수 있다. 기존 회선기반 통신망을 패킷기반 통신망으로 진화하는 전략은 그 적용 위치에 따라서 크게 두 가지로 구분할 수 있는데, 먼저 액세스망을 먼저 패킷화하는 기술로서 VoDSL을 적용하는 방법과 중계망을 먼저 패킷화한 후 액세스망으로 패킷화를 확대하는 SoftSwitch 기술 적용 방법이 있다. 본 논문은 음성 서비스와 DSL 인터넷 접속 서비스를 제공하는 현재의 통신망 환경에서 음성 서비스를 액세스망에서 패킷화하는 기술인 VoDSL을 적용하여 패킷기반의 차세대 통신망 구축에 바람직한 기술을 도출하고, 또한 현재를 기준으로 기존 음성통신사업자의 관점에서 차세대 교환망을 실현하고자 할 때, 현실적인 해결책들을 위주로 필요한 핵심 기술인 VoDSL 서비스를 제공하기 위한 방안에 대해 연구를 수행한다.

신경망필터를 이용한 음질향상 (Speech Enhancement using the Neural Network Filter)

  • 김종우;공성곤
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 춘계학술대회 학술발표 논문집
    • /
    • pp.102-105
    • /
    • 2000
  • 본 논문에서는 잡음환경에서의 음성신호복원(Speech Enhancement) 시스템 구현을 목적으로 한다 이를 위한 적응필터로서 LMS(Least Mean Square)알고리즘 FIR필터를 제안한다. 또 정밀 필터로서 신경망 필터를 제안한다. 잡음환경에서의 음성신호 복원 시스템은 잡음에 의해 왜곡된 음성신호에서 잡음성분만을 제거함으로써 음성신호를 복원하는 시스템이다. 일반적으로 잡음은 시변특성과, 비선형적인 전달특성을 갖는다. 그러므로 파라미터가 고정된 필터로는 제어하기가 힘들다. 이러한 이유로 본 논문에서는 LMS알고리즘 적응필터를 적용한다. 신경망 필터는 오차 역전파 학습 알고리즘에 의해 오차를 최소화하는 방향으로 필터의 파라미터를 수정한다. 제안한 필터로 잡음환경에서의 음성신호복원 시스템을 구성하고, 실험을 통해 필터의 성능을 확인한다.

  • PDF

회귀신경망을 이용한 음성인식에 관한 연구 (A Study on Speech Recognition using Recurrent Neural Networks)

  • 한학용;김주성;허강인
    • 한국음향학회지
    • /
    • 제18권3호
    • /
    • pp.62-67
    • /
    • 1999
  • 본 논문은 회귀신경망을 이용한 음성인식에 관한 연구이다. 예측형 신경망으로 음절단위로 모델링한 후 미지의 입력음성에 대하여 예측오차가 최소가 되는 모델을 인식결과로 한다. 이를 위해서 예측형으로 구성된 신경망에 음성의 시변성을 신경망 내부에 흡수시키기 위해서 회귀구조의 동적인 신경망인 회귀예측신경망을 구성하고 Elman과 Jordan이 제안한 회귀구조에 따라 인식성능을 서로 비교하였다. 음성DB는 ETRI의 샘돌이 음성 데이터를 사용하였다. 그리고, 신경망의 최적모델을 구하기 위하여 예측차수와 은닉층 유니트 수의 변화에 따른 인식률의 변화와 문맥층에서 자기회귀계수를 두어 이전의 값들이 문맥층에서 누적되도록 하였을 경우에 대한 인식률의 변화를 비교하였다. 실험결과, 최적의 예측차수, 은닉층 유니트수, 자기회귀계수는 신경망의 구조에 따라 차이가 나타났으며, 전반적으로 Jordan망이 Elman망보다 인식률이 높았으며, 자기회귀계수에 대한 영향은 신경망의 구조와 계수값에 따라 불규칙하게 나타났다.

  • PDF