• 제목/요약/키워드: 음성 신호 처리

검색결과 474건 처리시간 0.027초

ATM망과 PSTN망간 연동 시스템의 설계 및 구현 (Design and Implementation of Internetworking System between ATM and PSTN)

  • 탁성우;이정태
    • 한국정보처리학회논문지
    • /
    • 제5권11호
    • /
    • pp.2930-2942
    • /
    • 1998
  • 전화 서비스는 우리가 일상생활에서 널리 사용하고 있는 서비스이며, ATM기반의 초고속정보통신망에서도 가장 많은 수요가 있을 것으로 기대되는 서비스 중의 하나이다. 따라서 ATM망과 PSTN망을 접속하여 ATM망에 접속된 컴퓨터와 기존 PSTN망의 가입자간에 전화 서비스를 제공해 주는 연동 시스템이 필요하다. 본 논문에서는 ATM망에 접속된 클라이언트와 PSTN망에 접속된 전화 가입자간에 전화 서비스를 제공하는 연동 시스템을 설계하고 구현하였다. 연동 시스템은 PSTN I/F 모듈, 신호 처리 모듈, 음성 샘플링 모듈, 음성 재생 모듈, 전송 모듈, ATM I/F 모듈로 구성하였다. PSTN I/F 모듈과 ATM I/F 모듈은 상용 제품을 이용하여 구현하였고, 신호처리 모듈, 음성 샘플링 모듈, 음성 재생 모듈 및 전송 모듈은 윈도우95를 사용한 PC에서 소프트웨어로 구현하였다. 구현된 연동 시스템을 잉요하여 시험망을 구축하고 동작을 시험한 결과, ATM망의 클라이언트와 PSTN망의 전화 가입자간에 전화 서비스를 원활히 제공해 주었으며, 이를 통해 두 통신망간을 접속하는 연동 시스템이 올바르게 동작함을 확인할 수 있었다.

  • PDF

16Kbps와 40Kbps의 Dual Rate G.726 ADPCM 음성 codec구현 (Implementation of G.726 ADPCM Dual Rate Speech Codec of 16Kbps and 40Kbps)

  • 김재오;한경오
    • 전기전자학회논문지
    • /
    • 제2권2호
    • /
    • pp.233-238
    • /
    • 1998
  • 본 논문에서는 G.726 ADPCM 음성방식을 기존의 단일 압축을 대신 16Kbps 와 40Kbps의 두 가지 압축율을 사용한 가변 압축방식에 의한 음성 코딩 방식을 다루었다. 음성의 묵음 또는 소 신호 부분은 음질의 향상보다는 데이터 비트 수를 줄이기 위한 저 전송 16Kbps 압축율을 적용하였고 임계값 이상의 대 신호 부분은 음질을 향상하기 위하여 40Kbps의 압축율을 적용하여 모든 신호를 단일 압축율로 코팅하는 방식에 비하여 전체적으로 압축율을 높여 전송 비트 수를 줄이면서 음질을 저하시키지 않도록 하였다. 분 논문에서는 시뮬레이션을 통하여 여러 가지의 임계값에 의한 가변 압축 코딩 방식에 대하여 압축율과 음질의 관계 를 다루었다. 또한 고정된 임계값에 대하여 입력 음성의 크기를 여러 가지로 변동하여 주변 배경잡음과 포화에 의한 음질의 저하를 고찰하여 가변 율에 의한 음성의 코딩방식에서 임계값과 입력의 크기가 음질 및 압축율에 미치는 영향을 다루었다. 각 시뮬레이션의 경우에 대하여 실지 음성의 원음에 대한 음질의 충실 도를 임의의 집단에 대하여 비교하여 음질의 충실 도를 확인하였다. 추후의 연구를 통하여 DSP에 의한 실시간 처리 시스템의 구현을 하고자 한다.

  • PDF

청각보철을 위한 PLP방식의 음성신호처리에 관한 연구 (A Study on the Speech Signal Processing for Cochlear Implant using the PLP Analysis)

  • 김영선;최두일;박상희;백승화
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1992년도 춘계학술대회
    • /
    • pp.167-170
    • /
    • 1992
  • 본 논문에서는 감각성 난청자들이 정상인들과 유사한 음성 인식을 하도록 청각 보철 기기를 구성하였다. 음성의 포먼트를 추출하기 위해서는 PLP(Perceptual Linear Prediction) 방식을 이용하였으며, pitch 추출을 위해서는 3 단계 클리핑 함수를 이용한 자기 상관법을 이용하였다. 또한 다중 채널 - 다중 전극 방식을 이용하여 내이의 헤어셀에 17 개의 전극을 삽입하여 신호를 가하는 시뮬레이션을 하였다. 실험에 사용한 데이타는 모음 /a/, /e/, /i/, /o/, /u/로 전모음과 후모음의 차이를 구별하였으며 두번째 포먼트의 변화와 포먼트 통합 이론에 대한 검증을 하였다.

  • PDF

음소단위를 이용한 소규모 문자-음성 변환 시스템의 설계 및 구현 (Design and Implementation of Simple Text-to-Speech System using Phoneme Units)

  • 박애희;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권3호
    • /
    • pp.49-60
    • /
    • 1995
  • 본 논문은 소규모 시스템에 적용 가능한 한국어 문자-음성 변환 시스템의 설계 및 구현에 대한 연구를 목적으로 한다. 본 논문에서 채택한 음성합성 방법은 파라메터 합성법으로서 LPC(linear Predictive Coding)계열의 PARCOR(PARtial autoCORrelation) 계수를 음향 파라메터로 사용하였으며, 음성합성 단위로는 가장 기본적인 단위인 음소를 채택하였다. 합성 파라메터로는 유성음의 경우 PARCOR계수, 피치, 진폭을 무성음의 경우 잔차신호와 PARCOR계수를 사용하였다. 특히 무성음의 경우 LPC합성시 음질이 떨어진다는 단점이 있었으나, 본 논문에서는 LPC분석시 얻어지는 잔차신호를 무성음의 여기신호로 사용하여 단어 단위의 합성에서 60%의 이해도를 얻을 수 있었다. 합성결과 단어 단위의 합성에 적용 가능하였고, 문장단위의 합성을 위해서는 음소 지속시간 조절에 대한 연구가 진행되어야 할것이다. 본 논문의 구현환경으로는 486 PC상에서 음성의 입,출력을 위해 70[Hz]-4.5[KHz] 대역통과 필터와 증폭기, 그리고 TMS320C30 디지털 신호처리 프로세서를 장착한 DSP 보드를 사용하였다.

  • PDF

TMS320C6201을 이용한 적응 다중 전송율을 갖는 광대역 음성부호화기의 실시간 구현 (Real-Time Implementation of Wideband Adaptive Multi Rate (AMR-WB) Speech Codec Using TMS32OC6201)

  • 이승원;배건성
    • 한국통신학회논문지
    • /
    • 제29권9C호
    • /
    • pp.1337-1344
    • /
    • 2004
  • 본 논문에서는 적응 다중 전송율을 갖는 광대역 음성부호화기인 AMR-WB 의 알고리즘을 분석하고, TI사의 고정소수점 DSP인 TMS320C6201를 이용한 실시간 구현 결과를 제시한다. AMR-WB 음성부호화기는 두 가지 대 역으로 분리된 신호가 독립적으로 부호화되며, 저대역 신호는 ACELP 방식으로、 고대역 신호는 잡음 여기신호와 선형예측 합성필터를 사용하는 방식으로 각각 합성된다. 구현된 AMR-WB 음성부호화기는 프로그램 메모리와 데이터 메모리가 각각 218 kbytes, 92kbytes의 크기를 가지며 , 한 프레임인 20 ms를 처리하는데 평균 920,267 정도의 클릭 수가 사용되어 약 5.75 ms의 시간이 소요 되였다. 또한, DSP로 구현한 AMR-WB 음성부호화기의 결과와 PC에서 시뮬레이션 한 결과가 서로 일치함을 확인하였다.

음성 및 제스처를 이용한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System using Speech and Gesture)

  • 김정현;노용완;권형준;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
    • /
    • pp.57-62
    • /
    • 2006
  • 휴대용 단말기의 소형화 및 지능화와 더불어 차세대 PC 기반의 유비쿼터스 컴퓨팅에 대한 관심이 높아짐에 따라 최근에는 펜이나 음성 입력 멀티미디어 등 여러 가지 대화 모드를 구비한 멀티 모달 상호작용 (Multi-Modal Interaction MMI)에 대한 연구가 활발히 진행되고 있다. 따라서, 본 논문에서는 잡음 환경에서의 명확한 의사 전달 및 휴대용 단말기에서의 음성-제스처 통합 인식을 위한 인터페이스의 연구를 목적으로 Voice-XML과 Wearable Personal Station(WPS) 기반의 음성 및 내장형 수화 인식기를 통합한 멀티 모달 명령어 인식 시스템 (Multi-Modal Instruction Recognition System : MMIRS)을 제안하고 구현한다. 제안되어진 MMIRS는 한국 표준 수화 (The Korean Standard Sign Language : KSSL)에 상응하는 문장 및 단어 단위의 명령어 인식 모델에 대하여 음성뿐만 아니라 화자의 수화제스처 명령어를 함께 인식하고 사용함에 따라 잡음 환경에서도 규정된 명령어 모델에 대한 인식 성능의 향상을 기대할 수 있다. MMIRS의 인식 성능을 평가하기 위하여, 15인의 피험자가 62개의 문장형 인식 모델과 104개의 단어인식 모델에 대하여 음성과 수화 제스처를 연속적으로 표현하고, 이를 인식함에 있어 개별 명령어 인식기 및 MMIRS의 평균 인식율을 비교하고 분석하였으며 MMIRS는 문장형 명령어 인식모델에 대하여 잡음환경에서는 93.45%, 비잡음환경에서는 95.26%의 평균 인식율을 나타내었다.

  • PDF

음성-영상 특징 추출 멀티모달 모델을 이용한 감정 인식 모델 개발 (Development of Emotion Recognition Model Using Audio-video Feature Extraction Multimodal Model)

  • 김종구;권장우
    • 융합신호처리학회논문지
    • /
    • 제24권4호
    • /
    • pp.221-228
    • /
    • 2023
  • 감정으로 인해 생기는 신체적 정신적인 변화는 운전이나 학습 행동 등 다양한 행동에 영향을 미칠 수 있다. 따라서 이러한 감정을 인식하는 것은 운전 중 위험한 감정 인식 및 제어 등 다양한 산업에서 이용될 수 있기 때문에 매우 중요한 과업이다. 본 논문에는 서로 도메인이 다른 음성과 영상 데이터를 모두 이용하여 감정을 인식하는 멀티모달 모델을 구현하여 감정 인식 연구를 진행했다. 본 연구에서는 RAVDESS 데이터를 이용하여 영상 데이터에 음성을 추출한 뒤 2D-CNN을 이용한 모델을 통해 음성 데이터 특징을 추출하였으며 영상 데이터는 Slowfast feature extractor를 통해 영상 데이터 특징을 추출하였다. 감정 인식을 위한 제안된 멀티모달 모델에서 음성 데이터와 영상 데이터의 특징 벡터를 통합하여 감정 인식을 시도하였다. 또한 멀티모달 모델을 구현할 때 많이 쓰인 방법론인 각 모델의 결과 스코어를 합치는 방법, 투표하는 방법을 이용하여 멀티모달 모델을 구현하고 본 논문에서 제안하는 방법과 비교하여 각 모델의 성능을 확인하였다.

영상 및 음성 신호 처리를 이용한 장년기 여성의 사상체질 분류 방법의 제안 (A Proposal of Sasang Constitution Classification in Middle-aged Women Using Image and Voice Signals Process)

  • 이세환;김봉현;가민경;조동욱;곽지현;오상영;배영래
    • 한국산학기술학회논문지
    • /
    • 제9권5호
    • /
    • pp.1210-1217
    • /
    • 2008
  • 사상의학은 개인별 체질의 분류에 따른 맞춤형 의학으로 우리나라 고유의 독특한 전통 의학이다. 이와 같은 사상의학에서 가장 중요하게 여겨지는 것이 사상체질의 정확한 분류이다. 따라서 사상체질 분류에 대한 객관적 요소의 확보 및 진단 지표 마련이 시급하게 해결되어야 할 과제이다. 이를 위해 본 논문에서는 사상체질 분류의 객관화, 정량화 및 시각화를 위해 얼굴 영상 신호와 음성 신호를 분석하여 결과값을 추출하고 체질별 집단군간의 차이점을 비교하여 사상체질 분류 시스템을 구현하고자 한다. 특히 영상 및 음성 신호는 성별, 연령별, 지역별 등의 구분에 따라 달라지기 때문에 본 논문에서는 40에서 50대 사이의 장년 여성을 대상으로 서울지역 거주자에 한해 사상체질 집단군을 구성하고 이들의 영상 및 음성 신호를 추출하여 체질간 비교, 분석을 수행하고자 한다. 최종적으로 실험을 통한 연구 결과의 유의성을 입증하고자 한다.

베트남인 한국어 학습자와 한국인의 한국어 겹받침 발음 비교 연구 (A Comparative Study on the Pronunciations of Korean and Vietnamese on Korean Syllable Final Double Consonants)

  • 장경남;유광복
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.637-646
    • /
    • 2022
  • 본 논문은 한국어의 겹받침 발음에 대하여 베트남인 한국어 학습자와 한국인을 비교 연구하였다. 언어학적인 연구를 통하여 조사하고 분석한 겹받침 발음에 관한 여러 오류와 제시한 교육 방법에 대하여 공학적 특히 음성 신호처리의 분석 방법을 활용하여서 이런 연구 결과를 확인하였고 이에 우리는 본 논문에서 새로운 교육 방법을 제시하였다. 인공지능의 기계 학습에 많이 활용되고 있는 서포팅 벡터 머신 (supporting vector machine, SVM)을 사용하여서 베트남인 학습자의 발음과 한국인의 발음을 비교하였다. SVM의 초결정 평면을 구할 수 있다는 것은 베트남인 학습자의 겹받침 발음이 한국인의 발음과 차이를 보인다는 것이고, 그 반대라면 발음을 잘하고 있다는 것이다. 본 논문에서 우리가 제시한 새로운 교육 방법은 쓰기와 듣기로만 구성하는 것이 아닌 음성 신호의 시간 영역에서 파형과 그것에 대응하는 신호의 에너지 등과 같은 피교육자에게 보일 수 있는 것들을 포함하는 효율적인 발음 교육 방법이다.