Search | Korea Science

Implementation of G.723.1 speech codec on OAK DSP Core based CSD17C00 (OAK DSP Core 기반 CSD17C00에서의 G. 723.1 Speech Codec 의 구현)

성유나
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06c
- /
- pp.151-154
- /
- 1998
이중 전송율(5.3 과 6.3kbit/s)을 제공하는 G.723.1 음성 코더는 공중망을 통한 H.324 POTS 영상 회의 규격의 음성 코더로 채택된 것으로, MPMLQ, ACELP 알고리즘에 근거한다. 본 논문에서는 Annex A를 포함한 G.723.1 음성 코더 알고리즘을 C&S Technology에서 개발한 음성 신호 처리를 위한 범용 DSP인 CSD17C00 칩을 이용하여 실시간 응용이 가능하도록 구현하였다. G.723.1 에 대한 양방향 평가가 Codec loopback을 통해 수행되었으며, ITU에서 제공한 테스트 절차에 따라 평가되었다. 또한, 본 논문에서 구현된 G.723.1 음성 코더는 27MIPS의 계산 속도를 갖으며, 프로그램 ROM의 크기는 8.85K Words이고, 10K 데이터 ROM과 4K 데이터 RAM을 필요로 하고 있다. 경쟁 제품과의 MOS 측정 음질 평가를 실시한 결과, CSD17C00에서의 음질 성능이 더 우수함을 입증 함으로써, 본 논문에서 보여준 CSD17C00을 기반으로 구현된 G.723.1 알고리즘의 실시간 구현기술의 타당성을 검증하게 되었다.
PDF

Performance Analysis of Voice over ATM using AAL2 based on Packet Delay Evaluation (ATM망에서 AAL2를 이용한 음성패킷 전송에 관한 성능분석)

김원순;김태준;홍석원;오창석
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.24 no.10B
- /
- pp.1852-1860
- /
- 1999
This paper studied performance of the AAL2 for variable rate real time services in ATM network with discrete-time simulation model. In this simulation, input parameters are packet fill delay for AAL2 PDU generation, guard time for ATM cell generation, burstness and number of channels. Though variation of the above mentioned parameters, we obtained end-to end delay variations and throughput, analyzed performance effect of the each parameter for voice packet service.
PDF

On the Classification of Normal, Benign, Malignant Speech Using Neural Network and Cepstral Method (Cepstrum 방법과 신경회로망을 이용한 정상, 양성종양, 악성종양 상태의 식별에 관한 연구)

조철우
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06e
- /
- pp.399-402
- /
- 1998
본 논문에서는 환자의 음성을 정상, 양성종양, 악성종양으로 분류하는 실험을 켑스트럼 파라미터를 통한 음원분리와 신경회로망을 이용하여 수행하고 그 결과를 보고한다. 기존의 장애음성 데이터베이스에는 정상음성과 양성종양의 경우만 수록되어 있었고 외국의 환자들을 대상으로 한 경우만 있었기 때문에 국내의 환자들에게 직접 적용할 경우 어떠한 결과가 나올지 예측하기가 어려웠다. 최근 부산대학교 이비인후과팀에서 수집한 국내의 정상, 양성, 악성종양의 경우에 대한 데이터베이스를 분석하고 신경회로망에 의해 분류함으로써 사람의 음성신호만에 의한 후두질환이 식별이 가능하였다. 본 실험에서는 식별 파라미터로 음성신호의 선형예측오차신호에 관한 켑스트럼으로부터 음원비인 HNRR을 구하여 Jitter, Shimmer와 함께 사용하였다. 신경회로망은 입, 출력 층과 한 개의 은닉층을 갖는 다층신경망을 이용하였으며, 식별은 두단계로 나누어 정상과 비정상을 분류한 후 다시 비정상을 양성과 악성으로 분류하였다[1].
PDF

Noise Processing for Speech Recognition in the Telephone Line (음성 인식을 위한 전화망에서의 잡음처리)

전원석;신원호;양태영;김원구;윤대희
- The Journal of the Acoustical Society of Korea
- /
- v.17 no.1
- /
- pp.4-8
- /
- 1998
본 논문에서는 다양한 전화선 채널을 통하여 수집된 음성 데이터에 포함된 잡음 및 채널 왜곡을 제거하여 음성인식 시스템의 성능을 향상시키는 방법에 관하여 연구하였다. 전 화선을 통과한 음성에 포함된 채널 잡음 및 왜곡을 제거하는 방법으로는 음성신호를 보상하 는 방법으로 CMS(Cepstral Mean Subtraction), SBR(Signal Bias Removal)과 SM(Stochastic Matching)의 성능을 비교 평가하였다. 잡음제거 방식의 성능을 평가를 위하 여 음소 단위의 반연속 HMM을 이용한 화자독립 단독음 인식을 수행하였다. 인식 실험 결 과, 멜 켑스트럼을 사용한 경우에 CMS가 가장 우수한 성능을 내었고 다음으로 SM과 SBR 순으로 나타났다. 또한 특징벡터를 주변 잡음에 강인하게 하는 가중함수(RPS, BPL)를 사용 한 켑스트럼 계수와 잡음제거 방식을 함께 사용한 경우에 인식 성능이 더욱 향상되었다.
PDF

Stocks information Implementation System based on the SAIP at CTI module (SAPI 기반 CPI 모듈을 이용한 주식정보 시스템 구현)

오세일;고진한;박원배
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04a
- /
- pp.439-441
- /
- 2001
보이스 포탈(Voice Portal) 서비스란 알고자 하는 정보를 음성으로 전화를 통해 명령하면 원하는 정보를 음성으로 서비스이다. 본 논문에서 구현된 시스템은 원하는 주식 정보를 음성으로 명령하면 Voice XML 서버가 찾고자 하는 주식 종목을 검색하여 다시 음성으로 알려주는 시스템이다. 인증의 절차를 수행하는 SMS(Short Message Service) 서버 모듈, PSTN 망과 Database 서버사이의 인터페이스를 제공하는 CTI(Computer Telephony Integration) 모듈, CTI 서버와 WWW(World Wide Web) 사이의 Voice XML 모듈, 정보를 검색하기 위한 Searching 모듈들이 필요하다. 음성 인식 기술을 기반으로 한 CTI 모듈 설계를 구현하였다. 또한 인정 방식으로 Random한 일회용 패스워드를 기반으로 한 SML 인증을 택하므로 더욱 더 안정된 서비스 제공을 목적으로 하였다.

Visual analysis of attention-based end-to-end speech recognition (어텐션 기반 엔드투엔드 음성인식 시각화 분석)

Lim, Seongmin;Goo, Jahyun;Kim, Hoirin
- Phonetics and Speech Sciences
- /
- v.11 no.1
- /
- pp.41-49
- /
- 2019
An end-to-end speech recognition model consisting of a single integrated neural network model was recently proposed. The end-to-end model does not need several training steps, and its structure is easy to understand. However, it is difficult to understand how the model recognizes speech internally. In this paper, we visualized and analyzed the attention-based end-to-end model to elucidate its internal mechanisms. We compared the acoustic model of the BLSTM-HMM hybrid model with the encoder of the end-to-end model, and visualized them using t-SNE to examine the difference between neural network layers. As a result, we were able to delineate the difference between the acoustic model and the end-to-end model encoder. Additionally, we analyzed the decoder of the end-to-end model from a language model perspective. Finally, we found that improving end-to-end model decoder is necessary to yield higher performance.
https://doi.org/10.13064/KSSS.2019.11.1.041 인용 PDF KSCI

Improving Speaker Enrolling Speed for Speaker Verification Systems Based on Multilayer Perceptrons by Using a Qualitative Background Speaker Selection (정질적 기준을 이용한 다층신경망 기반 화자증명 시스템의 등록속도 단축방법)

이태승;황병원
- The Journal of the Acoustical Society of Korea
- /
- v.22 no.5
- /
- pp.360-366
- /
- 2003
Although multilayer perceptrons (MLPs) present several advantages against other pattern recognition methods, MLP-based speaker verification systems suffer from slow enrollment speed caused by many background speakers to achieve a low verification error. To solve this problem, the quantitative discriminative cohort speakers (QnDCS) method, by introducing the cohort speakers method into the systems, reduced the number of background speakers required to enroll speakers. Although the QnDCS achieved the goal to some extent, the improvement rate for the enrolling speed was still unsatisfactory. To improve the enrolling speed, this paper proposes the qualitative DCS (QlDCS) by introducing a qualitative criterion to select less background speakers. An experiment for both methods is conducted to use the speaker verification system based on MLPs and continuants, and speech database. The results of the experiment show that the proposed QlDCS method enrolls speakers in two times shorter time than the QnDCS does over the online error backpropagation(EBP) method.
PDF KSCI

Link Assignment in Low-Earth Orbit Satellite Networks using Simulated Annealing (시뮬레이티드 어닐링을 이용한 제궤도 위성망에서의 링크할당)

장홍성
- Proceedings of the Korean Information Science Society Conference
- /
- 1998.10a
- /
- pp.568-570
- /
- 1998
본 논문은 위성간 링크를 이용하여 저궤도 위성망을 구성할 때 발생하는 링크 할당 문제를 효율적으로 풀기 위한 기법을 제안한다. 제안된 기법은 먼저 위성 궤도 운동의 주기성에 기반하여 저 궤도 위성망을 유한 상태기계로 모델링한 후에, 유한 상태기계의 각 상태에서 최적의 링크 할당을 구하기 위해서 조합형 최적화 문제에 많이 쓰이는 시뮬레이티드 어닐링을 이용한다. 제안된 기법의 잇점은 저궤도 위성망을 유한 상태기계로 모델링함으로써 동적인 움직임을 보이는 저궤도 위성망에서의 링크할당 문제를 고정된 위상을 가지는 망에서의 링크할당 문제로 단순화 시키고 이를 토대로 최적화 기법을 적용할 수 있다는 것이다. 시뮬레이티드 어닐링에 의하여 최적화된 링크할당의 성능은 정규링크 할당과의 비교.분석을 통해서 평가된다. 또한, 각 링크할당에 대하여 정적경로배정과 동적경로배정 기법이 적용된다. 시뮬레이션을 통한 실험결과는 정적경로배정을 적용한 최적링크할당 기법이 음성호의 봉쇄확률 측면에서 최고의 성능을 보임을 알려준다.
PDF

Design and Implementation of SMS in the Fixed Network (유선망 SMS 서버 및 망 구축 기술)

Bae Jeong-Il;Han Dong-Young;Lee Dong-Su;Jin Jeong-Hak;Kim Jeong-Shik
- 한국정보통신설비학회:학술대회논문집
- /
- 2002.08a
- /
- pp.114-117
- /
- 2002
단문메시지서비스는 지난 몇년간 이동통신분야에서 괄목할만한 성장을 이루어 가장 보편적인 서비스중의 하나로 자리매김 하였으며, 현재는 가입자 상호간의 단순한 메시지 송수신뿐 아니라 각종 부가 정보를 제공하는 등 상업적인 용도로도 사용되고 있다. 이러한 이동통신망에서 단문메시지서비스의 광범위한 사용은 유선망에서도 기존 음성위주의 서비스를 벗어나 메시지서비스를 제공케 하였으며, 2002년 7월 현재 독일, 이탈리아와 한국등에서 유선망 메시지서비스를 제공하고 있다. 이에 본 문서는 지난 4월부터 제공되기 시작한 KT의 단문메시지서비스를 위한 유선망 문자메시지 서버의 구현과 망 구축 기술에 대하여 서술한다.
PDF

BcN 표준모델 서비스 제어 계층 표준기술

Choe U-Yong;Han Jeong-Pyo;Kim Seong;Lee Sang-Yeon
- Information and Communications Magazine
- /
- v.23 no.3
- /
- pp.69-76
- /
- 2006
본고에서는 광대역통합망(BcN)의 서비스 제어계층에 대해서 기술한다. 광대역통합망 구축을 위한 서비스 제어 계층은 음성 데이터 통합서비스와 유 무선 연동 및 통합서비스를 제공하는 초기 망 구성에서부터 통 방 융합서비스를 제공하는 목표 망 구성에 이르기까지 BcN의 다양한 유 무선 접속망 및 단말을 대상으로 통합 서비스를 제공하고 호 및 세션을 제어하는 기능을 수행한다. 이와 같은 서비스 제어계층을 실현하기 위하여 필요한 관련 표준화동향, 요구사항, 계층 구조, 구성 요소, 망 정합 등 관련 사항을 기술하였다.
PDF KSCI

Search Result 877, Processing Time 0.023 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)