Proceedings of the Acoustical Society of Korea Conference (한국음향학회:학술대회논문집)
The Acoustical Society of Korea
- Semi Annual
Domain
- Physics > Interdisciplinary Physics
spring
-
Studies of prosody and sentence processing have demonstrated that prosodic phrasing can exhibit strong effects on processing decisions in English. In this paper, we tested Korean sentence fragments containing syntactically ambiguous Adj-N1-N2 strings in a cross-modal naming task. Four accentual phrasing patterns were tested: (a) the default phrasing pattern, in which each word forms an accentual phrase; (b) a phrasing biased toward N1 modification; (c) a phrasing biased toward complex-NP modification; and (d) a phrasing used with adjective focus. Patterns (b) and (c) are disambiguating phrasings; the other two are commonly found with both interpretations and are thus ambiguous. The results showed that the naming time of items produced in the prosody contradicting the semantic grouping is significantly longer than that produced in either default or supporting prosody, We claim that, as in English, prosodic information in Korean is parsed into a well-formed prosodic representation during the early stages of processing. The partially constructed prosodic representation produces incremental effects on syntactic and semantic processing decisions and is retained in memory to influence reanalysis decisions.
-
본 논문은 중규모 어휘인 1500여 단어 실시간 화자 독립 단독어 음성인식 시스템에 대해서 기술한다. 음향 모델은 HMM을 이용하였으며, 음소 모델은 문맥종속 모델인 트라이폰을 사용하였다. 이 시스템은 텍스트로부터 쉽게 사전을 구성할 수 있는 유연성을 갖는다. 선정된 단어는 주식시장에 상장되어 있는 1456개의 회사명으로 비교적 혼동하기 쉬운 단어들을 많이 포함한 사전이다. 실시간 처리를 위한 알고리즘들 중 인식율을 크게 저하시킬 가능성이 있는 기법들은 제외하였다. 여기에 트리 빔과 음소 빔을 적용하면서 topN을 적용하였으며 새로운 스코아 캐쉬 기법을 고안하였다. 특별히 스코아 캐쉬 기법은 인식율에는 전혀 영향을 미치지 않으면서 계산량을
$38\%$ 나 줄여주었다. 이런 기법들을 적용하여 실시간 음성인식을 구현할 수 있었다. Intel 450M CPU가 장착되어 있는 리눅스 시스템에서 평균 1.98초의 응답 시간을 보였다. -
어휘독립 음성인식이란 음향학적 모델 훈련에 사용하지 않은 어휘들을 인식하는 것이다. 단어모델을 이용한 어휘독립 음성인식 시스템은 발음표기로 변환된 인식대상어휘에 대하여 문맥 종속형 부단어(context dependent subword) 단위로 훈련된 모델을 연결하여 단어 모델을 만들고 이 단어 모델로 인식을 수행한다. 이러한 시스템의 경우 훈련과정에서 나타나지 않는 문맥 종속형 부단어가 인식대상어휘에서 나타나게 되고, 따라서 정확한 단어모델을 구성할 수 없다는 문제점이 있다 본 논문에서는 문맥 종속형 부단어 구분의 계층화를 통한 back-off 선택 방법을 이용하여 새롭게 나타난 문맥 종속형 부단어 대신 연결될 부단어 모델을 찾아내는 방법을 제안한다 제안된 선택 방법은 새롭게 나타난 문맥 종속형 부단어를 포함하는 상위의 부단어를 찾아내는 방법이다. 실험 결과 10단어 세트에서
$97.5\%$ 50단어 세트에서$90.16\%$ 100 단어 세트에서$82.08\%$ 의 인식률을 얻었다. -
본 논문에서는 연속음성인식에 사용되는 언어모델이 학습 코퍼스에서 나타나지 않는 문맥에 대하여 신뢰할만한 확률을 생성할 수 있도록 하는 방안으로 다중 단어 카테고리 결정방법을 제안하였다. 제안된 다중 단어 카테고리 결정 방법은 기존의 카테고리 기반 언어모델에서의 미관측 문맥에 대한 모델링 능력을 유지하면서 동형이의어에 대한 확률의 과도한 일반화를 방지한다. 제안된 방법을 이용한 언어모델의 성능을 측정하기 위해 미관측 문맥이
$31\%$ 포함된 인식문장에 대한 N-Best rescoring을 수행한 결과 word accuracy는 1-Best문장에 대해서$3.2\%$ 의 향상을 얻었고 기존의 카테고리기반 언어모델을 적용한 결과에 비하여$0.8\%$ 의 향상을 얻을 수 있었다. -
본 논문은 HMM(Hidden Markov Model)을 이용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후 처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드시스템을 제안한다. HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후 처리에 사용될 MLP(Multilayer Perceptrons)의 학습용으로 사용하여 MLP를 학습하여 HMM과 MLP을 결합한 하이브리드 모델을 만든다. 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음과 4연 숫자음 데이터에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 각각 약
$4.5\%$ ,$1.3\%$ 의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 때의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다. -
본 연구에서는 부가잡음에 의한 음성신호의 왜곡에 대해 다양한 음성개선 기법을 전처리기로 도입하여 HMM(Hidden Markov Model)에 기반 한 음성인식 시스템의 인식성능을 평가하였다. 음성개선 기법으로는 MMSE(Minimun Mean Square Error) STSA(Short-Time Spectral Amplitude Estimator) 기법과 웨이브렛 영역에서의 UWD(Undecimated Wavelet Denoising), CWD(Conventional Wavelet Denoising) 기법을 적용하였다. 잡음이 없는 데이터로 훈련한 음성인식시스템에 잡음음성을 입력할 때 각 음성개선기법을 전처리기로 사용하여 신호대잡음비(Signal to Noise Ratio)에 따른 인식 성능을 비교하였다.
-
본 연구에서는 연속음성인식 시스템의 성능 향상을 위한 기초 연구로서 시스템에 적합한 음향모델과 언어모델을 작성하고 항공편 예약 태스크를 대상으로 인식실험을 실시한 결과 그 유효성을 확인하였다. 이를 위하여 먼저 HMM의 출력확률분포의 mixture와 파라미터의 차원에 대한 정확한 분석을 통한 음향모델을 작성하였다. 또한 반복학습법으로 특정 태스크를 대상으로 N-gram 언어모델을 적용하여 인식 시스템에 적합한 모델을 작성하였다. 인식실험에 있어서는 3인의 화자가 발성한 200문장에 대해 파라미터 차원 및 mixture의 변화에 따른 음향모델과 반복학습에 의해 작성한 언어모델에 대해 multi-pass 탐색 알고리즘을 이용하였다. 그 결과, 25차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균
$81.0\%$ 의 인식률을 얻었으며, 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복 학습한 언어모델을 이용한 경우 평균$90.2\%$ 의 인식률을 보여 인식률 제고를 위해서는 38차원에 대한 mixture 수가 9인 음향모델과 10회 반복학습으로 작성한 언어모델을 이용한 경우가 매우 효과적임을 알 수 있었다. -
VQ 모델로 구성된 화자인식 시스템의 성능 향상을 위해 Bootstrap 방식을 적용하였다. Bootstrap 및 aggregating방식은 unstable한 모델에서 그 성능이 유효하므로 이의 적용을 위해 먼저 VQ 모델의 bias와 variance를 계산하여 unstable함을 보였다. 화자인식 실험은 TIMIT Database를 사용하여 수행하였고 실험결과 높은 인식율 향상을 확인하였다. 또한 적은 훈련 데이터 환경에서도 좋은 인식율을 갖는 것으로 나타났다.
-
G.723.1 부호화기는 음성신호의 주기성을 피치와 피치 이득계수로, 스펙트럼 정보를 LSP(Line Spectrum Pair)로 부호화하고 있다. 그런데 주기성을 부호화 할 때 유성음의 피치가 일정한 안정구간과 피치가 변화하는 전이구간의 차이를 두지 않고 처리하여 전이구간에서의 정확한 피치검출이 이루어지지 않는다. 이러한 처리 때문에 전이구간에서의 음질의 열하가 발생하게 된다. 본 논문에서는 전이구간의 피치검출의 정확성을 높여 음질을 향상시킬 수 있는 새로운 알고리즘을 제안한다. 먼저 G.723.1 부호화기에서 검출되는 피치 이득계수를 이용하여 안정구간의 피치 이득계수의 문턱 값을 정한다. 그리고 피치 이득 계수가 문턱 값을 넘는 부분에 한하여 구해진 피치를 전후 10샘플을 조절하여 피치 이득계수를 다시 구하여 문턱 값에 가장 가까운 값을 대표피치 이득계수로 정하고 그때의 피치와 함께 부호화한다. 실험 결과 평균 0.6(dB) segmental SNR(Signal to Noise)과 평균0.12 MOS가 향상되었다.
-
비상관적인 가산잡음에 오염된 음성으로부터 향상된 음성을 얻기 위한 방법 중 Soft Decision에 근거한 음성 향상 기법이 뛰어난 성능을 가진다고 알려져 있다. Soft Decision은 주파수 영역에서 음성에 가산된 잡음을 처리하며, 잡음 환경에 대한 사전정보에 의존적이다. 본 연구에서는 Soft Decision을 근거로 음성에 가산된 잡음신호를 비선형 처리를 하여 효과적으로 음성에 포함된 잡음을 추정하도록 하였으며, 잡음환경에 대한 사전 정보 없이 효율적으로 잡음을 억제하는 방법을 제안한다. 본 연구에서 제안한 음성향상 기법은 주관적인 음질평가에서 기존의 방법들보다 나은 성능을 나타내었다
-
This paper describes the fixed-point DSP implementation of a CELP(code-excited linear prediction)-based speech coder. The effective realization methodologies to maximize the utilization of the DSP's architectural features, specifically Parallel movement and pipelining are also presented together with the implementation results targeted for the ITU-T standard G.723.1 using Motorola DSP56309. The operation of the implemented speech coder is verified using the test vectors offered by the standard as well as using the peripheral interface circuits designed for the coder's real-time operation.
-
본 논문에서는 화자 확인 시스템의 등록과 확인 과정의 채널 환경 불일치로 성능이 저하되는 문제를 해결하기 위한 새로운 정규화 방법에 대해 설명한다. 제안된 방법은 첫째, 입력 음성으로부터 효과적으로 채널을 추정
$\cdot$ 보상하고 둘째, 스코어 정규화 과정에서 사칭자 모델로서 사용되는 world모델과의 차이를 채널 추정 및 화자 모델 생성에 효과적으로 사용하는 것을 목표로 한다. 이를 위해 입력 음성의 켑스트럼과 HMM world 모델의 파라메터인 평균 켑스트럼과의 차이를 통해 음소열에 종속적인 채널 켑스트럼인 Phone-Dependent Difference Cepstrum을 추정한다. 한편 입력 음성의 음소열은 world모델의 스코어를 얻는 과정에서 함께 얻어질 수 있다. 채널 추정 실험 결과를 통해서 가장 일반적인 채널 정규화방법인 CMS에 의해 추정된 채널에 비해 실제 채널과 유사하며 화자 고유의 특성을 왜곡시키지 않는 채널 추정이 가능함을 확인할 수 있었다. -
화상회의 및 인터넷폰을 목적으로 개발된 G.723.1은 CELP계열 보코더와 같이 화자의 개성정보를 위해 피치를 전송하고 있다. 하지만 안정구간과 비 안정구간의 차이를 두지 않고 처리를 하기 때문에 비 안정구간, 특히 전이구간에서 정확한 피치검출이 이루어지지 않는 이유로 음질의 열하가 발생하게 된다. 따라서 본 논문에서는 한 프레임 구간에서 에너지의 기울기로 대략적인 피치이득을 구한 다음 안정구간일 때와 프레임 내의 에너지의 기울기가 문턱 값을 넘을 때에는 기존의 방법으로 피치를 구하고 그런지 않은 경우에는 에너지를 조정하여 피치를 다시 구하는 방법을 사용하였다. 실제 음성시료에 대해 기존의 방법과 제안한 방법을 비교하기 위해 SegSNR 과 MOS를 비교하였을 때 각각 1.302(dB)와 평균 0.045 MOS가 향상되었다.
-
고품질의 디지털 이동 통신 서비스를 제공하기 위해서는 다양한 통신 상황 및 통신 경로에 대한 음질의 검증이 필요하다. 그러나 다양한 환경에서의 음질 측정을 위하여 실제 통신 시스템 환경을 구축하는 것은 시간과 비용이 많이 드는 문제점을 가진다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 디지털 이동 통신시스템의 End-to-End 음성 전달 과정 전체를 Software로 Simulation하는 Simulator를 개발하였으며. 이를 통하여 통신 환경과 경로에 따른 통신 시스템의 통화 품질을 매우 간단하게 측정할 수 있다.
-
최근 들어, 인터넷의 폭넓은 보급과 급속한 대중화에 따라 네트워크를 통하여 음성을 전송하거나 저장하려는 시도가 많이 이루어지고 있다. 본 논문에서는 네트워크를 통한 멀티미디어 전송에서 음성부호화 표준으로 널리 상용되는 ITU-T G.723.1 dual-rate speech coder의 효율적인 다채널 구현을 위한 고속 알고리듬을 제안한다. 고속 알고리듬은 부호화 과정에서 많은 계산량을 차지하는 적응 코드북 검색과 고정 코드북 검색 과정에 적용된다. 적응 코드북 검색 과정에서는 지연과 이득을 동시에 찾는 기존의 방법 대신, 지연과 이득을 순차적으로 검색함으로써 계산량을 개선하였다. 전송률에 따라 다른 알고리듬을 사용하는 고정 코드북 검색 과정에서는 다음과 같은 고속 알고리듬을 제안한다. MP-MLQ(Multi-Pulse Maximum Likely Quantization) 방법을 사용하는 높은 전송률(6.3 kbit/s)인 경우, 펄스를 등 간격으로 검색함으로써 계산량을 줄였다. ACELP(Algebraic CELP) 방법을 사용하는 낮은 전송률(5.3 kbit/s)인 경우는 기존의 nested-loop 검색방법 대신, 펄스를 쌍으로 나누어 순차적으로 찾는 depth-first tree 검색 방법을 적용하여 계산량을 감소시켰다. 제안된 고속 알고리듬에 대해 주관적 음질 평가 방법을 수행한 결과, 제안된 방법이 기존의 방법에 비해 음질의 저하가 없음을 확인하였다. 고정 소수점 DSP인 TMS320C6201을 사용하여 고속 알고리듬을 구현한 결과, 높은 전송률의 경우에는 10.29 MIPS, 낮은 전송률의 경우에는 8.70 MIPS의 연산량으로 구현 가능함을 확인하였다.
-
전보(Telegram)는 우리의 생활에서 필요한 정보통신 시스템이다. 지금까지 전보의 기능은 긴급하거나 짧은 정보의 내용을 전화국의 메신저를 통해 문자위주로 변환하여 수신자에게 전달하고있다. 이와는 달리 음성 전보 시스템(Voice Telegram System)은 기존의 문자전달방식에 음성을 가미한 것으로서 발신자의 목소리도 함께 기록하여 수신자에게 전달하는 방식이다. 본 논문에서 음성 전보에 적합한 알고리즘을 새로이 제안하다. 유/무성음 판별 후 유성음에 대해 피치주기별로 유사도를 측정하여 유사도가 낮은 파형은 전송하고 유사도가 높은 파형은 피치와 에너지 정보만 전송하는 방법이다. 실험결과 전체 음성에 대해서
$41\%$ 의 압축율과 MOS 테스트 결과 4.1을 얻을 수 있었다. -
본 논문은 자연스러운 합성음 생성을 위한 끊어 읽기 강도 예측에 관한 것으로, 문장에 대한 품사열이 주어졌을 때 Posteriori 확률을 최대화하는 끊어 읽기 강도를 비터비 디코딩으로 예측한다. 훈련용 데이터는 여성화자 1인이 발성한 2,100 문장이며, 음성 데이터로부터 휴지길이(pause)에 따라 끊어 읽기 강도를 2단계로 할당하고, 텍스트에서는 30개의 품사 태그 심볼을 이용하여 형태소분석 및 태깅을 수행하였다. 관측확률은 3개 연속하는 품사열이 발생할 확률로 하고 끊어 읽기 강도 천이확률은 bigram으로 했을 때, cross validation 방법으로 성능 평가를 수행하였다 평가결과, 훈련데이타에 대해서는
$89.7\%$ , 테스트 데이터에 대해서는$84.9\%$ 의 예측정확률을 보였다. -
감정 표현 음성을 합성하기 위하여 본 연구에서는 감정 음성 데이터의 피치와 지속시간의 음절 유형별 및 어절 내 음절 위치에 따른 변화를 분석하였고, 스펙트럼 포락이 감정 변화에 어떤 영향을 미치는지를 분석하였다. 그 결과, 피치와 지속시간의 음절 유형별, 어절 내 음절 위치에 따른 변화와, 스펙트럼 포락 등도 감정 변화에 영향을 미치는 것으로 나타났다. 또한, 감정 음성의 음향학적 분석 결과를 적용하여 감정 음성을 합성하고 평가하기 위하여, 평상 음성의 음운 및 운율 파라미터 (피치, 에너지, 지속시간, 스펙트럼 포락)를 조절함으로써 감정 음성을 생성하는 감정 편집기를 구현하였다.
-
본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은
$81\%$ 로 휴지 구간 존재 추출 정확율은$83\% , 휴지 구간 비존재 추출 정확율은$80\% 이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은$88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다. -
문-음성 합성기의 자연감을 높이기 위해 주로 자연음에 존재하는 운률 법칙을 정확히 구현해 주어야 한다. 일반적으로 언어학적 정보를 이용하거나 자연음으로부터 추출한 운률 정보를 추출한 운률 법칙을 합성에 이용하고 있다. 이와 같이 구한 운률 법칙이 자연음에 존재하는 모든 운률 법칙을 포함할 수 있으면, 자연스러운 합성음을 들을 수 있겠으나, 실질적으로는 모든 법칙을 구현한다는 것은 어려운 실정이고, 자연음으로부터 추출한 운률 법칙이 잘못 구현되는 경우 합성음의 자연성이 떨어지는 것을 피할 수 없을 것이다. 이런 점을 고려하여 우리는 자연음에 내재하는 운율 법칙을 훈련을 통해 학습할 수 있는 인공 신경망을 제안하였다 운률의 세 가지 요소는 피치, 지속시간, 크기 변화가 있는데, 인공 신경망은 문장이 입력되면, 각 해당 음소의 지속시간에 따른 피치 변화와 크기 변화를 학습할 수 있도록 설계하였다. 신경망을 훈련시키기 위해 고립 단어군과 음소균형 문장군을 화자로 하여금 발성하게 하여, 녹음하고, 분석하여 운률 데이터베이스를 구축하였다. 자연음의 각 음소에 대해 지속시간과 피치변화 그리고 크기 변화를 구하여 곡선 적응 방법을 이용하여 각 변화 곡선에 대한 계수를 구해 데이터베이스를 구축한다. 이렇게 구축한 데이터베이스를 이용해 인공 신경망을 훈련시켜 평가한 결과 훈련용 데이터를 계속 확장하면 좀 더 자연스러운 운률을 발생시킬 수 있음을 관찰하였다.
-
최근 운율 구조와 문장구조 및 음운규칙과 관련 된 많은 언어학적 연구가 이루어져, 언어 이해 차원에서 의미 정보, 문장 구조 정보, discourse structure 등을 위한 운율 정보의 유용성이 입증되었으나, 이러한 결과가 최근의 음성인식 시스템에는 거의 적용되지 못하고 있다. 본 연구에서는 계층적인 방법을 기초로 하여 한국어의 연속음성으로부터 운율구를 검출하는 세그멘테이션법을 제안하였다. 우선, 입력된 음성으로부터 문장단위의 경계를 검출하기 위하여 휴지기를 이용하였으며 에너지, 휴지기의 지속시간 및 피치궤적을 참조하여 강세구의 경계를 검출하였다. 실험음성의 텍스트는 "만물상"이며, 남녀 각 2명의 표준어 화자가 빠른 속도와 보통 속도로 낭독한 음성데이터를 대상으로 비교하였다.
-
음성 인식 시스템의 개발을 위해서는 음성 데이터베이스 구축이 중요한 과제의 하나로써, 많은 시간과 노력이 요구된다. 본 논문은 ARS 주식거래 시스템에서 사용되는 주식의 매수, 매도, 증시 현황에 관련된 문장과 숫자음에 대하여 DB 구축한다. 이 DB 구축을 위하여 Dialogic 사의 D/41ESC보드를 장착하고, Window NT4.0 플렛폼에서 음성을 수집하였다. 본 논문에서는 음성 수집을 위해 전국의 20대에서 50대까지의 남녀에 대해 1명당 50개의 문장 또는 숫자음에 대하여, 유선 및 무선을 통하여 데이터를 수집하였다. 또한 화자 독립 음성 인식을 위하여 1200명의 화자로 구성되어 있다. 지역별로 보면, 서울 및 경기, 강원 지역과 영호남, 충청 지역으로 나누었으며, 일반폰, 휴대폰, 공중전화의 환경에서, 그리고 실내와 실외환경에서 각각 수집하였다.
-
In the case of making large vocabulary speech recognition system, it is better to use the segment than the syllable or the word as the recognition unit. In this paper, we study on the basis of making biphone for Korean speech recognition. For experiments, we use the speech toolkit of OGI in U.S.A. The result shows that the recognition rate of the case in which the diphthong is established as a single unit is superior to that of the case in which the diphthong Is established as two units, i.e. a glide plus a vowel. And also, the recognition rate of the case in which the biphone is used as the recognition unit is better than that of the case in which the mono-phoneme is used.
-
무제한 인식 시스템을 구현하기 위해서는 적절한 인식단위, 훈련 데이터 베이스의 확보, 인식단위의 분할, 인식 알고리즘과 같은 문제점을 모두 해결하여야 한다. 따라서 본 논문에서는 무제한 음성인식 시스템의 인식의 기본 단위로 모음의 안정구간을 검출하여 분할하는 CV(Consonant-Vowel), VC(Vowel-Consonant), VC CV(Vowel-Consonant-Consonant-Vowel)단위와 분할 파라미터를 제안하고, 분할 실험을 통해 그 유효성을 확인하고자 한다.
-
음성 신호는 시간에 따라 변하지만 일정 구간에서는 특성이 변하지 않는다고 가정하여 윈도우를 취해 단구간 분석을 한다. 이 때 윈도우의 적용은 필수적이다. 하지만 단구간 분석을 위해서 사용되는 윈도우에 의해 생기는 누설에너지 때문에 음성신호의 스펙트럼 정보가 왜곡되어 버린다. 본 논문에서는 스펙트럼 분석 시 발생되는 누설에너지를 최소화하는 방법을 제안하고자 한다. 음성신호에 고정된 크기의 rectangular Window를 취한 후 처음 샘플과 차이가 가장 작은 샘플을 프레임 크기의 3/4인 지점에서부터 검색하여 최소인 부분까지 시간 축 스케일링을 한 후 기존의 윈도우 크기와 같은 크기로 만든다. interpolation과 decimation을 조합하여 시간 축 스케일링을 한다. 이렇게 윈도우가 적용된 신호를 처리 후 위의 역 과정을 수행한다. 제안한 윈도우의 SNRseg는 rectangular window보다 평균 7.88dB 낮고, kaiser window보다 평균 1.65dB 높았다. 또한 제안한 윈도우의 SD는 rectangular window 보다 평균
$1.73dB^\2$ 낮았다. -
척수 손상에 의한 사지마비 중증 장애인이 일상 생활을 함에 있어서 가족이나 주변인의 도움을 받지 않고서는 가전제품의 작동이나 전화 통화 등과 같은 작은 일 조차 스스로 할 수 없는 현실에서 국내 여건에 적합한 생활환경 제어장치의 개발이 필요하나 현재 이를 위한 마땅한 제어장치가 없는 실정이다. 각 가정에 널리 보급되어 있는 PC를 활용할 수 있도록 PC기반의 음성인식기를 개발하고 이를 응용한 가전제품 제어기를 개발, 제작하여 사지마비 환자 스스로 간단한 동작만으로 환자와 가족의 신체적, 정신적 부담을 감소 하고자 한다 이장치는 음성인식기 부분과 제어장치 부분 그리고 I/O 인터페이스 부분으로 구성 되어있다. 중증장애인은 이 장치를 사용하여 일상생활에서 기본적인 자유로운 생활의 영위를 도모하며 환자 가족의 부담을 줄일 수 있으며 환자와 가족 모두 심리적인 만족을 얻은 것으로 나타난다. 그러나 기기 사용을 위한 환자의 음성인식을 위한 언어학습과정의 불편함과 인식에러의 과제가 남아있다.
-
Voice conversion technology is essential for TTS systems because the construction of speech database takes much effort. In this paper. male-to-female voice conversion technology in Korean LPC TTS system has been studied. In general. the parameters for voice color conversion are categorized into acoustic and prosodic parameters. This paper adopts LSF(Line Spectral Frequency) for acoustic parameter, pitch period and duration for prosodic parameters. In this paper. Pitch period is shortened by the half, duration is shortened by
$25\% , and LSFs are shifted linearly for the voice conversion. And the synthesized speech is post-filtered by a bandpass filter. The proposed algorithm is simpler than other algorithms. for example, VQ and Neural Net based methods. And we don't even need to estimate formant information. The MOS(Mean Opinion Socre) test for naturalness shows 2.25 and for female closeness, 3.2. In conclusion, by using the proposed algorithm. male-to-female voice conversion system can be simply implemented with relatively successful results. -
In this paper, we implement an elementary system to correct accent, pronunciation, and intonation in English spoken by non-native English speakers. In case of the accent evaluation, energy and pitch information are used to find stressed syllables, and then we extract the segment information of input patterns using a dynamic time warping method to discriminate and evaluate accent position. For the pronunciation evaluation. we utilize the segment information using the same algorithm as in accent evaluation and calculate the spectral distance measure for each phoneme between input and reference. For the intonation evaluation. we propose nine pattern of slope to estimate pitch contour, then we grade test sentences by accumulated error obtained by the distance measure and estimated slope. Our result shows that 98 percent of accent and 71 percent of pronunciation evaluation agree with perceptual measure. As the result of the intonation evaluation. system represent the similar order of grade for the four sentences having different intonation patterns compared with perceptual evaluation.
-
본 논문에서는 음성 신호 처리 IC를 제어하는 임베디드 시스템을 Micro-controller를 이용하여 설계하고 제어 프로그램을 구성/제작하여 기능을 분석한다. 선택한 음성처리용 IC 중에서 ISD2560은 내장된 EEPROM에, T6668은 외부에 D-RAM을 연결하여 음성 메시지를 저장하고 있다. PIC16F84는 음성데이터의 입출력과 저장과 재생, 초기화를 위한 회로의 동작과 순서 제어, 시작과 종료하는 메모리 번지의 생성과 같은 제어 프로그램을 수행한다.
-
음성인식 기술은 사용자의 편리성을 제공하는 인터페이스로 많이 환용이 된다. 또한 음성이라는 특성상 새로이 기계를 작동하는 방법을 익히지 않아도 되며 빠르게 정보를 전달 할 수 있다. 본 논문에서는 음성인식 기술을 차량 번호를 조회하는 단말기에 적용하였다. 이것은 기존의 단말기보다 입력이 간편하여 사용자에게 편리함을 제공한다. 또한 잦은 오류를 피할 수 있으며 오류가 발생했다 하더라도 쉽게 수정할 수 있는 기능을 제공한다
-
음성신호처리에서 스펙트럼 분석은 매우 중요하다. 하지만 스펙트럼 분석을 위해서 사용되는 윈도우에 의해 생기는 누설에러지 때문에 음성신호의 스펙트럼 정보가 왜곡된다. 본 논문에서는 스펙트럼 분석 시 발생되는 창함수 사용에 의해 생기는 누설에너지를 최소화하기 위한 새로운 창함수를 제안하고자 한다. 그 형태는 전체 창함수크기의 반을 방형창으로 나머지 반을 해밍창으로 하고 창의 처음 부분은
$\pm$ 20표본에서 영점을 찾아주는 것이다. 이 창함수의 특징은 신호분석에 있어서 왜곡은 크지만 그 형태에 있어서 가장 이상적인 방형창함수의 장점과 side lobe가 작아 비교적 왜곡이 적은 해밍창함수의 장점을 취한 것이라 하겠다. 실제 음성 신호에의 적용에 있어서 방형창과 해밍창의 적용비는 신호의 종류 및 용도에 따라 달리할 수 있다. 제안한 창함수는 해밍창함수 보다는 좁은 main lobe 특성으로 음성신호의 단구간 스펙트럼 분석시 음성의 빠른 변화특성을 적절히 보여줄 수 있고 방형창보다는 side lobe의 영향을 줄일 수 있다. -
We provide an useful method to design codebooks with better performance than conventional methods. In the proposed method, new codevectors obtained by learning iterations are not the centroid vectors which is the representatives of partitions, but the vectors manipulated by the distance between new codevectors and old codevectors in the early stages of learning iteration. Experimental results show that the codevectors in the obtained by the proposed method converge to a better locally optimal codebook.
-
최근에 무선통신망을 이용한 데이터 서비스가 폭넓게 제공되면서, 이동체(MS:mobile station)에 대한 위치정보나 교통상황 둥의 부가 정보 서비스가 제공되고 있다. 이와 같이 이동체가 자동차와 같은 운행수단일 때 사용자가 디스플레이 되는 문자정보를 확인하게 되면 운전의 안정성이 저하되어 실용적이지 못하다. 이를 위해서 문자를 음성으로 전환하여 주는 문자-음성변환기(text to speech : TTS)가 필요하다. 본 논문은 car navigation용 '한국어 무제한 어휘 음성합성기' 를 저가의 DSP chip(ADSP-2185)과 저용량의 4M bits ROM을 사용하여 low-cost system으로 하드웨어를 구성하였다. 본 연구에서 개발된 실시간 한국어 음성 합성기는 저가의 통신 단말기로서 사용 될 수 있으나, 반음절 연결부분의 연결이 불완전한 경우가 많았다. 그러나 종성이 없는 음절에 대해서는 명료도가 비교적 우수하였다.
-
본 논문은 범용 16bit Fixed-point DSP를 이용한 새로운 미국 DoD 2.4kbps MELP(Mixed Excitation Linear Predictive)보코더의 실시간 구현에 관한 것이다. 구현된 MELP보코더는 ROM 32.6kword, RAM 12.2kword를 가지며 40MIPS DSP에서 약 29MIPS를 필요로 하였다. 출력된 파형은 C simulator 와 Bit Exact한 출력 결과를 보여주었다. 실시간 구현된 MELP를 동일전송율의 2.4kbps AMBE와 음질 비교한 결과 AME보다는 MOS 0.2 음질 이 떨어졌다
-
음성신호처리분야에서 피치시점 검출은 음성 합성시에 여기원의 특성을 나타내어 음질의 자연성을 결정한다. 이에 본 논문에서는 음색 변경시에 운율조절에 필요한 피치시점 검출법을 제안한다. 제안한 방법은 시간영역에서 직접 처리하기 때문에 피치동기분석이 용이하고 다른 영역으로의 변환과정이 불필요하다. 또한 기존의 피치시점검출 방법에서는 결정논리를 실험적인 문턱 값이나 무게치를 적용하여 처리하는 반면에 제안한 방법은 분석구간별로 얻어지는 주기적인 성문특성을 적용하여서 정확한 피치시점을 검출할 수 있었다
-
본 논문에서는 멀티미디어 서비스들 중에서 음성 또는 오디오 신호를 저속으로 압축할 때 사용되는 G.723.1 부호화기의 line spectral frequency(LSF) 계수 양자화 방식을 고속으로 처리하는 알고리즘을 제안하였다. 제안된 고속탐색 방법은 LSF 계수의 순서성질을 이용하여 코드북의 탐색 범위를 줄임으로써 계산량을 크게 감소시킨다. 제안된 고속탐색 방법을 predictive split VQ(PSVQ) 구조를 갖는 G.723.1 에 적용한 결과 spectral distortion(SD) 성능 감쇄 및 추가적인 메모리 증가 없이 최적 코드벡터를 찾기 위한 코드북 탐색 과정에서 코드북의 평균 탐색 범위가
$20.1\%$ 감소했으며, 이는 additions, subtractions, multiplies 및 comparisons 수가 각각$19.1\%$ ,$20.1\%$ ,$19.4\%$ 및$12.2\% 감소하는 결과를 얻었다. -
본 논문에서는 멀티미디어 정보에서 원하는 정보를 추출하는 멀티미디어 인덱싱 중 오디오 인덱싱의 전처리 부격인 음성/음악 분류실험을 하였다. 오디오 인덱싱에 있어서 음성/음악 분류기는 원 오디오 신호에서 정보를 가진 음성 부분을 분리하는 역할을 한다. 실험에서는 음성/음악 분류에서 널리 쓰이는 멜캡스트럼(Mel Cepstrum), 정규화 로그 에너지(normalized log energy), 영교차(Zero-Crossings)를 특징 파라미터로 사용하였다[l, 2, 3]. 특징공간은 GMM(Gaussian Mixture Model)에 의해 모델링 되었고, 오디오 신호의 분류는 각각 3가지 분류항목(음성, 음악, 음성+음악)과 2가지 분류항목(음성, 음악)을 적용하였다. 실험결과 3가지 분류항목 적용시와 2가지 분류항목 적용시 모두 멜캡스트럼을 사용하였을 때 가장 좋은 결과를 보였다.
-
본 논문에서는 최근 휴대용 오디오 기기 등에서 활발하게 사용되고 있는 MP3 (MPEG-1,2 계충-III) 오디오 복호화 알고리듬을 실시간 구현하였다. 휴대용 기기에 적합한 저전력 설계를 위하여 16비트 고정 소수점 범용 DSP인 모토로라 DSP56654를 이용하였고, 연산량을 줄이기 위한 작업을 수행하였다. 또한 음질 열화를 최소화하고 CD 수준의 고음질을 얻기 위해서 각 복호화 과정에 대한 최적의 고정소수점 연산을 연구하였다. 구현된 복호화기는 약 40MIPS 정도의 연산량으로 90dB이상의 SNR을 갖는 최종 PCM 샘플을 생성한다.
-
A fast estimation method using wavelet transform for a time delay system is proposed. Main point of this method is to get the wavelet transform of the correlation between the input signal and delayed signal using transformed signals. But wavelet transform using Haar wavelet functions has basis with different phases and can offers a bisection method to estimate a time delay of a signal. Selective computation of the transform of correlation is performed and the computational complexity is reduced. Computational order of this method is O(N log N) and it is much love. than a simple correlation esimation when the length of signal is long.
-
본 논문에서는 차량 환경에서 핸즈프리 단말기를 위한 잔향반향제거 방법을 제안한다. 제안된 방법은 기존의 음향반향제거와 잡음제거의 결합구조에 근거하며, 음성신호의 스펙트럼 특성을 배경잡음화함으로써 잔여 반향제거 성능을 향상시킨다. 일반적으로 음향반향제거에서 실제 충격응답보다 적은 차수의 적응필터를 이용할 경우 잔여반향의 전력이 증가하며, 잡음제거기법을 적용하여 잔여반향성분을 줄일 수 있다. 음성신호가 입력되는 음향반향제거기의 잔여반향을 효과적으로 제거하기 위해 음성신호의 AR 스펙트럼에 따른 역필터링을 수행함으로써 잡음제거기에 의한 잔여반향제거 성능을 향상시킬 수 있다. 제안된 기법은 현재 상용화되고 있는 이동통신용 음성부호화기에 포함된 잡음제거기법과 결합하여 사용할 경우 매우 적은 부가 계산량만으로 구현할 수 있다.
-
시변 신호 추적 특성을 향상시키기 위하여, Gauss-Newton Variable Forgetting Factor RLS (GN-VFF-RLS) Algorithm을 제안한다. 최적화된 망각인자를 가정한 기존의 RLS 알고리듬과 비교하여, 제안된 방법은 특히 신호의 변화가 급격히 일어날 경우 주목할만한 추정 성능의 향상을 보여준다. 제안된 알고리듬의 시변 추정 특성을 신호 대 잡음비와 시변 정도에 대하여 모의 실험하고 기존의 추정 알고리듬들과 비교한다.
-
소나 시스템에서는 신호 대 잡음비의 향상, 표적의 방위탐지 및 위치 데이터 산출, 간섭신호 제거 등을 위하여 지향성 빔을 만들어 사용한다. 본 논문에서는 선형으로 배열된 센서에서 각 센서쌍들에 대한 상호상관 행렬을 이용한 SCCBF(Spatial Cross Correlation Beamformer) 알고리즘을 제안하였다 이상적인 조건하에서 제안된 SCCBF는 CBF(Conventional Beamformer)에 비해 3dB의 Array Gain을 갖는 것을 이론적으로 검증하고 표적의 탐지 방위정확도를 나타내는 빔폭(Beam Width)이 CBF 보다 0.5배정도가 됨을 검증하고 모의실험을 통하여 이를 입증하였다.
-
수중신호의 스펙트로그램상에 형성되는 신호 주파수선은 토널의 신호 세기와 바다 자체의 전달 특성 등으로 인하여 미약하게 탐지되거나 불규칙하게 끊어져서 불연속하게 되며 또한 임펄스성의 주변잡음 성분과 혼재하여 어느 토널이 연속적으로 탐지되는지가 모호하게 되는 경우가 많고 정밀하게 신호 성분만을 탐지, 추출하기가 어렵다. 따라서 본 논문에서는 신호 세기가 미약한 경우나 높은 주변잡음이 복합되어 있는 경우에도 정밀하게 신호 성분만을 탐 지, 추출할 수 있는 협대역 다중 주파수선의 자동 탐지 및 추출을 위한 기법을 제안한다. 제안된 알고리즘에 실제 수중표적 신호를 적용하여 제안된 알고리즘이 매우 유용함을 보인다.
-
본 연구에서는 화자의 음성신호를 이용하여 추출된 공간정보를 통해 화자의 위치를 실시간으로 추적하는 시스템을 제안하고 실시간 구현하였다. 기존의 대표적인 화자 위치 추출 알고리듬인 CPSP(Cross Power Spectrum Phase)는 실내환경에서 심각하게 일어나는 반향신호에 취약한 단점을 갖고 있으므로 구현된 시스템에서는 위치 추적 성능 개선을 위하여 반향신호에 강인한 hybrid window 알고리듬을 제안하여 적용하였다. Hybrid window 알고리듬은 실내 환경에 적합한 hybrid window를 설계하여 수신된 음성신호에 적용함으로써 반향신호에 의한 상호 상관관계를 줄이고 직접 경로에 의한 신호들의 상관관계를 높임으로써 보다 정확한 시간 지연 추정을 가능하게 한다. 제안된 시스템의 성능분석을 위해 DSP를 이용해 실시간 구현된 하드웨어를 이용해 기존의 CPSP 알고리듬과 제안된 hybrid window를 적용한 시스템을 실제 환경에서의 실험하였고 제안한 알고리듬을 적용한 시스템이
$22\%$ 이상 성공적으로 화자의 위치를 추적하였다. -
본 논문은 Nonstationary 환경에서 동작하는 소나의 DOA추정의 정확도를 높이기 위하여 가변 망각인자를 도입한 새로운 Extended PASTd (Extended Projection Approximation of Subspace Tracking with deflation) 을 제안하고 기존 알고리즘과 비교함으로써 새로운 알고리즘의 향상된 성능을 보인다.
-
본 논문은 희소어레이의 패턴을 원하는 패턴과 실제 희소어레이의 패턴간의 오차의 계수적 자승치를 미세탐색을 이용하여 최소화하여 최적화하는 방법을 제시한다. 센서의 간격이 어레이 중심에 관하여 대칭인 경우와 비대칭인 경우에 대하여 성능을 점검하며, 어레이 공간의 주어진 영역의 오차함수에 성능 향상을 위하여 계수를 적용한다. 미세탐색을 이용함으로써 계수 최소 방법의 성능이 주빔 부근의 측면롭에 관련하여 향상되는 것이 판명되었다.
-
본 논문에서는 공간에 위치한 음원으로부터 양 귀에 들리는 음향을 스피커를 이용하여 재현 하는 기술에 대한 문제점과 이를 효과적으로 구현할 수 있는 방법에 대해 소개한다. 좌우 대칭 위치의 스피커를 이용하여, 음상 정위를 실현할 때 직면한 문제점인 Cross-talk 제거와 스피커와 청취자 양 귀사이의 음향전달 모델 선정에 대한 문제점들을 본 논문에서 고찰한다. 이러한 고찰을 통하여 Transaural 필터의 모델 제시와 본 모델의 음향학적 특성을 소개한다. 인간 청각기관의 공간 감응 인자인 lID(Interaural Intensity Difference)와 ITD(Interaural Time Difference)의 개념을 이용한 Transaural 필터의 구현 방법을 제시한다. 제시한 구현방법과 영국 ISVR의 "Stereo Dipole"과의 비교와, 끝으로, 주파수에 따른 적합한 스피커간의 배치 문제에 관한 것도 언급한다.
-
입체음향 시스템에서 모노음에 방향감을 제어하기 위한 방법으로 FIR 필터 형태의 머리전달함수( HRTF : Head-Related Transfer Function)를 사용한다. 그러나 이때 사용되는 FIR형태의 머리전달함수는 높은 차수를 가지고 있어 실시간 음상정위 처리가 어려운 문제점을 가지고 있다. 본 논문에서는 FIR 형태의 머리전달함수를 ARMA 시스템 인지기법을 이용하여 저차의 IIR필터 형태로 모델링하여 실시간 데이터 처리가 가능하도록 하였다. 본 논문에서 제안하는 ARMA 시스템 인지기법을 이용하게 되면 주어진 고차의 FIR형태의 머리전달함수를 다양한 안정성을 갖는 IIR모델들을 얻을 수 있으며, 이들 중 적절한 스펙트럼오차를 갖는 저차의 IIR모델을 선택 할 수 있다.
-
실내음장을 정밀하게 모사하기 위하여 음의 파동성을 고려한 탄성판의 음향특성을 평가하지 않으면 안된다. 따라서, 본 논문에서는 Baffle에 지지된 탄성판의 음향특성을 정량적으로 나타낼 수 있는 근사적인 평가 값에 대하여 고찰하고, 또한 탄성판의 음향특성의 하나인 방사 어드미턴스에 대하여 이에 대한 음향학적 특성에 대하여 평가한다
-
본 논문은 전자파 장해 및 복사내성 측정의 대용 시험시설로 활용될 수 있는 전자파 잔향실의 전자기장 특성에 관하여 연구하였다. 전자파 잔향실 내부 균일성을 확보하기 위하여, 음향효과의 극대화를 위해 인간의 가청 주파수대인 16-20,000Hz 범위, 음속(340 m/sec)에 적용하여 활용되고 있는 Shroeder Quadratic Residue Diffuser를 무선 주파수 대역 30 KHz -3 THz인 범위로 확장, 3가지 형태의 Diffuser를 설계하여 잔향실 내부에 적용하였다. FDTD(Finite-Difference Time-Domain) 수치해석 방식을 이용하여 잔향실 내부의 필드 특성을 조사한 결과 Diffuser를 부착한 3 가지 형태 모두 치대 tolerance
$\pm$ 3dB 이내의 필드 균일도를 나타내었으며, Type 3, 대칭형 구조의 Diffuser 형태가 효율이 가장 우수하다는 결과를 나타내었다. -
입체음향 생성을 위한 기존의 방법은 크게 바이노럴 녹음기법과 머리전달함수(HRTF)를 이용한 바이노럴 합성 기법으로 나눌 수 있다. 현재 바이노럴 기법은 기존 스테레오 시스템에 비해 공간감, 몰입감 측면에서는 탁월한 효과가 있지만, 음질의 저하와 정면 음상 정위가 잘되지 않는다는 치명적인 단점 때문에 프로페셔널 오디오 분야에서는 거의 사용되지 않고 몇몇 PC 게임용으로만 사용되고 있다. 본 논문은 정확한 정면 음상 정위를 위해 '3채널 더미헤드를 이용한 바이노럴 녹음기법' 을 제안하고, 기존 스테레오 녹음기법과의 호환성 유지를 위해 녹음 현장에서 직접 사용될 수 있는 3채널 더미헤드를 사용한 'Weighted Diffuse-field equalization 기법'에 대해 제안하며, 3 채널 더미헤드를 이용하여 기존 HRTF 데이터를 대체할 수 있는 정면 음상 정위에 강인한 '3 채널 더미헤드 HRTF 측정 기법'에 대해 제안한다.
-
입체음향 생성을 위한 기존의 방법은 크게 바이노럴 녹음기법과 머리전달함수(HRTF)를 이용한 바이노럴 합성 기법으로 크게 나눌 수 있다. 바이노럴 기법으로 생성된 이러한 입체음향은 재생을 위해 역 필터와 Equalization 곡선을 선택하게 되는데 이것은 음질에 중요한 영향을 주게 된다 본 논문은 재생시 음질의 향상을 위해 적합한 역 필터 설계와 Equalization 곡선의 선택방법을 제시하고 트랜스오럴 시스템 설계 시 신호처리로 인한 음질의 저하를 최소화하기 위해 스피커의 위치를 청취자의 머리 뒤에 놓는 방법을 제안하고자 한다. 그리고 청취자의 정면에 스피커를 한 개 추가하여 정면의 음상을 강화하고 3 채널 바이노럴 녹음기법(1)으로 만들어진 음원에 대한 호환성을 갖게 한다. 마지막으로 이 제안된 모든 방법들을 실시간으로 재생하는 시스템을 구현한다.
-
Currently a multichannel system for virtual 3-D sound rendering is under development. Robust sound image formation and smooth real time interactivity are main design Points. The system utilizes VBAP algorithm as virtual sound image positioning. Overall system settings can be easily configured. We developed software, RIMA. as a driving Program of the system. At this stage, it is possible to position virtual sound images at arbitrary positions in three-dimensional space. The characteristics of the system are discussed. The system has been applied to the KAIST Bicycle Simulator to generate the virtual sound field.
-
에밀레종은 771년도에 성덕대왕의 공적을 기리기 위해 34년간 주조(높이 3.663m, 최대지름 2.227m, 무게 18,900kg)하여 만든 세계적인 문화유산이다. 외형도 미려하지만 종소리는 천, 지, 인을 뒤흔드는 신비감을 갖추고 있다. 에밀레 종소리는 끊어질 듯 이어지는 소리, 애끓는 소리, 심금을 울리는 소리 등의 특징을 갖는데 끊어질듯 이어지는 소리는 맥놀이 현상으로 나타난다. 지금까지 맥놀이 현상의 규명에 대한 많은 연구가 있었지만, 에밀레 종소리가 심금을 울리는 소리 성분을 가지고 있다는 것을 실험을 통해 밝히기는 이번이 처음이다 여기에는 우리 선조들이 750년경에 과학적 근거를 토대로 하여 응용이 가능하였음을 알 수 있다. 결론적으로 우리는 1228년전에 완성한 우리민족의 지혜와 숨결이 스며있는 에밀레 종소리의 세 가지를 규명하고 재현함으로서 문화민족의 자부심으로 새로운 세대를 개척해 나아갈 수 있는 원동력을 얻고자 한다.
-
The acoustical response of fish depends on size and physical structure na, most important, on the presence or absence of a swimbladder. Acoustic scattering models for swimbladdered fish represent a fish by an ideal pressure-release surface having the size and shape as the swimbladder. Target strength experiments of red seabream (Chrysophrys major) have been conducted using 38 (split-beam), 120 (split-beam) and 200kHz (dual-beam) frequencies. At each start of each experiment, the live fish are placed in the cage at the surface, then the cage is lowed to about
$4{\cal}m$ depth where it remains during the measurements. To test the acoustic models, predictions of target strength based on swimbladder morphometries of 10 red seabream offish total length from$103{\cal}mm{\;}to{\;}349{\cal}mm$ ($3 <$TL/\lambda$ < 45)are compared with conventional target strength measurements on the same, shock-frozen immediately after caged experiments. X-ray was projected along dorsal aspect to know the morphological construction of swimbladder. and fish body. At high frequencies, Helmholtz-kirchhoff(HK) approximation would greatly enhance swimbladdered fish modeling. Sound scattering model [HK-ray approximation model] for comparison to experimental target strength data was used to model backscatter measurements from individual fish. The scattering data can be used in the inverse method along with multiple frequency sonar systems to investigate the adequacy of classification and identification of fish -
본 연구에서는 한국 동해 대륙붕 해역에서의 주요 해양현상인 수직 수온구조의 단기변동, 수온전선, 그리고 내부파의 변동을 분석하고 이들 변화에 따른 음파의 음장변화를 고찰하였다. 한국 동해항 근해에서 수온의 수직적 변화는 계절적인 변화 이외에 약 2주간의 짧은 기간에도 매우 극적인 변화가 존재함이 실측자료를 통해 밝혀졌다. 1999년 관측된 CTD 자료를 바탕으로 음장 변화를 살펴본 결과 주파수 1kHz, 음원수심
$30{\cal}m$ 인 경우 수신기 수심에 따라 최소 3dB, 최대 10dB까지 차이를 가져올 수 있음을 알 수 있었다. 한국 동해에서 연안과 외해 사이에는 수온전선이 매우 자주 발달하며 여름에 가장 강한 것으로 알려져 있다. 동해항 근해에는 대표적인 수괴인 대마난류수와 북한한류수가 공존하며 이들의 상대적인 세력 변화 때문에 수은(음속)이 거리에 따라 급격하게 변하는 수온전선이 발달할 수 있다. 저주파수 대역 (200Hz)에 대한 간단한 시뮬레이션 결과는 수온전선이 정상적인 분포에 비해서 거리에 따라 7dB 정도의 큰 전파손실을 초래할 수 있음을 보인다. 한국 동해 연안에도 내부파가 존재한다는 사실이 최근 3년간의 연구 결과 밝혀졌다. 내부파는 외해에서 발생하여 대륙단을 거쳐 대륙붕으로 진행해 오면서 내부파 군 (Packets)으로 분산된다. 수직적 변화가 전체 수층의$14\%$ 를 차지하는 간단한 형태의 내부파를 가정하여 음장변화를 시물레이션 한 결과 주파수 1 kHz, 음원수심$20{\cal}m$ 인 경우 내부파는 수렴구역 형성을 현저하게 방해하여 최대 5dB까지의 차이를 유발하였다. 추후 이에 대한 연구는 내부파 전체의 시,공간적 분포 특성이 구체적으로 규명되면 보다 정확한 음장변화 추정이 이뤄져야 할 것으로 보인다. 또한 내부파와 음파의 상대적인 진행 방향에 따라 음장변화가 크게 다를 것이 예상되므로 이를 규명하기 위해서는 궁극적으로 3차원적인 음장분포 연구가 필요하다. 음향센서를 해저면에 매설할 경우 수충의 수온변화와 센서 주변의 수온변화 사이에는 어느 정도의 시간지연이 존재하게 되므로 이에 대한 영향을 규명하는 것도 센서의 성능예측을 위해서 필요하리라 사료된다. -
잔향음 세한 환경에서 능동소오나를 운용시 잔향음은 표적탐지를 저해하는 중요한 요인으로 작용한다. 그러한 환경에서 잔향음을 효과적으로 제거하고 표적신호를 보존하기 위한 기법으로 priori estimation error를 사용하는 deterministic LSL(least squares lattice) 알고리즘을 적용하였으며, LSL 필터의 입력신호는 천해에서 고주파 센서를 이용하여 실측한 CW 및 FM 잔향음신호와 모의된 표적신호를 합성한 신호를 이용하였다. 모의 실험 결과 잔향음신호는 상당히 감소되었을 뿐 만 아니라 도플러 변화가 없는 표적신호에 대해서도 LSL필터는 양호한 응답을 보였다.
-
해양음향 토모그래피 수행을 위해 필수적인 Forward 모의 알고리즘을 연구를 통해 Forward 문제에서의 선결문제(음파 전달경로의 안정성, 식별능력 및 분해능)를 고잘하였다. 이를 위해 동해의 기존 관측 자료를 이용하여 평균해양에 대한 음속구조 및 EOF 분석을 수행, 재현된 음속구조를 이용, 음선 모델에 의한 고유음선 정보를 파악하여 고유음선의 도달경로 및 도달시간의 비교를 시도하였다.
-
본 논문에서는 수중음향측정을 위한 수직선배열측정 체계 설계 개념을 연구한다. 본 연구에서는 수직선배열 측정체계를 이용한 음향측정 시 고려해야 할 설계 기법들을 고찰하고, 측정 주파수 대역에서 지향지수가 균일하게 유지되는 비선형 센서배열 설계 알고리즘과 피측정 음원의 위치추정을 위한 음향학적 능/수동 추적 알고리즘을 제안한다 제안 알고리즘의 유용성은 시뮬레이션과 해상시험으로 확인한다.
-
본 연구에서는 유한요소법(FEM)을 이용하여 압전 수중음향센서의 모델링 및 음향특성을 해석하였다. 압전 복합구조 수중음향센서의 해석에서 기본적인 압전-탄성 구조물과 유체-구조물의 연성해석을 위한 유한요소 정식화를 하였으며 무한영역의 음향유체를 처리하기 위하여 IWEE(Infinite Wave Envelop Element)를 도입하였다. Topilz형 수중음향센서를 수중 산란체로 볼 경우 입사파가 산란체의 표면을 가진할 때 산란체로부터 발생되는 산란파는 IWEE로 인하여 무한 유체영역에서의 산란파의 감소특성을 갖게되어 무한영역을 유한영역으로 나눈 인위적인 경계에서 반사가 일어나지 않게 되므로 산란파의 음압을 정확히 구할 수 있었다. 또한, 이러한 산란해석을 바탕으로 입사파에 대한 음향센서 내부의 전기적 응답특성인 RVS(Receiving Voltage Signal)를 구하였다. 이러한 일련의 연구 과정들은 소나(SONAR) 시스템을 정확히 해석하고 음향특성을 예측하는 데 큰 도움이 될 것이다.
-
-
음향센서의 정확도 시험을 위해서는 사전 약속된 모의신호를 발생하는 기준 음향센서, 즉 모의신호 발생기가 필요하다. 모의신호 발생기는 정확도 시험의 기준이 되므로 위치가 정확하게 산출되어야 하고, 발생시키는 모의신호는 시험 목적에 부합되도록 설계되어야 한다. 본 연구에서는 모의신호 발생기의 위치 추정 및 모의신호 발생을 위한 설계 기법을 제안하고, 제안 기법에 대한 위치 추정 알고리즘을 시뮬레이션으로 고찰한다.
-
강제가진을 받는 진동장은 직접장과 반사장으로 이루어진다. 직접장은 무한구조요소가 점입력을 받을 때의 해와 같으며, 반사장은 직접장에 의해 발생되는 1차 반사파 및 추가로 발생하는 무수한 반사파들의 합으로 나타낼 수 있다. 본 논문에서는 점가진을 받는 유한한 평판의 단일 주파수 해석을 수행하기 위한 레이추적기법을 연구하였다. 이를 위해, 직접장은 고주파수 가정을 이용하여 원형전달파로 근사화하고. 이 원헝전달파를 다수의 파동관 (wave tube)으로 이산화하였다. 균일한 경계조건과 무시할 만큼의 미약한 굴절효과를 가정하고 경계에서의 정반사 (specular reflection)만을 고려하여, 경계에서의 입사파동관. 전달 및 반사파동관의 기하학적 관계를 제안하였다. 이들 파동관이 평판 내부를 진행하면서 관측점에 미치는 영향들을 합성하여 비교적 정확한 강제진동응답을 얻을 수 있음을 단일 평판의 예제를 통하여 확인할 수 있었다 그러나, 연성된 평판의 경우에는 다소 부정확한 결과를 얻었다.
-
음파를 이용하여 덕트 내 길이 방향으로의 불규일 단면적을 측정하는 방법에 대해서 연구하였다. 이러한 역문제적 단면적 재구성은 덕트내의 비파괴 검사 및 인간 기도의 형상 조사 등에 중요한 의미를 지닌다. 음파를 이용하여 덕트내의 단면적을 재구성하는 과정은, 충격응답을 구하는 과정과 충격응답을 면적 재구성 알고리즘에 대입하여 덕트 내 단면적을 구하는 과정으로 나누어진다. 본 연구에서는 랜덤소스와 역푸리에 변환을 사용하여 덕트 내 충격응답을 구하였다. 예제를 통해 제안된 방법에 의해 덕트 내면적 재구성이 매우 정도 높게 실현 가능함을 보였다.
-
In this study, the acoustic transducer of a thin circular disc-type with PZT/Metal was designed. The dielectric and piezoelectric properties of
$0.5wt\%$ $MnO_2$ and NiO doped 0.1Pb($Mg_{1/3}$ $Nb_{2/3}$ )$O_3$ -$0.45PbTiO_3$ -$0.45PbZrO_3$ ceramics were investigated aiming at acoustic transducer applications. The vibration characteristics for the laminated circular plate was analyzed for the various thickness and diameter of the piezoceramic layer and metal layer. The acoustic characteristics which is radiated from the acoustic transducer within the finite space was simulated using the finite element method. It has been observed that the characteristics of the sound pressure ard impedance response calculated for the various models of the size and geometry of acoustic transducer. -
진동가속도를 감지하는 힘평형 서보 가속도계의 성능특성을 결정하는 질량지지 장치를 4개의 팔로 구성된 형태로 설계하고 응답특성을 조사하였다. 스프링의 길이, 폭, 두께에 따른 질량지지 장치의 응답특성을 유한요소법을 이용하여 계산하고, 이를 바탕으로 힘평형 서보 가속도계의 감도, 사용주파수 범위 및 동적 범위를 예측하였다. 그리고 레이저 간섭계를 이용하여 힘평형 서보 가속도계의 각각의 진동 주파수 및 가속도의 크기에 따른 간섭무의 수의 변화와 이때의 응답전압간을 이용하여 가속도계의 응답특성을 측정하였으며, 수치해석을 통해 얻은 결과와 비교 분석하였다.
-
흡음률을 예측 및 평가하기 위한 연구로서 우선 수직입사 흡음률을 예측하는 경험식 모델에 대한 비교 연구를 수행하였다. 비교결과는 Voronina 가 제안한 경험식이 상대적으로 실험치와 잘 일치하고 있다. 한편 수직입사와 랜덤입사와의 상관관계를 실험 연구를 통하여 조사하였다. 이 상관관계는 주파수에 따라서 다르게 나타나고 있다. 저주파수 대역에서는 랜덤 입사가 수직입사 보다 크게 나타나고 있지만 고주파수에서는 수평입사 성분의 영향으로 랜덤입사에서는 감소하는 경향을 보이고 있다.
-
In periodic structures where two or more materials of different density and sound speeds are arranged, there exist stop bands, in which waves cannot propagate. In this paper noise and vibration reduction by using band gap phenomena is discussed. The general theoretical background is presented and experimental results for acoustic wave attenuation in 2D cylinder arrays are described.
-
가속 주행하는 차량의 소음을 줄이기 위해서는 각 소음원의 기여도를 파악하는 것이 필요하다. 본 논문에서는, 가속 주행하는 차량의 배기 토출 소음을 ISO362에서 규정한 음압 측정 지점에서 예측하기 위하여, 시간 영역에서 근접장 배기 토출 소음을 예측할 수 있는 시뮬레이션 프로그램 'WAVE'와 움직이는 음원의 방사 모델을 이용하였다. 가속 주행중 차량의 소음원에 의한 음파의 전달은 도플러효과와 시간 지연이 발생하며, 이를 고려하여 정지된 지점에서의 소음레벨을 예측하였으며, 배기 토출 소음의 예측을 통하여 가속주행소음에 대한 기여도와 그 소음 특성을 파악할 수 있다.
-
제품의 음질 특성과 관련된 주요 주파수 대역을 파악하기 위해 본 연구에서는 청소기 소리의 주파수 대역을 음성인식에 중요한 주파수 대역인 4개의 대역으로 나누고, 각 대역 성분을 직교배열표에 따라 가감한 16개의 소리를 만들었다 만들어진 소리에 대해 10명을 대상으로 4가지의 표현어로 Semantic Differential Method(SDM)로 주관적 평가를 하여, 청소기음의 주파수 특성과의 상관관계를 살펴보았다. 불쾌한 느낌과 관련이 깊은 주파수 대역은 고주파수 대역이었으며, 성능이 좋은 느낌을 주기 위해서는 저주파수 대역을 증가시키는 것 이 효과적이었다.
-
본 연구에서는 원형실린더에 의한 음향파의 산란현상을 전산공력음향학 기법을 이용하여 계산하였다. 특히 전산공력음항학에서 정확도를 위해 요구되는 좌표의 직교성을 유지하기 위해서 그에 대한 적절한 관계식을 유도하였으며 정확성의 검증을 위해서 수치적인 해를 이론적인 해와 비교, 분석하였다. 공간차분법으로는 Taylor 전개를 통하여 차 정확도를 가진 차분법을 바탕으로 주파수 공간에서 최적화 된 DRP(Dispersion Relation Preserving) 기법을 사용하였으며, 시간차분법으로는 Adams-Bashford 방법을 기준으로 최적화된 4단계 외재적(explicit) 적분방법을 사용하였다 벽면 경계조건으로는 가상점 개념을 이용한 경계조건을 사용하였으며 원방 경계조건으로서는 선형화 된 Euler 방정식의 점근해(Asymptotic Solution)을 이용한 방사경계조건(Radiation Boundary Condition)을 사용하였다.
-
본 논문에서는 한국어에 나타난 외래어 중에서 외국어(영어/독일어)의
$[\int]$ 음이 어떻게 인식되고 해석되었는지를 살펴보았다. 특히 본 논문에서는$[\int]$ 음의 영어와 독일어 발음과 한국어의 대응되는 분절음이 일대일 대응을 이루고 있지 못하다는 것을 보이고 이런 대응관계를 설명하기 위해 어떤 정보가 필요한지에 대해 살펴보았다. 즉, 독일어와 영어에서 음절의 말음으로 쓰인$[\int]$ 음이 한국어에서는 [쉬/시]로 인식되는데 반해 본토어에서$[\int]$ 음이 음절초음의 일부로 사용된 경우에는 한국어의 외래어에서 (슈)로 화자에게 인식되고 또 문자로 표현된다 따라서 본 논문에서는 음절초음의 일부로 나타나는 외국어의$[\int]$ 음과 음절말음으로 나타나는 외국어$[\int]$ 음의 음성학적 기호를 분석해보고 한국어에서 서로 다른 표면형을 형성하는 이유가 본토어의 (음절 초음/말음이라는) 음운론적 특성에 기인하는 것인지 혹은 현재까지 우리가 알고 있지 못했던$[\int]$ 음의 발음 위치에 따른, 즉 동시조음(coarticulation) 현상 때문에 생긴 변이음 때문인지에 대한 규명을 시도하였다. 외국어 화자의 발성실험을 통해, 한국어에서 /쉬/로 인식되는 독일어와 영어의$/\int/$ 음은 /슈/로 인식되는$/\int/$ 음보다 마찰소음의 peak frequency가 높거나 지속시간이 길게 나타났다 이런 결과를 근거로 영어와 독일어의$/\int/$ 음이 한국어의 /쉬/음과 /슈/음으로 구분될 때 사용되는 음성자질은 크게 2가지, 즉 마찰소음의 peak frequency와 지속시간이며, 둘 중 한가지만 있어도 구분은 가능하나 이 2가지가 동시에 존재할 때 /쉬/음과 /슈/음의 구분이 현저히 용이해진다는 가설을 세워보았다. -
이 논문은 한국어 화자들이 영어를 발음할 때 나타나는 한국어 음절구조의 영향을 살펴보는 것을 목적으로 한다. 본 연구에서는 특히, 자음연쇄에 나타나는 한국어 음절구조의 영향을 살펴봄으로써, 음운론적으로는 이미 많이 논의가 되어 온 것을 실험음성학적인 시각에서 살펴본다는 데 의의가 있다. 본 연구에서는 위치에 따른 차이 즉, coda보다는 onset에서 자음이 더 길어지는 것으로 보였다. 또, 한국어 화자의 경우, 영어권 나라에서 2년 이상 체류한 경험이 있는 그룹을 구분하여 비교해 보았으나, 그 차이는 그리 유의하지 않은 것으로 보인다.
-
원어민이 발성한 영어유음 시료를 사용하여 한국인 영문과와 타학과(비 영문과) 학생들을 대상으로 인지실험을 하였고, 시료의 정확성을 확인하기 위하여 원어민을 또 하나의 피험자 그룹으로 선택하였다. 영문과 피험자의 영어유음 인지결과를 살펴보면 어두
$(70\%)$ < 어말$(75\%)$ < 어중$(80\%)$ glt; 연속음$(86\%)$ 의 순서로 인지율이 높아졌다. 타학과 피험자의 영어유음 인지에서는 어두$(59\%)$ < 어말$(66\%)$ glt; 어중$(70\%)$ < 연속음$(72\%)$ 의 순서로 인지율의 증가를 보였다. 원어민의 영어유음 인지에서는 녹음에 참가하지 않은 다른 원어민을 대상으로 해서 총 평균$99.6\%$ 로 거의 완벽한 인지율을 보였다. 그 만금 녹음된 시료가 정확하다는 것을 확인시켜 주었다. 피험자별 그룹에 대한 결과 비교에서는 원어민이 녹음한 발음으로 인지실험을 할 때 타학과$(66.8\%)$ < 영문과$(77.4\%)$ < 원어민$(99.6\%)$ 의 순서로 점차 좋은 인지율을 보였다. 한국인이 발성한 영어유음에 대한 원어민의 인지실험에서는 한국인 영어유음 발음의 정확성을 알아보고자 하는 것이 목적이다. 한국인 발성시료에 대한 원어민의 총인지율은$68\%$ 로 원어민의 발성시료에 대한 인지율$99.6\%$ 와 비교해볼 때 영문과 녹음자들의 발음 정확도가 높지 못하다는 것을 보여 주었다. 평균/1/$(79\%)$ 과 평균/r/$(58\%)$ 의 인지율을 보게 되면 한국인의 영어유음 발성에 있어서 /r/의 발성이 /1/의 경우보다 문제가 더 심각하다는 것을 알 수 있다. 특히 실험결과는 어두/1/$(87\%)$ 과 어두/r/$(43\%)$ 에서 뚜렷한 인지율의 차이를 보여주고 있다. -
본 논문은 영어 모국어 화자(남, 여)들이 발성한 영어 모음 12개를 가지고 모음의 길이와 포만트 값(Fl, F2)을 측정하고, 인지실험에 사용할 시료를 만들어 원광대학교 학부생을 대상으로 음성학 수강반 학생 90명, 비 수강반 64명 두 그룹으로 나누어 총 154명을 대상으로 인지실험(Identification test)를 실시하였다. 인지실험결과 음성학 수강반 학생들의 모음인지율이 비 수강반 학생들 보다 대체적으로 좋았으며, 여자화자의 모음인지율이 남자화자의 인지율보다 대체적으로 높았다. 학생들의 인지율 가장 좋은 모음은 hayed, hard였으며, 인지율이 가장 낮은 모음은 head, had 등이였다.
-
한국어는 어두에서 유성파열음이 나타나지 않고 약한 기식이 있는 연자음으로 실현되므로 영어의 유성파열음을 발음하기 어렵다. 한국인이 어두 유성파열음을 습득할 때 후속하는 모음의 높이가 영향을 미치리라 가정하고 /이, 에, 어, 우/ 4개의 모음을 선택하여 어두유성파열음 의 VOT에 영향을 미치는가를 단독단어와 문장에서 살펴보았다. native, 숙련자, 미숙련자의 세 그룹으로 나누어 실시한 결과 native의 경우 후속하는 모음이 어두파열음의 VOT에 영향을 끼치지 않았으며, 이러한 경향은 숙련자 그룹에서도 지켜짐을 알 수 있었다. 그러나 미숙련자 그룹인 경우 고모음이 저모음에서보다 VOT가 현저하게 길었고 통계검사 결과 유의미한 차이를 보여, 고모음에서 유성발음을 잘 못함을 알 수 있었다. native와 숙련자 그룹은 intermediate phrase(이하 iP) initial인 단어나 iP medial인 문장에서 VOT가 거의 유사한데 비해 미숙련자 그룹에서는 문장 내에서 VOT가 조금씩 짧아졌고 이 경향은 고모음에서 두드러져 통계적으로 유의미한 차이를 보였다.
-
According to H.B.Lee(1993), standard Korean vowel qualities are as follows: in /i/, /e/,
$/\epsilon/$ , /a/, /o/, /w/, they have 4 qualities each other and in /er/ there are 3 qualities. The environments of 4 qualities are iong and stressed vowel in word initial, short and stressed vowel in word initial, unstressed vowel in word initial, unstressed vowel in word finial. The aim of this study is to seek and compare with H.B.Lee(1993). Conclusively I could not find on the whole any pattern of the same types of H.B.Lee(1993) in this study And especially in Fl vowel formant values of /er/and /w/, I never found any pattern of the same types of H.B.Lee(1993). Also F2 vowel formant values of$/\varepsilon/$ and /w/ do not have any kind of pattern of the same types of H.B.Lee(1993), between them, the patternize of F2 vowel formant values in /w / is especially difficult. It is the same story of Jaekang Lee(1998). But in some case, the patternize could be done. among the whole vowels, analysis environment b has the wide width on the change of the formant value. As the another result of the analysis It is to possible to make the pattern of the old male group. The old male group on the whole is analyzed to have the most low formant values and the old women group is analyzed to have the most high formants values, but in the most high formant valus there are young women group. And the formant values's rising in 2 cases of the formant value of /er/ is analyzed to have the same pattern of H.B.Lee(1993). -
변수로서 악센트구 내 음절수, 첫째 음절과 둘째 음절의 음절 유형 (폐음절 대 개음절), 첫째 음절과 둘째 음절의 초성 자음의 유형 등을 고려하여 선택된 3음절 무의미 단어 35개와 4음절 무의미 단어 35개를 사용하여 4음절 이상으로 이루어진 서울말 악센트구의 성조에 대 하여 조사하였다. 이 실험의 발화에서는 1) 악센트구성조에 대하여 4음절과 5음절의 차이는 나타나지 않았다. 2) 음절 유형은 첫째 음절의 초성 자음이 보통음일 때는 유의한 영향을 미치지 않았으나, 센소리일 때는 둘째 음절의 유형이 유의한 영향을 미치는 것으로 드러났다 3) 악센트구 성조에 대하여 첫째 음절의 초성 자음의 유형이 중요한 역할을 하는 것으로 나타났다 첫째 음절의 초성 자음이 센소리일 때 악센트구 4개 성조 모두 보통음일 때에 비해 높게 나타났다. 4) 둘째 음절의 초성 자음의 유형도 자신의 성조에 유의한 영향을 끼치는 것으로 드러났으며 센 소리로 시작하는 경우에 다른 유형의 자음에 비하여 자신의 피치 값이 높은 것으로 나타났다.
-
A psychoacoustic model based noise shaping method is proposed, where noise's presence with a host signal will not be perceptually noticeable. The derivation of imperceptible noise levels from the masking thresholds of the signal involves a deconvolution associated with the spreading function in the psychoacoustic model, which results in an ill-conditioned problem. In this paper, the problem is formulated as a constrained optimization, and it is demonstrated that the solution provides noise shaping where the noise excitation level conforms to the masking thresholds of the signal.
-
The perceptual filter for speech enhancement was analytically derived where the frequency content of the input noisy signal was made the same as that of the estimated clean signal in auditory domain. However, the analytical derivation should rely on the deconvolution associated with the spreading function in the psychoacoustic model, which results in an ill-conditioned problem. In order to cope with the problem associated with the deconvolution, we propose a novel psychoacoustic model based speech enhancement filter whose principle is the same as the perceptual filter, however the filter is derived by a constrained optimization which provides solutions to the ill-conditioned problem.
-
본 논문에서는 DSP와 RISC 마이크로 콘트롤러의 결합으로 구성된 이중 코어 DSP를 이용하여 휴대장치에 적합한 저전력 MPEC-2 계층-III 복호화기의 구조를 제안하고 실시간 시스템을 구현하였다. 제안된 시스템은 디지털 오디오 데이터 처리부와 시스템 제어 정보처리부로 나누어 병렬처리가 가능한 구조이다. 디지털 오디오데이터 처리부에서는 DSP의 강력한 산술연산기능으로 MPEG 복호화 알고리듬을 수행하며 시스템 제어부에서는 마이크로 콘트롤러의 장점인 저가, 저전력의 제어 기능으로 사용자 인터페이스 및 파일 관리, 비트스트림 제어를 담당하도록 구성된다. 입력부에서는 Multi Meadia Card(MMC)를 지원하고, PC와 호환 가능하도록 파일 관리 시스템으로 운용되며 직렬 통신의 데이터 전송과 16비트 해상도 및 최대 48kHz 표본화주파수로 스테레오 출력이 가능하다. 구현된 시스템은 이중 코어를 이용하여 DSP의 연산량 및 동작속도의 감소로 인한 저가, 저전력의 효과로 인해 휴대장치에 적합하다.
-
This paper presents a filter bank designed for the multi-channel audio equalizer. A time-shared multiplier is also proposed to implement the equalizer with a minimum number of gates when it is synthesized with ASIC or FPGA. Further reduction of the number of required gates is achieved by designing the multiplier based on a cascaded sequential circuit utilizing partial multiplications. The equalizer is realized with FPGA and its real-time operation verifies the reliability and high fidelity of the designed system.
-
인터넷을 이용한 디지털 오디오 방송 서비스에 대한 관심이 집중되면서 디지털 오디오 데이터를 서버로부터 사용자에게까지 실시간으로 전송하기 위한 연구가 진행되고 있다. 디지털 오디오 방송의 실시간 전송을 위하여 효율적인 오디오 압축 기술의 개발도 중요하지만 이들 오디오 압축 기술과 연계되는 오디오 스트리밍 기술이 매우 중요하다. 본 논문에서는 현재 사용되고 인터넷 오디오 방송관련 기술을 분석하고, 특히, IETF에서 논의되고 있는 MPEG-2AAC 및 MPEG-4 오디오를 인터넷을 통하여 전송하기 위한 RTP payload 포맷을 분석하고, 기술개발을 위한 고려사항을 제안한다.
-
최근 들어 디지털 워터마킹(watermarking) 기법이 디지털 멀티미디어 컨텐츠 저작권 보호를 위한 새로운 해결로 제시되고 있으며, 국내외에서 이와 관련된 연구가 활발히 진행되고 있다. 본 논문에서는 이와 같이 최근 들어 많은 관심을 끌고있는 디지털 오디오의 저작권 보호를 위한 워터마킹 삽입방법을 소개한다. 개발된 오오 워터마킹 기술은 원본 오디오에 비해 오디오의 품질이 떨어지지 않을 뿐 아니라 워터마크를 제거하고자 해지는 다양한 공격에도 워터마크가 제거되지 않는 특징을 가지고 있다.
-
기존의 Rayleigh fading 환경에서 칼만 필터를 사용한 다중 사용자 검출에서는 비동기적으로 들어온 다른 사용자 신호의 상태가 바뀜에 따라서 수렴하던 신호에 영향을 미친다. 이러한 특성은 결국 전체 시스템에 영향을 미쳐서 검출 성능을 떨어뜨린다. 본 논문에서는 에러가 발생하였을 때의 경우를 고려하기 위해 VFF(Variable forgetting factor)를 도입하였고 이를 이용해 추정된 신호의 가중 합을 기반으로 시스템을 구성한 결과 성능이 향상되었음을 보이고자 한다.
-
ANC시스템에 있어서 현재 많이 이용되고있는 Filtered-X LMS 알고리즘에서 2차 음원과 제어점간의 임펄스응답은, 미리 동정하여 사용하는 것이 일반적이지만, 2차 음원과 제어점간의 전달특성이 이후에 변화할 경우, 실제의 전달함수와 적응에 이용한 전달함수간에 모델링 오차가 발생하게된다. 이 모델링 오차에 의하여 알고리즘은 오동작을 일으키고, 시스템은 불안정하게 되기도 한다. 따라서, 본 연구에서는 참조신호가 랜덤신호일 경우에 발생하는 모델링 오차와 Filtered-X LMS 알고리즘의 오동작에 관한 이론식을 도출하고, 시뮬레이션을 통하여 이를 입증하였다.
-
자왜 재료는 자계 포화 이하에서 비선형 특성을 갖는다고 알려져 있다. 그러나 지금까지 비선형 특성을 표현하는 자왜 재료의 구조 방정식을 유도한 사례는 전무한 실정이다 본 연구에서는 자계 포화 이하에서 비선형 특성을 갖는 자왜 재료의 비선형 구조 관계식을 유도하였다. 나아가 유도된 구조 관계식을 이용하여 자왜 재료 내의 파동 방정식을 정식화하였다. 그리고 비선형 특성을 갖는 자왜 재료에서 평면파가 자계 방향을 따라 전파될 때 이방성 자왜 재료를 등방성 재료로 가정하여 종파와 횡파 속도를 구하였다.
-
PZT 세라믹 트랜스듀서와 같은 압전 세라믹 진동자를 사용하는데 있어서 품질계수(quality factor)를 제어할 수 있다는 것은 전기-기계 결합계수나 삽입손실 등을 개선 할 수 있으므로 매우 유용한 것이다 본 연구에서는 압전 진동자의 품질계수를 제어하는 방법으로써 압전 진동자의 제동용량과 저항성분을 전기적으로 상쇄시킬 수 있는 부임피던스 변환회로(negative impedance converter circuit)를 적용하였다. 그 결과 부임피던스 변환회로를 적용하지 않은 경우에 비해 압전 진동자의 품질계수가 수십 배정도 까지 제어됨을 실험으로 확인하였다.
-
기존의 Push-Pull 트랜스듀서보다 간단한 구조를 가지며 출력을 한층 더 높이기 위해서 실린더 중앙에 구동부를 둔 새로운 구조의 Push-Pull 트랜스듀서를 설계하고자 한다. 유한 요소 상용 Package인 ANSYS를 이용하여 트랜스듀서의 모델을 구성한 후, 분석 시 고려되어 지는 길이, 반경, Endcap Edge 형상에 대해 변수로 설정, 변수들의 변화에 대한 음압의 변화 경향을 조사하여 최대 음압을 구현하기 위한 최적 길이, 반경, Endcap Edge 형상을 설정하였다. Endcap의 형상이 수직, 삼각형 형태의 트랜스듀서에서 나타난 결과에서 힘의 전달이 Edge형상이 수직일 때보다는 삼각형일 때가 더 좋은 것을 볼 수가 있었다. 또한 기존의 트랜스듀서를 유한 요소로 설계를 하여서 분석을 하였고, 기존의 트랜스듀서와 비교해 본 결과, 최적 설계한 트랜스듀서가 구조적으로 더 단순한 구조임에도 불구하고 더 큰 음압을 구현할 수 있는 고출력 트랜스듀서라는 것을 입증하였다.
-
도플러 로그용 센서를 이용하여 선박의 속도를 측정하면, 선박의 수평방향 이외의 움직임, 즉 핏칭이나 롤링 등에 의한 측정 속도의 부정확성이 문제가 된다. 본 연구에서는 이러한 핏칭과, 수중이라는 환경요인에 기인하여 다른 속도 측정용 센서들이 가지는 문제점을 극복할 수 있도록 진동판을 수평축에서 일정한 각을 가지도록 두 개 또는 네 개를 등 간격으로 배열한 야누스형 초음파 트랜스듀서를 개발하였다. 트랜스듀서 개발을 위하여 그 작동 구조를 해석하고 그에 따라 시제품을 제작한 후, 실험적인 성능 평가를 수행하였다. 시제작된 초음파 트랜스듀서는 지향성 및 감도가 우수하고, 대역폭이 넓은 성능을 가지고 있어, 실제 선박에 장착되어 도플러 로그용 초음파 트랜스듀서로 사용될 수 있는 가능성이 확인되었다.
-
초음파 음장의 상대적인 변화를 측정하는데 사용하기 위한 극소형 수중 청음기를 제작하고 그 특성을 평가하였다. 압전체로서는 PVDF(Poly Vinylidene Di Fluoride) 고분자막을 사용하였으며, 수신 특성을 향상시키기 위해 임피던스 변환회로를 부가하였다. 본 논문에서는 설계된 수중 청음기의 초음파 수신특성을 Mason 등가회로에 의해 이론적으로 평가한 결과 및 극소형 수중 청음기의 제작 방법, 그리고 제작한 청음기의 초음파 수신 특성에 대하여 보고한다.
-
Electromagnet ic wave falling on solid surface acts on the medium with a force. This force brings about a redistribution of surface charges and the surface potential is varied. By measuring this potential variations, the surface electrical properties on conductors, semicionductors and dielectrics can be tested. In this paper, two dimensional photocharge voltage on the
$LiNbO_3$ wafer induced by He-Ne laser beam, the temperature characteristics and the capacitive coupling test structure for the photocharge voltage measurement for the dielectrical materials are shown. -
본 연구에서는 1, 2단자쌍 회로망의 임피던스 정합회로를 간단하고 빠르게 구할 수 있는 방안을 개발하였다. 우선 회로망의 전체 전달함수를 F 행열로 부터 계산하고, 이를 이용하여 양단의 부하저항 및 정합회로가 포함된 각각의 단자의 입출력 임피던스를 구하였으며, 이 식으로부터 정합용 소자의 정확한 값을 계산하였다. 본 연구의 타당성을 검증하기 위해 CDMA용 소자로 널리 사용되는 중간주파수 대역 withdrawal 가중형 SAW 필터에 본 연구의 결과를 적용하여 임피던스 정합 전후의 특성변화를 시뮬레이션과 실험을 통하여 동시에 확인하였다 그 결과 85.38 MHz의 중심주파수에서 비대역폭이
$1.2\%$ , 삽입손실이 29dB, VSWR이 80인 필터를 본 연구방법을 이용하여 정합 한 경우, 각각$1.8\%$ , 9dB, 3으로 향상됨을 시뮬레이션과 실험을 통해 확인하였다. 본 연구결과는 SAW 디바이스의 정합에 매우 용이하게 이용될 수 있을 뿐만 아니라 일반적인 1, 2단자쌍 회로망의 임피던스 정합에도 널리 사용될 수 있다 -
기존의 탄성표면파 듀플렉서 필터는 1/4 파장 정합선로를 이용한 격리회로를 이용하기 때문에 패키지 상에 스트립라인을 구성하는 제작상의 어려움이 있다 본 연구에서는 격리회로가 송신용, 수신용 필터와 함께 온칩상에 위치할 수 있는 새로운 형태의 탄성표면파 필터를 설계하였다. 그 과정으로 송수신 대역을 각각 담당하는 사다리형 필터를 설계하였고, 집중소자 즉, 인덕터와 캐패시터로 구성되는 탄성표면파 듀플렉서 필터의 격리회로를 구성하였으며, 우수한 성능을 가질 수 있도록 각각의 집중소자들의 값을 최적화하였다.
-
초음파 영상의 3차원 구성은 기존의 2차원 영상에서는 얻을 수 없었던 결함의 깊이, 방향성 등의 정보를 획득할 수 있기 때문에 최근에 이에 대한 관심이 고조되고 있다. 본 연구에서는 SAM(Scanning Acoustic Micro-scope)의 각 스펙트럼(angular spectrum) 접근법을 사용하여 물체에서의 3차원 영상 구현 이론에 대해서 연구하였다. 이러한 방법은 초음파 트랜스듀서를 디포커싱 시키면서 얻어진 2차원영상 정보를 이용하여 3차원으로 구성하는 방법이다. 실험에서는 알루미늄 원형 시료를 사용하였고, V(z)이론을 이용하여 산란된 신호에서의 영상을 구현하는 데 초점을 두었다. 모의 실험을 통하여 피사체 중심에 대해서
$70^\circ$ 범위 내에서 반사형 초음파 현미경으로 영상을 얻어낼 수 있음을 확인하였다. 중심주파수가 5MHz이고 대역폭이$35\%$ 인 트랜스듀서를 사용하여 원형 시료의 중심부에서의 영상을 얻어내었다 -
파라메트릭 송파 방식을 공기중에서의 음향 변환기에 적용시키기 위한 검토로써, 비교적 공진 주파수가 낮은 기중 초음파 발생 소자를 이용하여 파라메트릭 송파기를 제작하였다. 실험에서는 송파기로서 공진주파수 38.6kHz를 갖는 음원을 제작하여 이용하였다. 비선형 왜곡으로부터 파라메트릭 어레이에 의한 차주 파수가 발생함을 알아보기 위하여 1kHz의 차주파수를 갖도록 38.1kHz와 39.1kHz의 1차파를 신호발생기로부터 인가하고 마이크로폰을 사용하여 수신하였다. 공기중에서 파라메트릭 효과의 확인을 통하여 파라메트릭 송파기에서 방사되는 1차파와 전파경로중에서 생성하는 2차파의 거동을 이론면에서 고찰하고, 실험 결과와의 비교 검토를 행하여 기중 파라메트릭 송파기 개발의 가능성을 검토하여 보았다.
-
국내에서 개발된 광섬유 격자(FBG)를 사용하여 국내 최초로 3종의 FBG 음향 트랜스듀서를 설계 및 제작하였다. 제작된 FBG 트랜스듀서들에 대하여 특성을 분석하고, 수중에서 각각의 주파수 특성실험을 하였다. 그리고 수중에서 임의의 음파에 대한 다중점 신호 검출과 지향성 실험을 행하였다. 실험결과 주파수 특성은 최대 18 KHz까지 음파 검출이 가능하였고, 시스템 에레이 가능성을 확인할 수 있어, 향후 실용화 연구가능성을 마련하였다.
-
음의 비선형 전파가 일어나기 쉬운 정도를 나타내는 파라메타로서 기본파 진폭과 제2고조파 진폭의 비로써 매질의 물리적 성질에만 관계하는 파라메타 B/A가 있다(1)(2). 종래 B/A파라메타 측정은 대부분 광대역의 초음파 트랜스듀서 혹은 공진 주파수가 다른 복수의 트랜스듀서를 이용하여 왔다(3). 본 연구에서는 협대역의 단일 트랜스듀서를 이용하여 B/A파라메타를 효율적으로 측정 할 수 있는 전용 초음파 트랜스듀서를 제안하였다. 그 방법으로 특성이 동일한 두 장의 압전체를 적층시키고, 그 중 한 장의 압전체에 전기적인 용량을 접속하여 기본 공진 모드 및 기본 공진 모드의 두 배의 주파수에 해당되는 조화파 모드를 발생시킬 수 있도록 하였다 이것을 시험 제작하여 그 특성을 이론 및 실험적으로 해석한 결과 음향 매질의 비선형 파라메타인 B/A의 측정에 적용 가능함을 확인하였다.
-
점진적 영상 전송과 저해상도에서도 높은 PSNR를 나타내는 방법으로 EZW(Enbeded Zerotree Wavelet)과 SPIHT(set partitioning in hierarchical tree)를 사용한 보다 향상된 영상 압축방법이 제안되어졌다. 특히 SPIHT는 적응 산술부호화(adaptive arithmetic coding)를 사용하지 않고도 EZW보다 뛰어난 압축률과 효과를 얻을 수 있다. 하지만 부대역(subband)간의 유사성(similarity)을 이용한 제로트리 부호화에서 계층을 나누는 일은 계수 사이의 연결관계를 깰 수 있기 때문에 간단한 일은 아니다. 본 논문에서는 SPIHT의 비트열을 여러개의 계층으로 나누고 각각의 해상도로 복원하는 새로운 정렬 방법을 제안하고, 계층간의 비트열을 균일하게 나눔으로써 보다 효율적으로 전송 할 수 있는 방법을 제안하였다. 또한 복호시에 낮은 해상도일수로 복원시간의 이득을 볼 수 있는 향상된 방법을 제안한다.
-
본 논문에서는 이동통신 기지국 안테나용 빔 성형 시뮬레이터를 개발하고 그 응용 예를 통하여 실용성을 검증하였다. 즉, 본 논문의 목적은 IMT-2000 기지국용 디지털 빔성형 시스템을 위한 시뮬레이터를 개발하여 운용함으로써 인력, 자금 및 시간을 절약할 수 있도록 하는데 있다. 이렇게 개발된 시뮬레이터를 사용하여 다중경로 페이딩 환경 하에서 모의실험을 수행한 결과를 통하여 개발된 시뮬레이터의 유용성을 입증하였다.
-
수중에서 AUV신호나 화상데이터의 정확한 고속 전송 등을 위해 수중 데이터 통신에 대한 많은 연구가 진행되어 왔다. 수중 데이터 통신에서 잔향과 배경 잡음 등의 해양 환경 특성을 극복하는 것은 신뢰성 있는 통신 환경을 이룩하는데 중요하다. 특히 해면과 해저로 이루어진 천해 환경에서 해면과 해저 반사파에 의한 영향은 수중 데이터 통신의 성능을 좌우하는 중요한 요소 중의 하나로 알려져 있다. 이러한 환경적 영향을 최소화하여 높은 성능의 통신 환경을 제공하기 위해 다중경로의 영향을 적게 받는 변조방식을 선택하는 것이다. 수중 데이터 통신에서 일반적으로 사용되는 변조방식은 FSK, PSK, DPSK 등이 있다. 본 연구에서는 해면
$\cdot$ 해저로 이루어진 해양 통신 채널에서 세 가지 변조방식의 성능을 수치모의실험을 통하여 비교$\cdot$ 분석하였다. 수치모의실험에서 해면 해저로 이루어진 천해의 해양 통신 채널은 음원 영상법을 적용하여 구성하였으며 각 변조방식의 성능은 BER(Bit Error Ratio)로 나타내었다. -
-
When we measure the acoustical properties of a room using multiple microphone system, it is important to grasp exact time delay of the early reflections from impulse response pair. But it is often very difficult to identify the early reflections in natural shape, because a waveform may be deformed due to the characteristics of a sound source loudspeaker, microphone and reflected wall and overlapping of plural waveform. In this paper to obtain more accurate and enough early reflections, we propose the brand-new five-channel sound receiving system and introduce peak-detecting algorithm. The system has microphones mounted at the origin and four points of a regular tetrahedron. The newly introduced peak-detecting algorithm can show exact peak position in each channel, in spite of deformation due to reflected walls, loudspeaker and microphone.
-
본 연구는 과학적이고 실험적인 접근을 통하여 공간의 비례와 실내음향과의 상관관계를 규명하기 위하여 체적과 마감재료가 같고 비슷한 기본축척의 모델을 중심으로 가로, 세로, 높이의 비율이 다른 4개의 모델에서 각각 SPL, EDT, C, RT, LEF, IACC 등을 측정하여 각 형태의 모델의 값을 비교 분석하였다. 실험결과 잔향은 동일한 체적인 경우 음원으로부터 평균거리가 멀리 위치한 장방형의 형태가 양쪽 측벽 사이의 거리가 넓은 장방형보다 잔향시간이 긴 것으로 나타났다. 음압은 실의 체적이 작고 음원으로부터의 평균거리가 짧은 순서로 큰 반면, 명료도는 잔향의 크기순서에 반대로 분석되었으며 특히 음원으로부터의 직선거리가 짧은 순서로 명료도가 좋게 나타났다. IACC는 양쪽 측벽의 거리가 가장 긴 모델에서 가장 작게 나타났다 그러나, 초기 음장에서는 그 변화가 작게 나타났는데 이것은 IACC가 실의 형태에 장시간 관여하는 지수라는 것을 의미한다.
-
서양음악의 연구는 음향학의 측면에서 수십 년 동안 연구되어왔다. 이를 통해 좋은 콘서트홀이라고 표현할 수 있는 많은 객관적 지표들을 제시할 수 있었고, 그 결과 서양악기와 공연장은 밀접한 관계를 가지고 서로 발전할 수 있었다. 그러나 국악에 있어서는 악기와 연주 스타일, 공연장에 대한 음향학적인 지표가 연구가 되어진 것이 많지 않다. 본 연구에서는 판소리를 위한 전용 공연장을 대상으로 청취평가를 이용한 주관적 평가를 통해 국악에 적합한 객관적 지표를 추출하였다. 실험에 사용한 음향 지표로는 RT, BR, IACC 등이 있으며, 이들 지표들을 가변하여 제작한 청취평가 시료를 바탕으로 한 주관적 평가 결과를 분석하였다. 서양음악에 적절한 것으로 알려진 음향특성뿐만 아니라 기존에 수행한 바 있는 국악 실내악에 대한 연구결과와도 다소 다른 경향을 나타냄을 알 수 있었다.
-
실의 음향성능을 규명하기 위하여 많은 음향인자가 개발되어지고 제시되어 왔다. 음향인자 중 확산은 실의 전반적인 음향성능에 매우 유용한 것으로 여겨져 왔다. 본 연구는 장방형의 형태를 가지고 체적과 마감재료가 같은 2종류의 축척모델을 제작하여 각각의 모델에서 RT, EDT, SPL, C, IACC 등을 측정하여 확산체의 유
$\cdot$ 무에 따른 실의 실내음향 성능을 알아보고자 한다 실험결과 실내 표면의 확산성의 차이에 따라 표면의 확산성이 좋은 공간에서 초기음장에서 음에너지가 집중되고 분산되는 것을 입증하였다. 즉 확산성이 좋은 모델에서 잔향시간(RT)은 더 짧으나 초기감쇠시간(EDT)이 더 길게 나타남으로 인하여 음에너지의 분포가 실의 확산상태에 의하여 음의 발생이후 짧은 시간내에 집중하여 전달되고 있음을 증명하였다. 또한 실의 확산상태가 좋은 공간의 명료도가 확산이 되지 않은 실에 비하여 훨씬 더 좋은 결과를 보이고 있음을 나타냈다. 이상의 결과를 종합하여 볼 때 실내 표면의 확산성이 전반적인 실내 음장의 향상에 크게 기여하고 있음을 밝혀 냈다.