• 제목/요약/키워드: Connected speech

검색결과 147건 처리시간 0.025초

다른 비트율을 갖는 음성 부호화기와 결합된 적응 선로 반향 제거 (Adaptive Line Echo Cancellation combined with the Different Bit-rate Speech Coders.)

  • 이지하;이규하;김용진;정성헌;박영철;윤대희
    • 한국통신학회논문지
    • /
    • 제25권3B호
    • /
    • pp.577-583
    • /
    • 2000
  • An efficient echo cancellation method, which controls the echo caused from the PSTN, is proposed. In our situation, the PSTN is connected to the mobile subscriber and the base-station which use different bit-rate CVSD(continuously variable slope delta modulation) coders and echo canceller is installed at the location of the base-station. By using the symmetry of the coder pairs. the proposed method shortens the echo pate length and reduces the nonlinear distortion inherent in the coders. And it is implemented in the decoded signal region, so fitted to the general-purpose DSP implementation. We also proposed a echo cancellation method using the combined bit-stream so as to implement without the multipliers onto the VLSI. It has an improved echo cancellation performance by reducing the high frequency noises in the coders. And it has an reduced complexity by reducing the excitation rate of the bit-stream.

  • PDF

전화망 환경에서 한국어 숫자음 인식을 위한 잡음처리 (Noise Reduction for Korean Connected Digit Recognition through Telephone Channel)

  • 김규홍;김회린
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.211-214
    • /
    • 2003
  • 일반적으로 음성 인식에서의 성능은 잡음의 영향으로 인하여 저하된다. 전화망을 통한 한국어 연속 숫자음 인식은 음성인식 분야에 있어서 어려운 영역에 속하는데, 이는 조음 현상으로 인한 인식률 저하되는 점과 전화망 채널의 영향으로 인하여 스펙트럼 포락이 왜곡되며 음성신호의 대역폭이 제한되기 때문이다. 본 논문에서는 잡음의 영향을 줄이기 위하여, 2WF(2-stage Wiener Filter) 와 SWP (SNR-dependent Waveform Processing) 그리고 CMN(Cepstrum Mean Normalization)을 사용하였다. 2WF는 음성 신호의 포만트 구조를 적게 왜곡시키면서 전체적인 가산잡음 뿐만 아니라 동적 가산잡음도 줄여준다. SWP는 음성파형에서 SNR값이 상대적으로 큰 부분을 강조하여 전체적인 SNR을 향상시킬 수 있다. 또한, CMN은 특징벡터로부터 채널잡음의 영향을 정규화하여 음성 인식 성능을 향상시킨다. 이러한 방법들을 전화망 한국어 연속 숫자음 DB를 이용하여 실험한 결과, 음성신호의 왜곡을 최소화하면서 잡음의 영향을 줄여 전화망에서의 숫자음 인식 성능을 향상시킬 수 있었다.

  • PDF

영어 노래에서의 음절과 박, 음표의 관계 (A relevance of syllable, beat and note in English songs)

  • 손일권
    • 대한음성학회지:말소리
    • /
    • 제35_36호
    • /
    • pp.101-119
    • /
    • 1998
  • By analyses of lullabies, nursery rhymes, Christmas carols, and pop songs, the relevances of beat, syllable and note are set up as follows. (1) The relevance of beat to syllable a. A stressed syllable can occupy a strong beat. b. A monosyllabic word carrying a strong beat must have the syllabic structure of a strong syllable. (2) The note duration a. The duration of a note carrying a strong beat tends to be as long as or longer than that of a note carrying a weak beat. b. The note connected with the last position of phonological unit tends to be longer than that of other position without regard to the syllabic structure.

  • PDF

정상 성인에서 스마트폰 녹음을 위한 마이크 유형 간 음향학적 측정치 비교 (A comparison of acoustic measures among the microphone types for smartphone recordings in normal adults)

  • 박정인;이승진
    • 말소리와 음성과학
    • /
    • 제16권2호
    • /
    • pp.49-58
    • /
    • 2024
  • 본 연구에서는 정상음성사용자를 대상으로 음성검사를 위한 고가의 음성 녹음 장비인 Computerized Speech Lab(CSL) 대신 스마트폰에 적용 가능한 단일지향성 유선 핀마이크(WIRED), 스마트폰의 자체 내장 무지향성 마이크(SMART), 블루투스 무선 이어폰인 갤럭시 버즈2 프로(WIRELESS)로 녹음된 음성샘플의 음향학적 측정치를 비교하고자 하였다. 연구대상은 최근 3개월 이내 호흡기 질환으로 이비인후과에 내원한 적이 없는 정상성인 40명(남 12명, 여 28명)이었으며, 소음이 통제된 방음 부스에서 모음 /아/ 연장 발성(4초) 과제와 '산책' 문장, '가을' 문단 읽기 과제를 네 가지의 기기로 동시에 녹음하였다. 4종의 샘플들에 대하여 CSL 녹음을 기준으로 동기화 작업을 진행하였으며, MDVP와 ADSV, VOXplot 프로그램을 이용하여 분석하였다. 연구 결과, F0, shimmer, noise-to-harmonic ratio를 제외한 다른 변수들에서 유의미한 차이가 있었다. 특히 SRV, SRS, CSIDV, CSIDS, AVQI의 경우 CSL에 비해 WIRED의 CSIDV, CSIDS, AVQI 중증도가 낮았던 반면, SMART에서는 높게 나타났다. SRV, SRS의 경우 반대의 경향이 나타났으며, WIRELESS는 과제에 따라 다른 경향이 있었다. CSL과 다른 마이크 유형들은 동일한 변수 간에는 모두 양의 상관관계를 보였으며, F0와 CPPV가 모든 유형에서 공히 강한 양의 상관관계를 보였다. ICC 또한 F0와 CPPV가 모두 0.9 이상으로 가장 높았다. 본 연구에서 사용된 마이크를 음향학적 분석을 위한 녹음 도구로 사용할 때, F0와 CPPV의 경우 신뢰도 높은 분석 변수로 마이크 유형과 무관하게 포함할 수 있고, SR, CSID, AVQI의 경우 마이크 유형에 따라 분석 및 해석에 주의를 기울일 필요가 있을 것으로 판단된다.

다중 제어 레벨을 갖는 입모양 중심의 표정 생성 (Speech Animation with Multilevel Control)

  • 문보희;이선우;원광연
    • 인지과학
    • /
    • 제6권2호
    • /
    • pp.47-79
    • /
    • 1995
  • 오래 전부터 컴퓨터 그래픽을 이용한 얼굴의 표정 생성은 여러 분야에서 응용되어 왔고,요즘에는 가상현실감 분야나 원격 회의 분야 등에서 가상 에이전트의 표정을 생성하는데 사용되고 있다.그러나 네트워크를 통해 다중 참여자가 상호 작용을 하는 상황에서 표정을 생성하는 경우에는 상호작용을 위해 전송되어야 할 정보의 양으로 인해,실시간에 원하는 표정을 생성하기 어려운 경우가 생긴다.본 연구에서는 이러한 문지를 해결하기 위해 표정 생성에 Level-of-Detail을 적용하였다.Level-of-Detail은 그래픽스 분야에서 복잡한 물체의 외형을 좀 더 효율적으로 나타내기 위해 오랜 전부터 연구되어져 온 기법이지만 아직까지 표정 생성에 적용된 예는 없다.본 연구에서는 상황을 고려하여 적절하게 상세도를 변경하여 표정을 생성하도록 Level-of-Detail기법을 적용하는 방법에 대해 연구하였다.구현된 시스템은 텍스트,음성,Gui, 사용자의 머리의 움직임 등과 같은 다양한 입력에 대해 입모양과 동기화 되는 표정을 생성한다.

  • PDF

SPACIAL POEM: A New Type of Experimental Visual Interaction in 3D Virtual Environment

  • 최진영
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 2부
    • /
    • pp.405-410
    • /
    • 2008
  • There is always a rhythm in our language and speech. As soon as we speech out, even just simple words and voice we make are edited as various emotions and information. Through this process we succeed or fail in our communication, and it becomes a fun communication or a monotonous delivery. Even with the same music, impression of the play can be different according to each musician' s emotion and their understanding. We 'play' our language in the same way as that. However, I think, people are used to the variety, which is, in fact, the variation of a set format covered with hollow variety. People might have been living loosing or limiting their own creative way to express themselves by that hollow variety. SPACIAL POEM started from this point. This is a new type of 'real-time visual interaction' expressing our own creative narrative as real-time visual by playing a musical instrument which is an emotional human behavior. Producing many kinds of sound by playing musical instruments is the same behavior with which we express our emotions through. There are sensors on each hole on the surface of the musical instrument. When you play it, sensors recognize that you have covered the holes. All sensors are connected to a keyboard, which means your playing behavior becomes a typing action on the keyboard. And I programmed the visual of your words to spread out in a virtual 3D space when you play the musical instrument. The behavior when you blow the instrument, to make sounds, changes into the energy that makes you walk ahead continuously in a virtual space. I used a microphone sensor for this. After all by playing musical instrument, we get back the emotion we forgot so far, and my voice is expressed with my own visual language in virtual space.

  • PDF

숫자음 분석과 인식에 관한 연구 (A Study on Spoken Digits Analysis and Recognition)

  • 김득수;황철준
    • 한국산업정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.107-114
    • /
    • 2001
  • 본 논문에서는 한국어의 음성학적 규칙을 적용한 연속 숫자음 인식에 관하여 연구한다. 연속 숫자음의 인식률은 일반적으로 음성인식 시스템 중에서 낮은 인식률을 나타낸다. 따라서 숫자음에 대하여 강건한 모델을 작성하기 위하여 음성 특징 파라미터와 음성학적 규칙을 적용하고 실험을 통하여 그 유효성을 확인하고자 한다. 이를 위하여 음성자료로는 국어공학센터(KLE)에서 채록한 4연속 숫자음을 사용하며 인식의 기본단위로서는 음성학적 규칙을 적용한 19개의 연속분포 HMM을 유사음소 단위(PLUs)로 사용한다. 또한, 인식실험에 있어서는 일반적인 멜 켑스트럽과 회귀계수를 이용한 경우와 음성학적 규칙과 특징을 확장하여 모델을 작성한 경우에 대해서 유한상태 오토마타(Finite State Automata ; FSA)에 의한 구문제어를 통한 OPDP(One Pass Dynamic Programming) 법으로 인식실험을 수행하여 그 결과를 비교 검토하였다. 그 결과, 멜 켑스트럼만을 사용한 경우 55.4%, 멜 켑스트럼과 회귀계수를 사용한 경우에는 64.6%, 특징 파라미터를 확장한 경우 74.3%, 음성학적 특징까지 고려한 경우 75.4%로 기존의 경우보다 높은 인식률을 보였다. 따라서, 음성 특징 파라미터를 확장하고 음성학적 규칙까지 함께 적용한 경우 비교적 높은 인식률을 보여 제안된 방법이 연속 숫자음 인식에 유효함을 확인하였다.

  • PDF

내부 FC층을 갖는 새로운 CNN 구조의 설계 (Design of new CNN structure with internal FC layer)

  • 박희문;박성찬;황광복;최영규;박진현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.466-467
    • /
    • 2018
  • 최근 이미지 인식, 영상 인식, 음성 인식, 자연어 처리 등 다양한 분야에 인공지능이 적용되면서 딥러닝(Deep learning) 기술에 관한 관심이 높아지고 있다. 딥러닝 중에서도 가장 대표적인 알고리즘으로 이미지 인식 및 분류에 강점이 있고 각 분야에 많이 쓰이고 있는 CNN(Convolutional Neural Network)에 대한 많은 연구가 진행되고 있다. 본 논문에서는 일반적인 CNN 구조를 변형한 새로운 네트워크 구조를 제안하고자 한다. 일반적인 CNN 구조는 convolution layer, pooling layer, fully-connected layer로 구성된다. 그러므로 본 연구에서는 일반적인 CNN 구조 내부에 FC를 첨가한 새로운 네트워크를 구성하고자 한다. 이러한 변형은 컨볼루션된 이미지에 신경회로망이 갖는 장점인 일반화 기능을 포함시켜 정확도를 올리고자 한다.

  • PDF

회전 블레이드의 크랙 발생 예측을 위한 은닉 마르코프모델을 이용한 해석 (Crack Detection of Rotating Blade using Hidden Markov Model)

  • 이승규;유홍희
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2009년도 추계학술대회 논문집
    • /
    • pp.99-105
    • /
    • 2009
  • Crack detection method of a rotating blade was suggested in this paper. A rotating blade was modeled with a cantilever beam connected to a hub undergoing rotating motion. The existence and the location of crack were able to be recognized from the vertical response of end tip of a rotating cantilever beam by employing Discrete Hidden Markov Model (DHMM) and Empirical Mode Decomposition (EMD). DHMM is a famous stochastic method in the field of speech recognition. However, in recent researches, it has been proved that DHMM can also be used in machine health monitoring. EMD is the method suggested by Huang et al. that decompose a random signal into several mono component signals. EMD was used in this paper as the process of extraction of feature vectors which is the important process to developing DHMM. It was found that developed DHMMs for crack detection of a rotating blade have shown good crack detection ability.

  • PDF

중년 기혼여성의 용서수준 탐색 (Exploration of Forgiveness Ability in Middle-aged Married Women)

  • 최미옥;오윤자
    • 대한가정학회지
    • /
    • 제45권10호
    • /
    • pp.113-126
    • /
    • 2007
  • The purpose of this study was to examine the degree of forgiveness exercised by middle-aged married women. The subjects of the research were 345 married women selected randomly among inhabitants of Seoul. A research questionnaire was employed to gather information. The study results revealed four major patterns. First, they felt hurt by those to whom they were connected continuously in daily life, such as friends, colleagues, siblings, spouses. Second, the respondents stated that they would be very badly hurt and deeply wounded as a result of a hateful speech or suffering experience caused by people of immediate relations. Third, among the three sub-areas of forgiveness, forgiveness in cognitive category was the highest, followed by behavioral and emotional categories. Fourth, as far as the surrounding variables regarding the degree of forgiveness was concerned, physical health and happiness of the family were important while their age, gender, religion, economic levels, experience of forgiving others didn't make a difference at all.