• 제목/요약/키워드: Speech Signal

검색결과 1,174건 처리시간 0.059초

음성신호 처리 기술을 적용한 탄산음료와 유칼립투스 발향이 발음에 미치는 영향 분석 (Pronunciation Influence Analysis of Carbonate Drink and Eucalyptus Fragrance by Applying Speech Signal Processing Techniques)

  • 김봉현;조동욱
    • 한국통신학회논문지
    • /
    • 제37권5C호
    • /
    • pp.420-428
    • /
    • 2012
  • 현대와 같은 스마트사회에서 NQ라 불리우는 대인관계의 효율을 극대화 시키는 것은 대단히 중요한 요소가 되고 있다. 특히 대인 관계 시 목소리가 미치는 영향이 38%나 차지하고 있는 실정이므로 발음을 좋게 하기 위한 다각적 방법 마련이 사회적 요구사항이 되고 있는 실정이다. 이를 위해 본 논문에서는 일상생활에서 대화 중 흔히 섭취하는 탄산음료와 유칼립투스 발향이 발음에 미치는 영향을 음성신호 처리 기술을 적용하여 규명해 내는 방법을 제안하고자 한다. 특히 탄산음료의 경우 섭취량에 따라 그것이 발음에 어떤 영향을 미치는지를 분석해 보고자하며 기관지에 효과적인 유칼립투스의 경우도 그 발향이 발음에 미치는 영향을 새롭게 규명해 보고자 한다. 이를 위해 성대 진동의 변화율과 진폭의 규칙성을 분석하고 피치와 음성 에너지의 크기를 분석하여 탄산음료 섭취량과 유칼립투스 발향이 발음에 미치는 영향을 정량화, 객관화, 수치화를 행하고자 한다.

프로그램과 실이 측정을 이용한 보청기 적합의 임상적 유용성의 비교 (Comparison of Clinical Usefulness of Program-Assisted and Real Ear Measurement-Assisted Hearing Aids Fitting)

  • 장영수;정혜임;조양선
    • Korean Journal of Otorhinolaryngology-Head and Neck Surgery
    • /
    • 제61권12호
    • /
    • pp.663-668
    • /
    • 2018
  • Background and Objectives The main objectives of this study were to determine the clinical usefulness of the program-assisted and real ear measurement (REM)-assisted fitting of hearing aids. Subjects and Method Fifteen participants with moderate to moderately severe hearing loss were enrolled in this study. Objective and subjective fitting results were assessed to compare the benefits between the program-assisted fitting (using a software fitting program) and the REM-assisted fitting. Real ear insertion gain (REIG), sound-field audiometry using warble tone, and Korean Hearing in Noise Test (K-HINT) were performed as objective tests. Sound quality rating was performed as a subjective test. Results In the program fitting, 48.89% of fitting points failed to come within ${\pm}10dB$ of the REIG target. In the REM fitting, however, the percentage of failure significantly decreased to 23.33% (p=0.013). In K-HINT test, the reception threshold for speech in quiet situation significantly decreased from 50.1 dB HL with the program fitting to 44.7 dB HL after the REM fitting (p<0.001). In front noise condition, signal-to-noise ratio improved from 4.53 dB to 3.50 dB with the REM fitting without statistical significance (p=0.099). In the sound quality rating, the REM fitting ($4.27{\pm}0.56$) showed a significantly better sound quality ratings than the program fitting ($3.69{\pm}0.74$) (p=0.017). Conclusion The REM fitting showed better results in both subjective and objective measurements than the program fitting.

변수내장형 다채널 위너필터를 위한 목적신호대잡음 기여비를 이용한 잡음추정기법 (Noise Statistics Estimation Using Target-to-Noise Contribution Ratio for Parameterized Multichannel Wiener Filter)

  • 홍정표
    • 한국정보통신학회논문지
    • /
    • 제26권12호
    • /
    • pp.1926-1933
    • /
    • 2022
  • 변수내장형 다채널 위너 필터는 내장된 변수를 이용하여 잔여잡음과 신호왜곡 간의 트레이드오프를 조절할 수 있는 선형 필터이다. 이러한 변수내장형 다채널 위너필터를 적용하기 위해서는 정확한 잡음추정이 중요한데 널리 쓰이는 다채널 최소 제어 재귀 평균 기법이 있다. 하지만 다채널 최소 제어 재귀 평균 기법은 방향성 간섭 신호가 존재할 경우 잡음추정의 정확도가 하락하여 변수내장형 다채널 위너필터의 성능이 저하되는 문제점이 있다. 따라서, 본 논문에서는 변수내장형 다채널 위너필터를 위한 새로운 잡음 추정 기법을 제안한다. 제안한 방법은 주로 잡음 섞인 마이크로폰 입력 신호의 전력 스펙트럼 밀도에 대해 고유값 분해, 방향성 정보를 이용한 목적신호의 기여도 추정, 목적신호의 기여도를 보다 합리적으로 추정하기 위한 지수 가중치 부가의 일련의 과정을 수행한다. 제안한 방법을 평가하기 위해 신호대잡음비, 음성왜곡도 등의 총 4가지 객관적 성능 평가 방법을 이용하여 기존의 방법과 비교하였다. 실험을 통해 방향성 간섭신호가 존재하는 환경에서 제안한 잡음 추정기법을 적용한 다채널 위너필터의 성능이 향상됨을 확인하였다.

우도비 특징 벡터를 이용한 SVM 기반의 음성 검출기 (Voice Activity Detection Based on SVM Classifier Using Likelihood Ratio Feature Vector)

  • 조규행;강상기;장준혁
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.397-402
    • /
    • 2007
  • 본 논문에서는 기존의 통계적 모델 기반의 음성 검출기의 성능 향상을 위해 이진 분류에 우수한 support vector machine(SVM)을 도입한다. 기존의 통계적 모델 기반 음성 검출기의 경우 음성의 존재와 부재에 대한 가설로부터 각각의 통계적 모델을 세워 입력 데이타에 의해 결정된 각 주파수 채널별 우도비(likelihood ratio)를 단순히 기하 평균을 취하여 문턱값과 비교, 음성 검출 여부를 판단한다. 제안된 음성 검출기는 기존의 기하 평균을 이용한 결정식을 대신하여 분류 오류 확률이 최소화되도록 각 주파수 채널별 우도비를 SVM의 특징 벡터로 적용한다. 제안된 SVM 기반의 통계적 모델 음성 검출기는 기존의 LRT를 이용한 음성 검출기 및 SVM 기반의 음성 검출기들과 비교하여 다양한 잡음 환경에서 우수한 성능을 나타낸다.

거미의 감각기관을 모사한 초민감 균열기반 진동압력센서 (Ultrasensitive Crack-based Mechanosensor Inspired by Spider's Sensory Organ)

  • 오수연;김태일
    • 마이크로전자및패키징학회지
    • /
    • 제31권1호
    • /
    • pp.1-6
    • /
    • 2024
  • 거미는 진동감각기관을 통하여 미세한 진동까지도 감지해낸다. 뛰어난 진동 감지 능력을 활용해 먹이나 포식자가 발생시키는 진동을 감지하여 공격을 계획하거나 위협을 파악하며 생존에 활용한다. 본 논문은 거미의 진동감각기관을 모사하여 개발된 초민감 진동압력센서에 대해 기술한다. 거미가 진동을 감지하는데 사용하는 감각기관에 위치한 작은 틈에 착안하여 센서에 균열을 생성하였고, 균열의 깊이를 제어하여 외부로부터 오는 압력이나 진동을 매우 민감하게 감지할 수 있는 센서를 개발하였다. 이 센서는 10 N의 인장응력을 적용하여 2%의 변형률에서 게이지 계수가 16000에 도달한다. 이는 높은 신호대잡음비를 가져 정확하게 원하는 진동을 인식할 수 있는 소자로서 외력(압력, 진동)과 생체 신호측정 등 다양한 평가를 통해 센서의 높은 민감도를 증명하였다. 이를 통하여 생체모사 기술을 활용한 새로운 센서의 개발 및 다양한 산업 분야로의 응용 가능성을 제시한다.

화자 인증 기능이 포함된 실시간 원격 도어락 제어 시스템 개발에 관한 연구 (Study on development of the remote control door lock system including speeker verification function in real time)

  • 권순량
    • 한국지능시스템학회논문지
    • /
    • 제15권6호
    • /
    • pp.714-719
    • /
    • 2005
  • 본 논문에서는 휴대폰을 이용하여 방문자의 음성이나 영상을 원격으로 확인할 수 있는 시스템을 설계 및 구현한다 이 시스템은 주인이 집에 없을 때라도 휴대폰으로 단문 메시지가 아닌 자동 호출 서비스를 통해 방문자가 누구인지를 알 수 있도록 설계되어 있다. 일반적으로 도어락은 홈 서버를 통해 제어되지만, 실시간 측면에서 볼 때 DTMF 신호를 이용하여 도어락을 제어하는 것이 더 효율적이다. 본 논문에서 제시하는 기술은 손님이 집에 방문하였을 경우 주인이 외출 중이더라도 시스템을 통해 주인의 휴대폰에 자동으로 전차하여 음성 및 영상으로 손님과 주인간에 통화를 가능하게 하고, 필요 시 주인이 도어락을 원거리에서 제어할 수 있게 한다. 이를 통해 주인은 방문자 확인 및 도어락 제어에 시간과 공간의 제약을 받지 않는다. 또한 휴대폰 분실 시 발생할 수 있는 보안상의 악영향을 고려하여 도어락 제어 및 환경 설정 시에 필요한 인증 절차를 기존의 패스워드 형태에서 패스워드 및 화자 인증의 혼합 형태로 설계하여 보안 체계를 향상시킨다. 그리고, 통화중에 DTMF 신호를 사용하여 도어락을 실 시간적으로 제어함으로써 도어락 제어를 위해 망에 재 접속해야 하는 기존의 문제점을 해결토록 한다.

통계적 패킷 음성 / 데이터 다중화기의 성능 해석 (Performance Analysis of a Statistical Packet Voice/Data Multiplexer)

  • 신병철;은종관
    • 한국통신학회논문지
    • /
    • 제11권3호
    • /
    • pp.179-196
    • /
    • 1986
  • 본 논문에서는 통계적 패킷 음성/데이터 다중화기의 성능을 연구하였다. 성능해석은 음성과 데이터가 서로 분리된 한정된 queue를 사용하고, 전송에 있어서 음성이 데이터보다 우선권을 갖는 것을 가정하고, 다중화기의 출력 link를 시간 slot단위로 나누고 음성은 (M+1)-state의 Markov Process로, 데이터는 Poisson process로 modeling 하여 수행하였다. 전송시 음성신호가 데이터 신호보다 우선권을 가지므로 음성의 queueing behavior는 data에 거의 영향을 받지 않는다. 다라서 본 연구에서는 음성의 queueing behavior를 먼저 해석한 다음 data의 queueing behavior를 해석하였다. 패킷 음성 다중화기의 성능 해석은 입력상태와 buffer의 점유를 2차원의 Markov chain을 가지고 formulation하였고, 집적된 음성/data의 다중화기는 data를 추가한 3차원 Markov chain으로 하였다. 이러한 model을 사용하여 Gauss-Seidel방법으로 결과를 얻고 simulation으로 입증하였다. 이들 결과로 부터 음성 가입자의 수, 출력 link용량, 음성의 queue크기, 음성의 overflow확률에서는 서로 trade-off가 있고 data에서도 비슷한 tradeoff가 있음을 알았다. 또한 입력 traffic량과 link의 용량에 따라서 음성과 데이타간의 성능에서 서로 tradeoff가 있고, TASI의 이득이 2이상이고 음성가입자의 수가 적을 경우 데이타의 평균 지연시간은 buffer의 최대길이 보다 길음을 알아내었다.

  • PDF

MATERIALS AND METHODS FOR TEACHING INTONATION

  • Ashby, Michael
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.228-229
    • /
    • 1997
  • 1 Intonation is important. It cannot be ignored. To convince students of the importance of intonation, we can use sentences with two very different interpretations according to intonation. Example: "I thought it would rain" with a fallon "rain" means it did not rain, but with a fall on "thought" and a rise on "rain" it means that it did rain. 2 Although complex, intonation is structured. For both teacher and student, the big job of tackling intonation is made simpler by remembering that intonation can be analysed into systems and units. There are three main systems in English intonation: Tonality (division into phrases) Tonicity (selection of accented syllables) Tone (the choice of pitch movements) Examples: Tonality: My brother who lives in London is a doctor. Tonicity: Hello. How ARE you. Hello. How are YOU. Tone: Ways to say "Thank you" 3 In deciding what to teach, we must distinguish what is universal from what is specifically English. This is where contrastive studies of intonation are very valuable. Usually, for instance, division into phrases (tonality) works in broadly similar ways across languages. Some uses of pitch are also similar across languages - for example, very high pitch may signal excitement or urgency. 4 Although most people think that intonation is mainly about pitch (the tone system), actually accent placement (tonicity) is probably the single most important aspect of English intonation. This is because it is connected with information focus, and the effects on interpretation are very clear-cut. Example: They asked for coffee, so I made them coffee. (The second occurrence of "coffee" must not be accented). 5 Ear-training is the beginning of intonation training in the VeL approach. First, students learn to identify fall vs rise vs fall-rise. To begin with, single words are used, then phrases and sentences. When learning tones, the fIrst words used should have unstressed syllables after the stressed syllable (Saturday) to make the pitch movement clearer. 6 In production drills, the fIrst thing is to establish simple neutral patterns. There should be no drama or really special meanings. Simple drills can be used to teach important patterns: Example: A: Peter likes football B: Yes JOHN likes football TOO A: Mary rides a bike B: Yes JENny rides a bike TOO 7 The teacher must be systematic and let learners KNOW what they are learning. It is no good using new patterns and hoping that students will "pick them up" without noticing. 8 Visual feedback of fundamental frequency with a computer display can help students learn correct patterns. The teacher can use the display to demonstrate patterns, or students can practise by themselves, imitating recorded models.

  • PDF

SOFM 신경회로망을 이용한 한국어 음소 인식 (Korean Phoneme Recognition Using Self-Organizing Feature Map)

  • 전용구;양진우;김순협
    • 한국음향학회지
    • /
    • 제14권2호
    • /
    • pp.101-112
    • /
    • 1995
  • 본 논문에서는 패턴 매칭 방법에 근거하여 인식 단위가 음소인 음소 기반 인식 시스템을 구성하였다. 선택한 신경망 구조는 생물학적 신경망인 코호넨(T. Kohonen)의 SOFM(Self-Organizing Feature Map)으로 패턴 매칭 과정 중 클러스터러(clusterer)로 사용하였다. SOFM 신경망은 신호 공간에 대해서 최적의 국소(局所) 해부적 사상(local topographical mapping)에 의한 자기 조직화 과정을 수행하며, 그 결과 인식 문제에 있어서 상당히 높은 정확도를 나타낸다. 따라서 SOFM 신경망은 음소 인식에도 효과적으로 응용될 수 있다. 또한 음소 인식 시스템의 성능 향상을 위해 K-means클러스터링 알고리즘이 결합된 학습 알고리즘을 제안하였다. 제안된 음소 인식 시스템의 성능을 평가하기 위해 먼저, 인식 대상음소는 모음군 17개, 자음의 경우 파열음9개, 마찰음 3개, 파찰음 3개, 유음 및 비음 4개, 음소의 성질이 다른 종성 7개의 음소군으로 모두 43개의 음소를 대상으로 실험하였으며, 각 음소군에 대한 특징 지도를 구성하여 레이블러(labeler)의 기능을 수행하게 하였다. 화자 종속 인식 실험 결과 $87.2\%$의 인식률을 보였으며 제안한 학습법의 빠른 수렴성과 인식률 향상을 확인하였다.

  • PDF

WSOLA를 이용한 동영상 미세배속 재생 서비스에 대한 콘텐츠별 배속 선호도 분석 연구 (A Study about the Users's Preferred Playing Speeds on Categorized Video Content using WSOLA method)

  • 김이길
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권2호
    • /
    • pp.291-298
    • /
    • 2015
  • 빠르게 발전하는 IT환경 속에서 이제 동영상 콘텐츠는 TV를 통한 일방 시청이 아니라 언제 어디서든 다양한 단말에서 볼 수 있는 VOD (Video on Demand) 형태로 발전하고 있다. 이러한 동영상 시청형태의 변화는 디지털이란 특성 때문에 동영상의 재생 속도 또한 다양하게 조절할 수 있다는 부가적인 장점을 사용자에게 제공 한다. 지루하고 따분한 동영상 콘텐츠는 빠르게 돌려보고 흥미 있는 장면은 느리게 천천히 볼 수 있는 동영상 미세배속 재생 기능은 오늘날 다양한 동영상 플레이어에서 제공되고 있다. 동영상 미세배속 재생 시 동영상 콘텐츠 내용의 정확한 이해를 위해서는 시각정보 못지않게 음성정보 청취가 중요한데 정상속도 보다 빠르거나 느린 재생 시 발생하는 음성의 왜곡을 줄이기 위한 음성미세배속 기술들이 음성처리 분야에서 꾸준히 발전되어 왔다. 본 논문에서는 이중 WSOLA와 같은 우수한 음성미세배속 알고리즘에 대해 알아보고 동영상 시청 시 이러한 기능 제공이 실제 얼마나 사용자 니즈(needs)에 부합하는 지 분석해보고자 한다. 특히, 동영상 콘텐츠를 사용자의 콘텐츠 소비 목적에 따라 종류별로 구분하여 재생 배속의 선호도를 조사하고 그 결과를 분석해 봄으로써 동영상 미세배속 기능 제공시 콘텐츠별 소비 목적에 맞게 재생 배속을 제공하는 것이 필요하다는 것을 제안하고자 한다.