• 제목/요약/키워드: 음성구간 검출

검색결과 158건 처리시간 0.023초

법음성학에서의 오디오 신호의 위변조 구간 자동 검출 방법 연구 (An Automatic Method of Detecting Audio Signal Tampering in Forensic Phonetics)

  • 양일호;김경화;김명재;백록선;허희수;유하진
    • 말소리와 음성과학
    • /
    • 제6권2호
    • /
    • pp.21-28
    • /
    • 2014
  • We propose a novel scheme for digital audio authentication of given audio files which are edited by inserting small audio segments from different environmental sources. The purpose of this research is to detect inserted sections from given audio files. We expect that the proposed method will assist human investigators by notifying suspected audio section which considered to be recorded or transmitted on different environments. GMM-UBM and GSV-SVM are applied for modeling the dominant environment of a given audio file. Four kinds of likelihood ratio based scores and SVM score are used to measure the likelihood for a dominant environment model. We also use an ensemble score which is a combination of the aforementioned five kinds of scores. In the experimental results, the proposed method shows the lowest average equal error rate when we use the ensemble score. Even when dominant environments were unknown, the proposed method gives a similar accuracy.

음성 검출 기반의 저연산 이득 제어 알고리즘 (A Gain Control Algorithm of Low Computational Complexity based on Voice Activity Detection)

  • 김상균;조우형;정민아;권장우;이상민
    • 한국통신학회논문지
    • /
    • 제40권5호
    • /
    • pp.924-930
    • /
    • 2015
  • 본 논문에서는 잡음 환경에서 적은 연산량으로 소형 음향기기의 음질 향상을 위한 새로운 저연산 이득 제어 알고리즘을 제안한다. 대표적인 소형 음향기기인 보청기의 이득 제어 알고리즘은 입력 신호를 잡음 제거 한 후 이 신호의 파워를 기준으로 광역동범위압축 (wide dynamic range compression, WDRC)을 하기 때문에 불필요한 신호까지 증폭된다. 제안된 이득 제어 알고리즘은 음성 검출기 (voice activity detection, VAD)의 결과를 이용하여 음성의 존재 유/무에 따라 적응적으로 이득을 제어한다. 성능 평가를 위해 제안된 알고리즘은 VAD를 적용하지 않은 알고리즘과 정상 및 비정상 잡음환경에서 다양한 조건을 부과하여 비교하였으며, 실험결과 제안된 알고리즘이 전체 성능 및 잡음 구간에서 향상된 결과를 보였다.

무제한 단어인식 시스템을 위한 VCCV분할에 관한 연구 (A Study on VCCV Segmentation in Unrestricted Word Recognition System)

  • 윤재선;정광우;홍광석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.103-106
    • /
    • 2000
  • 무제한 인식 시스템을 구현하기 위해서는 적절한 인식단위, 훈련 데이터 베이스의 확보, 인식단위의 분할, 인식 알고리즘과 같은 문제점을 모두 해결하여야 한다. 따라서 본 논문에서는 무제한 음성인식 시스템의 인식의 기본 단위로 모음의 안정구간을 검출하여 분할하는 CV(Consonant-Vowel), VC(Vowel-Consonant), VC CV(Vowel-Consonant-Consonant-Vowel)단위와 분할 파라미터를 제안하고, 분할 실험을 통해 그 유효성을 확인하고자 한다.

  • PDF

음성 활동 구간 검출을 위한 스펙트랄 엔트로피의 재구성 효과 (Reconstruction Effect of the Spectral Entropy for the Voice Activity Detection)

  • 권호민;한학용;이광석;고시영;허강인
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.25-28
    • /
    • 2002
  • Voice activity detection is important Problem in the speech recognition and communication. This paper introduces feature parameter which is reconstructed by the spectral entropy of information theory for the robust voice activity detection in the noise environment, analyzes and compares it with the energy method of voice activity detection and performance. In experiment, we confirmed that the spectral entropy is more feature parameter than the energy method for the robust voice activity detection in the various noise environment.

  • PDF

개에서 Helicobacter균 감염을 검출하기 위한 urease 검사와 PCR 검사의 진단적 정확도 (Diagnostic Accuracy of Urease and Polymerase Chain Reaction to Detect Helicobacter Species Infection in Dogs)

  • Pak, Son-Il;Oh, Tae-Ho
    • 한국임상수의학회지
    • /
    • 제18권4호
    • /
    • pp.329-333
    • /
    • 2001
  • 새로 개발되거나 혹은 기존의 어떤 진단검사를 다양한 임상상황에 적용하기 위해서는 먼저 이들 검사법의 진단적 정확도를 추정하는 연구가 반드시 선행되어야 한다. 진단의 정확도에 대한 추정치를 모른다면 검사결과를 해석하는 것이 불가능하기 때문이다. 특히 동일한 개체에서 감염부위별로 3개 이상의 시료를 얻어 진단검사를 적용하는 경우 각 시료의 검사결과는 독립적인 측정시료가 아니라 개체내에서 연관성이 매우 높은 종속적인 시료에 해당 한다. 즉 동일한 개체에서 얻은 시료일수록 검사결과에서 유사한 반응을 보이며 이 경우 분석의 단위는 각각의 개체가 아니라 검사부위가 되는데 이는 의학연구에서 매우 흔하다. 본 연구에서는 Helicobacter 균에 의한 감염을 검출하기 위하여 동일한 개로부터 위의 해부학적 구조상 pyloric antrum, body 및 cardia의 생검시료에 대하여 urease 검사와 PCR 검사를 적용하여 각 검사의 진단적 정확도를 추정하였다. urease 검사의 민감도와 특이도는 0.74 (95% 신뢰구간: 0.64-0.84)와 0.87 (95% 신뢰구간: 0.67-1.00)이었으며 PCR 검사의 민감도와 특이도는 0.95 (95% 신뢰구간: 0.89-1.00)와 0.90 (95% 신뢰구간: 0.70-1.00)로 두 검사의 특이도는 높은 것으로 나타났다. 그러나 PCR 검사에 비하여 urease 검사의 경우 가음성 (false negative)의 가능성이 높기 때문에 진단결과에 대한 신중한 해석이 요구된다.

  • PDF

히스토그램 기반의 과추정 방식을 이용한 잡음에 강인한 음성인식 (Noise-Robust Speech Recognition Using Histogram-Based Over-estimation Technique)

  • 권영욱;김형순
    • 한국음향학회지
    • /
    • 제19권6호
    • /
    • pp.53-61
    • /
    • 2000
  • 잡음환경에서의 음성인식 성능향상을 위해서는 서로 다른 잡음환경으로 인한 mismatch를 줄이는 것이 중요하다. 이를 위해 계산이 간단하고 잡음환경에서 비교적 우수한 성능을 내고 있는 스펙트럼 차감법이 널리 사용되고 있다. 본 논문에서는 스펙트럼 차감법을 적용하기 위한 잡음 스펙트럼 추정방법으로 히스토그램 처리방법을 도입한다. 히스토그램 처리방법은 음성이 아닌 구간의 검출이 필요없으며 시간에 따라 변화하는 시변잡음에도 적용 가능한 장점이 있다. 그러나 히스토그램 처리방법으로 신뢰도 높은 잡음 스펙트럼의 평균값을 추정하더라도 스펙트럼 차감법을 적용했을 때의 잔여 잡음의 문제가 발생한다. 이를 해결하기 위하여 잡음추정 과정에 사용되었던 히스토그램의 분포특성을 고려한 새로운 over-estimation 적용방식을 제안한다. 제안된 방식은 측정된 잡음의 분포에 따라 적응적으로 over-estimation의 정도를 결정함으로써 SNR 변화에 따른 영향이 적은 장점이 있다. 자동차 소음 환경에서의 화자독립 고립단어 인식실험 결과, 기존의 over-estimation factor를 적용한 경우보다 제안된 방식의 인식성능이 개선되었다.

  • PDF

음성의 묵음구간 검출을 통한 DTW의 성능개선에 관한 연구 (A Study on the Improvement of DTW with Speech Silence Detection)

  • 김종국;조왕래;배명진
    • 음성과학
    • /
    • 제10권4호
    • /
    • pp.117-124
    • /
    • 2003
  • Speaker recognition is the technology that confirms the identification of speaker by using the characteristic of speech. Such technique is classified into speaker identification and speaker verification: The first method discriminates the speaker from the preregistered group and recognize the word, the second verifies the speaker who claims the identification. This method that extracts the information of speaker from the speech and confirms the individual identification becomes one of the most efficient technology as the service via telephone network is popularized. Some problems, however, must be solved for the real application as follows; The first thing is concerning that the safe method is necessary to reject the imposter because the recognition is not performed for the only preregistered customer. The second thing is about the fact that the characteristic of speech is changed as time goes by, So this fact causes the severe degradation of recognition rate and the inconvenience of users as the number of times to utter the text increases. The last thing is relating to the fact that the common characteristic among speakers causes the wrong recognition result. The silence parts being included the center of speech cause that identification rate is decreased. In this paper, to make improvement, We proposed identification rate can be improved by removing silence part before processing identification algorithm. The methods detecting speech area are zero crossing rate, energy of signal detect end point and starting point of the speech and process DTW algorithm by using two methods in this paper. As a result, the proposed method is obtained about 3% of improved recognition rate compare with the conventional methods.

  • PDF

영상회의 시스템을 위한 RTP/RTCP 구현 및 오디오 데이터 전송을 위용한 QoS 분석 (Implementation of RTP/RTCP for Teleconferencing System and Analysis of Quality-of-Service using Audio Data Transmission)

  • 강민규;황승구;김동규
    • 한국정보처리학회논문지
    • /
    • 제5권12호
    • /
    • pp.3047-3062
    • /
    • 1998
  • 본 논문은 ITU-T에서 제안한 영상회의 시스템에서 오디오/비디오 스트림 데이터를 회의 참여자에 송수신하거나 또는 수신된 멀티미디어 데이터들에 대한 QoS 정보를 송신측에 피드백 하기 위해 제공되는 RTP/RTCP 프로토콜(RFC1889,1890)에 관한 설계 및 구현에 관해 기술한다. RTP는 인코더로부터 전달된 오디오/비디오 데이터를 고정 포맷으로 패킷화하여 모든 회의 참여자에 멀티캐스팅하고, RTCP모듈은 RTP와 함께 연동되면서 수신 패킷을 모니터하여 지연, 지연변이 및 패킷 손실 등의 QoS 값들을 검출하고, 이를 비-정기적으로 송신측에 피드백하도록 구현하였다. 이들 프로토콜은 Windows NT에서 멀티쓰래드 방식으로 구현되었으며, 하위 프로토콜로 socket I/F를 통해서 U에/IP-Multicast를 이용하였다. 또한, 인터넷 환경에서 영상회의 시스템을 수행했을 때 나타나는 여러 QoS 값들을 검출하여 분석하였다. 시험은 오디오 데이터 전송을 이용하였으며 통신 부하가 심한 시간 구간에서 지연과 지연 변이는 음성 인식에 대체로 허용 범위에 충족되나 다량의 패킷 손실에 따른 품질 저하를 분석할 수 있었으며, 대부분의 손실된 패킷들은 비-연속적인 특성을 갖는 것으로 나타났다.

  • PDF