• Title/Summary/Keyword: 음성구간검출

Search Result 158, Processing Time 0.029 seconds

Non-Dialog Section Detection for the Descriptive Video Service Contents Authoring (화면해설방송 저작을 위한 비 대사 구간 검출)

  • Jang, Inseon;Ahn, ChungHyun;Jang, Younseon
    • Journal of Broadcast Engineering
    • /
    • v.19 no.3
    • /
    • pp.296-306
    • /
    • 2014
  • This paper addresses a problem of non-dialog section detection for the DVS authoring, the goal of which is to find meaningful section from the broadcasting audio, where audio description can be inserted. The broadcasting audio involves the presence of various sounds so that it first discriminates between speech and non-speech for each audio frame. Proposed method jointly exploits the inter-channels structure and speech source characteristics of the broadcasting audio whose number of channel is stereo. Also, rule based post-processing is finally applied to detect the non-dialog section whose length is appropriate for audio description. Proposed method provides more accurate detection compared to conventional method. Experimental results on real broadcasting contents show that qualitative superiority of the proposed method.

On a Pitch Point Detection by Preserving the Phase Component of the Autocorrelation Function (자기상관함수에서 위상 성분의 보존에 의한 피치 시점 검출에 관한 연구)

  • 함명규;최성영;박종철;배명진
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.799-802
    • /
    • 2000
  • 음성신호처리 분야에서 음성신호의 기본 주파수를 정확히 검출 할 수 있다면 음성인식을 할 때 화자에 따른 영향을 줄일 수 있으므로 인식의 정확도를 높일 수 있고, 음성합성을 할 때 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 분석을 할 때 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다. 위와 같은 피치검출의 중요성 때문에 피치검출에 대하여 다양한 방법 이 제안되었다〔1〕. 본 논문에서는 음성신호의 분석 시 불안정한 구간에 대해 피치 시점을 검출하는 방법을 연구하였다. 음성신호의 분석에 있어서 기존의 자기상관함수법(Autocorrelation Function)은 주기성을 강조할 수 있다는 장점을 가지고 있다. 그러나 자기상관함수는 위상성분을 보존하지 못한다는 단점을 가지고 있다. 따라서, 자기상관함수를 사용하면서 위상성분을 보존할 수 있는 알고리즘을 제안하고자 한다. 실험결과 피치시점을 수동으로 찾은 경우와 비교하였을 때 약 98% 정도의 정확도를 얻을 수 있었다. 위의 결과와 같이 위상 성분이 보존된 자기상관함수를 사용할 경우 음성합성, 코딩, 인식에서 유용하게 쓰일 수 있다.

  • PDF

A Study on Performance of Voice Activity Detector in Vocoder (이동통신부호화기에서의 음성 활동 검출 장치 성능에 관한 연구)

  • Lim, Ji-Sun
    • Proceedings of the KAIS Fall Conference
    • /
    • 2010.05a
    • /
    • pp.241-244
    • /
    • 2010
  • ITU-T에서 인터넷 폰과 화상회의에 사용하기 위하여 개발된 G.723.1 음성 부호화기는 잡음 구간에서의 전송률을 낮추기 위한 방법으로 VAD(Voice Activity Detector)와 CNG(Comfort Noise Generator)를 사용하고 있다. 여기서 VAD는 최종적으로 현재 프레임의 에너지 레벨을 비교하여 음성의 활동 유무를 판정하고 있다. 하지만 G.723.1 VAD에서는 보다 안정적인 판정을 위해 음성 활동 구간 사이에 삽입되어 있는 묵음 구간에 대해서는 거의 대부분 음성이 활동하는 영역으로 판정을 하고 있다. 본 논문에서는 묵음 구간에 대해 보다 정확한 판정을 통하여 기존의 방법에 비해 전송율을 더욱 감소시킬 수 있는 방법을 제안한다. 실험에서는 묵음구간을 길게 조절한 문장을 사용하여 측정한 결과 약 50% 정도의 전송율을 감소시킬 수 있었으며, MOS 테스트 결과, 음질의 열하는 발생하지 않았다.

  • PDF

Retrieval of Player Event in Golf Videos Using Spoken Content Analysis (음성정보 내용분석을 통한 골프 동영상에서의 선수별 이벤트 구간 검색)

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.7
    • /
    • pp.674-679
    • /
    • 2009
  • This paper proposes a method of player event retrieval using combination of two functions: detection of player name in speech information and detection of sound event from audio information in golf videos. The system consists of indexing module and retrieval module. At the indexing time audio segmentation and noise reduction are applied to audio stream demultiplexed from the golf videos. The noise-reduced speech is then fed into speech recognizer, which outputs spoken descriptors. The player name and sound event are indexed by the spoken descriptors. At search time, text query is converted into phoneme sequences. The lists of each query term are retrieved through a description matcher to identify full and partial phrase hits. For the retrieval of the player name, this paper compares the results of word-based, phoneme-based, and hybrid approach.

Speech-to-MIDI Conversion with Autocorrelation (자기상관을 이용한 음성 신호의 MIDI 변환)

  • 박상보;황인준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10c
    • /
    • pp.439-441
    • /
    • 2004
  • 효율적인 멀티미디어 검색의 필요성이 증대됨에 따라 내용기반 멀티미디어의 검색에 대한 다양한 기법들이 소개되고 있다. 그 중에서 친숙한 멜로디를 가지고 사용자가 직접 마이크를 통해 생성한 음성 질의에 대한 분석에 대해 다루고자 한다. 음성 질의에 사용되는 음성 데이터를 분석함으로써 검색에 이용하는 것이다. 음성데이터를 분석하기 위한 방법으로 시간영역에서 가장 많이 쓰이는 기법 중의 하나인 자기상관함수를 사용한다. 자기상관 함수를 이용하여 특정구간에서 발생하는 일정한 주기 즉 기본주기를 검출할 수 있다. 자기상관함수에 의해 분석된 결과를 가지고, 음의 높낮이를 구하기 위한 기본주파수 검출 알고리즘과 음의 길이, 음의 세기를 결정하기 위한 방법을 제안한다.

  • PDF

Voice Activity Detection based on DBN using the Likelihood Ratio (우도비를 이용한 DBN 기반의 음성 검출기)

  • Kim, S.K.;Lee, S.M.
    • Journal of rehabilitation welfare engineering & assistive technology
    • /
    • v.8 no.3
    • /
    • pp.145-150
    • /
    • 2014
  • In this paper, we propose a novel scheme to improve the performance of a voice activity detection(VAD) which is based on the deep belief networks(DBN) with the likelihood ratio(LR). The proposed algorithm applies the DBN learning method which is trained in order to minimize the probability of detection error instead of the conventional decision rule using geometric mean. Experimental results show that the proposed algorithm yields better results compared to the conventional VAD algorithm in various noise environments.

  • PDF

Boll's Spectral Subtraction Algorithm by New Voice Activity Detection (새로운 음성 활동 검출법에 의한 Boll의 스펙트럼 차감 알고리즘)

  • 류종훈;김대경;박장식;손경식
    • Journal of Korea Multimedia Society
    • /
    • v.4 no.1
    • /
    • pp.46-55
    • /
    • 2001
  • In this paper, a new voice activity detection method estimating SNR of enhanced speech with extended spectral subtraction (ESS) is proposed. Voice activity detection is performed by putting an second Wiener filter behind an Wiener filter used in the ESS to estimate speech and noise power of output signal of first Wiener filter. The proposed voice activity detection method does not require many computational loads and performs well under severe input SNR. Boll's spectral substraction algorithm with proposed voice activity detection was compared to ESS under several noise environment having different time-frequency distributions. During speech and non-speech activity, performance of Boll's spectral substraction algorithm with proposed voice activity detection is superior to that of ESS.

  • PDF

Speech detection from broadcast contents using multi-scale time-dilated convolutional neural networks (다중 스케일 시간 확장 합성곱 신경망을 이용한 방송 콘텐츠에서의 음성 검출)

  • Jang, Byeong-Yong;Kwon, Oh-Wook
    • Phonetics and Speech Sciences
    • /
    • v.11 no.4
    • /
    • pp.89-96
    • /
    • 2019
  • In this paper, we propose a deep learning architecture that can effectively detect speech segmentation in broadcast contents. We also propose a multi-scale time-dilated layer for learning the temporal changes of feature vectors. We implement several comparison models to verify the performance of proposed model and calculated the frame-by-frame F-score, precision, and recall. Both the proposed model and the comparison model are trained with the same training data, and we train the model using 32 hours of Korean broadcast data which is composed of various genres (drama, news, documentary, and so on). Our proposed model shows the best performance with F-score 91.7% in Korean broadcast data. The British and Spanish broadcast data also show the highest performance with F-score 87.9% and 92.6%. As a result, our proposed model can contribute to the improvement of performance of speech detection by learning the temporal changes of the feature vectors.

Performance Enhancement of Speech Communication System using Reverberation Rejection (잔향제거를 이용한 음성통신 시스템 성능 향상)

  • Kim, Se-Young;Kang, Suk-Youb;Kim, Ki-Man
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.10
    • /
    • pp.2211-2217
    • /
    • 2009
  • In this paper, we propose the speech enhancement algorithm using an one-microphone in a reverberant room environments. Spectral subtraction is the effective method which can reduce the reverberation element and the noise in a spectrum domain. Spectral subtraction needs correct separation of voice section and silent section therefore to improve the performance, voice activity detection(VAD) based on entropy has been applied to the proposed method. We test a performance of the proposed method by comparing with conventional method which used VAD based on energy detection. Reverberation reduction ratio with variable of SNR and a reverberation time is used as a test index. From the simulation result, proposed method shows performance better than conventional method.

On a Detection of Pitch Point for Voice Color Conversion (음색변경을 위한 피치시점 검출에 관한 연구)

  • Park HyungBin;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.149-152
    • /
    • 2000
  • 음성신호처리분야에서 피치시점 검출은 음성 합성시에 여기원의 특성을 나타내어 음질의 자연성을 결정한다. 이에 본 논문에서는 음색 변경시에 운율조절에 필요한 피치시점 검출법을 제안한다. 제안한 방법은 시간영역에서 직접 처리하기 때문에 피치동기분석이 용이하고 다른 영역으로의 변환과정이 불필요하다. 또한 기존의 피치시점검출 방법에서는 결정논리를 실험적인 문턱 값이나 무게치를 적용하여 처리하는 반면에 제안한 방법은 분석구간별로 얻어지는 주기적인 성문특성을 적용하여서 정확한 피치시점을 검출할 수 있었다

  • PDF