• 제목/요약/키워드: Speech/Non-speech Detection

검색결과 46건 처리시간 0.023초

순환 퍼지연상기억장치를 이용한 음성경계 추출 (Word Boundary Detection of Voice Signal Using Recurrent Fuzzy Associative Memory)

  • 마창수;김계영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권9호
    • /
    • pp.1171-1179
    • /
    • 2004
  • 본 논문에서는 음성인식의 전처리 단계로서 음성 영역과 비음성 영역 사이의 경계를 검출하는 음성경계 추출에 대하여 기술한다. 본 논문에서는 음성경계 추출을 위해 두 가지의 특징벡터를 사용한다. 첫 번째는 백색잡음(white noise)에 강건한 시간 영역의 정보인 정규화된 RMS이고, 두 번째는 주파수 영역의 정보인 정규화된 멜주파수 대역 최대 에너지(met-frequency band maximum energy)이다. 본 논문에서 사용하는 음성경계 추출 알고리즘은 학습을 통해 규칙을 생성하고 음성의 시간 정보를 적용하기 위해 순환노드를 추가한 순환 퍼지연상기억장치이다. 퍼지부의 가중치 학습은 헤비안 학습 방법을 사용하고, 순환부의 가중치 학습을 위해서는 오류 역전파(error back-propagation) 알고리즘을 사용한다. 실험에서는 KAIST에서 제공한 연령과 성별로 구분된 음성 자료를 사용하였다.

동영상 카투닝 시스템을 위한 자동 프레임 추출 기법 (Auto Frame Extraction Method for Video Cartooning System)

  • 김대진;구떠올라
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.28-39
    • /
    • 2011
  • 멀티미디어 산업의 발달과 함께 디지털 콘텐츠 시장의 확산을 가져오고 있다. 그 중 인터넷 만화와 같은 디지털 만화 시장의 확장은 급속하게 커지고 있어서, 콘텐츠의 부족과 다양성 때문에 동영상 카투닝에 대한 연구가 계속되고 있다. 지금까지는 동영상 카투닝은 비사실적 렌더링과 말풍선에 초점이 맞추어졌으나, 이러한 것들을 적용하기 위해서는 카투닝 서비스에 적합한 프레임 추출이 우선시 되어야만 한다. 기존의 방법으로는 동영상의 장면전환이 일어나는 샷(shot)안의 프레임을 추출하여, 사용자가 지정한 영역을 임의의 색상으로 렌더링(Rendering)하는 시스템이 있다. 하지만 이러한 방법은 사람의 손을 거치는 반자동적인 방법으로서 정확한 프레임 추출을 위해 사람의 손을 거쳐야하는 단점이 있다. 따라서 본 논문에서는 이러한 문제점을 해결하고, 보다 정확한 카투닝에 적용할 프레임을 추출하기 위해 오디오 및 비디오 분리를 통한 방법을 제안한다. 먼저 동영상으로부터 오디오와 비디오를 분리한다. 오디오는 먼저 MFCC와 영교차율의 특징을 추출하고, 이 특징 정보를 미리 학습된 데이터와 GMM 분류기를 통하여 음악, 음성, 음악+음성으로 분류한 후 음성 영역을 설정한다. 비디오는 히스토그램을 이용한 방법과 같은 일반적인 장면전환 프레임을 추출 후 얼굴 검색을 통해서 만화에서 의미가 있는 프레임을 추출한다. 그 후 음성 영역내에 얼굴이 존재하는 장면전환 프레임이나 일정 시간동안 음성이 지속되는 영역 중 장면전환 프레임을 추출하여 동영상 카투닝에 적합한 프레임을 자동으로 추출한다.

The Role of Post-lexical Intonational Patterns in Korean Word Segmentation

  • Kim, Sa-Hyang
    • 음성과학
    • /
    • 제14권1호
    • /
    • pp.37-62
    • /
    • 2007
  • The current study examines the role of post-lexical tonal patterns of a prosodic phrase in word segmentation. In a word spotting experiment, native Korean listeners were asked to spot a disyllabic or trisyllabic word from twelve syllable speech stream that was composed of three Accentual Phrases (AP). Words occurred with various post-lexical intonation patterns. The results showed that listeners spotted more words in phrase-initial than in phrase-medial position, suggesting that the AP-final H tone from the preceding AP helped listeners to segment the phrase-initial word in the target AP. Results also showed that listeners' error rates were significantly lower when words occurred with initial rising tonal pattern, which is the most frequent intonational pattern imposed upon multisyllabic words in Korean, than with non-rising patterns. This result was observed both in AP-initial and in AP-medial positions, regardless of the frequency and legality of overall AP tonal patterns. Tonal cues other than initial rising tone did not positively influence the error rate. These results not only indicate that rising tone in AP-initial and AP_final position is a reliable cue for word boundary detection for Korean listeners, but further suggest that phrasal intonation contours serve as a possible word boundary cue in languages without lexical prominence.

  • PDF

EM 알고리즘을 이용한 음성 파라미터 추정 및 향상 (Paper Title : Speech Parameter Estimation and Enhancement Using the EM Algorithm)

  • 이기용;강영태;이병국
    • The Journal of the Acoustical Society of Korea
    • /
    • 제13권2E호
    • /
    • pp.68-75
    • /
    • 1994
  • 신호처리의 많은 분야에서, 심하게 비가우시안 성질을 가지는 분포, 혹은 분포의 중간은 가우시안 특성을 가지지만 양 끝에서는 편차가 크게 나는 분포를 다루어야 하는 경우가 종종 있다. 이러한 편차에 효과적으로 대처하기 위하여 본 논문에서는 음성 신호의 여기 신호로서 혼합 분포(mixture distribution)을 고려한다. 이것은 음성 분석시 피치 주파수가 미치는 영향을 감소시키며, 배경 잡음을 제거하는 데에도 효과적이다. 음성 신호 파라미터의 추정 및 향상을 위하여 EM 알고리즘을 사용하묘, 향상 과정에서는 강인 칼만 필터링 기법을, 파라미터 추정 관정에서는 검출/추정 기법을 사용한다. 실험 결과, 본 논문에서 제안하는 알고리즘이 입력 신호대잡음비가 열악한 경우에 기존의 것보다 우수한 성능을 보인다.

  • PDF

가변 스텝 크기 적응 필터와 음성 검출기를 이용한 보청기용 피드백 제거 알고리즘 (A Variable Step-Size Adaptive Feedback Cancellation Algorithm based on GSAP in Digital Hearing Aids)

  • 안홍섭;박규석;송지현;이상민
    • 전기학회논문지
    • /
    • 제62권12호
    • /
    • pp.1744-1749
    • /
    • 2013
  • Acoustic feedback is perceived as whistling or howling, which is a major complaint of hearing-aids users. Acoustic feedback cancellation is important in hearing-aids because acoustic feedback degrades performance of the hearing aid device by reducing maximum insertion gain. Adaptive systems for estimate acoustic feedback path and feedback suppression algorithms have been proposed in order to solve this problem. A typical feedback cancellation algorithm is LMS(least mean squares) because of its computational efficiency. However it has problem of convergence performance in high correlated input signal. In this paper, we propose a new variable step-size normalized LMS(least mean squares) algorithm using VAD(voice activity detection) to overcome the limitation of the LMS algorithm. The VAD algorithm is GSAP(global speech absence probability) and the feedback cancellation algorithm is normalized LMS. The proposed algorithm applies different step-size between voice and non-voice using VAD, for high stability, fast convergence speed and low misalignment when correlated inputs, such as speech. The result of simulation with white noise mixed speech signal, the proposed algorithm shows high performance then traditional algorithm in terms of stability, convergence speed and misalignment.

방송 오디오 신호로부터 음악 신호 검출에 관한 연구 (A Study of Automatic Detection of Music Signal from Broadcasting Audio Signal)

  • 윤원중;박규식
    • 대한전자공학회논문지SP
    • /
    • 제47권5호
    • /
    • pp.81-88
    • /
    • 2010
  • 본 논문에서는 실제 방송 환경에 적용 가능한 방송용 음원 모니터링 시스템을 구축하기 위한 사전연구로 방송 오디오 신호로부터 음악신호 구간을 자동으로 검출할 수 있는 시스템을 제안하였다. 음악구간과 비음악구간의 구분을 위한 특징으로는 사람의 음성 발화 특성을 반영하여 에너지 표준편차와 log 에너지 표준편차 그리고 log 에너지 평균 등 3개의 간단한 시간영역 특징들을 사용하였으며 최종 음악신호 구간 판별은 각 에너지 한계값(threshold)을 이용한 Rule-base 분류를 기반으로 하였다. 실제 FM 라디오 방송 신호를 24시간 녹음하여 진행한 모의실험에서 음악구간 인식률은 96%, 비-음악구간 인식률은 87%를 나타내어 방송용 음원 모니터링 시스템의 전처리기로 손색이 없음을 확인할 수 있었다.

피치 검출과 퍼지화 패턴을 이용한 숫자음 화자 인식에 관한 연구 (A Study on Number sounds Speaker recognition using the Pitch detection and the Fuzzified pattern)

  • 김연숙;김희주;김경재
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.73-79
    • /
    • 2003
  • 본 논문에서는 피치 검출과 퍼지화 패턴 매칭을 포함하는 화자 인식 알고리즘을 제안한다. 음의 개성을 표현하는 피치를 이용한 피치 패턴을 사용하고 음성의 파라미터는 2진화 스펙트럼을 사용한다. 비선형적인 발성 시간에 따른 시간 변동의 폭을 모두 포함할 수 있도록 음성 신호의 애매성을 보완할 수 있는 퍼지의 소속 함수를 이용하여 표준 패턴을 작성하고 퍼지화 패턴 매칭을 이용하여 인식을 수행한다.

  • PDF

발달장애 청소년 양육자의 사회적 의사소통 인식과 요구도 차이 분석 (The Analysis of Difference in Awareness and Needs of Social Communication of Guardians Caring for Adolescent with Development Disorders Adolscents)

  • 박현;이명순
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.561-572
    • /
    • 2018
  • 본 연구는 발달장애 청소년 보호자를 대상으로 의사소통 영역 별 수준 인식과 사회적 의사소통 요구 정도를 발달장애 청소년의 연령, 장애 발견 시기, 장애 등급, 장애 유형, 언어 치료 기간에 따라 알아보아 발달장애 청소년을 대상으로 한 사회적 의사소통 지도의 효율적인 방안을 모색하고자 하였다. 자료들은 18.0 SPSS 통계 패키지를 사용하여 발달장애 청소년의 연령, 장애 발견 시기, 장애 등급, 장애 유형, 언어치료기간에 따라 비 모수 검정 Mann-Whitney test와 Kruskal-Willis test 등 비모수 검정과 Scheffe 사후검정을 실시하였다. 본 연구의 결과는 다음과 같다. 발달장애 청소년의 의사소통 수준 인식과 요구도는 발달장애 청소년의 연령, 장애 발견 시기, 장애 등급, 장애 유형, 언어치료의 기간 모두에서 집단 간 유의미한 차이가 나타났다. 본 연구의 결과와 앞으로 다양한 분석과 표집을 통한 차후 연구로 사회적 의사소통 재활 서비스에 대한 구체적이고 현실적인 문제들을 개선하고 서비스 시행의 효과적인 방법을 마련해야 할 것이다.

Teager Energy 기반의 수정된 파워 스펙트럼 편차를 이용한 음성 검출 (Voice Activity Detection Using Modified Power Spectral Deviation Based on Teager Energy)

  • 송지현;송영록;심현민;이상민
    • 재활복지공학회논문지
    • /
    • 제8권1호
    • /
    • pp.41-46
    • /
    • 2014
  • 본 논문에서는 잡음 상황에서 강인한 음성 특성을 나타내는 TE (teager energy) 기반의 특징벡터를 이용한 음성 검출 알고리즘을 제안하였다. 입력 신호에 TEO (teager energy operator)를 적용하고, 이를 이용하여 음성 검출 알고리즘에서 우수한 성능을 보여주는 파워 스펙트럼 편차를 구하였다. 또한, 제안된 음성 검출 알고리즘의 성능 향상을 위하여 통계적 모델 기반의 우도비를 TE 기반의 파워 스펙트럼 편차의 가중치 요소로 적용하였다. 제안된 알고리즘의 성능 검증을 위해서 전체 오차율, ROC (receiver operating characteristics), PESQ (perceptual evaluation of speech quality)와 같은 객관적 실험을 수행하였다. 실험결과 5dB SNR 이하의 낮은 SNR을 갖는 비 정상 잡음 환경에서 제안한 음성 검출 알고리즘이 약 2.6%의 전체 오차율 감소와 약 0.053의 PESQ 점수 향상을 나타내었다.

  • PDF

켑스트럼 기반의 후두암 감별을 위한 채널보상 (Channel Compensation for Cepstrum-Based Detection of Laryngeal Diseases)

  • 김영국;김수미;김형순;왕수건;조철우;양병곤
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.111-122
    • /
    • 2004
  • Automatic detection of laryngeal diseases by voice is attractive because of its non-intrusive nature. Cepstrum based approach to detect laryngeal cancer shows reliable performance even when the periodicity of voice signals is severely lost, but it has a drawback that it is not robust to channel mismatch due to different microphone characteristics. In this paper, to deal with mismatched training and test microphone conditions, we investigate channel compensation techniques such as Cepstral Mean Subtraction (CMS) and Pole Filtered CMS (PFCMS). According to our experiments, PFCMS yields better performance than CMS. By using PFCMS, we obtained 12% and 40% error reduction over baseline and CMS, respectively.

  • PDF