• Title/Summary/Keyword: 음성 분리

Search Result 664, Processing Time 0.033 seconds

Speech Enhancement for Voice commander in Car environment (차량환경에서 음성명령어기 사용을 위한 음성개선방법)

  • 백승권;한민수;남승현;이봉호;함영권
    • Journal of Broadcast Engineering
    • /
    • v.9 no.1
    • /
    • pp.9-16
    • /
    • 2004
  • In this paper, we present a speech enhancement method as a pre-processor for voice commander under car environment. For the friendly and safe use of voice commander in a running car, non-stationary audio signals such as music and non-candidate speech should be reduced. Ow technique is a two microphone-based one. It consists of two parts Blind Source Separation (BSS) and Kalman filtering. Firstly, BSS is operated as a spatial filter to deal with non-stationary signals and then car noise is reduced by kalman filtering as a temporal filter. Algorithm Performance is tested for speech recognition. And the results show that our two microphone-based technique can be a good candidate to a voice commander.

A Study On the Pitch Extraction by the Spectrum Flattening in an Adaptive Sub-band using LSP (LSP를 이용한 적응 밴드 스펙트럼 평탄화에 의한 피치 검색 방법에 관한 연구)

  • Seo JiHo;Bae MyungJin
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.105-106
    • /
    • 2004
  • 음성인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 피치검출이나 포만트검출은 매우 중요하다. 주파수 영역의 스펙트럼 신호는 잡음이 부가되는 경우에도 고조파정보와 포만트 포락선 정보를 유지하기 때문에 음성신호처리분야에서 매우 유용하다고 할 수 있다. 고조파 정보나 포만트 포락선 정보는 피치검출과 포만트 주파수 검출에 직접 이용된다 하지만 두 성분을 분리하는 방법에 따라 피치검출이나 포만트 주파수 검출에 영향을 미칠 수 있으므로 기존의 방법보다 두 성분을 더 잘 분리할 수 있는 방법이 필요한 것이다. 본 논문에서는 스펙트럼 신호를 최대한 평탄화시킴으로써 포만트의 영향을 제거하고 고조파 성분을 분리해 내어 이를 피치검출에 사용한다. LSP를 이용하여 적응적 밴드에서 평탄화를 시도하고 이를 피치 검출에 이용하였다.

  • PDF

Isolation and Identification of Pathogenic Bacteria from Spinach (시금치로부터 병원성세균의 분리 및 동정)

  • Kim, Hye-Jung;Kim, Young-Hoon;Lee, Dong-Sun;Paik, Hyun-Dong
    • Korean Journal of Food Science and Technology
    • /
    • v.35 no.1
    • /
    • pp.97-102
    • /
    • 2003
  • Raw and washed spinaches were tested to evaluate the incidences of Aeromonas hydrophila, Escherichia coli O157:H7, Plesiomonas shigelloides, Pseudomonas aeruginosa, Salmonella spp., Shigella spp., Yersinia enterocolitica, Bacillus cereus, Campylobacter jejuni, Clostridium perfringens, Listeria monocytogenes, and Staphylococcus aureus. Four pathogenic bacteria were isolated from spinach samples, and identified by morphological and biochemical methods, including API and ATB identification systems. Isolates from MacConkey, Cereus Selective, Clostridium Perfringens, and Baird-Parker agar media were in 99.9, 99.8, 99.9, and 97.8% agreements with A. hydrophila, B. cereus, C. perfringens, and S. aureus at the species level, respectively. SET-RPLA revealed, among the five strains of S. aureus isolates, two produced type A enterotoxin. All five strains of B. cereus isolates produced enterotoxin as revealed with CRET-RPLA.

A Voice/Unvoice Decomposition in Noisy Background (이중 여진 음성모델을 이용한 음질개선)

  • 유창동
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06c
    • /
    • pp.175-178
    • /
    • 1998
  • 음질개선에 이줄 여진(Double Excitation) 음성모델을 적용하는 방법이 있다. 유성음과 무성음 성분들로 분리하는 이 방법은 각 성분들의 고유한 성질을 이용하여 음질을 저하시키는 wideband 잡음을 제거할 수 있다. 이중 여진 음성모델을 이용한 음질개선 시스팀과 기존의 스펙트랄 제거(spectal subtraction) 알고리즘을 비공식적으로 비교한 결과 이중 여진 모델을 이용한 방법이 더 나은 성능을 보였다.

  • PDF

A Study on Emotion Recognition of Chunk-Based Time Series Speech (청크 기반 시계열 음성의 감정 인식 연구)

  • Hyun-Sam Shin;Jun-Ki Hong;Sung-Chan Hong
    • Journal of Internet Computing and Services
    • /
    • v.24 no.2
    • /
    • pp.11-18
    • /
    • 2023
  • Recently, in the field of Speech Emotion Recognition (SER), many studies have been conducted to improve accuracy using voice features and modeling. In addition to modeling studies to improve the accuracy of existing voice emotion recognition, various studies using voice features are being conducted. This paper, voice files are separated by time interval in a time series method, focusing on the fact that voice emotions are related to time flow. After voice file separation, we propose a model for classifying emotions of speech data by extracting speech features Mel, Chroma, zero-crossing rate (ZCR), root mean square (RMS), and mel-frequency cepstrum coefficients (MFCC) and applying them to a recurrent neural network model used for sequential data processing. As proposed method, voice features were extracted from all files using 'librosa' library and applied to neural network models. The experimental method compared and analyzed the performance of models of recurrent neural network (RNN), long short-term memory (LSTM) and gated recurrent unit (GRU) using the Interactive emotional dyadic motion capture Interactive Emotional Dyadic Motion Capture (IEMOCAP) english dataset.

A Study on the Performance Improvement of a Stock Information Retrieval System using Continuous Speech Recognition Technology (연속음성인식기술을 이용한 음성인식 증권정보 시스템의 성능 향상에 대한 연구)

  • 구명완
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.51-55
    • /
    • 1998
  • 한국통신이 개발하여 현재 700-3000번으로 서비스되고 있는 음성 인식 증권정보시스템을 소개하고, 음성인식 성능을 향상시키기 위한 한국통신의 연구현황을 기술하고자 한다. 현재 운용중에 있는 서비스 시스템은 120명이 동시에 사용할 수 있는 시스템이며 S/W 와 H/W를 분리시켜 S/W의 버전을 갱신하더라고 H/W의 변경이 최소화 되도록 설계되었다. 현재 고려하고 있는 성능 향상 방법은 연속음성 인식 기술을 이용하여 고립단어 인식을 시도하는 것과 거절기능 구현 및 tied-state에 의한 문맥종속 음소를 구하는 것이다. 또한 연속 HMM 모델 방식으로의 변경도 연구중에 있다.

  • PDF

A Study of Speech Recognition Web Services Environment for Voice Browser (Voice Browser를 위한 음성 인식 웹서비스 환경에 관한 연구)

  • Hong, In-Suk;Kim, Yoon-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.142-145
    • /
    • 2009
  • 음성인터페이스 관련 표준화는 음성 대화, 음성인식/합성, 전화망 등의 접속망을 상호 분리하여 음성정보시스템 구성요소들 각각의 상호 독립적인 개발을 보장해 주며, 각 요소의 이해가 없이도 음성정보시스템을 개발할 수 있도록 함으로써 음성정보기술의 보급 및 확산에 크게 기여하고 있다. 이에 W3C에서는 Voice Browser에 대한 표준화를 현재 진행 중에 있으며 Vocie Browser WG에서 Voice Browser를 위한 SIF(Speech Interface Framework)를 제안하였다. 제안된 SIF에서 Voice Browser가 음성인식을 실행하기 위해서는 많은 자원의 소요와 부하가 생길 수 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 음성인식 웹 서비스를 기존의 SIF에 추가한 새로운 형태의 SIF를 제안하고자 한다. 음성인식은 원격 시스템에서 수행하고 그 결과를 Voice Browser가 사용할 수 있도록 음성인식 웹서비스 환경을 구축하였다. 그리고, XML-SRGS 포멧의 grammar를 음성인식기가 사용하는 EBNF 포멧의 grammar로 변환시키는 변환기를 구현하였다.

Korean-English statistical speech translation Using n-best re-ranking (n-best 리랭킹을 이용한 한-영 통계적 음성 번역)

  • Lee, Dong-Hyeon;Lee, Jong-Hoon;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.171-176
    • /
    • 2006
  • 본 논문에서는 n-best 리랭킹을 이용한 한-영 통계적 음성 번역 시스템에 대해 논하고 있다. 보통의 음성 번역 시스템은 음성 인식 시스템, 자동 번역 시스템, 음성 합성 시스템이 순차적으로 결합되어 있다. 하지만 본 시스템은 음성 인식 오류에 보다 강인한 시스템을 만들기 위해 음성 인식 시스템으로부터 n-best 인식 문장을 추출하여 번역 결과와 함께 리랭킹의 과정을 거친다. 자동 번역 시스템으로 구절기반 통계적 자동 번역 모델을 사용하여, 음성 인식기의 발음 모델에서 기본 단어 단위와 맞추어 번역 모델과 언어 모델을 훈련시킴으로써 음성 번역 시스템에서 형태소 분석기를 제거할 수 있다. 또한 음성 인식 시스템에서 상황 별로 언어 모델을 분리하여 처리함으로써 자동 번역 시스템에 비해 부족한 음성 인식 시스템의 처리 범위를 보완할 수 있었다.

  • PDF

Analysis of the Results of Blood Cultures, 1984~1987 at Yeungnam University Hospital (형랙배양검사 성적의 분석 -1984년에서 1987년까지 -)

  • Kim, Chung-Sook;Lee, Chae-Hoon;Choi, Myung-Sook;Cheon, Chang-Ho;Kim, Kyung-Dong
    • Journal of Yeungnam Medical Science
    • /
    • v.5 no.1
    • /
    • pp.49-60
    • /
    • 1988
  • Reviewing the results of the blood cultures performed at Yeungnam University Hospital during 4-year-period through January. 1, 1984 to December 31, 1987, the following results were obtained. 1) Out of 808:3 blood specimens cultured microorganisms grew in 582 specimens with positivity rate of 7.20%. Polymicrobial bacteremia was found in 16 patients. 2) Among 582 positive specimens, Gram-positive cocci grew in 189 specimens, and Gram-negative bacilli, in 393 specimens. Clinically significant microorganisms consisted of 82 Staphylococcus aureus, and 20 Strptococcus species in Gram-positive cocci group, 80 Salmonella typhi, 72 Escherichia coli, 72 Salmonella paratyphi A in Enterobacteriaceae, and 46 Pseudomonas cepacia, and 16 Pseudomonas aeruginosa in glucose non-fermentating microorganisms. 3) Increasing incidence of Serratia, Acinetobacter and Pseudomonas species as major nosocomial infection source is noteworthy. They showed increased tendency from 6.3% of 1984 to 17.7% of 1987 of total positive blood cultures. 4) High isolation rate of Pseudomonas species and Aeromonas hydrophilia was noted in summer, while Salmonella typhi showed high prevalence from May to September and in January. 5) In susceptibility tests of isolated organisms, staphylococcus aureus was sensitive to basic antimicrobial agents except for ampicillin. The glucose non-fermentating microorganisms showed high resistance to basic antimicrobial agents in 32.2%. In conclusion, considering the relatively higher incidence of growth of Staphylococcus epidermidis than ideal level indicates that sampling technique should be improved. Secondly, all the hospital staffs in cooperation with Hospital Infection Committee are desirable to pay efforts to decrease the nosocomial infection.

  • PDF

Collection, Analysis and Classification of Pathological Voice from ARS using Neural Network (ARS와 신경회로망을 이용한 장애음성의 수집, 분석 및 식별에 관한 연구)

  • 김광인;조철우;김대현;왕수건;전계록;안시훈;김기련;김용주
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.955-958
    • /
    • 2000
  • 본 논문은 음성신호를 이용해 성대의 질환이 있는 환자를 진단하고 병명을 판별하게끔 유도하는 자동 진단 시스템을 개발하기 위한 연구의 일부로, 그중 ARS를 이용하여 환자의 음성을 수집, 분석, 식별의 실험에 대한 연구이다. 본 연구 팀에서는 이미 CSL을 이용한 장애음성 데이터의 수집과 식별에 관한 연구 결과를 발표한바 있다. 하지만 선행연구에서는 방음실에서 디지털 녹음기를 이용하여 수집한 음성을 사용했기 때문에, ARS를 통하여 녹음한 음성과는 샘플링 주파수나 대역폭, 잡음성분등의 데이터의 특성이 상당한 차이가 있다. 이러한 이유로 ARS를 통하여 녹음한 음성에 보다 적합한 파라미터 분석프로그램을 작성하여 파라미터를 구하였다. 이 파라미터들은 Kay사의 MDVP를 기초로하여 작성하였고, 대부분 80%정도의 신뢰성을 가졌다. 수집한 음성의 식별은 정상음성과 양성음성의 두가지 경우로 분리하였다. 식별기법으로는 신경망을 이용하였고, 식별파라미터는 구한 파라미터중 6개의 파라미터를 선별하여 식별한 결과 약 90%정도의 식별율을 가졌다.

  • PDF