• 제목/요약/키워드: 음성공학

검색결과 1,132건 처리시간 0.027초

클래스 종속 반연속 HMM을 이용한 립싱크 시스템 최적화 (Lip-Synch System Optimization Using Class Dependent SCHMM)

  • 이성희;박준호;고한석
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.312-318
    • /
    • 2006
  • 기존의 립싱크 시스템은 음소 분할 후, 각각의 음소를 인식하는 2단계의 과정을 거쳤다. 하지만, 정확한 음소 분할의 부재와 음성이 끊긴 분할 된 음소로 이루어진 훈련 데이터들은 시스템의 전체 성능을 크게 떨어뜨렸다. 이런 문제를 해결하기 위해 Head-Body-Tail (HBT) 모델을 이용한 단모음 연속어 인식 기술을 제안한다. 주로 소규모 어휘를 다루는데 적합한 HBT 모델은 Head 와 Tail 부분에 문맥 종속 정보를 포함하여 앞 뒤 문맥에 따른 조음효과를 최대한 반영한다. 또한, 7개의 단모음을 입모양이 비슷한 세 개의 클래스로 분류하여, 클래스에 종속적인 코드북 3개를 가진 반연속HMM (Hidden Markov Model)을 적용하여 시스템을 최적화하고, 변이 부분이 큰 단어의 처음과 끝은 연속HMM의 8 믹스쳐 가우시안 구조를 사용하여 모델링하였다. 제안한 방법은 HBT구조의 연속HW과 대등한 성능을 보이지만, 파라미터 수는 33.92% 감소하였다. 파라미터 감소는 계산 양을 줄여주므로, 시스템이 실시간으로 동작 가능하게 한다.

일본어 합성기에서 유동 Break를 이용한 합성단위 선택 방법 (A Unit Selection Methods using Flexible Break in a Japanese TTS)

  • 송영환;나덕수;김종국;배명진;이종석
    • 한국음향학회지
    • /
    • 제26권8호
    • /
    • pp.403-408
    • /
    • 2007
  • 대용량 코퍼스를 이용하는 합성단위 선택(unit selection) 기반 합성기에서 break는 자연성 및 명료성에 큰 영향을 미치는 파라미터로 unit selection 과정에서 음소 정보와 함께 중요한 특징으로 사용된다. 일본어는 피치의 상대적 높낮이로 표현되는 악센트를 가지는 언어이고, 악센트의 변화에 따라 AP(Accentual Phrase)가 결정되고 AP 경계에서 break가 형성된다. break는 규칙 기반 방식이나 통계적 방식인 J-ToBI를 이용하여 예측 할 수 있으나 다양성으로 인해 정확한 예측이 어렵다. 따라서 본 논문에서는 다양한 운율 정보를 포함하고 있는 대용량 코퍼스의 장점을 이용하기 위해 break를 고정 break와 유동 break로 나누어 합성단위 검색을 수행한다. 실험 결과 제안한 합성단위 선택 방법으로 합성음의 자연성을 향상 시킬 수 있었다.

하모닉 코더를 위한 직선과 이산코사인변환 (DCT)을 이용한 하모닉 크기값 (Magnitude) 양자화 기법 (Method of Harmonic Magnitude Quantization for Harmonic Coder Using the Straight Line and DCT (Discrete Cosine Transform))

  • 최지욱;정규혁;이인성
    • 한국음향학회지
    • /
    • 제27권4호
    • /
    • pp.200-206
    • /
    • 2008
  • 본 논문은 음성신호의 주파수를 반으로 나누어 양자화 계수 추출에 직선과 DCT (Discrete Cosine Transform)를 혼합하여 사용한 양자화 기법을 제안한다. 하모닉 부호화기에서의 하모닉은 가변이므로 저주파에서의 하모닉만을 오버샘플링하여 차원을 고정한다. 고정된 차원의 스펙트럼 포락선을 직선으로 표현한 후 직선이 불연속인 주파수에서의 샘플값만을 전송한다. 이 논문에서는 저주파에서의 하모닉은 복원을 위해 고정된 직선의 계수를 사용하였고 고주파에서의 하모닉은 가변 DCT를 적용하여 직선과 DCT가 격합된 형태의 양자화기법을 제안한다. 제안된 양자화 기법의 성능평가는 스펙트럴의 크기값에 대한 Spectral Distortion (SD)값을 사용하였다. 실험결과 HVXC보다 제안된 양자화 기법의 SD가 0.3dB 정도 개선되었다.

β-카볼린 화합물의 합성 및 구조분석 (Synthesis and Structural Characterization of β-Carboline Compounds)

  • 변홍주;한민희;문기성;정경환;이향렬
    • 한국응용과학기술학회지
    • /
    • 제36권2호
    • /
    • pp.676-684
    • /
    • 2019
  • 자연에서도 생합성이 되는 테트라하이드로-${\beta}$-카볼린 화합물은 Pictet-Spengler반응을 통해서 화학적으로도 합성된다. 본 연구에서는 ${\beta}$-카볼린 화합물을 쉽고 효과적으로 합성할 수 있는 친환경 합성법을 개발하여 유기용매가 아닌 물을 사용하여 합성하였다. 이 화합물은 투명한 결정형의 생성물로 얻어지므로 복잡한 분리과정이 필요하지 않다. 합성된 화합물은 NMR 및 UPLC/MS를 이용하여 구조를 확인하였다. 화합물 1의 이론적 분자량($C_{17}H_{17}N_2$ 249.1392), 화합물 2 ($C_{17}H_{23}N_2$ 255.1861), 화합물 3($C_{19}H_{21}N_2O_3$ 325.1552), 화합물 4($C_{19}H_{19}N_2O$ 279.1497)과 측정된 화합물들의 질량과 비교하였다. 그 결과 측정된 화합물 1의 분자량 ($[M+H]^+m/z$ detected 249.1315), 2 (detected 255.1789), 3 (detected 325.1460) 그리고 4 (detected 279.1364)와 거의 일치함으로써 생성된 화합물이 1~4의 구조를 가지고 있음을 확인하였다. 합성된 화합물들을 그람 음성균인 E. coli $DH5{\alpha}$를 대상으로 항균효과를 조사한 결과 강한 저해효과를 확인할 수 있었다.

딥 러닝 및 칼만 필터를 이용한 객체 추적 방법 (Object Tracking Method using Deep Learning and Kalman Filter)

  • 김기철;손소희;김민섭;전진우;이인재;차지훈;최해철
    • 방송공학회논문지
    • /
    • 제24권3호
    • /
    • pp.495-505
    • /
    • 2019
  • 딥 러닝의 대표 알고리즘에는 영상 인식에 주로 사용되는 CNN(Convolutional Neural Networks), 음성인식 및 자연어 처리에 주로 사용되는 RNN(Recurrent Neural Networks) 등이 있다. 이 중 CNN은 데이터로부터 자동으로 특징을 학습하는 알고리즘으로 특징 맵을 생성하는 필터까지 학습할 수 있어 영상 인식 분야에서 우수한 성능을 보이면서 주류를 이루게 되었다. 이후, 객체 탐지 분야에서는 CNN의 성능을 향상하고자 R-CNN 등 다양한 알고리즘이 등장하였으며, 최근에는 검출 속도 향상을 위해 YOLO(You Only Look Once), SSD(Single Shot Multi-box Detector) 등의 알고리즘이 제안되고 있다. 하지만 이러한 딥러닝 기반 탐지 네트워크는 정지 영상에서 탐지의 성공 여부를 결정하기 때문에 동영상에서의 안정적인 객체 추적 및 탐지를 위해서는 별도의 추적 기능이 필요하다. 따라서 본 논문에서는 동영상에서의 객체 추적 및 탐지 성능 향상을 위해 딥 러닝 기반 탐지 네트워크에 칼만 필터를 결합한 방법을 제안한다. 탐지 네트워크는 실시간 처리가 가능한 YOLO v2를 이용하였으며, 실험 결과 제안한 방법은 기존 YOLO v2 네트워크에 비교하여 7.7%의 IoU 성능 향상 결과를 보였고 FHD 영상에서 20 fps의 처리 속도를 보였다.

당근, 느타리버섯 및 솔잎 추출물이 첨가된 화장품의 할랄인증을 위한 PCR 분석 (PCR Analysis for Halal Authentication of Cosmetics Containing Carrot, Oyster Mushroom, and Pine Needle Extracts)

  • 장찬송;김태현;김유송;이범주;홍광원
    • 산업식품공학
    • /
    • 제22권4호
    • /
    • pp.309-314
    • /
    • 2018
  • 최근 국내의 식품 및 화장품 분야에서 해외 할랄시장 진출을 위해 할랄 인증에 대한 관심이 높아지고 있다. 할랄 인증을 받으려면 해당 제품에 돼지, 개, 사람, GMO 등과 같은 haram 성분들이 포함되어서는 안 된다. 본 연구에서는 papain과 bromelain을 처리한 식물추출물(당근, 느타리 버섯, 솔잎)이 첨가된 화장품(cream과 mask pack)이 할랄 인증에 적합한지를 확인하기 위해 이들 추출물과 최종제품에서 haram 성분의 존재 여부를 PCR을 이용하여 분석하였다. 사람, 돼지, 개 및 GMO 대두의 template DNA를 특이적으로 검출하는 PCR 방법의 검출한계는 각각 $1.29{\times}10^3$, $1.14{\times}10^3$, $1.24{\times}10^2$$2.02{\times}10^3copies/tube$ 이었다. PCR은 식물 추출물이나 화장품 성분에 의해 저해 받지 않았다. 식물추출물과 이들이 첨가된 cream과 mask pack에 대해 PCR을 수행한 결과 모두 음성이었다. 본 PCR 방법은 식품이나 화장품의 제조과정 중 원재료나 최종제품에서 haram 성분의 존재를 신속하게 확인하는 데 활용이 가능할 것으로 보인다.

시민참여형 무미목 양서류 음성신호 수집 및 품질관리 방안 (Anura Call Monitoring Data Collection and Quality Management through Citizen Participation)

  • 김경태;이현정;송원경
    • 한국환경생태학회지
    • /
    • 제38권3호
    • /
    • pp.230-245
    • /
    • 2024
  • 외부 환경변화에 민감한 양서류는 지역 내 생태환경의 변화나 교란을 평가하는 생물지표종으로 활용되고 있다. 도시화로 인한 서식지 파괴, 단절과 같은 인위적인 위협으로 인해 무미목 양서류 종 3분의 1이 멸종 위험에 처한 것으로 알려져있다. 무미목 양서류의 적절한 보호 및 보전전략 마련을 위해서는 개체군의 특성을 고려한 생물종 조사가 요구된다. 본 연구는 무미목 양서류의 번식기 울음소리를 이용한 생태모니터링에 있어 시민들의 참여 가능성을 모색하고자 하였다. 또한 적절한 품질관리 방안을 제안하여 오류나 편향을 제거하고 신뢰도 높은 생물종 출현 자료를 추출하고자 하였다. 시민과학 프로젝트는 국내에 서식하는 무미목 양서류 12종을 대상으로 2022년 4월 1일부터 8월 31일까지 전국을 대상으로 수행되었다. 시민들의 자발적인 참여를 통해 무미목 양서류의 번식기 울음소리를 직접 청취하고 모바일 애플리케이션을 통해 녹음함으로써 음성신호 모니터링이 진행되었다. 또한 품질관리 프로세스를 구축하여 시민들로부터 수집된 데이터의 오류 및 편향을 누락, 허위, 잘못된 식별과 같이 3단계로 분류하여 신뢰도 높은 생물종 출현 자료를 추출하고자 하였다. 시민참여 무미목 양서류 음성신호 모니터링 결과 총 6,808건의 관찰 기록을 수집할 수 있었다. 품질관리 프로세스를 통해 6,808건의 데이터 중 1,944건(28.55%)에서 오류 및 편향이 발생하였다. 오류 및 편향 유형으로는 누락이 922건 (47.43%)으로 높은 빈도를 보였으며 잘못된 식별 540건(27.78%), 허위 482건(24.79%) 순서로 나타났다. 시민과학프로젝트를 통해 국내에 서식하는 12종의 무미목 양서류 중 두꺼비(Bufo gargarizans Cantor), 한국산개구리(Rana coreana)를 제외한 10종의 무미목 양서류의 번식기 울음소리를 관찰할 수 있었다. 주로 개체수 감소로 인하여 관찰이 어렵거나 비 출현 개체의 번식기와 시민과학 프로젝트 진행 시점과의 차이로 인해 번식기 울음소리를 수집하는데 어려움이 발생한 것으로 나타났다. 본 연구는 시민참여를 토대로 국내에 서식하는 무미목 양서류의 번식기 울음소리를 통해 분포현황과 생물종 출현 자료 수집을 처음으로 검토한 연구이다. 향후 시민과학을 접목한 생물음향 모니터링 설계와 시민과학 데이터 품질관리 방안에 대한 기초자료로 활용될 수 있을 것으로 판단된다.

구문 분석과 One-Stage DMS/DP를 이용한 연속음 인식 (Continuous Speech Recognition using Syntactic Analysis and One-Stage DMS/DP)

  • 안태옥
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.201-207
    • /
    • 2004
  • 본 논문은 연속음 인식에 관한 연구로써, 구문 분석을 이용한 One-Stage DMS/DP에 의한 음성 인식 방법을 사용한다. 인식 실험을 위해 우선 구간 구분화 알고리즘을 이용하여 DMS(dynamic Multi-Section) 모델을 만들며, 구문 분석을 이용한 One-Stage DMS/DP 방법으로 연속음 데이터를 인식하게 하였다. 제안된 방법에 의한 인식 실험을 수행하는 것 외에도 비교를 위해 전통적인 One-Stage DP 방법을 같은 조건 같은 데이터를 가지고 수행하였다. 인식 실험 결과, 기존의 방법보다 구문분석을 이용한 One-Stage DMS/DP 방법이 우수한 것으로 나타났다.

운전 상황에서 휴대폰 음성인터페이스의 사용성 향상에 관한 연구 (Usability Improvement for the Speech Interface of Mobile Phones While Driving)

  • 강윤환;정성욱;정가훈;최재호;정의승
    • 대한산업공학회지
    • /
    • 제35권1호
    • /
    • pp.109-118
    • /
    • 2009
  • While driving, the manual use of a mobile phone is heavily restricted due to the interference with the primary driving task. An alternative would be the use of speech interface. The current study aims to provide a guideline to implementation of a speech interface to the mobile phone. To do so, an expert evaluation was made and it revealed that a speech interface requires less workload, less performance degradation of the driving task than that of the keypad interface. To make speech interfaces more usable, new improvements are suggested. Subjective workload can be reduced and user satisfaction can be improved without degrading the primary task performance, for instance, by letting the user interrupt the speech of the phone, eliminating the repetitive words, letting the user know clearly what makes an error, providing a way to go back to the previous state, reducing the usage of keypad buttons and reducing the amount of the information on the screen.

음절을 기반으로한 한국어 음성인식 (Korean Speech Recognition Based on Syllable)

  • 이영호;정홍
    • 전자공학회논문지B
    • /
    • 제31B권1호
    • /
    • pp.11-22
    • /
    • 1994
  • For the conventional systme based on word, it is very difficult to enlarge the number of vocabulary. To cope with this problem, we must use more fundamental units of speech. For example, syllables and phonemes are such units, Korean speech consists of initial consonants, middle vowels and final consonants and has characteristic that we can obtain syllables from speech easily. In this paper, we show a speech recognition system with the advantage of the syllable characteristics peculiar to the Korean speech. The algorithm of recognition system is the Time Delay Neural Network. To recognize many recognition units, system consists of initial consonants, middle vowels, and final consonants recognition neural network. At first, our system recognizes initial consonants, middle vowels and final consonants. Then using this results, system recognizes isolated words. Through experiments, we got 85.12% recognition rate for 2735 data of initial consonants, 86.95% recognition rate for 3110 data of middle vowels, and 90.58% recognition rate for 1615 data of final consonants. And we got 71.2% recognition rate for 250 data of isolated words.

  • PDF