• 제목/요약/키워드: Automatic Speech Analysis

검색결과 74건 처리시간 0.027초

Recent Approaches to Dialog Management for Spoken Dialog Systems

  • Lee, Cheong-Jae;Jung, Sang-Keun;Kim, Kyung-Duk;Lee, Dong-Hyeon;Lee, Gary Geun-Bae
    • Journal of Computing Science and Engineering
    • /
    • 제4권1호
    • /
    • pp.1-22
    • /
    • 2010
  • A field of spoken dialog systems is a rapidly growing research area because the performance improvement of speech technologies motivates the possibility of building systems that a human can easily operate in order to access useful information via spoken languages. Among the components in a spoken dialog system, the dialog management plays major roles such as discourse analysis, database access, error handling, and system action prediction. This survey covers design issues and recent approaches to the dialog management techniques for modeling the dialogs. We also explain the user simulation techniques for automatic evaluation of spoken dialog systems.

켑스트럼 기반의 후두암 감별을 위한 채널보상 (Channel Compensation for Cepstrum-Based Detection of Laryngeal Diseases)

  • 김영국;김수미;김형순;왕수건;조철우;양병곤
    • 대한음성학회지:말소리
    • /
    • 제50호
    • /
    • pp.111-122
    • /
    • 2004
  • Automatic detection of laryngeal diseases by voice is attractive because of its non-intrusive nature. Cepstrum based approach to detect laryngeal cancer shows reliable performance even when the periodicity of voice signals is severely lost, but it has a drawback that it is not robust to channel mismatch due to different microphone characteristics. In this paper, to deal with mismatched training and test microphone conditions, we investigate channel compensation techniques such as Cepstral Mean Subtraction (CMS) and Pole Filtered CMS (PFCMS). According to our experiments, PFCMS yields better performance than CMS. By using PFCMS, we obtained 12% and 40% error reduction over baseline and CMS, respectively.

  • PDF

Language Model Adaptation Based on Topic Probability of Latent Dirichlet Allocation

  • Jeon, Hyung-Bae;Lee, Soo-Young
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.487-493
    • /
    • 2016
  • Two new methods are proposed for an unsupervised adaptation of a language model (LM) with a single sentence for automatic transcription tasks. At the training phase, training documents are clustered by a method known as Latent Dirichlet allocation (LDA), and then a domain-specific LM is trained for each cluster. At the test phase, an adapted LM is presented as a linear mixture of the now trained domain-specific LMs. Unlike previous adaptation methods, the proposed methods fully utilize a trained LDA model for the estimation of weight values, which are then to be assigned to the now trained domain-specific LMs; therefore, the clustering and weight-estimation algorithms of the trained LDA model are reliable. For the continuous speech recognition benchmark tests, the proposed methods outperform other unsupervised LM adaptation methods based on latent semantic analysis, non-negative matrix factorization, and LDA with n-gram counting.

음성인식 텍스트 분석을 통한 자동 일정 관리 시스템 개발에 관한 연구 (A Study on the Development of Automatic Schedule Management System through Speech Recognition Text Analysis)

  • 이해미;조위덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.279-282
    • /
    • 2022
  • 컴퓨터가 마이크 등의 소리 센서를 통해 얻은 음향학적 신호를 단어나 문장으로 변환시키는 기술인 음성 인식 기술과 인공지능 기술을 결합한 음성 대화 시스템에 대한 연구 진행 및 제품 출시가 활발하게 이루어지고 있다. 기존의 시스템을 사용하면서 날짜와 시간 외의 정보 추출 정도가 빈약하거나 자동 등록이 되지 않는 문제점을 확인하였다. 음성 인식 기술을 통해 얻은 텍스트에서 보다 많은 정보를 추출하고, 자동 등록 및 알림과 맛집 등 추가 정보 제공 시스템을 구축하는 것을 목표로 하였다.

A Review on Advanced Methodologies to Identify the Breast Cancer Classification using the Deep Learning Techniques

  • Bandaru, Satish Babu;Babu, G. Rama Mohan
    • International Journal of Computer Science & Network Security
    • /
    • 제22권4호
    • /
    • pp.420-426
    • /
    • 2022
  • Breast cancer is among the cancers that may be healed as the disease diagnosed at early times before it is distributed through all the areas of the body. The Automatic Analysis of Diagnostic Tests (AAT) is an automated assistance for physicians that can deliver reliable findings to analyze the critically endangered diseases. Deep learning, a family of machine learning methods, has grown at an astonishing pace in recent years. It is used to search and render diagnoses in fields from banking to medicine to machine learning. We attempt to create a deep learning algorithm that can reliably diagnose the breast cancer in the mammogram. We want the algorithm to identify it as cancer, or this image is not cancer, allowing use of a full testing dataset of either strong clinical annotations in training data or the cancer status only, in which a few images of either cancers or noncancer were annotated. Even with this technique, the photographs would be annotated with the condition; an optional portion of the annotated image will then act as the mark. The final stage of the suggested system doesn't need any based labels to be accessible during model training. Furthermore, the results of the review process suggest that deep learning approaches have surpassed the extent of the level of state-of-of-the-the-the-art in tumor identification, feature extraction, and classification. in these three ways, the paper explains why learning algorithms were applied: train the network from scratch, transplanting certain deep learning concepts and constraints into a network, and (another way) reducing the amount of parameters in the trained nets, are two functions that help expand the scope of the networks. Researchers in economically developing countries have applied deep learning imaging devices to cancer detection; on the other hand, cancer chances have gone through the roof in Africa. Convolutional Neural Network (CNN) is a sort of deep learning that can aid you with a variety of other activities, such as speech recognition, image recognition, and classification. To accomplish this goal in this article, we will use CNN to categorize and identify breast cancer photographs from the available databases from the US Centers for Disease Control and Prevention.

Deep neural network-hidden Markov model 하이브리드 구조의 모델을 사용한 사용자 정의 기동어 인식 시스템에 관한 연구 (A study on user defined spoken wake-up word recognition system using deep neural network-hidden Markov model hybrid model)

  • 윤기무;김우일
    • 한국음향학회지
    • /
    • 제39권2호
    • /
    • pp.131-136
    • /
    • 2020
  • 음성 인식기를 대기모드에서 동작 모드로 전환하기 위해 발화하는 짧은 단어를 기동어(Wake Up Word, WUW)라고 하며, 음성 인식기를 실제로 사용하는 사용자가 지정한 기동어를 사용자 정의 기동어라고 한다. 본 논문에서는 이러한 사용자 정의 기동어를 인식하기 위해 기존의 Gaussian Mixture Model-Hidden Markov Model(GMM-HMM) 기반의 시스템, Linear Discriminant Analysis(LDA)를 적용한 LDA-GMM-HMM 기반의 시스템과, LDA-GMM-HMM 모델에서 GMM을 Deep Neural Network(DNN)로 대체한 LDA-DNN-HMM 기반의 시스템을 제작하고 각 시스템의 사용자 정의 기동어 인식 성능 및 비기동어 거절 성능을 비교한다. 또한 기동어 인식기의 체감 성능을 향상시키고자 각 모델에 threshold를 적용하여 기동어 인식 실패율을 약 10 % 수준으로 감소 시킨 후에 비기동어(non-WUW)의 거절 실패율을 비교 평가한다. Threshold 적용시에 LDA-DNN-HMM 기반의 시스템의 경우 기동어 인식 실패율 9.84 % 수준에서 비기동어 거절 실패율이 0.0058 %의 인식 성능을 나타내어 LDA-GMM-HMM 시스템 보다 약 4.82배 향상된 비기동어 거절 성능을 나타낸다. 이러한 결과는 본 논문에서 제작한 LDA-DNN-HMM 모델이 사용자 정의 기동어 인식 시스템을 구축하는데 효과적임을 입증한다.

영어 감정발화와 중립발화 간의 운율거리를 이용한 감정발화 분석 (An analysis of emotional English utterances using the prosodic distance between emotional and neutral utterances)

  • 이서배
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.25-32
    • /
    • 2020
  • 본 연구는 영어 발화에 나타난 7가지 감정들(calm, happy, sad, angry, fearful, disgust, surprised)을 분석하고자 감정발화(672개)와 감정중립 발화(48개)와의 운율적 거리를 측정하였다. 이를 위해 외국어 발음평가에 사용되었던 방법을 적용하여 음의 높낮이(Hz), 음의 강도(dB), 음의 길이(sec)와 같은 운율의 3요소를 유클리디언 거리로 계산하였는데 기존연구에서 더 나아가 유클리디언 거리계산 정규화 방법, z-score 방법 그리고 z-score 정규화 방법을 추가해 총 4가지 그룹(sqrF0, sqrINT, sqrDUR; norsqrF0, norsqrINT, norsqrDUR; sqrzF0, sqrzINT, sqrzDUR; norsqrzF0, norsqrzINT, norsqrzDUR)의 방법을 분석에 사용하였다. 그 결과 인지적 측면과 음향적 측면의 분석 모두에서 유클리디언 운율거리를 정규화한 norsqrF0, norsqrINT, norsqrDUR이 일관성 있게 가장 효과적인 측정방법으로 나타났다. 유클리디언 거리계산 정규화 방법으로 감정발화와 감정중립 발화를 비교했을 때, 전반적으로 감정에 따른 운율의 변화는 음의 높낮이(Hz)가 가장 크고 그다음 음의 길이(sec), 그리고 음의 강도(dB)가 가장 작게 나타났다. Tukey 사후검증 결과 norsqrF0의 경우 calm

원거리 음성 인식을 위한 효율적인 에코제거 시스템 (Efficient Acoustic Echo Cancellation System for Distant-Talking Automatic Speech Recognition)

  • 김기범;김상윤;이우정;권민석;고병섭
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 2014년도 추계학술대회 논문집
    • /
    • pp.150-155
    • /
    • 2014
  • 본 논문에서는, 원거리 음성인식을 위한 서브밴드 필터링 기반의 빠르고 효율적인 에코제거 시스템을 제안한다. 제안하는 에코제거 시스템은 우선 채널간 유사도 (correlation) 가 높을 경우 적응필터가 오작동하는 것을 방지하기 위해 spatial decorrelation 을 적용하게 된다. 그리고 tree 형태를 가지는 IIR filterbank 기반의 subband 구조를 채택함으로써, 적은 차수로도 효과적인 analysis, synthesis 필터링을 수행할 수 있도록 한다. 이 과정에서 불가피하게 발생하는 서브 밴드간 spectral aliasing은 notch filter를 적용해 해결할 수 있다. 또한 적응 필터로는 improved proportionate normalized least-mean-square (IP-NLMS) 알고리즘을 사용해 수렴속도 및 에코제거 성능에서 우수함을 확인하였다. 마지막으로 decision-directed estimation 기반의 residual echo suppressor를 적용해 잔여 에코를 제거하게 된다. 본 논문에서는 각 단계를 구성하게 된 이론적인 배경을 소개하고, 실제 에코가 존재하는 환경에서 ERLE, 원거리 음성 인식률, computational complexity를 통해 제안하는 에코제거 시스템의 효과를 입증하도록 한다.

  • PDF

내전형 연축성 발성장애 감별진단 문항 개발과 임상적 유용성 평가 (Development of Differential Diagnosis Scale Items for Adductor Spasmodic Dysphonia and Evaluation of Clinical Availability)

  • 조재경;최성희;이상혁;진성민
    • 대한후두음성언어의학회지
    • /
    • 제30권2호
    • /
    • pp.112-117
    • /
    • 2019
  • Background and Objectives The purpose of this study was to develop the differential diagnosis scale containing items from adductor spasmodic dysphonia (ADSD) to muscle tension dysphonia (MTD) and the determine clinical utility of newly developed items. Materials and Method The four parts of pitch, redirected phonation, automatic speech and voiced sound were selected for analyzing the characteristics of ADSD in the literature. One part of tense voiceless sound was developed according to the Korean manner of articulation. The content validity was evaluated based on 5 scales (1-5 point) analysis from 30 experts. One hundred patients (50 ADSD and 50 MTD) were recorded in reading a sentence and sustained phonation. The two speech language pathologist evaluated recorded voices through a blind test using 4 scales (0-3 point) for newly developed items. Results As a result of verifying the content validity of items with experts, it was identified that the differentiated items were valid with 4.2 out of 5. Through the differential diagnosis between two groups according to the items, the correlation between sub-domains and total scores was shown as higher than 0.710. The result of analyzing the reliability on each diagnosis domain was 0.840-0.893, which showed the internal consistency of items was great. Newly developed five parts of ADSD were significantly higher than those of MTD with strong correlation (p<0.01). The reliability among the evaluators was analyzed as high with 0.892. Conclusion In this study, the differential diagnosis scale of ADSD was revealed as having validity and reliability. It is considered that it will be useful for differentiating ADSD and MTD in the clinical field.

음성인식과 자연어 처리 딥러닝을 통한 전자의무기록자동 생성 시스템 (Automatic Electronic Medical Record Generation System using Speech Recognition and Natural Language Processing Deep Learning)

  • 손현곤;류기환
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.731-736
    • /
    • 2023
  • 최근 의료 현장은 전자의무기록, 전자건강기록 등의 의료 기록을 전산화하여 저장하고 관리하는 시스템이 의무적으로 적용되거나 전체 의료 현장에 보급되어 환자 개개인의 과거 의료 기록을 추가적인 의료 행위에 활용하고 있다. 그러나 일반적인 의료 문진 및 상담 간 발생하는 의료진과 환자 간의 대화는 별도로 기록되거나 저장되지 않고 있어 추가적인 환자의 주요 정보는 효율적으로 활용되지 못하고 있다. 이에 따라, 의료 문진 현장에서 발생하는 의료진과 환자와의 대화를 저장하고 이를 텍스트 데이터로 변환하여 주요한 문진 내용만 자동으로 추출, 요약하여 정보화하는 음성인식과 자연어 처리 딥러닝을 통한 의료상담 요약문을 자동으로 생성하는 전자의무기록 시스템을 제안한다. 본 시스템은 의료 종사자와 환자의 의료 상담 내용의 인식과정을 거쳐서 텍스트 정보를 획득한다. 이렇게 획득된 텍스트를 복수의 문장으로 구분하고, 생성된 문장에 포함된 복수 키워드의 중요도를 산출한다. 산출된 중요도를 기반으로 복수의 문장에 순위를 매기고, 순위를 기반으로 문장들을 요약하여 최종 전자의무기록 데이터를 생성한다. 제안하는 시스템 성능은 정량적 분석을 통하여 우수함을 확인한다.