• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.025초

음의 유사도 비율 누적 방법을 이용한 발화검증 연구 (A Study on Utterance Verification Using Accumulation of Negative Log-likelihood Ratio)

  • 한명희;이호준;김순협
    • 한국음향학회지
    • /
    • 제22권3호
    • /
    • pp.194-201
    • /
    • 2003
  • 음성인식에서 신뢰도 측정이란 인식된 결과에 대한 신뢰 여부를 결정하는 것이다. 신뢰도는 프레임을 음소 및 단어 수준으로 통합하여 측정된다. 단어 인식의 경우, 신뢰도를 이용하여 인식 결과와 미등록 어휘를 검증한다. 따라서 이러한 후처리를 통해 이를 인식 결과로 승인하지 않음으로써 성능을 높일 수 있다. 본 논문에서는 기존의 신뢰도 측정 방법인 로그 유사도 비를 수정하여 신뢰도를 측정하였다. 제안된 방법은 프레임 수준에서 음소 수준으로 신뢰도를 통합할 때 로그 유사도 비가 음수인 것만을 누적하는 것이다. 단어 인식기의 인식 결과에 대한 검증 성능을 기존의 방법과 비교한 결과, CAR (Correct Acceptance Ratio)이 90%인 지점에서 FAR (False Acceptance Ratio)을 미등록 어휘에 대해서는 약 3.49%, 오인식에 대해서는 15.25% 감소시킬 수 있었다

모국어와 외국어 어휘 산출 시 의미정보처리 과정의 차이 (Differential semantic processing in Korean and English Word Naming)

  • 허주영;구민모;남기춘
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2007년도 한국음성과학회 공동학술대회 발표논문집
    • /
    • pp.180-182
    • /
    • 2007
  • The present study was carried out to investigate how two languages are represented and processed for the late Korean-English bilinguals. To this end, we compared the naming times of Korean-English bilinguals on a series of the picture-word interference tasks. The entire experiment is divided into four parts, each of which required participants to name the pictures in Korean or in English with distractor words visually presented either in Korean or English. The distractor words were semantically related or unrelated to the picture. The results showed that, in different language conditions (L1 naming-L2 distractor, L2 naming - L1 distractor), there was only numerical difference between semantic related and unrelated condition. In same language conditions (L1 naming-L1 distractor, L2 naming-L2 distractor), however, significant semantic interference effect occurred. And, the interference effect was stronger in the L1 distractor condition than in the L2 distractor condition. These results suggest that the semantic processing of L1 and L2 for the late bilinguals are independent each other.

  • PDF

핵심개념 기반의 강건한 한국어 대화체 파싱 (A Robust Korean Spoken Language Parsing Based on Core Concept)

  • 노서영;정천영;서영훈
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2113-2123
    • /
    • 1999
  • 부분 자유어순 특성을 가지는 한국어를 CFG형태의 문법으로 기술했을 때 문법이 방대해지고 CFG형태의 문법을 파서가 이용할 때는 자연발화문의 특징인 간투어, 중복발화 등 때문에 불필요 성분을 따로 처리해야 하므로 파서의 부담이 커진다. 이러한 문제점을 해결하기 위해 본 논문에서는 발화문에서 중요한 의미를 가지는 요소를 '핵심개념'이라 정의하고 핵심개념만을 문법에 기술하여 문법이 방대해지는 것을 막고 문법에 기술된 핵심개념을 파싱요소로 선택함으로써 불필요 성분처리에 대한 파서의 부담을 줄였으며 이렇게 단순화된 문법만으로도 정확한 파싱결과를 내줄 수 있음으로 보인다. 실험결과 '여행안내'영역 자연발화문에 대해서 평균 98%이상의 올바른 파싱결과를 얻어낼 수 있었다.

  • PDF

에너지 연산자에 기초한 간단한 피치 추적 방법 (A Simple Pitch Tracking Algorithm based on the Energy Operator)

  • Tai-Ho Lee
    • 융합신호처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-5
    • /
    • 2004
  • 유성음의 피치주파수 궤적을 추정할 수 있는 새로운 방법을 제시하였다. 이 방법은 에너지연산자[1]를 두 번 적용하는데 기초하고 있다. Kaiser의 에너지연산자는 정현파의 진폭과 주파수 정보를 추출하는 기능을 가지고 있다. 변조모형에 의하면 유성음은 피치 신호로 변조된 포만트들의 합성으로 파악될 수 있으므로 이 파형의 진폭 포락선을 추출해서 피치 신호와 유사한 파형을 얻는다. 이 파형의 평균 주파수를 검출하여 피치 주파수를 구하는 것이다. 앞부분은 Gopalan의 접근법[9]과 마찬가지이나, 뒷부분의 LPC-스펙트럼 분석등의 과정 대신 또 한번 에너지 연산자를 적용하도록 하여 매우 단순화되고 온라인 적용이 가능한 알고리듬을 얻었다. 추정 결과는 거친 편이지만 온라인으로 피치 궤적의 일반적 스케치를 얻는데 유용할 것으로 기대된다.

  • PDF

STT를 활용한 근본적 말하기 습관 분석 및 개선 연구 (A Study on Analysis and Improvement of Basic Speech Habits Using STT)

  • 김다영;송민경;정수정;최서현;임성현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.424-427
    • /
    • 2017
  • 지금까지 사람들의 말하기 습관을 분석하는 것은 전문가나 다른 사람들의 피드백을 통해 이루어졌다. 이는 평가하는 사람에 따라 다른 결과가 나타날 수 있기 때문에 다소 객관성이 떨어지며 직접 대면이 요구되기 때문에 훈련할 수 있는 시간과 공간에 제약이 있었다. 또 지금까지의 말하기 훈련이라 함은 면접 스피치나 발표 스피치 등 특정 목적을 가지고 진행되었기 때문에 말하기에 있어서의 통합적인 훈련을 받기 어려웠다. 본 연구에서는 가장 기초적인 말하기 습관에 초점을 맞추고 말하기 능력을 '어휘력', '계속성', '발음', '속도'라는 4개의 영역으로 나누어 각 영역을 분석하는 알고리즘을 제시한다. 이 알고리즘을 활용한다면 모두 같은 메커니즘을 통해 분석이 이루어지기 때문에 객관성을 보장할 수 있으며 어플리케이션을 활용해 시간과 공간의 제약을 받지 않고 말하기 습관 개선을 위한 훈련을 할 수 있을 것이다.

이미지 분석과 딥 러닝을 통한 영유아 위험물 탐지 (Detection of Dangerous Things to Infants through Image Analysis and Deep Learning)

  • 김휘준;박길섭;서영학;김경섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.845-848
    • /
    • 2017
  • 본 논문은 이미지 탐지 모델인 Faster R-CNN을 통해 영유아가 존재하는 어린이 집, 공원, 놀이터, 거실 등의 2D 이미지를 읽어 영유아에게 위험이 되는 요소를 인식해 위험상황을 감지하는 시스템을 구현하였다. 실생활에서 쉽게 구할 수 있는 데이터를 바탕으로 탐지 모델을 구현 했으며 현재 머신 러닝 분야가 음성인식과 행위데이터를 기반으로 상용화 되어 있는 반면 본 모델은 이미지를 데이터로 한 탐지 모델이 다양한 서비스 분야에서 활용 될 수 있음을 보여준다.

An Adaptive Utterance Verification Framework Using Minimum Verification Error Training

  • Shin, Sung-Hwan;Jung, Ho-Young;Juang, Biing-Hwang
    • ETRI Journal
    • /
    • 제33권3호
    • /
    • pp.423-433
    • /
    • 2011
  • This paper introduces an adaptive and integrated utterance verification (UV) framework using minimum verification error (MVE) training as a new set of solutions suitable for real applications. UV is traditionally considered an add-on procedure to automatic speech recognition (ASR) and thus treated separately from the ASR system model design. This traditional two-stage approach often fails to cope with a wide range of variations, such as a new speaker or a new environment which is not matched with the original speaker population or the original acoustic environment that the ASR system is trained on. In this paper, we propose an integrated solution to enhance the overall UV system performance in such real applications. The integration is accomplished by adapting and merging the target model for UV with the acoustic model for ASR based on the common MVE principle at each iteration in the recognition stage. The proposed iterative procedure for UV model adaptation also involves revision of the data segmentation and the decoded hypotheses. Under this new framework, remarkable enhancement in not only recognition performance, but also verification performance has been obtained.

Sound System Analysis for Health Smart Home

  • CASTELLI Eric;ISTRATE Dan;NGUYEN Cong-Phuong
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.237-243
    • /
    • 2004
  • A multichannel smart sound sensor capable to detect and identify sound events in noisy conditions is presented in this paper. Sound information extraction is a complex task and the main difficulty consists is the extraction of high­level information from an one-dimensional signal. The input of smart sound sensor is composed of data collected by 5 microphones and its output data is sent through a network. For a real time working purpose, the sound analysis is divided in three steps: sound event detection for each sound channel, fusion between simultaneously events and sound identification. The event detection module find impulsive signals in the noise and extracts them from the signal flow. Our smart sensor must be capable to identify impulsive signals but also speech presence too, in a noisy environment. The classification module is launched in a parallel task on the channel chosen by data fusion process. It looks to identify the event sound between seven predefined sound classes and uses a Gaussian Mixture Model (GMM) method. Mel Frequency Cepstral Coefficients are used in combination with new ones like zero crossing rate, centroid and roll-off point. This smart sound sensor is a part of a medical telemonitoring project with the aim of detecting serious accidents.

  • PDF

회의실의 명료성(STI) 향상을 위한 오디오신호 처리 및 시스템 설계 (Audio Signal Processing and System Design for improved intelligibility in Conference Room)

  • 강철용;이석주;조광연;이선희
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권2호
    • /
    • pp.225-232
    • /
    • 2017
  • 최근에 오디오 신호의 디지털 전송기술의 발전 및 디지털 전송기술을 이용한 오디오 네트워크 장비들의 출시가 이루어지고 있다. 이에 따라 음향시스템의 설계 및 시공에 있어서도 오디오 네트워크 기술 및 장비의 적용이 적극적으로 이루어지고 있다. 회의실이라는 공간은 다수의 참가자가 상호의견교환 및 의사전달을 하는 공간으로, 발언내용이 참석자에게 잘 전달되어야 한다. 마이크 및 스피커 등의 전기음향 장치를 이용하는 것 만 아니라 오디오 네트워크를 이용한 사례를 통해 회의실의 명료도 향상을 개선하고 실제 사례를 통해 오디오 네트워크를 이용한 음향시스템 설계의 적용과 향후 발전방향을 전망한다.

확산필터뱅크를 전처리기로 사용한 한국어 단모음인식 (The Recognition of Korean Single vowels by Use of the Diffusion Filter Bank as a Pre-processor)

  • 허만탁;김재창
    • 한국음향학회지
    • /
    • 제16권1호
    • /
    • pp.81-87
    • /
    • 1997
  • 본 논문에서는 스펙트럼 포락선을 이용하여 음성을 인식하기 위한 새로운 전처리 방법을 제안한다. 이는 확산필터뱅크를 사용하여 스펙트럼 포락선을 추출하는 새로운 방법이다. 확산필터뱅크의 분석대역을 몇 개의 작은 대역으로 나눔으로써 확산회수를 줄였으며 차분회수를 늘임으로써 선택도를 높였다. 이 결과, 총처리시간을 대폭 줄였으며 스펙트럼의 변별력을 증가시켰다. 컴퓨터 시뮬레이션을 통하여 간단한 인식 알고리듬으로 실제 음성의 단모음 인식 실험을 해본 결과 3%의 인식율을 얻음으로써 확산필터뱅크가 많은 주파수 성분을 가진 음성의 주파수 분석을 이용하는 음성인식에 대단히 유효하다는 것을 확인하였다.

  • PDF