• Title/Summary/Keyword: Human speech

Search Result 572, Processing Time 0.023 seconds

A Study on the Noise-Level Measurement Using the Energy and Relation of Closed Pitch (에너지와 인근 피치간에 유사도를 이용한 잡음레벨 검출에 관한 연구)

  • Kang, In-Gyu;Lee, Ki-Young;Bae, Myung-Jin
    • Speech Sciences
    • /
    • v.11 no.3
    • /
    • pp.157-164
    • /
    • 2004
  • Human has average pitch-level when speak naturally. That is 'Habitual pitch level'. However, if noise added at speech, the pitch-wave is changed irregularly. We can estimate noise level of speech by using this point. This paper calculates energy level of the input speech, pitch period from of above limited energy level by NAMDF (Normalized Average Magnitude Difference Function) method, after cut each frame by pitch period unit, and propose a method that estimate noise level through closed pitch of input speech.

  • PDF

Development of English Speech Recognizer for Pronunciation Evaluation (발성 평가를 위한 영어 음성인식기의 개발)

  • Park Jeon Gue;Lee June-Jo;Kim Young-Chang;Hur Yongsoo;Rhee Seok-Chae;Lee Jong-Hyun
    • Proceedings of the KSPS conference
    • /
    • 2003.10a
    • /
    • pp.37-40
    • /
    • 2003
  • This paper presents the preliminary result of the automatic pronunciation scoring for non-native English speakers, and shows the developmental process for an English speech recognizer for the educational and evaluational purposes. The proposed speech recognizer, featuring two refined acoustic model sets, implements the noise-robust data compensation, phonetic alignment, highly reliable rejection, key-word and phrase detection, easy-to-use language modeling toolkit, etc., The developed speech recognizer achieves 0.725 as the average correlation between the human raters and the machine scores, based on the speech database YOUTH for training and K-SEC for test.

  • PDF

Development of an Autonomous Mobile Robot with the Function of Teaching a Moving Path by Speech and Avoiding a Collision (음성에 의한 경로교시 기능과 충돌회피 기능을 갖춘 자율이동로봇의 개발)

  • Park, Min-Gyu;Lee, Min-Cheol;Lee, Suk
    • Journal of the Korean Society for Precision Engineering
    • /
    • v.17 no.8
    • /
    • pp.189-197
    • /
    • 2000
  • This paper addresses that the autonomous mobile robot with the function of teaching a moving path by speech and avoiding a collision is developed. The use of human speech as the teaching method provides more convenient user-interface for a mobile robot. In speech recognition system a speech recognition algorithm using neural is proposed to recognize Korean syllable. For the safe navigation the autonomous mobile robot needs abilities to recognize a surrounding environment and to avoid collision with obstacles. To obtain the distance from the mobile robot to the various obstacles in surrounding environment ultrasonic sensors is used. By the navigation algorithm the robot forecasts the collision possibility with obstacles and modifies a moving path if it detects a dangerous obstacle.

  • PDF

Breath and Memory in Speech based on Quantitative Analysis of Breath Groups and Pause Units in Korean (언어 수행에서의 호흡과 기억 -호흡 단위와 휴지 단위의 양적 분석 결과를 바탕으로-)

  • Shin, Jiyoung
    • Korean Linguistics
    • /
    • v.79
    • /
    • pp.91-116
    • /
    • 2018
  • This paper aims at proposing issues of breath and memory in speech based on the quantitative analysis of breath groups and pause units in Korean. As a human being, we have two kinds of limitations on continuing speech; breath and memory. The prosodic structure and temporal structure of spontaneous speech data from six speakers were closely examined. One of the main findings of the present study is that the prosodic structure and temporal structure of Korean appears to reflect the breath and memory problems in speech.

BackTranScription (BTS)-based Jeju Automatic Speech Recognition Post-processor Research (BackTranScription (BTS)기반 제주어 음성인식 후처리기 연구)

  • Park, Chanjun;Seo, Jaehyung;Lee, Seolhwa;Moon, Heonseok;Eo, Sugyeong;Jang, Yoonna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.178-185
    • /
    • 2021
  • Sequence to sequence(S2S) 기반 음성인식 후처리기를 훈련하기 위한 학습 데이터 구축을 위해 (음성인식 결과(speech recognition sentence), 전사자(phonetic transcriptor)가 수정한 문장(Human post edit sentence))의 병렬 말뭉치가 필요하며 이를 위해 많은 노동력(human-labor)이 소요된다. BackTranScription (BTS)이란 기존 S2S기반 음성인식 후처리기의 한계점을 완화하기 위해 제안된 데이터 구축 방법론이며 Text-To-Speech(TTS)와 Speech-To-Text(STT) 기술을 결합하여 pseudo 병렬 말뭉치를 생성하는 기술을 의미한다. 해당 방법론은 전사자의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축 할 수 있다. 본 논문은 BTS를 바탕으로 제주어 도메인에 특화된 음성인식 후처리기의 성능을 향상시키기 위하여 모델 수정(model modification)을 통해 성능을 향상시키는 모델 중심 접근(model-centric) 방법론과 모델 수정 없이 데이터의 양과 질을 고려하여 성능을 향상시키는 데이터 중심 접근(data-centric) 방법론에 대한 비교 분석을 진행하였다. 실험결과 모델 교정없이 데이터 중심 접근 방법론을 적용하는 것이 성능 향상에 더 도움이 됨을 알 수 있었으며 모델 중심 접근 방법론의 부정적 측면 (negative result)에 대해서 분석을 진행하였다.

  • PDF

Implementation to phonological alteration module for a korean text-to-speech (한국어 Text-to-Speech 변환을 위한 음운 변동 시스템에 관한 연구)

  • Park, Su-Hyun;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.35-38
    • /
    • 1995
  • Text-to-speech 시스템은 텍스트를 입력으로 받아 텍스트와 일치하는 음성을 출력하는 시스템으로, 인간이 자신의 모국어로 텍스트를 읽는 것과 비슷한 수준의 음성을 출력하는 데 목적이 있다. 한국어의 각 단어들은 한 단어 내에 있는 형태소들 사이에 음운 변동 현상을 일으켜 쓰여진 형태와 다르게 발음된다. 그러므로 한국어 텍스트를 자연스럽게 발음하기 위해서는 음운 변동 현상을 효율적으로 처리할 수 있어야 한다. 한국어에서 음운 변동을 일으키는 규칙은 여러 가지이고, 정확한 발음을 위해서는 이러한 규칙들이 차례대로 적용되어져야 한다. 따라서 본 논문에서는 이러한 한국어의 발음상의 특성을 고려하여 two-level 모델에 기반한 음운 변동 시스템을 구현한다.

  • PDF

Enhancement of English-to-Korean Translation Quality by Korean Style Generation Patterns (한국어 스타일 생성 패턴에 의한 영한 번역 품질 개선)

  • Choi, Sung-Kwon;Hong, Mun-Pyo;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.235-240
    • /
    • 2003
  • 본 논문에서는 영한 자동번역 시스템에 한국어 스타일 생성 패턴을 적용함으로써 영한 번역 품질을 향상하고자 하는 것이 목표이다. 이러한 목표는 기존의 원문에 대한 번역문의 정보 전달 정확성을 측정하는 1차원적인 번역률 평가 방법에서 벗어나 번역문의 정보 정확성뿐만 아니라 자연스러움도 평가할 수 있는 2차원적인 번역률 평가방법으로써 정확성과 스타일을 동시에 평가하는 방법을 제안한다. 2차원적인 번역률 평가 방법에 따라 스타일 생성 패턴이 적용되기 전과 적용된 후의 평가 결과는 100문자의 샘플문을 대상으로 하였을 때, 스타일 생성 패턴에 의해서만 0.5%의 번역률이 향상되는 것을 관찰하였다. 본 논문에서의 스타일 생성 패턴은 단순히 언어간 스타일 차이만 적용한 것이며 향후에는 신문, 일기예보, 기술 매뉴얼과 같은 특정 그룹을 위한 스타일 생성 패턴을 적용할 계획이다.

  • PDF

Part-of-speech Tagged Corpus Construction for ETRI Standardization (표준안에 따른 품사 부착 말뭉치 구축)

  • Lee, Hyun-A;Lee, Won-Il;Lim, Sun-Suk;Her, Eun-Kyung;Lee, Jae-Sung;Cha, Keon-Hoe;Park, Jay-Duke
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.40-43
    • /
    • 1999
  • 본 논문에서는 한국전자통신 연구원 지식정보 연구부에서 제안하는 자연어 정보처리 기술 표준안을 적용하여 품사 부착 말뭉치를 구축하는 과정에서 논란의 여지가 있었던 대표적인 사항들에 대해 기술한다. 아울러 ETRI 표준안이 도출된 원칙과 취지 등을 품사 부착 말뭉치 구축과 관련하여 설명하고, 현재의 ETRI 표준안이 앞으로 어떤 식으로 개선되어야 할 지에 대해 제안한다.

  • PDF

Statistical Korean Spoken Language Understanding System for Dialog Processing (대화처리를 위한 통계기반 한국어 음성언어이해 시스템)

  • Roh, Yoon-Hyung;Yang, Seong-II;Kim, Young-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.215-218
    • /
    • 2012
  • 본 논문에서는 한국어 대화 처리를 위한 통계기반 음성언어이해 시스템에 대해 기술한다. 음성언어이해시스템은 대화처리에서 음성 인식된 문장으로부터 사용자의 의도를 인식하여 의미표현으로 표현하는 기능을 담당한다. 한국어의 특성을 반영한 실용적인 음성언어이해 시스템을 위해서 강건성과 적용성, 확장성 등이 요구된다. 이를 위해 본 시스템은 음성언어의 특성상 구조분석을 하지 않고, 마이닝 기법을 이용하여 사용자 의도 표현을 생성하는 방식을 취하고 있다. 또한 한국어에서 나타나는 특징들에 대한 처리를 위해 자질 추가 및 점규화 처리 등을 수행하였다. 정보서비스용 대화처리 시스템을 대상으로 개발되고 있고, 차량 정보서비스용 학습 코퍼스를 대상으로 실험을 하여 문장단위 정확률로 약 89%의 성능을 보이고 있다.

  • PDF

CNN Based Speech-act Classification Using Sentence Types and Modalities (문장 유형과 양태 정보를 이용한 합성곱 신경망 기반의 대화체 발화 화행 분석)

  • Park, Yongsin;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.642-644
    • /
    • 2018
  • 화행(Speech-act)이란 어떤 목적을 달성하기 위해 발화를 통해 이루어지는 화자의 행위를 뜻하며, 화행 분석(Speech-act analysis)이란 주어진 발화의 화행을 결정하는 것을 뜻한다. 문장 유형과 양태는 화행의 일종으로, 문장 유형의 경우 화자의 기본적인 발화 의도에 따라 평서문, 명령문, 청유문, 의문문, 감탄문의 다섯 가지 유형으로 나눌 수 있고, 양태는 문장이 표현하는 명제나, 명제가 기술하는 상황에 대해서 화자가 갖는 의견이나 태도를 말한다. 본 논문에서는 종결어미와 보조용언으로부터 비교적 간단하게 추출 가능한 문장 유형과 양태 정보를 활용하여 대화체 발화문의 화행 분석 성능을 높이는 방법을 보인다. 본 논문에서 제안하는 모델은 합성곱 신경망(CNN)을 사용한 기본 모델에 비해 0.52%p 성능 향상을 보였다.

  • PDF