• Title/Summary/Keyword: Speech detection

Search Result 471, Processing Time 0.025 seconds

Error detection and correction in speech recognition by using lexico-semantic patterns (어휘의미패턴을 이용한 음성인식 오류 검출 및 수정)

  • Yoon, Yong-Wook;Jung, Han-Min;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.62-68
    • /
    • 2002
  • 음성인식기를 거친 결과는 오류를 포함할 수 있으며 이를 다른 자연어처리 응용에 이용하기 위해서는 오류의 검출과 수정과정이 필수적이다. 음성인식 오류 후처리는 그 성격상 문자인식 후처리와는 다른 접근 방법을 필요로 하며, 본 인구에서는 잡음환경을 제외한 특정 도메인에 국한된 음성발화 상황에 초점을 맞추고자 한다. 후처리 방법에 있어서는 통계적 접근과 패턴매칭에 의한 접근 방법이 있으며, 본 연구에서는 특정 도메인에서 사용되는 어휘의 의미정보를 포함하는 패턴을 자동으로 생성시켜 이에 의한 오류 검출 및 수정 방안을 제안한다. 본 실험에 사용된 도메인은 차량정보센터용 음성정보 제공 시나리오이며 상용 음성인식기를 후처리를 위한 개발 툴로 사용하였다.

  • PDF

A study on pitch detection for RUI emotion classification based on voice (RUI용 음성신호기반의 감정분류를 위한 피치검출기에 관한 연구)

  • Byun, Sung-Woo;Lee, Seok-Pil
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.421-424
    • /
    • 2015
  • 컴퓨터 기술이 발전하고 컴퓨터 사용이 일반화 되면서 휴먼 인터페이스에 대한 많은 연구들이 진행되어 왔다. 휴먼 인터페이스에서 감정을 인식하는 기술은 컴퓨터와 사람간의 상호작용을 위해 중요한 기술이다. 감정을 인식하는 기술에서 분류 정확도를 높이기 위해 특징벡터를 정확하게 추출하는 것이 중요하다. 본 논문에서는 정확한 피치검출을 위하여 음성신호에서 음성 구간과 비 음성구간을 추출하였으며, Speech Processing 분야에서 사용되는 전 처리 기법인 저역 필터와 유성음 추출 기법, 후처리 기법인 Smoothing 기법을 사용하여 피치 검출을 수행하고 비교하였다. 그 결과, 전 처리 기법인 유성음 추출 기법과 후처리 기법인 Smoothing 기법은 피치 검출의 정확도를 높였고, 저역 필터를 사용한 경우는 피치 검출의 정확도가 떨어트렸다.

  • PDF

An Applicability of Teager Energy Operator and Energy Separation Algorithm for Waveform Distortion Analysis : Harmonics, Inter-harmonics and Frequency Variation

  • Cho, Soo-Hwan;Hur, Jin;Chung, Il-Yop
    • Journal of Electrical Engineering and Technology
    • /
    • v.9 no.4
    • /
    • pp.1210-1216
    • /
    • 2014
  • This paper deals with an application of Teager Energy Operator (TEO) and Energy Separation Algorithm(ESA) to detect and determine various voltage waveform distortions like harmonics, inter-harmonics and frequency variation. Because the TEO and DESA algorithm was initially proposed for speech or communication analysis, its applications are limited to some types of waveform in the power quality analysis area. For example, an undistorted voltage signal is similar with a pure sinusoid. A voltage fluctuation is very similar with an amplitude-modulated signal, from the viewpoint of signal theory. And a continuous frequency variation is similar with a frequency-modulated signal, which is also known as a chirp signal. This paper is written to show that the TEO and DESA algorithm can be used for detecting occurrences of the representative waveform distortions and determining their instantaneous information of amplitude and frequency.

The Effect of Focus Representation and Intonational Manipulation in Phoneme Detecting (초점 실현과 운율 조작에 대한 음소지각)

  • Kim, Hee-Seung;Shin, Ji-Young;Kim, Kee-Ho
    • MALSORI
    • /
    • no.60
    • /
    • pp.97-108
    • /
    • 2006
  • The purpose of this study is to observe how Korean listeners detect a target phoneme with 'Focus' represented by prosodic prominence and question-induced semantic emphasis, and with intonational manipulation. According to the automated phoneme detection task using E-Prime, the Korean listeners detected phoneme targets more rapidly when the target-bearing words were in prominence position and in question-induced position. However, the presence of question-induced semantic emphasis reduced the prominence effect, so two effects interacted: when question-induced emphasis were primarily given as a cue, prominence which was given as secondary cue affected less to fine the new information. Besides, the intonation with manipulation was responded to faster than without manipulation.

  • PDF

Abnormal Detection of Railway Point-Machine Under Noise Conditions (잡음 환경에서 선로 전환기 이상 상황 탐지)

  • Choi, Yongju;Lee, Jonguk;Park, Daihee;Chung, Yongwha
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.394-397
    • /
    • 2019
  • 센서 및 정보 통신 기술의 발전은 산업 현장에서 취득한 정보를 기반으로 다양한 연구를 수행할 수 있는 토대가 되었다. 본 연구에서는 철도의 진로 방향을 전환하는 선로 전환기 주변에 설치한 소리 센서에서 수집한 소리를 기반으로 선로 전환기의 이상 상황을 탐지하고자 한다. 이와 같은 소리 데이터 기반의 이상 상황 탐지 시스템을 실제 산업 현장에서 성공적으로 운용되기 위해서는 소리 취득 시 발생하는 다양한 잡음 환경에서도 이상 상황을 식별할 수 있는 강인함이 보장되어야 한다. 본 논문에서는 소리 음질을 향상시키기 위하여 SEGAN(Speech Enhancement Generative Adversarial Network)을 활용하며, CNN(Convolutional Neural Network)을 기반으로 선로 전환기의 이상 상황을 식별하는 시스템을 제안한다. 수집된 소리 데이터를 기반으로 제안한 시스템을 실험적으로 검증한 바 잡음에 강인한 성능을 확인하였다.

Towards Effective Entity Extraction of Scientific Documents using Discriminative Linguistic Features

  • Hwang, Sangwon;Hong, Jang-Eui;Nam, Young-Kwang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • v.13 no.3
    • /
    • pp.1639-1658
    • /
    • 2019
  • Named entity recognition (NER) is an important technique for improving the performance of data mining and big data analytics. In previous studies, NER systems have been employed to identify named-entities using statistical methods based on prior information or linguistic features; however, such methods are limited in that they are unable to recognize unregistered or unlearned objects. In this paper, a method is proposed to extract objects, such as technologies, theories, or person names, by analyzing the collocation relationship between certain words that simultaneously appear around specific words in the abstracts of academic journals. The method is executed as follows. First, the data is preprocessed using data cleaning and sentence detection to separate the text into single sentences. Then, part-of-speech (POS) tagging is applied to the individual sentences. After this, the appearance and collocation information of the other POS tags is analyzed, excluding the entity candidates, such as nouns. Finally, an entity recognition model is created based on analyzing and classifying the information in the sentences.

Hate Speech Detection in Chatbot Data Using KoELECTRA (KoELECTRA를 활용한 챗봇 데이터의 혐오 표현 탐지)

  • Shin, Mingi;Chin, Hyojin;Song, Hyeonho;Choi, Jeonghoi;Lim, Hyeonseung;Cha, Meeyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.518-523
    • /
    • 2021
  • 챗봇과 같은 대화형 에이전트 사용이 증가하면서 채팅에서의 혐오 표현 사용도 더불어 증가하고 있다. 혐오 표현을 자동으로 탐지하려는 노력은 다양하게 시도되어 왔으나, 챗봇 데이터를 대상으로 한 혐오 표현 탐지 연구는 여전히 부족한 실정이다. 이 연구는 혐오 표현을 포함한 챗봇-사용자 대화 데이터 35만 개에 한국어 말뭉치로 학습된 KoELETRA 기반 혐오 탐지 모델을 적용하여, 챗봇-사람 데이터셋에서의 혐오 표현 탐지의 성능과 한계점을 검토하였다. KoELECTRA 혐오 표현 분류 모델은 챗봇 데이터셋에 대해 가중 평균 F1-score 0.66의 성능을 보였으며, 오탈자에 대한 취약성, 맥락 미반영으로 인한 편향 강화, 가용한 데이터의 정확도 문제가 주요한 한계로 포착되었다. 이 연구에서는 실험 결과에 기반해 성능 향상을 위한 방향성을 제시한다.

  • PDF

Speech data preprocessing for detection of depression based on 2D-CNN (2D-CNN 기반 우울증 감지를 위한 음성데이터 전처리)

  • Park, JunHee;Moon, NamMee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.933-934
    • /
    • 2021
  • 세계보건기구(WHO)에 따르면 전 세계적으로 우울증 장애를 앓고 있는 사람이 3 억 2,200 만명에 달하며, 매년마다 빠르게 늘어나는 환자로 인해 전세계적으로 문제가 되고 있다. 이에 따라 우울증을 감지하기 위한 시스템에 대한 연구가 진행되어지고 있다. 본 논문에서는 우울증 감지에 있어 높은 정확도를 얻을 수 있는 최적의 음성 세그먼트 길이와 멜 밴드의 수를 확인하고자 한다. DAIC-WOZ(Distress Analysis Interview Corpus Wizard of Oz) 데이터셋을 기반으로 2D-CNN(2Dimension - Convolutional Neural Network)를 사용하여 음성 세그먼트 길이와 멜 밴드의 수에 변화를 주며 테스트를 진행하였다. 최종적으로 12 초 길이의 음성 세그먼트와 512 개의 멜 밴드에서 86.3%의 정확도로 최적의 결과를 확인하였다.

Analyzing Korean hate-speech detection using KcBERT (KcBERT를 활용한 한국어 악플 탐지 분석 및 개선방안 연구)

  • Seyoung Jeong;Byeongjin Kim;Daeshik Kim;Wooyoung Kim;Taeyong Kim;Hyunsoo Yoon;Wooju Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.577-580
    • /
    • 2023
  • 악성댓글은 인터넷상에서 정서적, 심리적 피해를 주는 문제로 인식되어 왔다. 본 연구는 한국어 악성댓글 탐지 분석을 위해 KcBERT 및 다양한 모델을 활용하여 성능을 비교하였다. 또한, 공개된 한국어 악성댓글 데이터가 부족한 것을 해소하기 위해 기계 번역을 이용하고, 다국어 언어 모델(Multilingual Model) mBERT를 활용하였다. 다양한 실험을 통해 KcBERT를 미세 조정한 모델의 정확도 및 F1-score가 타 모델에 비해 의미 있는 결과임을 확인할 수 있었다.

  • PDF

RoI Detection Method for Improving Lipreading Reading in Speech Recognition Systems (음성인식 시스템의 입 모양 인식개선을 위한 관심영역 추출 방법)

  • Jae-Hyeok Han;Mi-Hye Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.299-302
    • /
    • 2023
  • 입 모양 인식은 음성인식의 중요한 부분 중 하나로 이를 개선하기위한 다양한 연구가 진행되어 왔다. 기존의 연구에서는 주로 입술주변 영역을 관찰하고 인식하는데 초점을 두었으나, 본 논문은 음성인식 시스템에서 기존의 입술영역과 함께 입술, 턱, 뺨 등 다른 관심 영역을 고려하여 음성인식 시스템의 입모양 인식 성능을 비교하였다. 입 모양 인식의 관심 영역을 자동으로 검출하기 위해 객체 탐지 인공신경망을 사용하며, 이를 통해 다양한 관심영역을 실험하였다. 실험 결과 입술영역만 포함하는 ROI 에 대한 결과가 기존의 93.92%의 평균 인식률보다 높은 97.36%로 가장 높은 성능을 나타내었다.