• 제목/요약/키워드: Voice Recognition Technique

검색결과 43건 처리시간 0.022초

독서장애인 전자책을 위한 음성인식을 이용한 어노테이션 브라우징 기법 (An Annotation Browsing Technique in e-book for Reading-disabled People Using Voice Recognition)

  • 박주현;이종우;임순범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.403-405
    • /
    • 2012
  • 본 연구에서는 독서장애인을 위한 전자책용 어노테이션의 탐색 및 재생 기법을 제안하고 이를 음성 어노테이션 브라우징 시스템이라 칭하였다. 제안된 음성어노테이션 브라우징 시스템은 명령 입력, 중요도 분석 및 추천, 검색, 출력단계로 구성된다. 특히 본 연구에서는 대상 사용자가 청각 의존도가 높은 독서장애인들이기 때문에 완전히 청각에 의존해서 사용할 수 있도록 모든 단계에서 음성인식 기능을 제공한다. 제안된 음성 어노테이션 브라우징 시스템의 효율성을 검증하기 위해 안드로이드 환경에서 실행되는 전자책 소프트웨어와 음성 어노테이션 브라우징 시스템을 설계하고 구현하였다.

필기 입력데이터에 대한 언어식별 시스템의 설계 및 구현 (Design and Implementation of a Language Identification System for Handwriting Input Data)

  • 임채균;김규호;이기영
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.63-68
    • /
    • 2010
  • 최근, 유비쿼터스 시대로의 도약을 위하여 모바일 기기의 입력 인터페이스에 대한 연구가 활발하게 진행되고 있으며, 기존의 마우스, 키보드뿐만 아니라 필기, 음성, 시각, 터치와 같이 다분야로 세분화되어 새로운 인터페이스가 연구되고 있다. 특히 소형 모바일 기기에서는 크기로 인하여 추가가능한 장치의 제약이 심하기 때문에, 작은 화면에서도 효율적인 입력 인터페이스로 필기 인식이 대두되고 있다. 필기 인식에 대한 이전 연구는 2차원 영상을 기반으로 하거나 벡터로 입력받은 필기데이터를 인식하는 알고리즘이 대부분이며, 필기 인식 알고리즘의 정확성을 향상시키는 연구에만 초점을 두고 있는 실정이다. 또한 실제 필기 입력하는 경우에는 현재 문자가 영문 대/소문자, 한글, 숫자 등의 어느 분류에 속하는지 선택해야하는 문제가 있다. 따라서 본 논문에서는 입력된 필기 데이터를 기반으로 형상 분석을 통하여, 영문이나 한글의 여부를 판단하고 언어식별이 가능한 시스템을 제안하였다. 제안 기법은 벡터 단위의 집합으로 필기 데이터를 취급하여 각 벡터 간의 상호관계와 방향성을 분석함으로써 효율적인 언어식별을 가능하도록 하였다.

차량에서의 음성인식율 향상을 위한 전처리 기법 (Preprocessing Technique for Improvement of Speech Recognition in a Car)

  • 김현태;박장식
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.139-146
    • /
    • 2009
  • 본 논문에서는 차량에서의 자동 음성인식 시스템과 같이 신호대잡음비가 낮은 잡음 환경에서의 음성인식에 적합한 변형된 스펙트럼 차감법을 제안한다. 기존의 스펙트럼 차감법은 스펙트럼에서 낮은 신호대 잡음비(SNR)를 갖는 부분은 감쇄되고, 신호대잡음비가 높은 부분은 강조되는 신호대잡음비에 의존한다. 그러나 이러한 구성은 높은 신호대잡음비를 갖는 환경에서는 적절하나 차량 환경과 같이 낮은 신호대잡음비를 나타내는 환경에서는 매우 부적절하다. 제안하는 방법은 낮은 신호대잡음비를 갖는 잡음 환경을 위해 음성우세영역을 강조하여 불필요하게 음성영역이 과차감되지 않도록 방지한다. 차량용 음성명령어 어휘를 대상으로 한 실험 결과에서 제안하는 방법이 기존의 방법에 비해 우수한 것을 확인하였다.

CNN 기반 스펙트로그램을 이용한 자유발화 음성감정인식 (Spontaneous Speech Emotion Recognition Based On Spectrogram With Convolutional Neural Network)

  • 손귀영;권순일
    • 정보처리학회 논문지
    • /
    • 제13권6호
    • /
    • pp.284-290
    • /
    • 2024
  • 음성감정인식(Speech Emotion Recognition, SER)은 사용자의 목소리에서 나타나는 떨림, 어조, 크기 등의 음성 패턴 분석을 통하여 감정 상태를 판단하는 기술이다. 하지만, 기존의 음성 감정인식 연구는 구현된 시나리오를 이용하여 제한된 환경 내에서 숙련된 연기자를 대상으로 기록된 음성인 구현발화를 중심의 연구로 그 결과 또한 높은 성능을 얻을 수 있지만, 이에 반해 자유발화 감정인식은 일상생활에서 통제되지 않는 환경에서 이루어지기 때문에 기존 구현발화보다 현저히 낮은 성능을 보여주고 있다. 본 논문에서는 일상적 자유발화 음성을 활용하여 감정인식을 진행하고, 그 성능을 향상하고자 한다. 성능평가를 위하여 AI Hub에서 제공되는 한국인 자유발화 대화 음성데이터를 사용하였으며, 딥러닝 학습을 위하여 1차원의 음성신호를 시간-주파수가 포함된 2차원의 스펙트로그램(Spectrogram)로 이미지 변환을 진행하였다. 생성된 이미지는 CNN기반 전이학습 신경망 모델인 VGG (Visual Geometry Group) 로 학습하였고, 그 결과 7개 감정(기쁨, 사랑스러움, 화남, 두려움, 슬픔, 중립, 놀람)에 대해서 성인 83.5%, 청소년 73.0%의 감정인식 성능을 확인하였다. 본 연구를 통하여, 기존의 구현발화기반 감정인식 성능과 비교하면, 낮은 성능이지만, 자유발화 감정표현에 대한 정량화할 수 있는 음성적 특징을 규정하기 어려움에도 불구하고, 일상생활에서 이루어진 대화를 기반으로 감정인식을 진행한 점에서 의의를 두고자 한다.

d-vector를 이용한 한국어 다화자 TTS 시스템 (A Korean Multi-speaker Text-to-Speech System Using d-vector)

  • 김광현;권철홍
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.469-475
    • /
    • 2022
  • 딥러닝 기반 1인 화자 TTS 시스템의 모델을 학습하기 위해서 수십 시간 분량의 음성 DB와 많은 학습 시간이 요구된다. 이것은 다화자 또는 개인화 TTS 모델을 학습시키기 위해서는 시간과 비용 측면에서 비효율적 방법이다. 음색 복제 방법은 새로운 화자의 TTS 모델을 생성하기 위하여 화자 인코더 모델을 이용하는 방식이다. 학습된 화자 인코더 모델을 통해 학습에 사용되지 않은 새로운 화자의 적은 음성 파일로부터 이 화자의 음색을 대표하는 화자 임베딩 벡터를 만든다. 본 논문에서는 음색 복제 방식을 적용한 다화자 TTS 시스템을 제안한다. 제안한 TTS 시스템은 화자 인코더, synthesizer와 보코더로 구성되어 있는데, 화자 인코더는 화자인식 분야에서 사용하는 d-vector 기법을 적용한다. 학습된 화자 인코더에서 도출한 d-vector를 synthesizer에 입력으로 추가하여 새로운 화자의 음색을 표현한다. MOS와 음색 유사도 청취 방법으로 도출한 실험 결과로부터 제안한 TTS 시스템의 성능이 우수함을 알 수 있다.

유사도검사 기법을 이용한 안전관리 개선시스템 연구 (A Study on Safety Management Improvement System Using Similarity Inspection Technique)

  • 박구락
    • 한국융합학회논문지
    • /
    • 제9권4호
    • /
    • pp.23-29
    • /
    • 2018
  • 건설현장에서 흔히 발생하는 안전관리 문제점 중 시정조치 지연으로 인해 발생하는 재해율을 낮추기 위해, 기존의 시스템 중 점검 후 시정조치를 할 때까지 발생하는 시간을 단축하기 위하여 사전에 사고유형 데이터베이스를 구축하고 점검시 유사도 검사를 이용하여 점검자에게 문제점을 실시간으로 알려주어 현장에서 바로 시정조치를 수행할 수 있는 시스템을 모델링하여, 안전사고에 보다 적극적으로 대처할 수 있는 시스템을 연구하였다. 연구 결과 90 %이상의 개방 효과와 60 %이상의 안전사고 감소율이 있음을 알 수 있었다. 이 시스템을 기반으로 음성 인식과 딥러닝을 결합하여 보다 효과적인 시스템을 지속적으로 연구 할 것이다.

Group Delay를 이용한 GMM기반의 성별 인식 알고리즘 (GMM-Based Gender Identification Employing Group Delay)

  • 이계환;임우형;김남수;장준혁
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.243-249
    • /
    • 2007
  • 본 논문은 Group Delay(GD)를 이용한 음성신호 기반의 효과적인 성별인식 시스템을 제안한다. 일반적인 음성 인식과 관련된 시스템에서 사용되는 특징들은 위상에 관한 정보를 제거한 크기만의 정보를 이용하여 구성한다. 본 연구에서는 위상에 관한 정보를 토대로 유도되어 지는 GD의 성별에 따른 특징을 알아보고, 보다 향상된 성별인식을 위해 MFCC(Mel-frequency cepstral coefficient), LPC(linear predictive coding) 계수, 반사계수(reflection coefficient) 그리고 포만트(formant)등과 같은 크기 정보와 GD를 이용한 결합 특징 벡터를 적용하였다. 실험을 통해 성별에 따른 GD의 특징을 확인할 수 있었고, 이를 이용한 제안된 특징 벡터를 사용했을 때 우수한 인식 성능을 얻을 수 있었다.

지식의 온톨로지화를 위한 관리 시스템 아키텍처 (The Conference Management System Architecture for Ontological Knowledge)

  • 홍현우;고광산;김창수;정재길;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1115-1118
    • /
    • 2005
  • 인터넷 기술이 발전함에 따라 이를 이용한 온라인 회의 시스템이 개발되고 있다. 현재의 온라인 회의 시스템은 문자, 음성, 화상 등과 같은 멀티미디어 기술을 도입하여 기존의 오프라인 회의와 달리 공간의 제약에서 벗어날 수 있다는 장점이 있기 때문에 많은 기업과 조직에 도입되고 있다. 하지만 온라인 회의 시스템은 회의 시간이 길어질수록 발언 내용이 많아지고 회의 내용에 대한 일관된 인식이 떨어지기 쉽다는 단점이 있다. 이에 본 논문에서는 온톨로지(Ontology) 개념을 도입하여 회의 내용을 지식화 하고 이를 XML(Extensible Markup Language)로 구조화하여 요약 및 관리 할 수 있는 회의 관리 시스템 아키텍처를 제시였다. 또한 이렇게 제시된 아키텍처의 객관적인 검증과 체계적이고 시각화된 관리를 위해 지식기반 회의 관리 시스템을 설계 및 구현하였다.

  • PDF

소아치과 의사와 행동조절방법에 대한 보호자의 선호도 조사 (A SURVEY ON THE PARENTAL PREFERENCE ON PEDIATRIC DENTIST AND THEIR BEHAVIOR MANAGEMENT TECHNIQUE)

  • 박수진;정태성;김신
    • 대한소아치과학회지
    • /
    • 제29권2호
    • /
    • pp.204-209
    • /
    • 2002
  • 본 조사는 소아치과 환아 보호자들이 소아치과 의사와 행동조절방법에 대해 어떤 인식을 가지고 있는가를 파악할 목적으로 시도되었다. 조사는 6개월간 부산대학교 병원 소아치과에 내원한 초진단계 환아 보호자들을 대상으로 하였다. 설문 조사는 초진시, 그리고 1개월 후의 2회에 걸쳐 이루어졌다. 선호도 조사는 크게 2가지로 대별하여 의사에 관한 부분으로 의사의 성별, 가운(gown)의 색, 안경착용에 관한 선호도를 조사하였고, 행동조절방법에 대한 조사로는 진료실에서의 보호자 분리, 진정요법, 음성조절, 신체속박장비에 관한 부분들이었다. 조사결과, 다음과 같은 점들을 알 수 있었다. 1. 소아치과 의사의 성별에 대한 보호자 선호도는 나타나지 않았다. 2. 의사의 안경착용이 어린이의 불안에 미치는 영향에 대해서는 별다른 의식을 가지고 있지 않았으나, 의사의 흰 가운에 대해서는 다양한 견해를 나타내었다. 3. 진료실에서의 보호자 분리에 대해서는 대부분 반대하였다. 4. 주요 행동조절 방법들에 대해서 대부분의 보호자들은 수용하는 편이었다. 5. 1차 조사결과와 2차 조사결과 간에는 유의한 차이가 없었다.

  • PDF

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.