• 제목/요약/키워드: Speaker Detection

검색결과 108건 처리시간 0.025초

가정용 로봇의 호출음 등록 및 인식 시스템 (A Name Recognition Based Call-and-Come Service for Home Robots)

  • 오유리;윤재삼;박지훈;김민아;김홍국;공동건;명현;방석원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.360-365
    • /
    • 2008
  • 본 논문에서는 Call-and-Come 서비스를 제공하는 가정용 로봇의 호출음 등록 및 인식 시스템 구축하고, 음성 기반의 효율적인 로봇 호출음 등록 및 인식 알고리즘을 제안한다. 본 논문에서는 음성을 이용하여 로봇 호출음을 효율적으로 등록하기 위해 monophone 음향모델을 이용하여 탐색 범위를 줄이고, 줄어든 탐색 범위 내에서 triphone 음향모델을 이용하여 호출음을 등록을 한다. 또한, 잘못된 호출이 인식되는 것을 줄이기 위한 발화 검증에 필요한 피라미터를 구한다. 원거리 음성인식률을 향상시키기 위해서 근거리 음성에 최적화된 음향모델을 원거리 음성 데이터베이스로 적응시켰으며, 마이크로폰 배열을 이용하여 사용자의 위치를 추정한다. 제안한 시스템의 성능 측정을 위해 수행된 로봇 호출음에 대한 등록 및 인식 실험에서 98.3%의 음성 인식률을 얻었다.

  • PDF

Design of Smart Device Assistive Emergency WayFinder Using Vision Based Emergency Exit Sign Detection

  • 이민우;비나야감 마리아판;비투무키자 조셉;이정훈;조주필;차재상
    • 한국위성정보통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.101-106
    • /
    • 2017
  • In this paper, we present Emergency exit signs are installed to provide escape routes or ways in buildings like shopping malls, hospitals, industry, and government complex, etc. and various other places for safety purpose to aid people to escape easily during emergency situations. In case of an emergency situation like smoke, fire, bad lightings and crowded stamped condition at emergency situations, it's difficult for people to recognize the emergency exit signs and emergency doors to exit from the emergency building areas. This paper propose an automatic emergency exit sing recognition to find exit direction using a smart device. The proposed approach aims to develop an computer vision based smart phone application to detect emergency exit signs using the smart device camera and guide the direction to escape in the visible and audible output format. In this research, a CAMShift object tracking approach is used to detect the emergency exit sign and the direction information extracted using template matching method. The direction information of the exit sign is stored in a text format and then using text-to-speech the text synthesized to audible acoustic signal. The synthesized acoustic signal render on smart device speaker as an escape guide information to the user. This research result is analyzed and concluded from the views of visual elements selecting, EXIT appearance design and EXIT's placement in the building, which is very valuable and can be commonly referred in wayfinder system.

두 개의 Fabry-Perot 광섬유 센서 배열을 이용한 횡방향 음압 감지 특성 연구 (Investigation of the Lateral Acoustic Signal Detection Using by Two Fabry-Perot Fiber Optic Sensor Array)

  • 이종길
    • 대한공업교육학회지
    • /
    • 제31권1호
    • /
    • pp.185-199
    • /
    • 2006
  • 본 연구에서는 구조물이 횡방향으로 음압을 받을 경우 이를 감지하기 위하여 Fabry-Perot형 광섬유 배열 센서를 제작하고 실험하였다. 이는 한 개의 광원으로 두 개의 센서가 병렬로 연결되고 센서의 출력신호를 보기 위한 별도의 신호처리기가 필요 없는 구조이다. 횡방향 음압을 임의의 음원 주파수인 100Hz, 200Hz 및 655Hz의 주파수를 무지향성 스피커에 인가하였으며 $60cm{\times}60cm{\times}60cm$의 격자 구조물에 부착된 두 개의 배열 센서가 잡은 신호를 분석하였다. 시간 영역에서 두 개의 센서 신호는 진폭에 약간의 차이는 있으나 음원 주파수를 잘 감지함을 확인 하였다. 센서가 실제로 양단이 지지된 구조의 배열 센서를 모델링하고 그 해를 실험결과와 비교하였다. 2kHz의 음원을 배열 센서에 인가하였더니 이론 해석과 비교적 잘 일치하는 측정 결과를 얻었다.

Electroglottographic Measurements of Glottal Function in Voice according to Gender and Age

  • Ko, Do-Heung
    • 말소리와 음성과학
    • /
    • 제3권1호
    • /
    • pp.97-102
    • /
    • 2011
  • Electroglottography (EGG) is a common method for providing non-invasive measurements of glottal activity. EGG has been used in vocal pathology as a clinical or research tool to measure vocal fold contact. This paper presents the results of pitch, jitter, and closed quotient (CQ) measurements in electroglottographic signals of young (mean = 22.7 years) and elderly (mean = 74.3 years) male and female subjects. The sustained corner vowels /i/, /a/, and /u/ were measured at around 70 dB SPL since the most notable among EGG variables is the phonation intensity, which showed positive correlation with closed phase. The aim of this paper was to measure EGG data according to age and gender. In CQ, there was a significant difference between young and elderly female subjects while there was no significant difference between young and elderly male subjects. The mean value for young males was higher than that for elderly males while the mean value for young females was lower than that for elderly females. Thus, it can be said that in mean values, increased CQ was related to decreased age for females, while CQ decreased for males as the speaker's age decreased. Although the laryngeal degeneration due to increased age seems to occur to a lesser extent in females, the significant increase of CQ in elderly female voices could not be explained in terms of age-related physiological changes. In standard deviation of pitch and jitter, the mean values for young and elderly males were higher than that for young and elderly females. That is, male subjects showed higher in mean values of voice variables than female subjects. This result could be considered as a sign of vocal instability in males. It was suggested that these results may provide powerful insights into the control and regulation of normal phonation and into the detection and characterization of pathology.

  • PDF

YOLO에 기반한 유해 야생동물 피해방지 및 퇴치 시스템 구현 (Implementation of Prevention and Eradication System for Harmful Wild Animals Based on YOLO)

  • 채민욱;이충호
    • 융합신호처리학회논문지
    • /
    • 제23권3호
    • /
    • pp.137-142
    • /
    • 2022
  • 해마다 야생동물이 인간의 거주지에 출몰하는 횟수가 증가하여 재산 및 인명 피해가 증가하고 있다. 특히, 고속도로나 농가에 야생동물이 출몰하는 경우에 그 피해가 더 심하다. 이런 문제점을 해결하기 위해 고속도로에는 생태통로와 유도펜스를 설치하였다. 또한, 농가에서도 문제를 해결하기 위해 센서를 이용한 경적 퇴치기, 그물망 설치, 배설물로 퇴치 하는 등방법을 쓰고 있으나 고가의 비용이 들며 그 효과가 높지 않다. 본 논문에서는 AI 기반 영상분석 방법인 YOLO(You Only Live Once)를 이용하여 유해동물을 실시간 분석하여 오작동을 줄였고, 퇴치장치로 고휘도 LED와 초음파 주파수 스피커를 이용였다. 스피커는 동물들만 들을 수 있는 가청주파수를 출력하여 야생동물만 퇴치하도록 효율성을 높였다. 제안하는 시스템은, 경제적으로 설치할 수 있도록 범용 보드를 사용하여 설계되어 있으며 기존의 센서를 이용한 장치들보다 감지 성능이 높다.

대화 참여자 결정을 통한 Character-net의 개선 (Improvement of Character-net via Detection of Conversation Participant)

  • 김원택;박승보;조근식
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.241-249
    • /
    • 2009
  • 동영상 검색이나 축약과 같은 동영상 분석을 위해 동영상 어노테이션 기술이나 동영상 정보 표현에 대한 다양한 연구가 있어왔다. 이를 위해 본 논문은 대화 참여자 결점을 위한 영상적 요소와 이러한 요소를 이용하여 Character-net 표현을 개선하는 방법을 제안한다. 기존 Character-net이 자막이 뜨는 시간에 나타나는 등장인물들만을 대화참여자로 고려하므로 일부의 청자를 제외시키는 문제점이 있다. 대화 참여자는 대화상황 파악의 극히 중요한 요소로 동영상 검색 시에 기준이 될 수 있으며 동영상의 이야기 전개를 이끌어 나간다. 대화 참여자를 결정하기 위한 영상적 요소에는 자막의 유무, 장면, 인물 등장순서, 시선방향, 패턴, 입의 움직임 등이 있다. 본 논문에서는 이러한 영상적 요소에 근거하여 대화 참여자를 판단하고 동영상 표현방법인 Character-net을 개선하고자 한다. 제안한 여러 요소들이 결합되고 일정한 조건이 만족되었을 때 대화참여자를 정확히 검출할 수 있다. 따라서 본 논문에서는 대화참여자를 결정하기 위한 영상적 요소들을 제안하고 이를 통해 Character-net의 표현성능을 개선하고 실험을 통하여 제안된 방법론이 대화 참여자 판단의 정확성과 Character-net의 표현성능을 제고함을 증명하였다.

시간영역 필터를 이용한 립리딩 성능향상에 관한 연구 (A Study on Lip-reading Enhancement Using Time-domain Filter)

  • 신도성;김진영;최승호
    • 한국음향학회지
    • /
    • 제22권5호
    • /
    • pp.375-382
    • /
    • 2003
  • 현재 음성인식 분야에서는 잡음이 심한 환경에서 음성 인식률을 향상시킬 수 있는 바이모달의 한 형태인 립리딩 기술에 관한 연구가 활발히 진행되고 있다. 립리딩 연구에 있어서 가장 중요한 것은 정확한 입술 이미지를 찾아내는 것이다. 그러나 조명변화, 화자의 발음습관, 입술 모양의 다양성, 입술의 회전과 크기 변화 등의 환경 변화 요인 때문에 안정적인 성능을 예측하기가 힘든 실정이다. 본 논문에서는 보다 안정적 성능을 얻기 위해 시간영역에서 이미지를 임펄스 응답 필터링을 수행을 통해 향상된 인식성능을 보였다. 또한 본 연구에서는 입술 전체 영상을 대상으로 처리하는 립리딩 기법의 사용으로 인해 발생하는 데이터 용량 증가를 고려해 영상의 정보는 손실하지 않고 그 특징만을 추출하여 데이터의 양을 줄일 수 있는 주성분 분석을 전처리 과정으로 사용하였다. 본 연구에서는 영상정보만을 사용하여 음성인식 성능 관찰을 위해 자동차 내에서 서비스가 가능한 22단어를 선정하여 인식실험을 하였다. 이 단어들의 인식 성능을 비교하기 위하여 음성 인식 알고리듬으로 잘 알려진 HMM(Hidden Markov Model)을 이용하였다. 실험결과 PCA(Principal component Analysis)하였던 경우 립리딩이 64%의 인식률을 보인 반면, 시간영역필터를 립리딩에 적용시 72.7%로 인식률의 향상을 보였다.

머신러닝을 이용한 시각장애인 도로 횡단 보조 임베디드 시스템 개발 (Development of Street Crossing Assistive Embedded System for the Visually-Impaired Using Machine Learning Algorithm)

  • 오선택;정기동;김호민;김영근
    • 한국HCI학회논문지
    • /
    • 제14권2호
    • /
    • pp.41-47
    • /
    • 2019
  • 본 연구는 시각장애인들이 도로를 안전하게 횡단할 수 있도록 신호등 인식 및 음성안내를 제공해주는 임베디드 시스템의 설계를 제안한다. 시각장애인에게 독립보행은 큰 어려움으로 작용하고 있으며, 독립보행의 제한은 그들의 삶의 질을 저하시키는 요인으로 작용하고 있다. 도로횡단에서의 신호등 인식과 도로 및 차로의 구분 불가는 시각장애인의 독립보행을 방해하는 가장 큰 요인 중 하나이다. 본 연구에서 제안하는 스마트기기는 안경에 달린 초소형 카메라로 GPU 보드에 탑재된 머신러닝 알고리즘을 이용하여 보행자 신호등을 검출 및 인식하며, 음성 안내를 유저에게 전달해준다. 휴대성을 위하여, 기기는 충분한 배터리 수명과 함께 소형 및 가볍게 디자인되었다. 또한, 안경 다리에는 외부 소리를 막지 않으면서 음성 안내를 전달해주는 골전도 스피커가 부착되어 있다. 본 연구에서 제안하는 스마트기기는 실험을 통하여 보행자 신호의 초록 신호에 대하여 87.0%의 검출율(recall)과 100%의 정확도(precision)를 가지며, 빨간 신호에 대하여, 94.4%의 검출율(recall) 값과 97.1%의 정확도(precision)를 가지는 것으로 유효성을 확인하였다.