• 제목/요약/키워드: 시각 음성인식

검색결과 130건 처리시간 0.024초

RFID를 이용한 시각장애인 횡단보도 보행안내 시스템에 관한 연구 (A Study on Crosswalk Guidance System for the Blind using RFID)

  • 박인정;박덕제
    • 전자공학회논문지CI
    • /
    • 제47권6호
    • /
    • pp.124-130
    • /
    • 2010
  • 현재의 교통안내 시스템은 신호등 정보가 객체인증 없이 정상인과 시각장애인 모두에게 외장형 스피커를 이용하여 제공되므로 정상인에게는 소음 공해로 인한 스트레스를 초래하고, 시각장애인은 차량소음과 주위소음으로 인하여 정보 청취에 어려움이 있다. 시각장애인 개체 인증은 수동형 RFID 시스템을 이용하여 RFID 태그를 백색지팡이에 부착한 시각장애인이 횡단보도에 접근하면 RFID 리더기가 태그를 인식하여 시각 장애인의 인증을 통하여 횡단보행에 필요한 현재위치, 현재 신호등 상태 및 현재 날씨 정보 등을 음성으로 스피커나 블루투스를 통하여 정보를 제공하도록 하였다. 또한 RFID 태그위치를 기존 시스템과 정반대로 함으로써 보다 저가의 장치를 장애인에게 보급하는 것이 가능하게 되었다.

신경회로의 로보트 및 자동화 응용

  • 오세영
    • 전자공학회지
    • /
    • 제18권10호
    • /
    • pp.29-38
    • /
    • 1991
  • 제6세대 컴퓨터로 불리는 신경컴퓨터는 학습과 병렬처리에 의해 인간의 두뇌 기능을 모방한다. 인간의 두뇌는 시각 인식, 음성인식, 촉각 감지등 패턴 인식뿐 아니라 인간의 복잡한 신체구조를 시각, 촉각 같은 감각기관의 도움을 얻어 움직이는 중요한 역할도 한다. 바로 이 모터제어(motor control)역시 신경회로가 담당하기 때문에 이를 기계적 신체에 해당하는 로봇 또는 광범위하게 기계, 비행기, 산업공정에 응용하는 것은 매우 자연스럽게 보인다. 이처럼 신경회로가 제어에 응용되는 것을 신경제어(neurocontrol)라 하고 이를 이용한 기계를 지능기계(intelligent machinery)라 한다. 지능기계는 기본적으로 인간처럼 경험축적, 학습, 불확실한 환경에서의 적응, 자기진단 등의 장점을 가지고 있다. 신경회로의 지극히 광범위한 응용분야중 신경제어는 가장 먼저 실현될 가능성이 높다. 실제로 로봇나 공정제어(process control)처럼 복잡한 비선형 시스템의 제어는 다량의 센서 정보에 기초한 실시한 제어를 필수로 하며 이는 신경회로를 사용함으로써 가장 효율적, 경제적으로 구현할 수 있다. 실제로 신경제어는 전세계적으로 이미 시스템 제어에 응용되어 좋은 결과를 내고 있다. 신경회로의 로봇나 자동화 응용은 학술적인 측면에서는 복잡한 비선형 시스템의 지능제어(intelligent control)문제에 대한 신선한 해결책을 마련해줄 뿐 아니라 산업자동화라는 막대한 시장을 뒤로 하고 있어 이론에서 실제에 걸쳐 가장 광범위한 파급효과를 가지는 최첨단 기술로 보여진다. 고부가가치 상품을 통한 국제경쟁력 제고의 차원에서도 정부, 기업 등의 과감한 연구 개발투자가 선행되어야 한다. 특히 이 분야의 연구는 선진국도 최근에 시작한 점으로 보아 정부, 기업이 이에 대한 연구개발 투자를 현명하게 할 경우에 세계적 기술 경쟁력도 확보할 수 있을 것이다. 본 해설에서는 로봇 및 시스템 제어에 관한 기초 이론과 신경회로 적용기술을 소개하고 기존방법과 비교했을 때의 우월성, 전세계적인 응용연구, 국내외 연구개발 현황, 상업화 가능성, 산업계 응용례, 기술상의 문제점, 향후 전망 등을 다루기로 한다.

  • PDF

신경컴퓨터(Neural Network)을 이용한 로보트 제어

  • 오세영
    • 정보와 통신
    • /
    • 제9권11호
    • /
    • pp.70-79
    • /
    • 1992
  • 제6세대 컴퓨터로 불리는 신경컴퓨터는 학습과 병렬처리에 의해 인간의 두뇌 기능을 모방한다. 인간의 두뇌는 시각인식, 음성인식, 촉각감지 등 패턴인식뿐 아니라 인간의 복잡한 신체구조를 시각, 촉각 같은 감각기관의 도움을 얻어 움직이는 중요한 역할도 한다. 바로 이 모터제어(motor control) 역시 신경회로가 담당하기 때문에 이를 기계적 신체에 해당하는 로보트 또는 광범위하게 기계, 비행기, 산업공정에 응용하는 것은 매우 자연스럽게 보인다. 이처럼 신경회로가 제어에 응용되는 것을 신경제어 (neurocontrol)라 하고 이를 이용한 기계를 지능기계(intelligent machinery)라 한다. 지능기계는 기본적으로 인간처럼 경험축적 학습 불확실한 환경에서의 적응 자기진단 등의 장점을 가지고 있다. 신경회로의 지극히 광범위한 응용분야중 신경제어는 가장 먼저 실현될 가능성이 높다. 실제로 로보트나 공정제어(process control)처럼 복잡한 비선형 시스템의 제어는 다량의 센서 정보에 기초한 실시간 제어를 필수로 하며 이는 신경회로를 사용함으로써 가장 효율적, 경제적으로 구현할 수 있다. 실제로 신경제어는 전세계적으로 이미 시스템 제어에 응용되어 좋은 결과를 내고 있다. 신경회로의 로보트나 자동화 응용은 학술적인 측면에서는 복잡한 비선형 시스템의 지능제어 (intelligent control)문제에 대한 신선한 해결책을 마련해줄 뿐 아니라 산업자동화라는 막대한 시장을 뒤로 하고 있어 이론에서 실제에 걸쳐 가장 광범위한 파급효과를 가지는 최첨단 기술로 보여진다. 고부가가치 상품을 통한 국제 경쟁력 제고의 차원에서도 정부, 기업 등의 과감한 연구 개발투자가 선행되어야 한다. 특히 이 분야의 연구는 선진국도 최근에 시작한 점으로 보아 정부, 기업이 이에 대한 연구 개발투자를 현명하게 할 경우에 세계적 기술 경쟁력도 확보할 수 있을 것이다. 본 해설에서는 로보트 및 시스템 제어에 관한 기초 이론을 설명하고 신경회로 적용기술을 소개하고 기존 방법과 비교 했을 때의 우월성, 전세계적인 응용연구, 국내외 연구개발 현황, 상업화 가능성, 산업계 응용례, 기술상의 문제점, 향후 전망 등을 다루기로 한다.

  • PDF

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 남기환;배철수
    • 한국정보통신학회논문지
    • /
    • 제6권5호
    • /
    • pp.783-788
    • /
    • 2002
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 논은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형살 모델을 입력 동영상에 정합시키고 정합된 3차원 형상모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차인 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다.

잡음을 활용한 효과적인 화자 인식 기술 (Effective Speaker Recognition Technology Using Noise)

  • 고수완;강민지;방세희;정원태;이경률
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.259-262
    • /
    • 2022
  • 정보화 시대 스마트폰이 대중화되고 실시간 인터넷 사용이 가능해짐에 따라, 본인을 식별하기 위한 사용자 인증이 필수적으로 요구된다. 대표적인 사용자 인증 기술로는 아이디와 비밀번호를 이용한 비밀번호 인증이 있지만, 키보드로부터 입력받는 이러한 인증 정보는 시각 장애인이나 손 사용이 불편한 사람, 고령층과 같은 사람들이 많은 서비스로부터 요구되는 아이디와 비밀번호를 기억하고 입력하기에는 불편함이 따를 뿐만 아니라, 키로거와 같은 공격에 노출되는 문제점이 존재한다. 이러한 문제점을 해결하기 위하여, 자신의 신체의 특징을 활용하는 생체 인증이 대두되고 있으며, 그중 목소리로 사용자를 인증한다면, 효과적으로 비밀번호 인증의 한계점을 극복할 수 있다. 이러한 화자 인식 기술은 KT의 기가 지니와 같은 음성 인식 기술에서 활용되고 있지만, 목소리는 위조 및 변조가 비교적 쉽기에 지문이나 홍채 등을 활용하는 인증 방식보다 정확도가 낮고 음성 인식 오류 또한 높다는 한계점이 존재한다. 상기 목소리를 활용한 사용자 인증 기술인 화자 인식 기술을 활용하기 위하여, 사용자 목소리를 학습시켰으며, 목소리의 주파수를 추출하는 MFCC 알고리즘을 이용해 테스트 목소리와 정확도를 측정하였다. 그리고 악의적인 공격자가 사용자 목소리를 흉내 내는 경우나 사용자 목소리를 마이크로 녹음하는 등의 방법으로 획득하였을 경우에는 높은 확률로 인증의 우회가 가능한 것을 검증하였다. 이에 따라, 더욱 효과적으로 화자 인식의 정확도를 향상시키기 위하여, 본 논문에서는 목소리에 잡음을 섞는 방법으로 화자를 인식하는 방안을 제안한다. 제안하는 방안은 잡음이 정확도에 매우 민감하게 반영되기 때문에, 기존의 인증 우회 방법을 무력화하고, 더욱 효과적으로 목소리를 활용한 화자 인식 기술을 제공할 것으로 사료된다.

  • PDF

시각장애인의 길 탐색을 위한 대화형 인터랙티브 촉각 지도 개발 (A Conversational Interactive Tactile Map for the Visually Impaired)

  • 이예린;이동명;루이스 카바조스 케로;호르헤 이란조 바르톨로메;조준동;이상원
    • 감성과학
    • /
    • 제23권1호
    • /
    • pp.29-40
    • /
    • 2020
  • 시각장애인들에게는 길 찾기 및 탐색이 어려운 과제이기 때문에, 이들의 독립적이고 자율적인 이동성 향상에 대한 연구가 필요하다. 그러나 기존의 점자 촉각 지도는 여러 문제점을 가지고 있다. 이를 해결하기 위해 기술의 발달과 함께 촉각 지도에 다른 인터랙션 방식을 더하려는 시도들이 존재해왔다. 본 연구는 이러한 흐름 속에서 새로운 대화형 인터랙티브 촉각 지도 인터페이스를 개발하였다. 촉각 탐색을 하는 동안 사용자의 터치를 인식하여 음성 피드백을 제공하며, 사용자가 음성 에이전트와 대화를 나눌 수 있고 이를 통해 관심 지점에 대한 정보나 경로 안내를 받을 수 있다. 사용성 테스트를 진행하기 위해 프로토타입을 제작하였으며, 실제 시각장애인들을 대상으로 프로토타입 사용 후 설문 및 인터뷰를 통한 실험을 진행하였다. 점자를 사용한 기존 촉각 지도보다 본 연구에서 제작된 인터랙티브 촉각 지도 프로토타입이 시각장애인들에게 더욱 높은 사용성을 제공하였다. 시각장애인들은 본 연구의 프로토타입을 사용했을 때 더 빨리 시작 지점 및 관심 지점을 찾을 수 있었고 더 높은 독립성 및 확신을 가질 수 있었다고 보고하였다. 본 연구는 시각장애인의 지도 이용 및 경험을 향상시킬 수 있는 새로운 촉각 지도 인터페이스를 제시하였다. 실험에서 프로토타입의 개선 방향에 대한 다양한 피드백을 받을 수 있었다. 아직 개발 단계에 있기 때문에, 이를 반영한 후속 연구를 통해 이를 더욱 발전시킬 수 있을 것이다.

한국형 감정 음성 데이터베이스 구축을 위한 타당도 연구 (Development and validation of a Korean Affective Voice Database)

  • 김예지;송혜선;전예솔;오유림;이영미
    • 말소리와 음성과학
    • /
    • 제14권3호
    • /
    • pp.77-86
    • /
    • 2022
  • 본 연구는 운율을 기반으로 감정을 인식하는 능력을 측정할 때 이용할 수 있는 한국형 감정 음성 데이터베이스(Korean Affective Voice Database, 이하 KAV DB)를 개발하고, 해당 DB가 의사소통장애 관련 임상과 연구에서 활용될 수 있는지를 점검하기 위하여 신뢰도, 민감도, 특이도를 산출하여 그 타당성을 살펴보았다. 본 연구에서는 배우 2명(남 1명, 여 1명)이 의미적으로 중립적인 문장 10개를 행복, 분노, 공포, 슬픔, 놀람, 중립의 6개 정서로 표현하도록 하여 음성을 녹음하였다. 녹음된 음성 중에서 목표 정서가 잘 표현된 문장을 선별하여 타당도 점검을 위한 음성파일 세트를 구성하였으며, 청자 31명(남 14명, 여 17명)이 시각적 아날로그 평정법을 이용하여 각 음성에서 6개의 정서가 얼마나 반영되었는지 평정하도록 하였다. 그 결과, KAV DB에 대한 청자의 내적 일관성 신뢰도는 .872, 전체 민감도 82.8%, 전체 특이도 83.8%였다. 이를 통하여, 타당도가 확보된 KAV DB는 감정 음성 인식 및 산출과 관련된 연구와 임상 콘텐츠 제작 등에 활용될 수 있을 것으로 기대된다.

조작 방식에 따른 음성과 소리 피드백의 할당 방법 가전제품과의 상호작용을 중심으로 (An Arrangement Method of Voice and Sound Feedback According to the Operation : For Interaction of Domestic Appliance)

  • 홍은지;황해정;강연아
    • 한국HCI학회논문지
    • /
    • 제11권2호
    • /
    • pp.15-22
    • /
    • 2016
  • 가전제품과 사용자와의 상호작용 방식이 다양해지고 있다. 사용자는 리모컨, 터치스크린 등으로 기기를 제어할 수 있고, 기기 역시 사운드, 음성, 시각적 신호 등 다양한 방식으로 사용자에게 피드백을 줄 수 있게 되었다. 그러나 사용자의 조작 방식에 따른 피드백 방식을 배정하는 원칙이나 기준이 없어 각 브랜드, 기기 별로 임의로 배정되어 있는 상황이다. 본 연구에서는 사용자가 가전제품을 음성 명령을 통해 조작할 때와 버튼으로 조작할 때 가전제품에서 주어지는 피드백의 방식으로 음성, 소리 중 어떤 방식이 적절한지 실험을 통해 알아보았다. 본 연구에서는 조작 방식(음성 인식, 버튼), 피드백 방식(음성 안내, 소리)의 조합으로 구성 된 총 4가지($2{\times}2$) 셀을 갖는 요인 설계 실험을 진행하였고, 조작 방식과 피드백 방식의 조합에 따라 피 실험자가 느끼는 사용성, 만족도, 선호도, 적합도가 달라지는지 살펴보았다. 그 결과 가전제품을 음성 인식으로 조작 하는 것이 사용 용이성, 조작 만족도가 높았다. 하지만 버튼으로 조작 했을 때는 피드백 방식의 종류에 따라 사용 용이성, 조작 만족도가 달라지는 것으로 나타나, 조작 방식과 피드백 방식의 상호작용 효과가 검정되었다. 조작 방식, 피드백 방식의 조합이 가전에 적절한지에 대해서는 피드백 방식의 주효과가 검정되었다. 결론적으로 음성 인식으로 조작 할 때는 피드백이 소리(earcons)로 제시되는 것이 만족도가 높았으나 이는 통계적으로 검정 되는 정도는 아니었으며, 버튼을 조작 할 때는 피드백이 음성 안내로 제시되는 것이 만족도가 높았으며 이는 통계적으로 검정 되었다. 또한 가전에 어떠한 조작 방법이나 피드백 방법이 적절한지에 대해서는 피드백 방법이 주로 영향을 미치는 것으로 나타났다.

모바일 환경에서의 Multi Modal 인터페이스 (A Multi Modal Interface for Mobile Environment)

  • 서용원;이범찬;이준훈;김종필;류제하
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.666-671
    • /
    • 2006
  • 'Multi modal 인터페이스'란 인간과 기계의 통신을 위해 음성, 키보드, 펜을 이용, 인터페이스를 하는 방법을 말한다. 최근 들어 많은 휴대용 단말기가 보급 되고, 단말기가 소형화, 지능화 되어가고, 단말기의 어플리케이션도 다양해짐에 따라 사용자가 보다 편리하고 쉽게 사용할 수 있는 입력 방법에 기대치가 높아가고 있다. 현재 휴대용 단말기에 가능한 입력장치는 단지 단말기의 버튼이나 터치 패드(PDA 경우)이다. 하지만 장애인의 경우 버튼이나 터치 패드를 사용하기 어렵고, 휴대용 단말기로 게임을 하는데 있어서도, 어려움이 많으며 새로운 게임이나 어플리케이션 개발에도 많은 장애요인이 되고 있다. 이런 문제점들은 극복하기 위하여, 본 논문에서는 휴대용 단말기의 새로운 Multi Modal 인터페이스를 제시 하였다. PDA(Personal Digital Assistants)를 이용하여 더 낳은 재미와 실감을 줄 수 있는 Multi Modal 인터페이스를 개발하였다. 센서를 이용하여 휴대용 단말기를 손목으로 제어를 가능하게 함으로서, 사용자에게 편리하고 색다른 입력 장치를 제공 하였다. 향후 음성 인식 기능이 추가 된다면, 인간과 인간 사이의 통신은 음성과 제스처를 이용하듯이 기계에서는 전통적으로 키보드 나 버튼을 사용하지 않고 인간처럼 음성과 제스처를 통해 통신할 수 있을 것이다. 또한 여기에 진동자를 이용하여 촉감을 부여함으로써, 그 동안 멀티 모달 인터페이스에 소외된 시각 장애인, 노약자들에게도 정보를 제공할 수 있다. 실제로 사람은 시각이나 청각보다 촉각에 훨씬 빠르게 반응한다. 이 시스템을 게임을 하는 사용자한테 적용한다면, 능동적으로 게임참여 함으로서 좀더 실감나는 재미를 제공할 수 있다. 특수한 상황에서는 은밀한 정보를 제공할 수 있으며, 앞으로 개발될 모바일 응용 서비스에 사용될 수 있다.

  • PDF

시각 장애인을 위한 Smart Portable Navigation System 개발과 1:N 서비스 구현 (Smart Portable Navigation System Development and Implementation of 1:N Service for Visually impaired Persons)

  • 변재령;김영길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 춘계학술대회
    • /
    • pp.191-193
    • /
    • 2012
  • 기존의 개발된 시각 장애인을 위한 길 안내 서비스를 위한 보조기구는 지팡이에 장착된 RFID 태그를 이용, 표지블록과 RF통신을 하는 정도의 간단한 보행 안내 서비스였습니다. 이는 RFID의 리더기의 인식거리가 짧고, 명확한 장애물의 위치, 크기 및 형태를 판단 할 수 없다. 이에 위험 사항이나 길안내 중 경로 이탈 발생 시 대책방안이 시급히 필요하다. 오늘 날 스마트 디바이스 개발로 인해 사용자들에게 다양한 혜택과 편리성을 제공 하고 있다. 이에 안드로이드 플랫폼 Client 와 Server(PC)간의 소켓 스트림을 이용, 실시간 영상정보와 음성, 위치정보를 전송하여 시각장애인의 위험 상황에 즉각적인 조치를 취할 수 있는 시스템 및 1:N 서비스를 구현하고자 한다.

  • PDF