• 제목/요약/키워드: 시각 음성인식

검색결과 130건 처리시간 0.026초

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 김동수;남기환;한준희;배철수;나상동
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 1998년도 추계종합학술대회
    • /
    • pp.181-185
    • /
    • 1998
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 높은 독순(lipreading)을 PC에서 구현하고자 한다. 간 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 독순(lipreading)을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형상 모델을 입력 동영상에 정합시키고 정합된 3차원모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식 단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의한다. 인식은 다차원(multi-dimensional), 다단계 라벨링 방법을 사용하여 3차원 특징벡터를 입력으로 한 이산 HMM을 사용하였다.

  • PDF

지능형 IoT 관제 연계형 AI 분산음성인식 모듈개발 (Development of intelligent IoT control-related AI distributed speech recognition module)

  • 배기태;이희수;배수빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.1212-1215
    • /
    • 2017
  • 현재 출시되는 AI스피커들의 기능들을 재현하면서 문제점을 찾아서 보완하고 특히 우리나라 1인 가구의 급격한 증가로 인한 다양한 사회 문제들의 해소 방안으로 표정인식을 통해 먼저 사용자에게 다가가는 감정적인 대화가 가능한 인공지능 서비스와 인터넷 환경에 무관한 홈 IoT 제어 그리고 시각데이터 제공이 가능한 다중 AI 스피커를 제작 하였다.

AI 아나운서 : 인공지능 기술을 이용한 정보 전달 소프트웨어 (AI Announcer : Information Transfer Software Using Artificial Intelligence Technology)

  • 김혜원;이영은;이홍창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.937-940
    • /
    • 2020
  • 본 논문은 AI 기술을 기반으로 텍스트 스크립트를 자동으로 인식하고 영상 합성 기술을 응용하여 텍스트 정보를 시각화하는 AI 아나운서 소프트웨어 연구에 대하여 기술한다. 기존의 AI 기반 영상 정보 전달 서비스인 AI 앵커는 텍스트를 인식하여 영상을 합성하는데 오랜 시간이 필요하였으며, 특정 인물 이미지로만 영상 합성이 가능했기 때문에 그 용도가 제한적이었다. 본 연구에서 제안하는 방법은 Tacotron 으로 새로운 음성을 학습 및 합성하여, LRW 데이터셋으로 학습된 모델을 사용하여 자연스러운 영상 합성 체계를 구축한다. 단순한 얼굴 이미지의 합성을 개선하고 다채로운 이미지 제작을 위한 과정을 간략화하여 다양한 비대면 영상 정보 제공 환경을 구성할 수 있을 것으로 기대된다.

Smart Portable Navigation System 개발 및 1:N 서비스 구현 (Smart Portable Navigation System Development and Implementation of 1:N service for Visually impaired person)

  • 변재령;서재길;김영길
    • 한국정보통신학회논문지
    • /
    • 제16권11호
    • /
    • pp.2424-2430
    • /
    • 2012
  • 기존의 개발된 시각 장애인을 위한 길 안내 서비스를 위한 보조기구는 지팡이에 장착된 RFID 태그를 이용, 표지블록과 RF통신을 하는 정도의 간단한 보행 안내 서비스였습니다. 이는 RFID의 리더기의 인식거리가 짧고, 명확한 장애물의 위치, 크기 및 형태를 판단 할 수 없다. 이에 위험 사항이나 길안내 중 경로 이탈 발생 시 대책방안이 시급히 필요하다. 오늘 날 스마트 디바이스 개발로 인해 사용자들에게 다양한 혜택과 편리성을 제공 하고 있다. 이에 안드로이드 플랫폼 Client 와 Server(PC)간의 소켓 스트림을 이용, 실시간 영상정보와 음성, 위치정보를 전송하여 시각장애인의 위험 상황에 즉각적인 조치를 취할 수 있는 시스템 및 1:N 서비스를 구현하고자 한다.

시각 장애인을 위한 모바일 사진촬영 가이드 시스템 (Mobile Photo Shooting Guide System for A Blind Person)

  • 김태협;김도연;임동혁;홍현기
    • 전자공학회논문지
    • /
    • 제50권7호
    • /
    • pp.167-174
    • /
    • 2013
  • 스마트폰이 폭넓게 보급되면서 시각장애인을 위한 스마트폰 어플리케이션이 다양하게 개발되고 있으며, 이와 함께 시각장애인이 모바일 단말을 이용한 사진 촬영의 필요성도 증가하고 있다. 시각장애인들은 자신의 기록을 남기거나 타인과 교류를 하기 위해 사진을 촬영하며, 실제 취득 과정에서는 촉각과 청각에 의존하거나 타인의 도움이 요구된다. 본 논문에서는 시각장애인이 사용하는 모바일 카메라의 입력 영상을 대상으로 사전에 등록된 인물을 인식하고 눈깜빡임이나 블러 등의 유무 등을 검사한다. 또한 시각장애인이 스스로 사진촬영이 가능하도록 가이드 정보 등을 음성으로 안내하는 새로운 시스템이 제안된다.

ARM Cortex-A9 Platform기반의 시각장애인을 위한 Navigation System 구현 (Navigation system for the people who are visually impaired using ARM Cortex-A9 Platform)

  • 임익찬;김영길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 춘계학술대회
    • /
    • pp.93-95
    • /
    • 2013
  • 기존의 시각 장애인들을 위한 보행 보조도구는 초음파, 혹은 RFID 태그를 이용한 간단한 장애물을 식별하는 서비스를 제공하고 있다. 이는 인식거리가 짧아 명확한 안내가 불가능하고, 돌발 상황에 취약점을 가지고 있다. 이에 ARM Cortex-A9 Platform기반의 Portable Navigation System과 Service Center를 구현하여 시각장애인의 보행을 돕고자 한다. Service Center에는 노인을 적극 고용하여 노령 인구의 증가에 따른 해소 방안도 제공한다. 시각 장애인이 소지하고 다닐 수 있는 형태의 Navigation System은 Camera, GPS, Audio, Ethernet 등의 장치를 탑재하고 있어 시각장애인의 위치에서 보이는 영상과 GPS 정보, 음성을 TCP/IP를 통해 서비스 센터로 실시간 전송한다. 서비스 센터의 직원은 전송 받은 정보를 모니터링하며 시각 장애인과 대화형식을 통해 길 안내를 제공할 수 있다.

  • PDF

언어장애인의 스마트스피커 접근성 향상을 위한 개인화된 음성 분류 기법 (Personalized Speech Classification Scheme for the Smart Speaker Accessibility Improvement of the Speech-Impaired people)

  • 이승권;최우진;전광일
    • 스마트미디어저널
    • /
    • 제11권11호
    • /
    • pp.17-24
    • /
    • 2022
  • 음성인식 기술과 인공지능 기술을 기반으로 한 스마트스피커의 보급으로 비장애인뿐만 아니라 시각장애인이나 지체장애인들도 홈 네트워크 서비스를 연동하여 주택의 전등이나 TV와 같은 가전제품을 음성을 통해 쉽게 제어할 수 있게 되어 삶의 질이 대폭 향상되었다. 하지만 언어장애인의 경우 조음장애나 구음장애 등으로 부정확한 발음을 하게 됨으로서 스마트스피커의 유용한 서비스를 사용하는 것이 불가능하다. 본 논문에서는 스마트스피커에서 제공되는 기능 중 일부 서비스를 대상으로 언어장애인이 이용할 수 있도록 개인화된 음성분류기법을 제안한다. 본 논문에서는 소량의 데이터와 짧은 학습시간으로도 언어장애인이 구사하는 문장의 인식률과 정확도를 높여 스마트스피커가 제공하는 서비스를 실제로 이용할 수 있도록 하는 것이 목표이다. 본 논문에서는 ResNet18 모델을 fine tuning하고 데이터 증강과 one cycle learning rate 최적화 기법을 추가하여 적용하였으며, 실험을 통하여 30개의 스마트스피커 명령어 별로 10회 녹음한 후 3분 이내로 학습할 경우 음성분류 정확도가 95.2% 정도가 됨을 보였다.

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 배철수
    • 한국정보통신학회논문지
    • /
    • 제3권1호
    • /
    • pp.59-68
    • /
    • 1999
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 높은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형상 모델을 입력 동영상에 정합시키고 정합된 3차원 형상 모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차원 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다. 본 논문에서는 한국어 10개 모음에 대하여 인식실험하여 비교적 높은 인식율을 얻을 수 있는 것으로 보아 본 연구에서 사용한 특징 벡터를 시간적 변별 요소로서 사용할 수 있음을 제시하였다.

  • PDF

사용자 추적 기능을 가진 야외용 테니스 훈련용 장치 개발 (Development of Tennis Training Machine in Ourdoor Environment with Human Tracking)

  • 양정연
    • 한국콘텐츠학회논문지
    • /
    • 제20권3호
    • /
    • pp.424-431
    • /
    • 2020
  • 본 논문은 사용자 위치를 인식하여 공을 자동으로 서브하는 테니스 훈련용의 로봇 개발을 목적으로 한다. 로봇 기술을 스포츠 분야에 활용하는 경우, 야외 환경 및 스포츠 경기 방식의 특수성에 기인하여 시각, 음성과 같은 모달리티 인식에 다양한 문제점이 존재한다. 영상 정보를 이용하여 경기장 내의 사용자 가로 및 깊이 방향의 위치를 인식하는 과정에서, 네트 주위에서의 사용자 자세 변화에 따른 위치 오차 감소를 위해 가우시안 혼합 모델 및 칼만 필터를 적용하고, 이에 따라 해당 위치로 공을 서브하는 기능을 구현하고자 한다. 이를 위해 팬 틸트 기반의 움직임이 가능한 로봇 구동부 및 공압 제어 기반의 공을 발사하는 기능을 구현하고, 이를 다계층의 소프트웨어 구조로 구성하였다. 최종적으로 실험을 통한 추적 기능 및 훈련용 장치의 실효성 및 보완점을 논하고자 한다.

Identity-CBAM ResNet 기반 얼굴 감정 식별 모듈 (Face Emotion Recognition using ResNet with Identity-CBAM)

  • 오규태;김인기;김범준;곽정환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.559-561
    • /
    • 2022
  • 인공지능 시대에 들어서면서 개인 맞춤형 환경을 제공하기 위하여 사람의 감정을 인식하고 교감하는 기술이 많이 발전되고 있다. 사람의 감정을 인식하는 방법으로는 얼굴, 음성, 신체 동작, 생체 신호 등이 있지만 이 중 가장 직관적이면서도 쉽게 접할 수 있는 것은 표정이다. 따라서, 본 논문에서는 정확도 높은 얼굴 감정 식별을 위해서 Convolution Block Attention Module(CBAM)의 각 Gate와 Residual Block, Skip Connection을 이용한 Identity- CBAM Module을 제안한다. CBAM의 각 Gate와 Residual Block을 이용하여 각각의 표정에 대한 핵심 특징 정보들을 강조하여 Context 한 모델로 변화시켜주는 효과를 가지게 하였으며 Skip-Connection을 이용하여 기울기 소실 및 폭발에 강인하게 해주는 모듈을 제안한다. AI-HUB의 한국인 감정 인식을 위한 복합 영상 데이터 세트를 이용하여 총 6개의 클래스로 구분하였으며, F1-Score, Accuracy 기준으로 Identity-CBAM 모듈을 적용하였을 때 Vanilla ResNet50, ResNet101 대비 F1-Score 0.4~2.7%, Accuracy 0.18~2.03%의 성능 향상을 달성하였다. 또한, Guided Backpropagation과 Guided GradCam을 통해 시각화하였을 때 중요 특징점들을 더 세밀하게 표현하는 것을 확인하였다. 결과적으로 이미지 내 표정 분류 Task에서 Vanilla ResNet50, ResNet101을 사용하는 것보다 Identity-CBAM Module을 함께 사용하는 것이 더 적합함을 입증하였다.