• 제목/요약/키워드: 시각 음성인식

검색결과 130건 처리시간 0.031초

시각 장애우를 위한 YOLO와 OCR 알고리즘 기반의 유통기한 자동 알림 시스템 (Automatic Notification System of Expiration Date Based on YOLO and OCR algorithm for Blind Person)

  • 김민수;문미경;한창희
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.697-698
    • /
    • 2021
  • 본 논문에서는 시각 장애우의 식품 안전성 증진을 위해 광학 문자 인식 (optical character recognition, OCR) 및 실시간 객체 인식 (you only look once, YOLO) 알고리즘에 기반한 식품의 유통기한 자동 알림 시스템을 제안한다. 제안하는 시스템은 1) 스마트폰 카메라를 통해 실시간으로 입력되는 영상에서 YOLO 알고리즘을 활용하여 유통기한으로 예측되는 이미지 영역을 검출하고, 2) 검출된 영역에서 OCR 알고리즘을 활용하여 유통기한 데이터를 추출하며, 3) 최종 추출된 유통기한 데이터를 음성으로 변환하여 시각 장애우에게 전달한다. 개발된 시스템은 유통기한 정보를 추출해서 사용자에게 전달하기까지 평균 약 7초 이내의 빠른 응답 속도를 보였으며, 62.8%의 객체 인식 정확도와 93.6%의 문자 인식 정확도를 보였다. 이러한 결과들은 제안하는 시스템을 시각 장애우들이 실용적으로 활용할 수 있다는 가능성을 보여준다.

  • PDF

반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로 (The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character)

  • 서민수;홍승혜;이정명
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.92-101
    • /
    • 2018
  • 대화형 AI 스피커가 보편화되면서 음성인식은 자율주행 상황에서의 중요한 차량-운전자 인터랙션 방식으로 인식되고 있다. 이 연구의 목적은 반자율주행 상황에서 음성뿐만 아니라 AI 캐릭터의 시각적 피드백을 함께 전달하는 멀티모달 인터랙션이 음성 단일 모드 인터랙션보다 사용자 경험 최적화에 효과적인지를 확인하는 것이다. 실험 참가자에게 주행 중 AI 스피커와 캐릭터를 통해 음악 선곡과 조정을 위한 인터랙션 태스크를 수행하게 하고, 정보 및 시스템 품질, 실재감, 지각된 유용성과 용이성, 그리고 지속 사용 의도를 측정하였다. 평균차이 분석 결과, 대부분의 사용자 경험 요인에서 시각적 캐릭터의 멀티모달 효과는 나타나지 않았으며, 지속사용 의도에서도 효과는 나타나지 않았다. 오히려, 정보품질 요인에서 음성 단일 모드가 멀티모달보다 효과적인 것으로 나타났다. 운전자의 인지적 노력이 필요한 반자율주행 단계에서는 멀티모달 인터랙션이 단일 모드 인터랙션에 비해 사용자 경험 최적화에 효과적이지 않았다.

장애인을 위한 헬스케어 키오스크 (Healthcare Kiosk for the Disabled)

  • 성현수;김규민;이세영;이호섭;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1000-1001
    • /
    • 2023
  • 키오스크 및 문진표 작성에 어려움을 겪는 시각장애인이나 신체장애인, 어린이, 노약자분들이 편리하게 이용하도록 음성검진 문진표 키오스크를 개발하고자 하였다. 이 시스템은 먼저, 초음파 거리센서를 이용하여 높낮이를 조절한 후, 키오스크 화면에 부착된 카메라 센서로 사용자의 얼굴을 인식해 음성 인식이 작동되도록 설정하였다. 음성 인식 시스템은 구글 어시스턴트를 이용하였고 별도의 터치 없이 음성만으로 문진표 작성부터 문진표 용지 출력까지 가능하도록 구현하였다.

시각장애인을 위한 CNN 기반의 점자 변환 및 음성 출력 장치 설계 (Design of CNN-based Braille Conversion and Voice Output Device for the Blind)

  • 박승빈;김봉현
    • 사물인터넷융복합논문지
    • /
    • 제9권3호
    • /
    • pp.87-92
    • /
    • 2023
  • 시대가 발전함에 따라 정보가 다양해지고 이를 얻는 방법도 다양해진다. 살아가면서 얻는 정보의 양 중 약 80%는 시각적 감각으로 습득한다. 하지만 시각장애인들은 시각 자료를 해석하는 능력이 제한된다. 그래서 점자라는 시각장애인용 문자가 등장했다. 그러나 시각장애인들의 점자 해독률은 5%에 불과하며 시간에 지남에 따라 다양한 형태의 플랫폼이나 자료를 원하는 시각장애인들의 요구가 늘어나면서 시각장애인들을 위한 개발 및 물품 제작이 이루어지고 있다. 물품 제작의 예로는 점자 도서를 들 수 있는데 이 점자 도서는 장점보단 단점이 많아 보이고 비장애인과 다르게 아직도 정보 접근에 대해서는 많이 어려운 것이 사실이다. 본 논문에서는 시각장애인이 정보를 기존의 방법보다 쉽게 얻을 수 있도록 CNN 기반 점자 변환 및 음성 출력 장치를 설계하였다. 이 장치는 점자로 되어 있지 않고 점자로 제작이 되지 않은 책, 텍스트 이미지나 손글씨 이미지 등을 카메라 인식을 통해 점자로 변환할 수 있도록 하고, 점자로 변환 후 시각장애인들의 요구에 따라서 음성으로 변환해 출력할 수 있는 기능을 설계해 시각장애인들이 정보를 얻을 수 있게 도와주어 삶의 질을 높이고자 한다.

시각장애인용 길안내 서비스 시스템에 대한 연구 (A Study of Pedestrian Navigation Service System for Visual Disabilities)

  • 장영건;차주현
    • 재활복지공학회논문지
    • /
    • 제11권4호
    • /
    • pp.315-321
    • /
    • 2017
  • 이 연구는 시각장애인을 위한 길안내 서비스 시스템의 설계와 구현에 관한 연구이다. 시각장애인을 고려한 사용자 인터페이스로써 음성인식을 통한 스마트폰을 입력도구로 사용하였고, 출력도구는 방향 및 음성안내를 하면서도 주변 환경음을 인식할 수 있는 골전도 헤드셋을 사용하였다. 개발된 시스템은 기존의 길안내용 스마트폰 앱과 달리 보행해야할 방향 정보를 착용한 헤드셋의 좌우 스테레오 음의 크기로 전달하며, 갈림길이나 휘어진 길에 대한 음성안내는 수 미터 전에 안내하여 시각장애인의 보행 속도에 적합하게 안내가 이루어지며, 역방향 보행이나 경로이탈을 즉시 경고하는 장점이 있다. 방향센서로 진행방향에 대한 동적 정밀도가 1.5도인 모션 트랙커를 사용하여 안정적이고 신뢰성 있는 방향 정보를 취득할 수 있었다. GPS의 위치오차를 극복하기 위하여 위치오차에 견고한 경로계획 알고리즘을 제안하였다. 구현된 시스템을 실험한 결과 실험 경로에서 평균 방향각 오차가 6.82도(표준 편차 5.98)로 비교적 안정하게 방향을 유도하여 목적지에 도달하였다.

시각 및 청각 장애인의 생활 보조를 위한 착용형 단말기 개발 (Wearable devices for the visually and aurally handicapped)

  • 김래현;하성도;박진영;조현철;박세형
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.585-590
    • /
    • 2007
  • 최근 IT기술의 비약적인 발전과 더불어 사용자의 편의성을 극대화 시키는 웨어러블 컴퓨팅 기술이 주목을 받고 있다. 이러한 기술은 일반인뿐만 아니라 장애인들의 일상생활의 보조 도구에 활용되어 큰 도움이 될 것으로 예상된다. 본 논문에서는 시각 및 청각장애인을 위해 개발된 착용형 단말기들을 소개하고자 한다. 시각 장애인용 단말기인 SmartWand는 시각장애인용 지팡이에 부착하거나 손에 휴대할 수 있는 장치로, 시작장애인을 위한 보행 보조 및 색상과 명암 정보 인식 보조 기능을 갖춘 장치이다. SmarWand는 시각장애인이 보행 시 이용하는 기존의 지팡이로는 감지할 수 없는 전방의 장애물을 초음파 센서를 통해 탐지하여 촉각이나 음성으로 경고해주고, 물체의 색깔이나 주변의 밝기 정도를 측정하여 시각장애인에게 알려준다. 청각 장애인용 단말기인 SmarWatch는 손목에 착용하는 장치로서 아기 울음소리, 노크나 초인종 소리, 물 끓는 소리, 화재 경보 등 가정에서 발생하는 일상적인 소리를 인식할 수 있도록 해준다. SmartWatch는 입력 모듈의 마이크로 입력된 소리를 문선통신을 통해 컴퓨터로 전송한 후에 소리의 종류를 인식하고 적절한 제어신호를 다시 무선통신을 통해 전송받아 감지된 소리의 종류를 해당하는 진동과 시각정보로 표시해준다. 이런 착용형 단말기들을 통해 시각 및 청각 장애인의 일상 생활의 안정성과 편의성이 증대 되기를 기대한다.

  • PDF

스마트기기에서 시각장애인을 위한 카메라기반 인식 소프트웨어 인터페이스의 접근성 연구 (A Study for the Accessibility of Camera-Based Mobile Applications on Touch Screen Devices for Blind People)

  • 최윤정;홍기형
    • 한국HCI학회논문지
    • /
    • 제7권2호
    • /
    • pp.49-56
    • /
    • 2012
  • 장애물 인식, 위치 확인, 색상 인식과 같은 스마트기기의 카메라를 활용한 시각 장애인을 위한 소프트웨어는 시각장애인의 삶의 질을 크게 향상시킬 수 있다. 그러나 기존의 카멜 기반 다양한 인식 소프트웨어들은 터치스크린에서의 시각장애인 접근성 요구사항을 제대로 반영하지 못하여 실제 시각 장애인이 사용에 있어 불편함이 있다. 본 연구에서는 최근 급속히 확산되고 있는 터치스크린 기반의 스마트 기기에서 카메라 기반 소프트웨어의 시각장애인 인터페이스의 접근성 요구사항을 도출하였다. 접근성 요구사항 도출을 위하여 상호작용 흐름이 서로 다른 3 가지 시험 인터페이스를 색상인식 응용으로 구현하여 시각 장애인을 대상으로 사용성 평가를 실시하였다. 평가 결과 크게 5 가지 접근성 요구사항을 도출하였다. (1)상호작용의 횟수가 적은 인터페이스를 선호한다. (2)사용자에게 각 화면 페이지마다 음성 도움말을 제공하기보다 초기의 음성 도움말을 제공하는 것이 더 중요하다. (3)사용자는 카메라를 수동으로 작동하는 것을 선호하며, 자동 모드를 선택할 수 있도록 지원하여야 한다. (4)운영체제 자체 접근성 기능은 카메라기반 애플리케이션이 실행 중인 동안 비활성화 해야 한다. (5)화면 경계에 대한 촉감 피드백이 필요하다. 도출한 요구사항을 반영한 시각장애인용 색상인식 소프트웨어의 인터페이스를 설계, 구현하고 이를 10명의 시각 장애인을 대상으로 도출한 접근성 요구사항이 유용함을 검증하였다.

  • PDF

NFC를 이용한 APP 기반의 도서관 안내 UML 설계 (Library helper application using NFC for UML Design)

  • 안성준;송영근;이익현;김영곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.951-953
    • /
    • 2013
  • 공공도서관은 모든 사람에게 평등하게 서비스를 제공해야 하는 기관이기 때문에 시각장애인과 같은 도서관 이용에 불편을 겪는 사람에게도 도서관 이용을 위한 서비스를 제공하여야 한다. 그러나 오늘날 우리나라의 도서관은 시각장애인등 도서관 이용에 불편을 겪는 사람들을 위한 서비스는 거의 존재하지 않으며 장애인이 아닌 정상인을 위한 공간으로 인식되어 왔다. 본 시스템은 NFC태그를 이용한 도서관 안내 시스템으로 책의 위치정보를 책과 책장에 부착된 NFC태그를 이용하여 읽어들이고 책의 위치정보를 음성으로 사용자에게 제공함으로써 도서관을 이용할 때, 책을 검색하고 금방 찾는 것이 힘든 시각장애인의 실정을 개선하고자 하였다. 또한 도서관에서 책을 찾는데 필요한 모든 정보들을 음성으로 사용자에게 제공해 시각장애인이 주위사람들의 도움 없이 언제든지 혼자서 도서관을 이용할 수 있도록 설계하였다.

지능형 로봇과 얼굴 인식 융합기술

  • 기석철
    • 정보보호학회지
    • /
    • 제17권5호
    • /
    • pp.25-31
    • /
    • 2007
  • IT기술과 지능을 로봇에 융합시킴으로써, 로봇이 스스로 사용자를 인식하여 사용자가 원하는 일을 하고 원하는 정보를 검색해 주는 인간 중심적 서비스를 제공하는 것이 지능형 로봇의 궁극적인 목표이다. 사용자가 원하는 서비스를 제공하기 위해서는 다양한 의사소통 채널을 통해 인간과 로봇, 두 개체간의 상호작용 및 의사소통 연결 고리를 형성하는 인간-로봇 상호작용(HRI: Human-Robot Interaction)기술 개발이 반드시 필요하다. HRI 기술에는 얼굴 인식, 음성 인식, 제스처 인식 및 감정 인식 등 로봇이 인간의 의사표시를 인식하기 위한 기술들이 있다. 본고에서는 지능형 로봇과 로봇의 시각 지능화의 가장 핵심적인 기능인 얼굴 인식의 융합 기술 동향에 대해서 응용 서비스 및 표준화 이슈를 중심으로 살펴보고자 한다.

음향 데이터로부터 얻은 확장된 음소 단위를 이용한 한국어 자유발화 음성인식기의 성능 (Performance of Korean spontaneous speech recognizers based on an extended phone set derived from acoustic data)

  • 방정욱;김상훈;권오욱
    • 말소리와 음성과학
    • /
    • 제11권3호
    • /
    • pp.39-47
    • /
    • 2019
  • 본 논문에서는 대량의 음성 데이터를 이용하여 기존의 음소 세트를 확장하여 자유발화 음성인식기의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 먼저 방송 데이터에서 가변 길이의 음소 세그먼트를 추출한 다음 LSTM 구조를 기반으로 고정 길이의 잠복벡터를 얻는다. 그런 다음, k-means 군집화 알고리즘을 사용하여 음향적으로 유사한 세그먼트를 군집시키고, Davies-Bouldin 지수가 가장 낮은 군집 수를 선택하여 새로운 음소 세트를 구축한다. 이후, 음성인식기의 발음사전은 가장 높은 조건부 확률을 가지는 각 단어의 발음 시퀀스를 선택함으로써 업데이트된다. 새로운 음소 세트의 음향적 특성을 분석하기 위하여, 확장된 음소 세트의 스펙트럼 패턴과 세그먼트 지속 시간을 시각화하여 비교한다. 제안된 단위는 자유발화뿐만 아니라, 낭독체 음성인식 작업에서 음소 단위 및 자소 단위보다 더 우수한 성능을 보였다.