• Title/Summary/Keyword: 시각 음성인식

Search Result 129, Processing Time 0.036 seconds

Automatic Notification System of Expiration Date Based on YOLO and OCR algorithm for Blind Person (시각 장애우를 위한 YOLO와 OCR 알고리즘 기반의 유통기한 자동 알림 시스템)

  • Kim, Min-Soo;Moon, Mi-kyung;Han, Chang-hee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.697-698
    • /
    • 2021
  • 본 논문에서는 시각 장애우의 식품 안전성 증진을 위해 광학 문자 인식 (optical character recognition, OCR) 및 실시간 객체 인식 (you only look once, YOLO) 알고리즘에 기반한 식품의 유통기한 자동 알림 시스템을 제안한다. 제안하는 시스템은 1) 스마트폰 카메라를 통해 실시간으로 입력되는 영상에서 YOLO 알고리즘을 활용하여 유통기한으로 예측되는 이미지 영역을 검출하고, 2) 검출된 영역에서 OCR 알고리즘을 활용하여 유통기한 데이터를 추출하며, 3) 최종 추출된 유통기한 데이터를 음성으로 변환하여 시각 장애우에게 전달한다. 개발된 시스템은 유통기한 정보를 추출해서 사용자에게 전달하기까지 평균 약 7초 이내의 빠른 응답 속도를 보였으며, 62.8%의 객체 인식 정확도와 93.6%의 문자 인식 정확도를 보였다. 이러한 결과들은 제안하는 시스템을 시각 장애우들이 실용적으로 활용할 수 있다는 가능성을 보여준다.

  • PDF

The Effect of AI Agent's Multi Modal Interaction on the Driver Experience in the Semi-autonomous Driving Context : With a Focus on the Existence of Visual Character (반자율주행 맥락에서 AI 에이전트의 멀티모달 인터랙션이 운전자 경험에 미치는 효과 : 시각적 캐릭터 유무를 중심으로)

  • Suh, Min-soo;Hong, Seung-Hye;Lee, Jeong-Myeong
    • The Journal of the Korea Contents Association
    • /
    • v.18 no.8
    • /
    • pp.92-101
    • /
    • 2018
  • As the interactive AI speaker becomes popular, voice recognition is regarded as an important vehicle-driver interaction method in case of autonomous driving situation. The purpose of this study is to confirm whether multimodal interaction in which feedback is transmitted by auditory and visual mode of AI characters on screen is more effective in user experience optimization than auditory mode only. We performed the interaction tasks for the music selection and adjustment through the AI speaker while driving to the experiment participant and measured the information and system quality, presence, the perceived usefulness and ease of use, and the continuance intention. As a result of analysis, the multimodal effect of visual characters was not shown in most user experience factors, and the effect was not shown in the intention of continuous use. Rather, it was found that auditory single mode was more effective than multimodal in information quality factor. In the semi-autonomous driving stage, which requires driver 's cognitive effort, multimodal interaction is not effective in optimizing user experience as compared to single mode interaction.

Healthcare Kiosk for the Disabled (장애인을 위한 헬스케어 키오스크)

  • Hyunsoo Sung;Kyumin Kim;Seyoung Lee;Hosub Lee;Seounghwan Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1000-1001
    • /
    • 2023
  • 키오스크 및 문진표 작성에 어려움을 겪는 시각장애인이나 신체장애인, 어린이, 노약자분들이 편리하게 이용하도록 음성검진 문진표 키오스크를 개발하고자 하였다. 이 시스템은 먼저, 초음파 거리센서를 이용하여 높낮이를 조절한 후, 키오스크 화면에 부착된 카메라 센서로 사용자의 얼굴을 인식해 음성 인식이 작동되도록 설정하였다. 음성 인식 시스템은 구글 어시스턴트를 이용하였고 별도의 터치 없이 음성만으로 문진표 작성부터 문진표 용지 출력까지 가능하도록 구현하였다.

Design of CNN-based Braille Conversion and Voice Output Device for the Blind (시각장애인을 위한 CNN 기반의 점자 변환 및 음성 출력 장치 설계)

  • Seung-Bin Park;Bong-Hyun Kim
    • Journal of Internet of Things and Convergence
    • /
    • v.9 no.3
    • /
    • pp.87-92
    • /
    • 2023
  • As times develop, information becomes more diverse and methods of obtaining it become more diverse. About 80% of the amount of information gained in life is acquired through the visual sense. However, visually impaired people have limited ability to interpret visual materials. That's why Braille, a text for the blind, appeared. However, the Braille decoding rate of the blind is only 5%, and as the demand of the blind who want various forms of platforms or materials increases over time, development and product production for the blind are taking place. An example of product production is braille books, which seem to have more disadvantages than advantages, and unlike non-disabled people, it is true that access to information is still very difficult. In this paper, we designed a CNN-based Braille conversion and voice output device to make it easier for visually impaired people to obtain information than conventional methods. The device aims to improve the quality of life by allowing books, text images, or handwritten images that are not made in Braille to be converted into Braille through camera recognition, and designing a function that can be converted into voice according to the needs of the blind.

A Study of Pedestrian Navigation Service System for Visual Disabilities (시각장애인용 길안내 서비스 시스템에 대한 연구)

  • Jang, Young Gun;Cha, J.H.
    • Journal of rehabilitation welfare engineering & assistive technology
    • /
    • v.11 no.4
    • /
    • pp.315-321
    • /
    • 2017
  • This paper is a study on the design and realization of Pedestrian navigation service system for the visually impaired. As it is an user interface considering visually impaired, voice recognition functioned smartphone was used as the input tool and the Osteoacusis headset, which can vocally guide directions while recognizing the surrounding environment sound, was used as the output tool. Unlike the pre-existing pedestrian navigation smartphone apps, the developed system guides walking direction by the scale of the left and right stereo sound of the headset wearing, and the voice guidance about the forked or curved path is given several meters before according to the speed of the user, and the user is immediately warned of walking opposite direction or proceeding off the path. The system can acquire stable and reliable directional information using the motion tracker with the dynamic heading accuracy of 1.5 degrees. In order to overcome GPS position error, we proposed a robust trajectory planning algorithm for position error. Experimental results for the developed system show that the average directional angle error is 6.82 degrees (standard deviation: 5.98) in the experimental path, which can be stated that it stably navigated the user relatively.

Wearable devices for the visually and aurally handicapped (시각 및 청각 장애인의 생활 보조를 위한 착용형 단말기 개발)

  • Kim, Rae-Hyeon;Ha, Seong-Do;Park, Jin-Yeong;Jo, Hyeon-Cheol;Park, Se-Hyeong
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.585-590
    • /
    • 2007
  • 최근 IT기술의 비약적인 발전과 더불어 사용자의 편의성을 극대화 시키는 웨어러블 컴퓨팅 기술이 주목을 받고 있다. 이러한 기술은 일반인뿐만 아니라 장애인들의 일상생활의 보조 도구에 활용되어 큰 도움이 될 것으로 예상된다. 본 논문에서는 시각 및 청각장애인을 위해 개발된 착용형 단말기들을 소개하고자 한다. 시각 장애인용 단말기인 SmartWand는 시각장애인용 지팡이에 부착하거나 손에 휴대할 수 있는 장치로, 시작장애인을 위한 보행 보조 및 색상과 명암 정보 인식 보조 기능을 갖춘 장치이다. SmarWand는 시각장애인이 보행 시 이용하는 기존의 지팡이로는 감지할 수 없는 전방의 장애물을 초음파 센서를 통해 탐지하여 촉각이나 음성으로 경고해주고, 물체의 색깔이나 주변의 밝기 정도를 측정하여 시각장애인에게 알려준다. 청각 장애인용 단말기인 SmarWatch는 손목에 착용하는 장치로서 아기 울음소리, 노크나 초인종 소리, 물 끓는 소리, 화재 경보 등 가정에서 발생하는 일상적인 소리를 인식할 수 있도록 해준다. SmartWatch는 입력 모듈의 마이크로 입력된 소리를 문선통신을 통해 컴퓨터로 전송한 후에 소리의 종류를 인식하고 적절한 제어신호를 다시 무선통신을 통해 전송받아 감지된 소리의 종류를 해당하는 진동과 시각정보로 표시해준다. 이런 착용형 단말기들을 통해 시각 및 청각 장애인의 일상 생활의 안정성과 편의성이 증대 되기를 기대한다.

  • PDF

A Study for the Accessibility of Camera-Based Mobile Applications on Touch Screen Devices for Blind People (스마트기기에서 시각장애인을 위한 카메라기반 인식 소프트웨어 인터페이스의 접근성 연구)

  • Choi, Yoonjung;Hong, Ki-Hyung
    • Journal of the HCI Society of Korea
    • /
    • v.7 no.2
    • /
    • pp.49-56
    • /
    • 2012
  • The camera-based mobile applications such as color, pattern and object reading can improve the living quality of blind people. However currently available camera-based applications are uncomfortable for the blind, since these applications do not reflect accessibility requirements of the blind especially on touch screen. We investigated accessibility requirements about rapidly growing camera-based mobile applications on touch screen devices for the blind. In order to identify accessibility requirements, we conducted a usability testing for color reading applications with three different types of interfaces on Android OS. The results of the usability testing were as follows: (1) users preferred short depth of menu hierarchy, (2) the initial audio help was more useful than just-in-time help, (3) users needed both manual and automatic camera shooting modes although they preferred manual to automatic mode, (4) users wanted the OS supported screen reader function to be turned off during the color reading application was running, and (5) users required tactile feedback to identify touch screen boundary. We designed a new user interface for blind people by applying the identified accessibility requirements. From a usability testing of the new user interface with 10 blind people, we showed that the identified accessibility requirements were very useful accessibility guidelines for camera-based mobile applications.

  • PDF

Library helper application using NFC for UML Design (NFC를 이용한 APP 기반의 도서관 안내 UML 설계)

  • Ahn, Sung-Jun;Song, Yeong-Geun;Lee, Ik-Hyeon;Kim, Young-Gon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.951-953
    • /
    • 2013
  • 공공도서관은 모든 사람에게 평등하게 서비스를 제공해야 하는 기관이기 때문에 시각장애인과 같은 도서관 이용에 불편을 겪는 사람에게도 도서관 이용을 위한 서비스를 제공하여야 한다. 그러나 오늘날 우리나라의 도서관은 시각장애인등 도서관 이용에 불편을 겪는 사람들을 위한 서비스는 거의 존재하지 않으며 장애인이 아닌 정상인을 위한 공간으로 인식되어 왔다. 본 시스템은 NFC태그를 이용한 도서관 안내 시스템으로 책의 위치정보를 책과 책장에 부착된 NFC태그를 이용하여 읽어들이고 책의 위치정보를 음성으로 사용자에게 제공함으로써 도서관을 이용할 때, 책을 검색하고 금방 찾는 것이 힘든 시각장애인의 실정을 개선하고자 하였다. 또한 도서관에서 책을 찾는데 필요한 모든 정보들을 음성으로 사용자에게 제공해 시각장애인이 주위사람들의 도움 없이 언제든지 혼자서 도서관을 이용할 수 있도록 설계하였다.

지능형 로봇과 얼굴 인식 융합기술

  • Kee, Seok-Cheol
    • Review of KIISC
    • /
    • v.17 no.5
    • /
    • pp.25-31
    • /
    • 2007
  • IT기술과 지능을 로봇에 융합시킴으로써, 로봇이 스스로 사용자를 인식하여 사용자가 원하는 일을 하고 원하는 정보를 검색해 주는 인간 중심적 서비스를 제공하는 것이 지능형 로봇의 궁극적인 목표이다. 사용자가 원하는 서비스를 제공하기 위해서는 다양한 의사소통 채널을 통해 인간과 로봇, 두 개체간의 상호작용 및 의사소통 연결 고리를 형성하는 인간-로봇 상호작용(HRI: Human-Robot Interaction)기술 개발이 반드시 필요하다. HRI 기술에는 얼굴 인식, 음성 인식, 제스처 인식 및 감정 인식 등 로봇이 인간의 의사표시를 인식하기 위한 기술들이 있다. 본고에서는 지능형 로봇과 로봇의 시각 지능화의 가장 핵심적인 기능인 얼굴 인식의 융합 기술 동향에 대해서 응용 서비스 및 표준화 이슈를 중심으로 살펴보고자 한다.

Performance of Korean spontaneous speech recognizers based on an extended phone set derived from acoustic data (음향 데이터로부터 얻은 확장된 음소 단위를 이용한 한국어 자유발화 음성인식기의 성능)

  • Bang, Jeong-Uk;Kim, Sang-Hun;Kwon, Oh-Wook
    • Phonetics and Speech Sciences
    • /
    • v.11 no.3
    • /
    • pp.39-47
    • /
    • 2019
  • We propose a method to improve the performance of spontaneous speech recognizers by extending their phone set using speech data. In the proposed method, we first extract variable-length phoneme-level segments from broadcast speech signals, and convert them to fixed-length latent vectors using an long short-term memory (LSTM) classifier. We then cluster acoustically similar latent vectors and build a new phone set by choosing the number of clusters with the lowest Davies-Bouldin index. We also update the lexicon of the speech recognizer by choosing the pronunciation sequence of each word with the highest conditional probability. In order to analyze the acoustic characteristics of the new phone set, we visualize its spectral patterns and segment duration. Through speech recognition experiments using a larger training data set than our own previous work, we confirm that the new phone set yields better performance than the conventional phoneme-based and grapheme-based units in both spontaneous speech recognition and read speech recognition.