• Title/Summary/Keyword: 시각 음성인식

Search Result 129, Processing Time 0.056 seconds

Learners' Perceptions toward Non-speech Sounds Designed in e-Learning Contents (이러닝 콘텐츠에서 비음성 사운드에 대한 학습자 인식 분석)

  • Kim, Tae-Hyun;Rha, Il-Ju
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.7
    • /
    • pp.470-480
    • /
    • 2010
  • Although e-Learning contents contain audio materials as well as visual materials, research on the design of audio materials has been focused on visual design. If it is considered that non-speech sounds which are a type of audio materials can promptly provide feedbacks of learners' responses and guide learners' learning process, the systemic design of non-speech sounds is needed. Therefore, the purpose of this study is to investigate the learners' perceptions toward non-speech sounds contained the e-Learning contents with multidimensional scaling method. For this purpose, the eleven non-speech sounds were selected among non-speech sounds designed Korea Open Courseware. The 66 juniors in A university responded the degree of similarity among 11 non-speech sounds and the learners' perceptions towards non-speech sounds were represented in the multidimensional space. The result shows that learners perceive separately non-speech sounds by the length of non-speech sounds and the atmosphere which is positive or negative.

Lip Reading Method Using CNN for Utterance Period Detection (발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법)

  • Kim, Yong-Ki;Lim, Jong Gwan;Kim, Mi-Hye
    • Journal of Digital Convergence
    • /
    • v.14 no.8
    • /
    • pp.233-243
    • /
    • 2016
  • Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recognition rate of utterance word using only lip shape detection for efficient AVSR system. After preprocessing for lip region detection, Convolution Neural Network (CNN) techniques are applied for utterance period detection and lip shape feature vector extraction, and Hidden Markov Models (HMMs) are then used for the recognition. As a result, the utterance period detection results show 91% of success rates, which are higher performance than general threshold methods. In the lip reading recognition, while user-dependent experiment records 88.5%, user-independent experiment shows 80.2% of recognition rates, which are improved results compared to the previous studies.

Robot Emotion Technology (로봇 감성 기술)

  • Park, C.S.;Ryu, J.W.;Sohn, J.C.
    • Electronics and Telecommunications Trends
    • /
    • v.22 no.2 s.104
    • /
    • pp.1-9
    • /
    • 2007
  • 공공 서비스, 홈 서비스, 엔터테인먼트, 매개치료, 개호 등의 다양한 분야에서 인간과 로봇간의 상호작용을 통한 감성적인 교류에 대한 연구가 활발히 진행되고 있다. 점차시각, 음성 인식을 통한 사용자 중심의 감성 인식에서 촉각 기반의 상호 작용을 통한감성을 생성하고 다양한 형태로 감성을 표현하는 로봇들에 대한 개발이 이루어질 것이다. 이에, 본 고에서는 내.외부 센서들을 통한 감성에 영향을 주는 감성적 문맥 인식기술과 로봇 감성 및 행동 표현에 대한 기술 개발 동향에 대하여 살펴 보도록 한다.

Subway Guidance System for the Visually Impaired Using Object Recognition (객체 인식을 활용한 시각장애인용 지하철 길 안내 시스템)

  • Yoon, Sungchul;Park, Jonghuyk;Han, Yunwon;Joo, Sehwan;Kim, Sung Wan;Kim, Jongdeug
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.1278-1281
    • /
    • 2021
  • 본 논문에서는 시각장애인들의 지하철 이용의 불편함을 최소화할 수 있는 내비게이션 앱을 개발하였다. 스마트폰 카메라가 전방을 인식하여 사물을 판단 후 장애물 혹은 위험요소를 사용자에게 음성으로 전달한다. 또한, 사용자의 원활한 지하철 이용을 위해 공공데이터를 활용하여 지하철 환승 정보, 화장실, 출구 정보 등의 이동 편의를 위한 실질적인 정보를 제공한다. 시각장애인은 본 앱을 활용하여 지하철을 더욱 편하고 안전하게 이용할 수 있다.

Design of a control device for the blind to recognize household medicines (시각장애인을 위한 물품인식 제어장치의 설계와 제어방법에 관한 연구)

  • Kyung-Duk Seo;Kwang-Jin Ahn;Ji-Yun Ahn;Kyung-Wook Ha
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.972-973
    • /
    • 2023
  • 2022년 등록된 장애인은 265만 3,000명으로 전체 인구 대비 5.2%를 기록했으며, 그중 시각장애인은 9.5%에 해당한다. 그들은 여가문화 활동, 대중교통 이용, 무인기 이용에 어려운 점이 있듯이 일상생활에 많은 불편한 점이 있다. 특히 제품의 미비한 점자 시스템으로 인한 문제점을 해결하기 위해 '물품인식 제어장치'를 고안했으며, 제품의 바코드를 스캔한 후 제품에 대한 정보를 점자로 출력과 동시에 음성으로 출력하여 시각장애인에게 올바른 정보를 제공한다.

Implementation of Automatic Coin Sorting Smart Piggy Bank using Deep Learning based Image Recognition Technology (딥러닝 기반 이미지 인식 기술을 활용한 동전 자동분류 스마트 저금통)

  • Yu, Yeon Seung;Jang, Young Jin;Sim, Hyeon Jeong;Lee, Seul Bi;Kim, Cheong Ghil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.320-322
    • /
    • 2020
  • 기계학습은 인공지능의 한 클래스로 최근 이미지 및 음성인식, 지능적 웹 검색, 자율 주행 자동차 등의 영역에서 성공적 발전을 바탕으로 우리의 일상에 폭넓게 이용되고 있다. 본 논문에서는 Keras 오픈소스 라이브러리를 이용해 딥러닝을 이용한 기계학습 기반의 동전 인식 소프트웨어를 구현하였고, 이를 이용해 동전 자동분류 스마트 저금통을 설계하였다. 동작 검증을 위하여 스마트 저금통의 모든 발생 이벤트는 Parse-server와 mongoDB를 이용하여 시각화 및 어플리케이션 및 웹사이트를 연결하였다.

Ordering system for the disabled and the weak using a KIOSK with speech recognition technology (키오스크를 이용한 장애인 및 약자를 위한 음성인식 주문시스템)

  • Lee, Hyo-Jai;Hong, Changho;Cho, Sung Ho;Yoon, Chaiwon;Kim, Dongwan;Choi, Seunghwa
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.544-546
    • /
    • 2021
  • Recently, the number of unmanned stores is increasing due to COVID-19. In unmanned stores, payments are mainly made using kiosks, but some people with physical disabilities or people with disabilities who use wheelchairs are not easy to use it. Also, young children and the elderly are also having difficulty using new technologies such as kiosks as they get older. In this study, in order to compensate for these problems, we intend to design and implement a system capable of performing order by a speech recognition function as well as a visual system when a user interacts with a kiosk.

  • PDF

Designing Voice Interface for The Disabled (장애인을 위한 음성 인터페이스 설계)

  • Choi, Dong-Wook;Lee, Ji-Hoon;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.697-699
    • /
    • 2019
  • IT 기술의 발달에 따라 전자기기의 이용량은 증가하였지만, 시각장애인들이나 지체 장애인들이 이용하는 데에 어려움이 있다. 따라서 본 논문에서는 Google Cloud API를 활용하여 음성으로 프로그램을 제어할 수 있는 음성 인터페이스를 제안한다. Google Cloud에서 제공하는 STT(Speech To Text)와 TTS(Text To Speech) API를 이용하여 사용자의 음성을 인식하면 텍스트로 변환된 음성이 시스템을 통해 응용 프로그램을 제어할 수 있도록 설계한다. 이 시스템은 장애인들이 전자기기를 사용하는데 많은 편리함을 줄 것으로 예상하며 나아가 장애인들뿐 아니라 비장애인들도 활용 가능할 것으로 기대한다.

Development of a Raspberry Pi-based Banknote Recognition System for the Visually Impaired (시각장애인을 위한 라즈베리 파이 기반 지폐 인식기 개발)

  • Lee, Jiwan;Ahn, Jihoo;Lee, Ki Yong
    • The Journal of Society for e-Business Studies
    • /
    • v.23 no.2
    • /
    • pp.21-31
    • /
    • 2018
  • Korean banknotes are similar in size, and their braille tend to worn out as they get old. These characteristics of Korean banknotes make the blind people, who mainly rely on the braille, even harder to distinguish the banknotes. Not only that, this can even lead to economic loss. There are already existing systems for recognizing the banknotes, but they don't support Korean banknotes. Furthermore, because they are developed as a mobile application, it is not easy for the blind people to use the system. Therefore, in this paper, we develop a Raspberry Pi-based banknote recognition system that not only recognizes the Korean banknotes but also are easily accessible by the blind people. Our system starts recognition with a very simple action of the user, and the blind people can hear the recognition results by sound. In order to choose the best feature extraction algorithm that directly affects the performance of the system, we compare the performance of SIFT, SURF, and ORB, which are representative feature extraction algorithms at present, in real environments. Through experiments in various real environments, we adopted SIFT to implement our system, which showed the highest accuracy of 95%.