• Title/Summary/Keyword: 소리 인식

Search Result 213, Processing Time 0.028 seconds

A Designing and Implementing an Android-based Application for the Deaf (안드로이드 센서 기반의 청각장애인용 어플리케이션 설계 및 구현)

  • Lee, Won Joo;Lyu, Seong Min;Kim, Sang huk;Lee, Seok Won;Jung, Jin Seong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.219-220
    • /
    • 2018
  • 본 논문에서는 안드로이드 센서를 활용하여 청각장애인을 위한 소리감지 어플리케이션을 설계하고 구현한다. 이 어플리케이션 메뉴는 백그라운드 실행 유지와 특정 데시벨 이상의 음성인식 동작으로 구성한다. 백그라운드 유지 실행 유지는 스마트폰의 어플리케이션 작동 시 다른 어플리케이션을 활용할 수 있도록 편의성을 증진하며, 특정 데시벨 이상의 음성인식을 통하여 일상적인 소리가 아닌 화재나 재난 상황 시 발생하는 경보기소리나 아이 울음소리, 초인종 소리 등 사운드를 통한 인식이 중요시 되는 상황에서 청각장애인들을 위한 진동과 빛 센서를 활용하여 사용자들이 주변 상황을 감지하도록 구현한다.

  • PDF

Wearable devices for the visually and aurally handicapped (시각 및 청각 장애인의 생활 보조를 위한 착용형 단말기 개발)

  • Kim, Rae-Hyeon;Ha, Seong-Do;Park, Jin-Yeong;Jo, Hyeon-Cheol;Park, Se-Hyeong
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.585-590
    • /
    • 2007
  • 최근 IT기술의 비약적인 발전과 더불어 사용자의 편의성을 극대화 시키는 웨어러블 컴퓨팅 기술이 주목을 받고 있다. 이러한 기술은 일반인뿐만 아니라 장애인들의 일상생활의 보조 도구에 활용되어 큰 도움이 될 것으로 예상된다. 본 논문에서는 시각 및 청각장애인을 위해 개발된 착용형 단말기들을 소개하고자 한다. 시각 장애인용 단말기인 SmartWand는 시각장애인용 지팡이에 부착하거나 손에 휴대할 수 있는 장치로, 시작장애인을 위한 보행 보조 및 색상과 명암 정보 인식 보조 기능을 갖춘 장치이다. SmarWand는 시각장애인이 보행 시 이용하는 기존의 지팡이로는 감지할 수 없는 전방의 장애물을 초음파 센서를 통해 탐지하여 촉각이나 음성으로 경고해주고, 물체의 색깔이나 주변의 밝기 정도를 측정하여 시각장애인에게 알려준다. 청각 장애인용 단말기인 SmarWatch는 손목에 착용하는 장치로서 아기 울음소리, 노크나 초인종 소리, 물 끓는 소리, 화재 경보 등 가정에서 발생하는 일상적인 소리를 인식할 수 있도록 해준다. SmartWatch는 입력 모듈의 마이크로 입력된 소리를 문선통신을 통해 컴퓨터로 전송한 후에 소리의 종류를 인식하고 적절한 제어신호를 다시 무선통신을 통해 전송받아 감지된 소리의 종류를 해당하는 진동과 시각정보로 표시해준다. 이런 착용형 단말기들을 통해 시각 및 청각 장애인의 일상 생활의 안정성과 편의성이 증대 되기를 기대한다.

  • PDF

A Method for Detection of Baby Crying Using Frequency Pattern (진동수 패턴을 이용한 아기 울음소리 감지 방법)

  • Pak, Ju-Geon;Im, Sung-Hyun;Yoon, Jun-Young;Park, Kee-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.467-470
    • /
    • 2010
  • 최근 음성인식에 관한 연구가 활발히 진행되고 있지만, 음성으로 기기를 작동시키기거나 신원을 파악하는 등과 관련된 성인 음성 인식에 관한 연구들이 대부분이고 아기의 울음소리를 감지하기 위한 학술적인 연구는 미비한 실정이다. 아기들은 통상 울음으로서 자신의 상태를 표현한다는 점을 고려해 볼 때 기존의 성인을 대상으로 한 연구 결과를 그대로 적용시키기에는 무리가 따른다. 아기의 울음소리를 정확히 감지할 수 있다면 아기 및 유아를 위한 다양한 헬스(케어)기기에 적용될 수 있을 것이다. 따라서 대부분의 헬스(케어)기기들이 가지는 제한적인 자원과 컴퓨팅 능력을 고려하여 간단하면서도 정확도가 높은 방법이 필요하다. 이에 본 논문에서는 아기 울음소리의 진동수 패턴을 통계적으로 분석하여 아기 울음소리를 감지하는 방법을 제안한다. 다양한 주변 소리 샘플들을 통해 본 논문의 방법을 검증해본 결과 오감지율이 8.1%로 우수한 결과를 얻을 수 있었다.

The Effects of Fun Sound and User Interface on ATVM's usability (소리의 재미수준과 사용자 인터페이스가 승차권 자동발매기 사용성에 미치는 영향)

  • Tae, Eun-Ju;Kim, Jong-Wan;Han, Kwang-Hee
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02b
    • /
    • pp.526-534
    • /
    • 2007
  • 사용성의 주관적인 판단기준으로써 재미(Fun)라는 요소는 사용성 지각에 있어 중요한 역할을 할 수 있다는 논의는 제기된 반면 개념자체의 모호성과 객관적인 측정의 어려움으로 인해 실증적인 연구가 많이 이루어지지 못했다. 재미와 관련된 기존의 연구들은 시각적인 요인에만 국한되었다. Shneiderman(2004)은 재미를 설계하기 위한 5가지 fun-feature 중 하나로 만족스러운 소리(satisfying sound)를 제시하였는데, 시각적인 요인 못지않게 청각적인 요소는 인간-컴퓨터 상호작용에서 사용자에게 과제를 적절하게 수행해나가고 있는지에 대한 하나의 피드백으로도 작용할 수 있고, 즐거움을 줄 수 있다. 본 연구에서는 승차권 자동발매기를 중심으로 소리의 유무와 소리의 재미수준이 사용성에 어떤 영향을 미치는지 알아보고자 소리가 없는 조건, 재미없는 소리 조건, 재미있는 소리 조건에 따라 사용성을 다르게 지각할 것이라고 가정하였다. 또한 모형의 사용성 수준이 매개 변인으로 작용할 수 있다고 보고 사용하기 좋은 모형과 좋지 않은 모형 두 가지를 제시하였다. 참가자들은 두 가지 모형에 대해 각각의 소리조건에 따라 과제를 수행하고 모형과 소리 조건에 대해 집단 면접을 실시하였다. 실험 결과 재미있는 소리조건에서는 정답률이 다른 소리 조건들에 비해 더 높았으며 총클릭수는 더 적었다. 면접 결과에서는 좋지 않은 모형에 재미있는 소리는 긍정적으로 인식되지 않음을 발견하였다. 이는 Davis(1992)가 사용성이 뒷받침 되지 않은 상황에서 재미는 긍정적인 요인으로 작용하지 않는다는 주장을 지지한다. 본 연구는 재미의 한 구성 요소인 소리를 통해서 사용성에 있어 재미가 중요한 역할을 할 수 있다는 것과 사용성을 전제하지 않은 것에 있어 재미요소의 적용은 부정적으로 인식될 수 있다는 점을 제안하였다.

  • PDF

Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

  • Jin, Hye-won;Lee, A-Hyeon;Chae, Ye-Jin;Park, Su-Hyun;Kang, Yu-Jin;Lee, Soowon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.10
    • /
    • pp.1-7
    • /
    • 2021
  • Recently, since most of the research on correcting speech recognition errors is based on English, there is not enough research on Korean speech recognition. Compared to English speech recognition, however, Korean speech recognition has many errors due to the linguistic characteristics of Korean language, such as Korean Fortis and Korean Liaison, thus research on Korean speech recognition is needed. Furthermore, earlier works primarily focused on editorial distance algorithms and syllable restoration rules, making it difficult to correct the error types of Korean Fortis and Korean Liaison. In this paper, we propose a context-sensitive post-processing model of speech recognition using a LSTM-based sequence-to-sequence model and Bahdanau attention mechanism to correct Korean speech recognition errors caused by the pronunciation. Experiments showed that by using the model, the speech recognition performance was improved from 64% to 77% for Fortis, 74% to 90% for Liaison, and from 69% to 84% for average recognition than before. Based on the results, it seems possible to apply the proposed model to real-world applications based on speech recognition.

Column - 소리, 냄새 등 비시각적인 상표의 도입에 따른 전망과 대응전략

  • Jeong, Tae-Ho
    • 발명특허
    • /
    • v.37 no.4
    • /
    • pp.22-29
    • /
    • 2012
  • 한-미 FTA가 2012년 3월 15일자로 발효됨에 따라서 상표법에서도 다양한 변화들이 일어나게 되었다. 특히 우리나라 상표법상 상표로서의 보호대상으로 규정되지 않았던 소리, 냄새 등과 같은 시각적으로 인식할 수 없는 것들을 상표의 정의규정에 포함시키게 되었다. 따라서, 이하에서는 소리, 냄새 등과 같은 비시각적 상표에 관하여 출원시 주의하여야 할 내용과 해당 제도의 도입에 따른 전망 및 구체적인 대응전략에 대하여 제언을 하고자 한다.

  • PDF

A Comparative Study of Lightweight Techniques for Multi-sound Recognition Models in Embedded Environments (임베디드 환경에서의 다중소리 식별 모델을 위한 경량화 기법 비교 연구)

  • Ok-kyoon Ha;Tae-min Lee;Byung-jun Sung;Chang-heon Lee;Seong-soo Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.39-40
    • /
    • 2023
  • 본 논문은 딥러닝 기반의 소리 인식 모델을 기반으로 실내에서 발생하는 다양한 소리를 시각적인 정보로 제공하는 시스템을 위해 경량화된 CNN ResNet 구조의 인공지능 모델을 제시한다. 적용하는 경량화 기법은 모델의 크기와 연산량을 최적화하여 자원이 제한된 장치에서도 효율적으로 동작할 수 있도록 한다. 이를 위해 마이크로 컴퓨터나 휴대용 기기와 같은 임베디드 장치에서도 원활한 인공지능 추론을 가능하게 하는 모델을 양자화 기법을 적용한 경량화 방법들을 실험적으로 비교한다.

  • PDF

Artificial intelligence-based multi-sound recognition smart hub production (인공지능 기반 다중 소리 감지 스마트허브 제작)

  • Tae-min Lee;Byung-jun Sung;Chang-heon Lee;Seong-soo Kim;Byeong-su Kim;Chan-woo Han;Joon-ho Park
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.241-242
    • /
    • 2023
  • 본 논문에서는 딥러닝 소리 인식을 이용하여 실내에서 발생할 수 있는 다양한 소리를 시각적인 정보로 제공해주는 스마트허브 시스템을 제안한다. 인공지능 모델은 2D-CNN 구조를 활용하여 학습을 진행하였고, 스마트허브 하드웨어는 라즈베리파이를 이용하여 구현하였다. 제안된 시스템은 청각장애인을 위해 설계된 다양한 청각 정보를 시각 정보로 전달하는 다양한 제품을 하나로 대체할 수 있을 뿐만 아니라, 설치 및 운반이 간편하여 누구나 사용하기 쉬워서 활용도가 높을 것으로 기대된다.

  • PDF

A Study on The Speech/Nonspeech Identification for Isolated Word Speech Recognition System (고립단어 인식시스템에서 음성/비음성 식별에 관한 연구)

  • 김치수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.242-245
    • /
    • 1998
  • 음성인식 시스템의 입력인 음성은 실제의 음성부분 외에도 주변잡음을 포함한 기침 소리, 문닫는 소리, 책장 넘기는 소리등과 같은 사용자에 의해서 발생될 수 있는 다양한 종류의 비음성을 포함할 수 있다. 특히 에너지가 큰 비음성을 포함하는 경우 기존의 끝점검출 알고리듬만으로는 음성부분만의 정확한 검출이 어렵게 되고 이는 음성인식 시스템의 성능을 저하시키는 주요 원인이 된다. 본 논문에서는 음성 발생시 일어날 수 있는 비음성들에 대해서 조사하고 이러한 비음성이 포함될 때 음성부분만의 정확한 검출을 가능하게 하는 알고리듬을 제시하였다. 사용된 파라미터로는 자기상관법에 의해 얻어지는 피치정보와 웨이브렛 영역에서의 에너지로써 비교적 낮은 신호대 잡음비에서도 음성부 검출을 가능하게 하였다.

  • PDF

Performance assessments of feature vectors and classification algorithms for amphibian sound classification (양서류 울음 소리 식별을 위한 특징 벡터 및 인식 알고리즘 성능 분석)

  • Park, Sangwook;Ko, Kyungdeuk;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.36 no.6
    • /
    • pp.401-406
    • /
    • 2017
  • This paper presents the performance assessment of several key algorithms conducted for amphibian species sound classification. Firstly, 9 target species including endangered species are defined and a database of their sounds is built. For performance assessment, three feature vectors such as MFCC (Mel Frequency Cepstral Coefficient), RCGCC (Robust Compressive Gammachirp filterbank Cepstral Coefficient), and SPCC (Subspace Projection Cepstral Coefficient), and three classifiers such as GMM(Gaussian Mixture Model), SVM(Support Vector Machine), DBN-DNN(Deep Belief Network - Deep Neural Network) are considered. In addition, i-vector based classification system which is widely used for speaker recognition, is used to assess for this task. Experimental results indicate that, SPCC-SVM achieved the best performance with 98.81 % while other methods also attained good performance with above 90 %.