• 제목/요약/키워드: 어린이 음성인식

검색결과 13건 처리시간 0.023초

어린이 음성인식을 위한 동적 가중 손실 기반 도메인 적대적 훈련 (Dynamically weighted loss based domain adversarial training for children's speech recognition)

  • 마승희
    • 한국음향학회지
    • /
    • 제41권6호
    • /
    • pp.647-654
    • /
    • 2022
  • 어린이 음성인식의 활용 분야가 증가하고 있지만, 양질의 데이터 부족은 어린이 음성인식 성능 향상의 걸림돌이 되고 있다. 본 논문은 성인의 음성 데이터를 추가로 사용하여 어린이 음성인식 성능을 개선하는 방법을 새롭게 제안한다. 제안하는 방법은 성인 학습 데이터양이 증가할수록 커지는 연령 간 데이터 불균형을 효과적으로 다루기 위해 dynamically weighted loss를 사용하여 트랜스포머 기반 도메인 적대적 훈련하는 방식이다. 구체적으로, 학습 중 미니 배치 내 클래스 불균형 정도를 수치화하고, 데이터가 적을수록 큰 가중치를 갖도록 손실함수를 정의하여 사용하였다. 실험에서는 성인과 어린이 학습 데이터 간 비대칭성에 따른 제안된 도메인 적대적 훈련의 효용성을 검증하였다. 실험 결과, 학습 데이터 내 연령 간 비대칭이 발생하는 모든 조건에서 제안하는 방법이 기존 도메인 적대적 훈련 방식보다 높은 어린이 음성인식 성능을 가짐을 확인할 수 있었다.

제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델 (End-to-end speech recognition models using limited training data)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.63-71
    • /
    • 2020
  • 음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인 남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다.

어린이 교통안전 위한 자동 방향 전환 스마트 카시트 (Child Traffic Safety Automatic Reversing Smart Car Seat)

  • 윤인경;이세희;박지원;김인수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.778-779
    • /
    • 2023
  • 본 논문은 어린이의 불편함을 해소하며 카시트 사용율을 증가시키기 위해 어린이의 안전한 이동과 편의를 제공하는 '어린이 교통안전 위한 자동 방향 전환 스마트 카시트'를 제안한다. 주요 특징은 다음과 같다. 첫째, 카시트에 자녀를 태우고 내리는 과정이 편리하도록 승하차 모드를 제공한다. 둘째, 상황에 맞게 정방향, 역방향 전환이 가능하다. 셋째, 운전자가 운전에 집중할 수 있도록 음성인식으로 모드를 전환할 수 있다. 넷째, 수면인식을 하여 어린이가 차안에서 편안하게 잘 수 있도록 햇빛가리개를 작동한다. 다섯째, 흔들린 아이 증후군 방지를 위해 카시트의 높이와 너비를 조절할 수 있다.

한국어 음성합성과 인식을 이용한 웹 브라우저 설계 및 구현 (Design and Implementation of Web browser Using Voice synthesis & Recognition for Korean language)

  • 조경환;최훈일;조철환;장영건
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.278-280
    • /
    • 2000
  • 인터넷의 중요성이 증가함에 따라, 웹 브라우저에 음성 인터페이스를 추가하는 연구와 개발이 이루어지고 있다. 그러나, 아직까지 기존의 모든 웹 문서가 HTML로 작성되어 있어, 효과적인 음성 인터페이스를 하기에는 많은 어려움이 있으며, 음성이 느린 출력 매체이므로 사용자가 빠르게 인지할 수 있는 방안이 연구되어야 한다. 본 논문에서는 사용자의 웹 액세스를 높이기 위하여, 웹 브라우저에 연결되는 웹 문서에서, 각각의 객체를 추출한 후, 사용자가 그 객체에 바로 액세스를 하거나 한국어 음성으로 그 정보를 알 수 있는 방법을 사용하여, 음성으로 제어할 수 있는 한국어 음성 웹 브라우저를 설계하고 구현하였다. 음성합성과 인식을 사용하여 브라우저를 제어하기 때문에, 노약자나 어린이 또는 시각장애인들이 쉽게 웹 서핑을 할 수 있도록 도와줄 수 있고, 또한 현재 사용되고 있는 웹 문서에서의 객체추출을 사용하기 때문에 특별히 문서의 변환이 필요 없는 장점이 있다.

  • PDF

장애인을 위한 헬스케어 키오스크 (Healthcare Kiosk for the Disabled)

  • 성현수;김규민;이세영;이호섭;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1000-1001
    • /
    • 2023
  • 키오스크 및 문진표 작성에 어려움을 겪는 시각장애인이나 신체장애인, 어린이, 노약자분들이 편리하게 이용하도록 음성검진 문진표 키오스크를 개발하고자 하였다. 이 시스템은 먼저, 초음파 거리센서를 이용하여 높낮이를 조절한 후, 키오스크 화면에 부착된 카메라 센서로 사용자의 얼굴을 인식해 음성 인식이 작동되도록 설정하였다. 음성 인식 시스템은 구글 어시스턴트를 이용하였고 별도의 터치 없이 음성만으로 문진표 작성부터 문진표 용지 출력까지 가능하도록 구현하였다.

U-City Infra 기반 실시간 어린이 유괴방지 시스템 연구 (Study on U-City Infra Based Realtime Children Anti-abduction System)

  • 조병완;전우현;이계삼;박정훈;윤광원;이경수
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2009년도 정기 학술대회
    • /
    • pp.467-470
    • /
    • 2009
  • 본 논문에서는 유비쿼터스 기반 인프라를 이용한 실시간 유괴방지 시스템을 구축하였다. 급속한 사회 발전과 더불어 강력사건이 증가되고 있으며 그중에서 어린이 유괴 범죄 같이 질적으로 흉악한 범죄가 해마다 증가되고 있는 실정이다. 이러한 유괴 범죄를 예방하기 위하여 현재 GPS(Global Positioning System)을 이용한 위치인식 기술 및 이동통신 기지국을 이용한 위치인식 기술이 사용되고 있다. 단순히 위치인식 기술은 위험상황이 발생하였을 때, 상황을 정확히 인지하기 어려워 유괴된 어린이 44%가 1시간 이내 사망하고 74%가 3시간 이내 사망 한다는 통계를 감안하면 기존 시스템은 어린이 생명 보호 능력에 한계가 있다. 본 연구에서는 유비쿼터스 도시 기반 인프라를 구축하여 WPAN(Wireless Personal Area Network)환경에서 RF만으로 거리 측정이 가능한 IEEE 802.15.4a의 ISM Band CSS(Chirp Spread Spectrum)방식을 이용하여 보다 저 전력으로 정확한 위치정보 시스템을 적용하였다. 이에 CSS방식을 통하여 얻은 위치정보를 지능형 CCTV와 융합하여 CCTV가 단말기 위치로 자동 초점하는 시스템을 구성하였다. 도시통합운영센터에서 상황을 정확히 인지하고 신속하게 출동할 수 있도록 단말기 위치를 지속적으로 요원의 PDA 및 핸드폰으로 통보하고 현장 주변의 미디어 보드 표시와 음성 경고로 경찰의 적절한 대응 및 주변의 도움을 받을 수 있는 시스템을 구성하였다.

  • PDF

딥러닝 기반 사용자 친화형 키오스크 시스템 (An User-Friendly Kiosk System Based on Deep Learning)

  • 강수연;이유진;정현아;조승아;이형규
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.1-13
    • /
    • 2024
  • 본 연구는 키오스크 사용 증가로 인한 변화에 대응하기 위해 사용자 특성을 고려한 맞춤형 동적 키오스크 화면을 제공하는 것을 목표로 한다. 디지털 취약계층인 시각장애인, 노인, 어린이, 휠체어 사용자 등의 특성에 따른 화면 구성의 최적화를 위해 객체 탐지, 걸음걸이 인식, 음성발화 인식기술을 종합하여 사용자의 특성(휠체어 사용 여부, 시각 장애, 연령 등)을 실시간으로 분석하고, 이를 기반으로 9개의 카테고리로 사용자를 분류한다. 키오스크 화면은 사용자의 특성에 따라 동적으로 조정되어 효율적인 서비스 제공이 가능하다. 본 연구는 임베디드 환경에서 시스템 통신 및 운용이 이루어졌으며, 사용된 객체 탐지, 걸음걸이 인식, 음성발화 인식 기술은 각각 74%, 98.9%, 96%의 정확도를 보여준다. 제안된 기술은 프로토타입을 구현하여 그 효용성을 검증하였으며, 이를 통해 본 연구가 디지털 격차의 축소와 사용자 친화적인 "배리어 프리 키오스크" 서비스 제공의 가능성을 보였다.

오픈 소스 Home Py를 이용한 상황인식 홈 비서 (Context-Awareness based Home Assistant using Open Source Home Py)

  • 이세훈;김주연;문성현;임수영;이윤수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.135-136
    • /
    • 2016
  • 본 논문은 오픈소스 Home Py를 이용해 Telegram Service를 통한 대화방식의 서비스로써 사물과 사람 간 양방향 통신을 가능하며 상황인식 서비스를 활용하여 홈 시스템 제어를 유연하게 할 수 있는 프로젝트를 구성하였다. 기존 시스템은 스마트 폰으로 가전을 제어하는 Smart Home이 현실화 되었지만, 조작법의 어려움으로 인하여 장애인, 노약자, 어린이, 임산부들의 불편함이 있다. 본 문제를 해결하기 위해 상황인식을 통해 상황에 맞는 사물들을 제어함으로써 보다 지능적인 스마트 홈 시스템을 제안한다.

  • PDF

이미지 분석과 딥 러닝을 통한 영유아 위험물 탐지 (Detection of Dangerous Things to Infants through Image Analysis and Deep Learning)

  • 김휘준;박길섭;서영학;김경섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.845-848
    • /
    • 2017
  • 본 논문은 이미지 탐지 모델인 Faster R-CNN을 통해 영유아가 존재하는 어린이 집, 공원, 놀이터, 거실 등의 2D 이미지를 읽어 영유아에게 위험이 되는 요소를 인식해 위험상황을 감지하는 시스템을 구현하였다. 실생활에서 쉽게 구할 수 있는 데이터를 바탕으로 탐지 모델을 구현 했으며 현재 머신 러닝 분야가 음성인식과 행위데이터를 기반으로 상용화 되어 있는 반면 본 모델은 이미지를 데이터로 한 탐지 모델이 다양한 서비스 분야에서 활용 될 수 있음을 보여준다.

언어장애인을 위한 통신보조기기의 구현 (The Implementation of an Assisitive Comunication System for the Mute and Language Disorder)

  • 황인정;민홍기
    • 대한의용생체공학회:의공학회지
    • /
    • 제20권6호
    • /
    • pp.621-627
    • /
    • 1999
  • 본 논문은 언어장애인을 위한 통신보조기기의 구현에 관한 연구이다. 통신보조기기에 적용되는 어휘는 사용자의 환경을 고려하여 선택되어야 하며 사용자의 환경에는 연령, 교육정도, 가족관계, 자주 이용하는 장소, 장애의 종류와 정도 등 사용자의 정신적, 육체적 능력을 모두 포함하여야 한다. 본 논문에서는 손의 사용이 가능하고, 어휘와 의미심볼의 관게를 이해할 수 있으면서, 음성표현이 부자유스러운 어린이를 사용자로 한정하였다. 사용자에 의해 발훼된 어휘는 중심어휘와 특정환경을 나타내는 장소 도메인에서의 사용어휘로 나눌 수 있다. 중심어휘는 장소에 구애받지 않고 일상생활에서 널리 쓰이는 어휘를 말하며, 장소 도메인에서의 사용어휘로 나눌 수 있다. 중심어휘는 장소에 구애받지 않고 일상생활에서 널리 쓰이는 어휘를 말하며, 장소 도메인에서의 사용어휘는 특정 장소에서 빈번히 사용하는 어휘를 말한다. 발췌된 어휘는 휴대용 통신보조기기로서의 공간적 제약을 극복하기 위하여 어휘를 명사, 동사, 조사로 나누어 좀더 많은 문장을 만들 수 있도록 하였으며, 동적 시스템과 정적시스템의 장점을 고려하여 장소 도메인 별 어휘로 나누면서 의미함축의 원리를 도입하였다. 또한 어휘의 인식이 쉽도록 의미심볼과 어휘를 대응하여 표현하였고, 시스템의 기능 혹은 어휘분류에 따른 화면의 배경색을 다르게 설정하여 쉽게 사용자가 선택할 수 있도록 하였으며 , 사용자의 선택에 의해 구성된 문장은 화면표시관에 보여진 후 음성으로 표현하였다.

  • PDF