• 제목/요약/키워드: Control speaker

검색결과 163건 처리시간 0.034초

그레디언트 스피커 배열을 이용한 저주파 지향성 제어 (Low-frequency Pattern Control Using Gradient Speaker Arrays)

  • 최찬규;박천일;노정규;이선희
    • 한국위성정보통신학회논문지
    • /
    • 제8권4호
    • /
    • pp.30-36
    • /
    • 2013
  • 최근 미디어 컨텐츠 산업의 세계화로 예술분야에 다양한 활동이 이루어지고 있으며, 이러한 예술분야의 하나인 음향에서 스피커의 중요성은 매우 높다. 스피커의 지향 특성은 음을 방사한 경우에 어느 특정 방향으로 방사되는 특성을 말하며, 공간에서 사용되는 스피커의 가장 중요한 특성중 하나이다. 현재 사용되고 있는 라우드스피커(loudspeaker, 이하 스피커)의 지향 특성을 모든 주파수에서 동일하게 유지되도록 설계하는 것은 음파의 길이와 혼(horn)이나 트랜스듀서(transducer)의 크기 때문에 어려운 문제이다. 이에 본 논문에서는 전기음향 설비에 있어서 실내 음향 특성에 영향을 미치는 전대역 스피커의 저주파수 지향 특성을 개선하기 위한 그레디언트 배열(gradient array) 방법을 제안하였다.

지능형 스피커 중심의 서비스 로봇 시장 분석 (Analysis on Service Robot Market based on Intelligent Speaker)

  • 이성훈;이동우
    • 융합정보논문지
    • /
    • 제9권5호
    • /
    • pp.34-39
    • /
    • 2019
  • 현재 우리 사회에서 자주 언급되고 있는 단어들 중 하나는 스마트 머신이라 할 수 있다. 스마트 머신은 똑똑하거나 혹은 지능적인 기능을 포함한 기계를 의미한다. 이러한 스마트 머신이 최근 우리 가정환경에서 적용되고 있는 사례들이 늘어나고 있다. 바로 스마트 홈의 결과로서 발생하는 현상들이다. 스마트 홈 환경에서 스마트 스피커는 전통적인 음악 재생의 기능에서 벗어나 이제는 스마트 홈의 다양한 구성 요소인 디바이스들을 제어하는 인터페이스 역할이 증대되고 있다. 본 연구에서는 국내, 외 스마트 스피커 시장의 기술 동향 등을 살펴보고, 현 제품들에 대한 문제점을 분석하였으며, 필요한 핵심기술에 대해 기술하였다. 국내 스마트 스피커 시장에서는 SKT와 KT가 관련 산업을 리드하고 있으며, 반면에 국외에서는 대표적인 IT 기업인 아마존, 구글, 애플 등이 관련 제품의 출시 및 기술 개발에 주력하고 있다.

Proposal for a Sensory Integration Self-system based on an Artificial Intelligence Speaker for Children with Developmental Disabilities: Pilot Study

  • YeJin Wee;OnSeok Lee
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권4호
    • /
    • pp.1216-1233
    • /
    • 2023
  • Conventional occupational therapy (OT) is conducted under the observation of an occupational therapist, and there are limitations in measuring and analyzing details such as degree of hand tremor and movement tendency, so this important information may be lost. It is therefore difficult to identify quantitative performance indicators, and the presence of observers during performance sometimes makes the subjects feel that they have to achieve good results. In this study, by using the Unity3D and artificial intelligence (AI) speaker, we propose a system that allows the subjects to steadily use it by themselves and helps the occupational therapist objectively evaluate through quantitative data. This system is based on the OT of the sensory integration approach. And the purpose of this system is to improve children's activities of daily living by providing various feedback to induce sensory integration, which allows them to develop the ability to effectively use their bodies. A dynamic OT cognitive assessment tool for children used in clinical practice was implemented in Unity3D to create an OT environment of virtual space. The Leap Motion Controller allows users to track and record hand motion data in real time. Occupational therapists can control the user's performance environment remotely by connecting Unity3D and AI speaker. The experiment with the conventional OT tool and the system we proposed was conducted. As a result, it was found that when the system was performed without an observer, users can perform spontaneously and several times feeling ease and active mind.

다음색 감정 음성합성 응용을 위한 감정 SSML 처리기 (An emotional speech synthesis markup language processor for multi-speaker and emotional text-to-speech applications)

  • 유세희;조희;이주현;홍기형
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.523-529
    • /
    • 2021
  • 본 논문에서는 감정 마크업을 포함하는 Speech Synthesis Markup Language(SSML) 처리기를 설계하고 개발하였다. 다양한 음색과 감정 표현이 가능한 음성합성 기술이 개발되고 있으며 다양한 음색 및 감정 음성합성의 응용 확대를 위하여 표준화된 음성 인터페이스 마크업 언어인 SSML을 감정 표현이 가능하도록 확장한 감정 SSML(Emotional SSML)을 설계하였다. 감정 SSML 처리기는 그래픽 사용자 인터페이스로 손쉽게 음색 및 감정을 원하는 텍스트 부분에 표시할 수 있는 다음색 감정 텍스트 편집기, 편집 결과를 감정 SSML 문서로 생성하는 감정 SSML 문서 생성기, 생성된 감정 SSML 문서를 파싱하는 감정 SSML 파서, 감정 SSML 파서의 결과인 다음색 감정 합성 시퀀스를 기반으로 합성기와 연동하여 음성 스트림의 합성 을 제어하는 시퀀서로 구성된다. 본 논문에서 개발한 다음색 감정합성을 위한 감정 SSML 처리기는 프로그래밍 언어 및 플랫폼 독립적인 개방형 표준인 SSML을 기반으로 하여 다양한 음성합성 엔진에 쉽게 연동할 수 있는 구조를 가지며 다양한 음색과 감정 음성합성이 필요한 다양한 응용 개발에 활용될 것으로 기대한다.

언어장애인의 스마트스피커 접근성 향상을 위한 개인화된 음성 분류 기법 (Personalized Speech Classification Scheme for the Smart Speaker Accessibility Improvement of the Speech-Impaired people)

  • 이승권;최우진;전광일
    • 스마트미디어저널
    • /
    • 제11권11호
    • /
    • pp.17-24
    • /
    • 2022
  • 음성인식 기술과 인공지능 기술을 기반으로 한 스마트스피커의 보급으로 비장애인뿐만 아니라 시각장애인이나 지체장애인들도 홈 네트워크 서비스를 연동하여 주택의 전등이나 TV와 같은 가전제품을 음성을 통해 쉽게 제어할 수 있게 되어 삶의 질이 대폭 향상되었다. 하지만 언어장애인의 경우 조음장애나 구음장애 등으로 부정확한 발음을 하게 됨으로서 스마트스피커의 유용한 서비스를 사용하는 것이 불가능하다. 본 논문에서는 스마트스피커에서 제공되는 기능 중 일부 서비스를 대상으로 언어장애인이 이용할 수 있도록 개인화된 음성분류기법을 제안한다. 본 논문에서는 소량의 데이터와 짧은 학습시간으로도 언어장애인이 구사하는 문장의 인식률과 정확도를 높여 스마트스피커가 제공하는 서비스를 실제로 이용할 수 있도록 하는 것이 목표이다. 본 논문에서는 ResNet18 모델을 fine tuning하고 데이터 증강과 one cycle learning rate 최적화 기법을 추가하여 적용하였으며, 실험을 통하여 30개의 스마트스피커 명령어 별로 10회 녹음한 후 3분 이내로 학습할 경우 음성분류 정확도가 95.2% 정도가 됨을 보였다.

A Novel Two-Level Pitch Detection Approach for Speaker Tracking in Robot Control

  • Hejazi, Mahmoud R.;Oh, Han;Kim, Hong-Kook;Ho, Yo-Sung
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2005년도 ICCAS
    • /
    • pp.89-92
    • /
    • 2005
  • Using natural speech commands for controlling a human-robot is an interesting topic in the field of robotics. In this paper, our main focus is on the verification of a speaker who gives a command to decide whether he/she is an authorized person for commanding. Among possible dynamic features of natural speech, pitch period is one of the most important ones for characterizing speech signals and it differs usually from person to person. However, current techniques of pitch detection are still not to a desired level of accuracy and robustness. When the signal is noisy or there are multiple pitch streams, the performance of most techniques degrades. In this paper, we propose a two-level approach for pitch detection which in compare with standard pitch detection algorithms, not only increases accuracy, but also makes the performance more robust to noise. In the first level of the proposed approach we discriminate voiced from unvoiced signals based on a neural classifier that utilizes cepstrum sequences of speech as an input feature set. Voiced signals are then further processed in the second level using a modified standard AMDF-based pitch detection algorithm to determine their pitch periods precisely. The experimental results show that the accuracy of the proposed system is better than those of conventional pitch detection algorithms for speech signals in clean and noisy environments.

  • PDF

Speaker Identification Using Incremental Learning

  • Kim, Jinsu;Son, Sung-Han;Cho, Byungsun;Park, Kang-Bak;Tsuji, Teruo;Hanamoto, Tsuyoshi
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2002년도 ICCAS
    • /
    • pp.75.5-75
    • /
    • 2002
  • $\textbullet$ FFT $\textbullet$ Autocorrelation $\textbullet$ Levinson_Durbin resolution $\textbullet$ LP coefficients $\textbullet$ LP cepstral Coefficients $\textbullet$ Incremental Learning

  • PDF

Speaker Detection and Recognition for a Welfare Robot

  • Sugisaka, Masanori;Fan, Xinjian
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 2003년도 ICCAS
    • /
    • pp.835-838
    • /
    • 2003
  • Computer vision and natural-language dialogue play an important role in friendly human-machine interfaces for service robots. In this paper we describe an integrated face detection and face recognition system for a welfare robot, which has also been combined with the robot's speech interface. Our approach to face detection is to combine neural network (NN) and genetic algorithm (GA): ANN serves as a face filter while GA is used to search the image efficiently. When the face is detected, embedded Hidden Markov Model (EMM) is used to determine its identity. A real-time system has been created by combining the face detection and recognition techniques. When motivated by the speaker's voice commands, it takes an image from the camera, finds the face inside the image and recognizes it. Experiments on an indoor environment with complex backgrounds showed that a recognition rate of more than 88% can be achieved.

  • PDF

음성 입출력을 이용한 센서 제어 및 정보 획득 (Sensor Control and Aquisition Information Using Voice I/O)

  • 윤형진;이창우
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.495-496
    • /
    • 2018
  • 점점 더 회사들에서 인공지능 스피커를 내놓고 있는 가운데 스피커의 가격은 누군가에게는 부담이 될 수 있는 가격이 되었다. 약간의 전공지식과 손재주를 가지고 있다면 본인이 직접 입맛에 맞게 집안의 센서정보와 환경정보를 획득하는 AI 스피커를 만드는 일이 어렵지 않다. 그래서 본 논문에서는 라즈베리파이와 Google Cloud Speech(GCS), Naver의 Clova Speech Synthesis(CSS) API를 이용하여 인공지능 스피커를 구현한다.

  • PDF

네트웍을 통한 음향 전송 장치 구현 (Implementation of a audio transmission device over the network)

  • 송성근;박성모
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.633-634
    • /
    • 2008
  • In this paper, we describe implementation of a network Speaker for easily read streaming audio data from the network. The Network Speaker uses MAXIM company's DS80C400 for network control and MAX542 for audio data play. The DS80C400 network microcontroller offers TCP IPv4/6 network stack with the TINI-OS provided in ROM. The TINI-OS is adopted as an embedded operating system. Application programs are implemented by using JAVA language.

  • PDF