• 제목/요약/키워드: voice recognition

검색결과 650건 처리시간 0.026초

Structural live load surveys by deep learning

  • Li, Yang;Chen, Jun
    • Smart Structures and Systems
    • /
    • 제30권2호
    • /
    • pp.145-157
    • /
    • 2022
  • The design of safe and economical structures depends on the reliable live load from load survey. Live load surveys are traditionally conducted by randomly selecting rooms and weighing each item on-site, a method that has problems of low efficiency, high cost, and long cycle time. This paper proposes a deep learning-based method combined with Internet big data to perform live load surveys. The proposed survey method utilizes multi-source heterogeneous data, such as images, voice, and product identification, to obtain the live load without weighing each item through object detection, web crawler, and speech recognition. The indoor objects and face detection models are first developed based on fine-tuning the YOLOv3 algorithm to detect target objects and obtain the number of people in a room, respectively. Each detection model is evaluated using the independent testing set. Then web crawler frameworks with keyword and image retrieval are established to extract the weight information of detected objects from Internet big data. The live load in a room is derived by combining the weight and number of items and people. To verify the feasibility of the proposed survey method, a live load survey is carried out for a meeting room. The results show that, compared with the traditional method of sampling and weighing, the proposed method could perform efficient and convenient live load surveys and represents a new load research paradigm.

트랜스포머를 이용한 음성기반 코비드19 진단 (Audio-based COVID-19 diagnosis using separable transformer)

  • 강승태;장길진
    • 한국음향학회지
    • /
    • 제42권3호
    • /
    • pp.221-225
    • /
    • 2023
  • 본 연구에서는 코로나 바이러스 감염증은 음성만으로 빠르게 진단하는 효율적인 방법을 제안하였다. 기존의 딥러닝 기반 방법들의 연산시간과 대용량 학습자료 요구조건을 완화하기 위해서 Separable Transformer(SepTr)의 구조를 개선하여 파라미터의 수를 대폭 감소시키고 빠른 진단을 가능하게 하는 새로운 Strided Convolution Separable Transformer(SC-SepTr)를 제안하였다. 공개 음향 데이터인 Coswara에 대하여 실험을 수행한 결과 제안된 방법은 상대적으로 소규모의 학습자료에 대해서도 Area Under the Curve(AUC) 성능을 보장하면서도 신속하게 진단을 수행할 수 있음을 보였다.

딥 러닝을 이용한 시각장애인을 위한 실시간 버스 도착 알림 시스템 (A Real-time Bus Arrival Notification System for Visually Impaired Using Deep Learning )

  • 장세영;유인재;김석윤;김영모
    • 반도체디스플레이기술학회지
    • /
    • 제22권2호
    • /
    • pp.24-29
    • /
    • 2023
  • In this paper, we propose a real-time bus arrival notification system using deep learning to guarantee movement rights for the visually impaired. In modern society, by using location information of public transportation, users can quickly obtain information about public transportation and use public transportation easily. However, since the existing public transportation information system is a visual system, the visually impaired cannot use it. In Korea, various laws have been amended since the 'Act on the Promotion of Transportation for the Vulnerable' was enacted in June 2012 as the Act on the Movement Rights of the Blind, but the visually impaired are experiencing inconvenience in using public transportation. In particular, from the standpoint of the visually impaired, it is impossible to determine whether the bus is coming soon, is coming now, or has already arrived with the current system. In this paper, we use deep learning technology to learn bus numbers and identify upcoming bus numbers. Finally, we propose a method to notify the visually impaired by voice that the bus is coming by using TTS technology.

  • PDF

행동 및 음성인식 기술을 이용한 대화형 스마트 쿠킹 서비스 시스템 개발 (Development of an interactive smart cooking service system using behavior and voice recognition)

  • 문유경;김가연;김유하;박민지;서민혁;나정은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1128-1131
    • /
    • 2021
  • COVID-19로 인한 홈 쿠킹 시장 수요 증가로 사람들은 더 편리한 요리 보조 시스템을 필요로 하고 있다. 기존 요리 시스템은 휴대폰, 책을 통해 레시피를 일방적으로 제공하기 때문에 사용자가 요리과정을 중단하고 반복적으로 열람해야 한다는 한계점을 가진다. '대화형 스마트 쿠킹 서비스' 시스템은 요리 과정 전반에서 필요한 내용을 사용자와 상호작용하며 적절하게 인지하고 알려주는 인공지능 시스템이다. Google의 MediaPipe를 사용해 사용자의 관절을 인식하고 모델을 학습시켜 사용자의 요리 동작을 인식하도록 설계했으며, dialogflow를 이용한 챗봇 기능을 통해 필요한 재료, 다음 단계 등의 내용을 실시간으로 제시한다. 또한 실시간 행동 인식으로 요리과정 중 화재, 베임 사고 등의 위험 상황을 감지하여 사용자에게 정보를 전달해줌으로써 사고를 예방한다. 음성인식을 통해 시스템과 사용자 간의 쌍방향적 소통을 가능하게 했고, 음성으로 화면을 제어함으로써 요리과정에서의 불필요한 디스플레이 터치를 방지해 위생적인 요리 환경을 제공한다.

구글 어시스턴스를 탑재한 비서로봇 (Assistant Robot with Google Assistant)

  • 박차훈;김재환;김호범;김진영;손정미;정재민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.419-420
    • /
    • 2023
  • 최근 인공지능 기술과 로봇 기술의 발전으로 인해 비서 로봇을 만드는 기술적인 가능성이 커지면서 업무 자동화를 위해 많은 기업에서 도입하고 있다. 특히 인구 고령화가 진행되면서 노동력 부족이 심각한 문제로 대두되고 있다. 현재 비서로봇은 정형화된 대화는 잘 처리하지만 비정형화된 대화에 대해서는 한계가 있다. 본 논문은 앞선 문제를 해결하기 위해 비정형화된 대화도 가능하면서 사용자가 원하는 행동을 실행할 수 있는 보편화된 비서 로봇을 선보인다. 음성인식 모듈과 구글 어시스턴트를 활용하여 마이크를 통해 비서 로봇에게 스케줄 관리, 날씨 등을 질문하고, 스피커를 통해 대답을 듣는 등 비정형화된 의사소통을 할 수 있으며, 비서 로봇에게 원하는 행동을 지시하여 행동을 구현시킬 수 있는 비서로봇을 제안한다.

  • PDF

Group Delay를 이용한 GMM기반의 성별 인식 알고리즘 (GMM-Based Gender Identification Employing Group Delay)

  • 이계환;임우형;김남수;장준혁
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.243-249
    • /
    • 2007
  • 본 논문은 Group Delay(GD)를 이용한 음성신호 기반의 효과적인 성별인식 시스템을 제안한다. 일반적인 음성 인식과 관련된 시스템에서 사용되는 특징들은 위상에 관한 정보를 제거한 크기만의 정보를 이용하여 구성한다. 본 연구에서는 위상에 관한 정보를 토대로 유도되어 지는 GD의 성별에 따른 특징을 알아보고, 보다 향상된 성별인식을 위해 MFCC(Mel-frequency cepstral coefficient), LPC(linear predictive coding) 계수, 반사계수(reflection coefficient) 그리고 포만트(formant)등과 같은 크기 정보와 GD를 이용한 결합 특징 벡터를 적용하였다. 실험을 통해 성별에 따른 GD의 특징을 확인할 수 있었고, 이를 이용한 제안된 특징 벡터를 사용했을 때 우수한 인식 성능을 얻을 수 있었다.

시각장애인의 길 탐색을 위한 대화형 인터랙티브 촉각 지도 개발 (A Conversational Interactive Tactile Map for the Visually Impaired)

  • 이예린;이동명;루이스 카바조스 케로;호르헤 이란조 바르톨로메;조준동;이상원
    • 감성과학
    • /
    • 제23권1호
    • /
    • pp.29-40
    • /
    • 2020
  • 시각장애인들에게는 길 찾기 및 탐색이 어려운 과제이기 때문에, 이들의 독립적이고 자율적인 이동성 향상에 대한 연구가 필요하다. 그러나 기존의 점자 촉각 지도는 여러 문제점을 가지고 있다. 이를 해결하기 위해 기술의 발달과 함께 촉각 지도에 다른 인터랙션 방식을 더하려는 시도들이 존재해왔다. 본 연구는 이러한 흐름 속에서 새로운 대화형 인터랙티브 촉각 지도 인터페이스를 개발하였다. 촉각 탐색을 하는 동안 사용자의 터치를 인식하여 음성 피드백을 제공하며, 사용자가 음성 에이전트와 대화를 나눌 수 있고 이를 통해 관심 지점에 대한 정보나 경로 안내를 받을 수 있다. 사용성 테스트를 진행하기 위해 프로토타입을 제작하였으며, 실제 시각장애인들을 대상으로 프로토타입 사용 후 설문 및 인터뷰를 통한 실험을 진행하였다. 점자를 사용한 기존 촉각 지도보다 본 연구에서 제작된 인터랙티브 촉각 지도 프로토타입이 시각장애인들에게 더욱 높은 사용성을 제공하였다. 시각장애인들은 본 연구의 프로토타입을 사용했을 때 더 빨리 시작 지점 및 관심 지점을 찾을 수 있었고 더 높은 독립성 및 확신을 가질 수 있었다고 보고하였다. 본 연구는 시각장애인의 지도 이용 및 경험을 향상시킬 수 있는 새로운 촉각 지도 인터페이스를 제시하였다. 실험에서 프로토타입의 개선 방향에 대한 다양한 피드백을 받을 수 있었다. 아직 개발 단계에 있기 때문에, 이를 반영한 후속 연구를 통해 이를 더욱 발전시킬 수 있을 것이다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

코로나-19 팬데믹으로 인한 체육계열 대학생의 원격수업 학습경험 탐색 (Exploring the Online Learning Experience of College Students Majoring Physical Education in the COVID-19 Pandemic)

  • 이만기;조은별;임효성
    • 디지털융복합연구
    • /
    • 제19권1호
    • /
    • pp.421-430
    • /
    • 2021
  • 이 연구는 코로나-19로 인한 대학 내 원격수업에 따른 체육계열 대학생의 교육경험과 인식을 확인하고자 수행되었다. 이러한 연구목적을 위해 체육계열 대학생 278명에게 온라인을 통해 원격수업 현황, 원격수업인식(선호도, 만족도)을 조사하였다. 분석방법으로는 SPSS 22.0과 R프로그램을 활용하여 빈도분석, 대응표본 t검증, ANOVA, 워드 클라우드 분석을 적용하였다. 상기한 연구과정을 통해 도출된 결과는 다음과 같다. 첫째, 코로나-19로 인한 체육계열 원격수업 유형에서는 이론 및 실기수업 모두 동영상형이 가장 많이 활용되었다. 둘째, 원격수업 유형의 선호도에서는 이론 및 실기수업 모두 동영상형이 가장 높게 나타났으며, 다음은 강의장면 촬영형, 음성강의형 순으로 나타났다. 셋째, 체육계열 대학생들의 원격수업에 있어 이론수업과 실기수업에 대한 만족도 차이를 분석한 결과 수업유형에 따른 만족도 차이는 없었다. 서술형 응답을 통해 과제의 적절한 활용 여부는 만족도에 영향을 미치는 요인임을 확인하였다. 결과를 반영하여 체육계열 원격수업의 방향과 향후 연구 문제를 제안하였다.

주관적 평가법을 이용한 초등학교 저학년 교실의 청취환경 조사 (Investigation of the listening environment for lower grade students in elementary school using subjective tests)

  • 박찬재;한찬훈
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.201-212
    • /
    • 2021
  • 본 연구는 만 9세 이하 아동과 같은 청력 비완전자에게 적합한 교실의 음향성능 기준을 제시하기 위한 사전연구로써 수행되었다. 이를 위해 초등학교 저학년 교실의 청취환경 특성을 분석하기 위하여 청주시 소재 초등학교 2곳에서 총 264명의 학생을 대상으로 설문조사 및 음성명료도 평가와 같은 주관적 평가를 진행했다. 설문조사 결과 학생들이 수업 내용 이해에 가장 도움이 되는 정보형식은 교사의 음성이라고 응답했다. 또한 현재 교사의 음성에 대해 음량은 '보통' 수준이며 명료도에는 높은 만족도를 보이고 있었다. 교실의 음향성능에 대해서도 소음의 경우 '보통'이며 잔향감은 '매우 짧다'는 의견이 가장 많아서 청취환경에 대한 전반적인 만족도가 높은 편인 것으로 파악되었다. 또한 초등학교 저학년 학생들을 위해 선별된 시험용 단어목록을 이용해 음성명료도 평가를 수행한 결과 만 8세 아동의 경우 음원으로부터의 종축거리가 음성인지에 영향을 미치는 요인임을 유추해볼 수 있었다.