• 제목/요약/키워드: Speech Learning Model

검색결과 187건 처리시간 0.027초

Generative Interactive Psychotherapy Expert (GIPE) Bot

  • Ayesheh Ahrari Khalaf;Aisha Hassan Abdalla Hashim;Akeem Olowolayemo;Rashidah Funke Olanrewaju
    • International Journal of Computer Science & Network Security
    • /
    • 제23권4호
    • /
    • pp.15-24
    • /
    • 2023
  • One of the objectives and aspirations of scientists and engineers ever since the development of computers has been to interact naturally with machines. Hence features of artificial intelligence (AI) like natural language processing and natural language generation were developed. The field of AI that is thought to be expanding the fastest is interactive conversational systems. Numerous businesses have created various Virtual Personal Assistants (VPAs) using these technologies, including Apple's Siri, Amazon's Alexa, and Google Assistant, among others. Even though many chatbots have been introduced through the years to diagnose or treat psychological disorders, we are yet to have a user-friendly chatbot available. A smart generative cognitive behavioral therapy with spoken dialogue systems support was then developed using a model Persona Perception (P2) bot with Generative Pre-trained Transformer-2 (GPT-2). The model was then implemented using modern technologies in VPAs like voice recognition, Natural Language Understanding (NLU), and text-to-speech. This system is a magnificent device to help with voice-based systems because it can have therapeutic discussions with the users utilizing text and vocal interactive user experience.

Structural live load surveys by deep learning

  • Li, Yang;Chen, Jun
    • Smart Structures and Systems
    • /
    • 제30권2호
    • /
    • pp.145-157
    • /
    • 2022
  • The design of safe and economical structures depends on the reliable live load from load survey. Live load surveys are traditionally conducted by randomly selecting rooms and weighing each item on-site, a method that has problems of low efficiency, high cost, and long cycle time. This paper proposes a deep learning-based method combined with Internet big data to perform live load surveys. The proposed survey method utilizes multi-source heterogeneous data, such as images, voice, and product identification, to obtain the live load without weighing each item through object detection, web crawler, and speech recognition. The indoor objects and face detection models are first developed based on fine-tuning the YOLOv3 algorithm to detect target objects and obtain the number of people in a room, respectively. Each detection model is evaluated using the independent testing set. Then web crawler frameworks with keyword and image retrieval are established to extract the weight information of detected objects from Internet big data. The live load in a room is derived by combining the weight and number of items and people. To verify the feasibility of the proposed survey method, a live load survey is carried out for a meeting room. The results show that, compared with the traditional method of sampling and weighing, the proposed method could perform efficient and convenient live load surveys and represents a new load research paradigm.

모수 추정을 위한 베이시안 기법과 바타차랴 알고리즘을 융합한 어휘 인식 성능 향상 (Vocabulary Recognition Performance Improvement using a convergence of Bayesian Method for Parameter Estimation and Bhattacharyya Algorithm Model)

  • 오상엽
    • 디지털융복합연구
    • /
    • 제13권10호
    • /
    • pp.353-358
    • /
    • 2015
  • 어휘 인식 시스템은 학습 모델을 구성하여 인식하므로 구성되어진 모델에서 벗어난 어휘의 입력과 유사한 어휘의 입력은 인식하지 못하거나 유사한 어휘로 인식되어 인식률 저하가 나타난다. 이런 경우 인식 모델을 확장할 수 있도록 재구성하거나 인식 모델 구성 시 확장성을 반영하므로 해결할 수 있다. 본 논문에서는 모델 구성 시 확장성을 반영할 수 있는 모수 추정을 위한 베이시안 기법을 사용하여 바타차랴 알고리즘 음성 인식 학습 모델 구성 방법을 융합하여 제안하였다. 음소가 갖는 특징을 기반으로 학습 데이터의 음소에 모수 추정을 위한 베이시안 기법을 이용하였고 유사한 학습 모델은 바타챠랴 알고리즘을 이용하여 정확한 학습 모델로 인식하도록 하였다. 바타챠랴 알고리즘 인식 모델을 구성하여 인식 성능을 평가하였다. 본 논문에서 제안한 시스템을 적용한 결과 어휘 인식률에서 97.5%의 인식률과 1.2초의 학습 시간을 나타내었다.

스마트 교실을 활용한 '뒤집힌 교수학습모형' 개발 (Development of the Flipped Classroom Teaching and Learning Model for the Smart Classroom)

  • 정영식;서진화
    • 정보교육학회논문지
    • /
    • 제19권2호
    • /
    • pp.175-186
    • /
    • 2015
  • 본 연구에서는 전통적인 뒤집힌 교수학습모형의 단점을 보완하기 위해 스마트 교실에서 디지털교과서를 활용하는 방안을 제시하고, 그것을 체계화하여 PATROL 모형을 개발하였다. 첫째, 계획단계(Planning)는 교사가 앞으로 진행할 수업을 설계한다. 둘째, 실행단계(Action)는 학생들이 가정에서 디지털교과서를 활용하여 자율적인 온라인학습과 과제를 수행한다. 셋째, 추적단계(Tracking)는 디지털교과서가 실행단계의 활동 상황이나 결과물을 분석한다. 넷째, 추천단계(Recommending)는 디지털교과서가 데이터 분석 결과를 토대로 교사에게 교실 수업활동을 제안한다. 다섯째, 요구단계(Ordering)는 학생들이 교실 수업 중에 필요한 자료를 요청한다. 여섯째, 안내단계(Leading)는 교사가 학생들의 학습 활동을 관찰하여 수준별 자료를 제공한다. PATROL 모형을 2개 학교에 시범 운영한 결과, 학생의 주도적 발언이 많아졌고, 전체 활동보다는 모둠활동이나 개별활동이 활발하게 이루어졌으며, 교사의 궤간 순시하는 시간이 증가하여 긍정적인 결과를 나타냈다.

단기 전력 부하 첨두치 예측을 위한 심층 신경회로망 모델 (Deep Neural Network Model For Short-term Electric Peak Load Forecasting)

  • 황희수
    • 한국융합학회논문지
    • /
    • 제9권5호
    • /
    • pp.1-6
    • /
    • 2018
  • 스마트그리드에서 정확한 단기 부하 예측을 통한 자원의 이용 계획은 에너지 시스템 운영의 불확실성을 줄이고 운영 효율을 높이는데 있어서 매우 중요하다. 단기 부하 예측에 얕은 신경회로망을 포함한 다수의 머신 러닝 기법이 적용되어왔지만 예측 정확도의 개선이 요구되고 있다. 최근에는 컴퓨터 비전이나 음성인식 분야에서 심층 신경회로망의 뛰어난 연구 결과로 인해 심층 신경회로망을 단기 전력수요 예측에 적용해 예측 정확도를 개선하려는 시도가 주목 받고 있다. 본 논문에서는 일별 전력 부하 첨두치를 예측하기 위한 다층신경회로망 구조의 심층 신경회로망 모델을 제안한다. 제안된 심층 신경회로망은 층별 학습이 선행된 후 전체 모델의 학습이 이루어진다. 한국전력거래소에서 얻은 4년 동안의 일별 전력 수요 데이터를 사용, 하루 및 이틀 앞선 전력수요 첨두치를 예측하는 심층 신경회로망 모델을 구축하고 예측 정확도를 비교, 평가한다.

음성특징의 거리에 기반한 한국어 발음의 시각화 (Visualization of Korean Speech Based on the Distance of Acoustic Features)

  • 복거철
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권3호
    • /
    • pp.197-205
    • /
    • 2020
  • 한국어는 자음과 모음과 같은 음소 단위의 발음은 고정되어 있고 표기에 대응하는 발음은 변하지 않기 때문에 외국인 학습자가 쉽게 접근할 수 있다. 그러나 단어와 어구, 문장을 말할 때는 음절과 음절의 경계에서 소리의 변동이 다양하고 복잡하며 표기와 발음이 일치하지 않기 때문에 외국어로서의 한국어 표준 발음 학습은 어려운 면이 있다. 그러나 영어 같은 다른 언어와 달리 한국어의 표기와 발음의 관계는 논리적인 원리에 따라 예외 없이 규칙화 할 수 있는 장점이 있으므로 발음오류에 대해 체계적인 분석이 가능한 것으로 여겨진다. 본 연구에서는 오류 발음과 표준 발음의 차이를 컴퓨터 화면상의 상대적 거리로 표현하여 시각화하는 모델을 제시한다. 기존 연구에서는 발음의 특징을 단지 컬러 또는 3차원 그래픽으로 표현하거나 입과 구강의 변화하는 형태를 애니메이션으로 보여 주는 방식에 머물러 있으며 추출하는 음성의 특징도 구간의 평균과 같은 점 데이터를 이용하는데 그치고 있다. 본 연구에서는 시계열로 표현되는 음성데이터의 특성 및 구조를 요약하거나 변형하지 않고 직접 이용하는 방법을 제시한다. 이를 위해서 딥러닝 기법을 토대로 자기조직화 알고리즘과 variational autoencoder(VAE) 모델 및 마코브 확률모델을 결합한 확률적 SOM-VAE 기법을 사용하여 클러스터링 성능을 향상시켰다.

단일 레이블 분류를 이용한 종단 간 화자 분할 시스템 성능 향상에 관한 연구 (A study on end-to-end speaker diarization system using single-label classification)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제42권6호
    • /
    • pp.536-543
    • /
    • 2023
  • 다수의 화자가 존재하는 음성에서 "누가 언제 발화했는가?"에 대해 레이블링하는 화자 분할은 발화 중첩 구간에 대한 레이블링과 화자 분할 모델의 최적화를 위해 심층 신경망 기반의 종단 간 방법에 대해 연구되었다. 대부분 심층 신경망 기반의 종단 간 화자 분할 시스템은 음성의 각 프레임에서 발화한 모든 화자의 레이블들을 추정하는 다중 레이블 분류 문제로 분할을 수행한다. 다중 레이블 기반의 화자 분할 시스템은 임계값을 어떤 값으로 설정하는지에 따라 모델의 성능이 많이 달라진다. 본 논문에서는 임계값 없이 화자 분할을 수행할 수 있도록 단일 레이블 분류를 이용한 화자 분할 시스템에 대해 연구하였다. 제안하는 화자 분할 시스템은 기존의 화자 레이블을 단일 레이블 형태로 변환하여 모델의 출력으로부터 레이블을 바로 추정한다. 훈련에서는 화자 레이블 순열을 고려하기 위해 Permutation Invariant Training(PIT) 손실함수와 교차 엔트로피 손실함수를 조합하여 사용하였다. 또한 심층 구조를 갖는 모델의 효과적인 학습을 위해 화자 분할 모델에 잔차 연결 구조를 추가하였다. 실험은 Librispeech 데이터베이스를 이용해 화자 2명에 대한 시뮬레이션 잡음 데이터를 생성하여 사용하였다. Diarization Error Rate(DER) 성능 평가 지수를 이용해 제안한 방법과 베이스라인 모델을 비교 평가했을 때, 제안한 방법이 임계값 없이 분할이 가능하며, 약 20.7 %만큼 향상된 성능을 보였다.

The effects of pause in English speaking evaluation

  • Kim, Mi-Sun;Jang, Tae-Yeoub
    • 말소리와 음성과학
    • /
    • 제9권1호
    • /
    • pp.19-26
    • /
    • 2017
  • The main objective of this study is to investigate the influence of utterance internal pause in English speaking evaluation. To avoid possible confusion with other errors caused by segmental and prosodic inaccuracy, stem utterances with two different length obtained from a native speaker were manipulated to make a set of stimuli tokens through insertion of pauses whose length and position vary. After a total of 90 participants classified into three proficiency groups rated the stimuli, the scored data set was statistically analyzed in terms of the mixed effects model. It was confirmed that predictors such as pause length, pause position and utterance length significantly influence raters' evaluation scores. Especially, a dominating effect was found in such a way that raters gradually deducted scores in accordance with the increase of pause duration. In another experiment, a tree-based statistical learning technique was utilized to check which of the significant predictors played a more influential role than others. The findings in this paper are expected to be practically informative for both the test takers who are preparing for an English speaking test and the raters who desire to develop more objective rubric of speaking evaluation.

퍼지추론에 의한 지능형 음성지시 조타기 제어 시스템의 구축 (Building of an Intelligent Ship's Steering Control System Based on Voice Instruction Gear Using Fuzzy Inference)

  • 서기열;박계각
    • 한국정보통신학회논문지
    • /
    • 제7권8호
    • /
    • pp.1809-1815
    • /
    • 2003
  • 최근 선박 운항의 고효율화 및 안전성 확보를 위하여 지능형 선박 시스템에 관한 연구가 활발하게 진행되고 있다. 전문가의 지식과 경험 정보가 데이터베이스로 구축된 전문가 시스템의 지식 정보를 이용하여 안전하고 효율적인 선박 운항이 가능한 항해 지원 시스템에 관한 연구도 활발하다. 따라서, 본 논문에서는 지능형 선박을 구현하기 위한 연구의 일환으로 퍼지 추론과 휴먼 인터페이스의 하나인 음성 인식 기술을 적용하여 선박 운항자의 부담 경감 및 인원 절감 등의 효과를 가져 올 수 있는 지능형 선박 조종 시스템을 구축한다. 구체적인 연구방법으로는 먼저, 음성 인식 기술과 지능형 학습 기법을 기반으로 음성 지시 기반 학습 시스템을 구현하고, 다음으로 퍼지 추론에 의한 조타수 조작 모델을 구성하여 PC기반 원격 제어 시스템을 구축하였다. 마지막으로 구현된 음성 지시 조타 제어 시스템을 모형 선박 시스템에 적용하여 그 효용성을 확인하였다.

Arduino IoT Studio based on 5W1H Programming Model for non Programmer

  • Im, Hong-Gab;Baek, Yeong-Tae;Lee, Se-Hoon;Kim, Ji-Seong;Sin, Bo-Bae
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.29-35
    • /
    • 2017
  • In this paper, we present a 5W1H programming model for IT non-experienced people who are not familiar with computer programming and those who need programming education. Based on this model, we can design a development tool that can be easily programmed by beginners. This development tool is a programming method applying the 5W1H concept and constructs a sentence to satisfy the control condition of 'Who, When, Where, What, and How', which is the sentence element of 5W1H. Therefore, the user can easily develop the target system as if constructing the sentence without learning the programming language of the target system. In this paper, to verify the effectiveness of the 5W1H programming model proposed in this paper, we applied the concept of 5W1H programming to Arduino and developed the development tool and performed the first verification and applied the second verification to the speech recognition smart home development platform.