• 제목/요약/키워드: Speech-to-text services

검색결과 38건 처리시간 0.023초

오픈소스기반의 지능형 개인 도움시스템(IPA) 개발방법 연구 (A Study on the Intelligent Personal Assistant Development Method Base on the Open Source)

  • 김길현;김영길
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.89-92
    • /
    • 2016
  • 최근 시리(siri)와 같이 사람의 말을 인식하고 대답해주는 서비스를 스마트폰 혹은 웹서비스로 제공해주고 있다. 이러한 지능형 처리를 위해서는 음성을 받아 드리고 웹상의 빅테이타를 검색하고 구문으로 분석, 정확도 부여등의 구현이 필요하다. 본 논문에서는 공개된 소스를 기반으로 하여 음성인식하는 ASR(Automatic Speech Recognition), 질문에 대한 내용을 데이터로 분석하고 응답을 만드는 QAS (Question Answering System), 결과를 음성으로 전달하는 TTS(Text to Speech) 로 구분하고 하나의 시스템으로 구현하는 연구와 분야별 적용될 수 있는 방법을 제안하고자 한다.

  • PDF

TTS를 이용한 매장 음악 방송 서비스 시스템 구현 (Implementation of Music Broadcasting Service System in the Shopping Center Using Text-To-Speech Technology)

  • 장문수;강선미
    • 음성과학
    • /
    • 제14권4호
    • /
    • pp.169-178
    • /
    • 2007
  • This thesis describes the development of a service system for small-sized shops which support not only music broadcasting, but editing and generating voice announcement using the TTS(Text-To-Speech) technology. The system has been developed based on web environments with an easy access whenever and wherever it is needed. The system is able to control the sound using silverlight media player based on the ASP .NET 2.0 technology without any additional application software. Use of the Ajax control allows for multiple users to get the maximum load when needed. TTS is built in the server side so that the service can be provided without user's computer. Due to convenience and usefulness of the system, the business sector can provide better service to many shops. Further additional functions such as statistical analysis will undoubtedly help shop management provide desirable services.

  • PDF

난청인을 위한 문자통역서비스 제도화 연구 (A study on the Institutionalization of Speech-to-text Services for the Deaf People)

  • 전동일;서정민
    • 디지털융복합연구
    • /
    • 제15권4호
    • /
    • pp.53-63
    • /
    • 2017
  • 본 연구는 난청인의 의사소통 증진을 위하여 문자통역서비스 활용 현황과 제도화 방안을 찾아보는데 있다. 연구결과는 첫째, 조사 대상자의 문자통역서비스 이용경험자는 17.8% 수준이었고 젊은 층일수록 이용경험률이 높았다. 문자통역서비스 제공기관은 복지기관(38.3%), 민간단체(18.3%), 공공기관(18.3%) 순이었다. 문자통역서비스를 위해 필요한 제도방안을 제시하면 다음과 같다. 첫째, 문자통역서비스는 "장애인차별금지 및 권리구제 등에 관한 법률"의 정당한 편의 중의 하나라는 것을 적극 홍보해야 한다. 둘째, "장애인복지법"의 일부 조항에 문자통역서비스를 추가 열거해 주어야 한다. 셋째, 난청인을 위한 서비스를 제공하기 위한 전달체계가 마련되어야 하며, 수화통역서비스와 복지서비스를 통합적으로 제공할 수 있도록 정비되어야 한다. 대면 접촉을 위한 문자통역서비스 방식의 개선방안이나 ICT를 활용하여 문자통역서비스를 발전시킬 수 있다면, 직업재활에서의 새로운 장애 근로자의 유입뿐만 아니라 난청인의 삶의 만족도 개선될 수 있을 것이다.

VoiceXML 기반 음성인식시스템을 이용한 서비스 개발 (The Interactive Voice Services based on VoiceXML)

  • 김학균;김은향;김재인;구명완
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.113-125
    • /
    • 2002
  • As there are needs to search the Web information via wire or wireless telephones, VoiceXML forum was established to develop and promote the Voice eXtensible Markup Language (VoiceXML). VoiceXML simplifies the creation of personalized interactive voice response services on the Web, and allows voice and phone access to information on Web sites, call center databases. Also, it can utilize the Web-based technologies, such as CGI(Common Gateway Interface) scripts. In this paper, we have developed the voice portal service platform based on VoiceXML called TeleGateway. It enables integration of voice services with data services using the Automatic Speech Recognition (ASR) and Text-To-Speech (TTS) engines. Also, we have showed the various services on voice portal services.

  • PDF

코퍼스 기반 프랑스어 텍스트 정규화 평가 (Corpus-based evaluation of French text normalization)

  • 김선희
    • 말소리와 음성과학
    • /
    • 제10권3호
    • /
    • pp.31-39
    • /
    • 2018
  • This paper aims to present a taxonomy of non-standard words (NSW) for developing a French text normalization system and to propose a method for evaluating this system based on a corpus. The proposed taxonomy of French NSWs consists of 13 categories, including 2 types of letter-based categories and 9 types of number-based categories. In order to evaluate the text normalization system, a representative test set including NSWs from various text domains, such as news, literature, non-fiction, social-networking services (SNSs), and transcriptions, is constructed, and an evaluation equation is proposed reflecting the distribution of the NSW categories of the target domain to which the system is applied. The error rate of the test set is 1.64%, while the error rate of the whole corpus is 2.08%, reflecting the NSW distribution in the corpus. The results show that the literature and SNS domains are assessed as having higher error rates compared to the test set.

방송목록과 사용자 경험 정보를 이용한 매장 음원 방송 서비스의 개선 (Improvement of Shop Music Broadcasting Services Using Music Lists and User Experience)

  • 강선미;김현득;장문수
    • 음성과학
    • /
    • 제15권4호
    • /
    • pp.121-130
    • /
    • 2008
  • This paper proposes the way of improvement and system build-up for shop music broadcasting services provided by the Internet. Comparing the shop music broadcasting services and personal music broadcasting services, we propose the way of shop music broadcasting services customers prefer to. That is, such a function is provided that a user can control the broadcasting music lists a specialist provides according to the current circumstance of shop. This paper proposes the whole system such a service is possible and verifies the efficiency by experiments.

  • PDF

한국어 품사 기반 온톨로지 구축 방법 및 차량 서비스 적용 방안 (Constructing Ontology based on Korean Parts of Speech and Applying to Vehicle Services)

  • 차시호;류민우
    • 디지털산업정보학회논문지
    • /
    • 제17권4호
    • /
    • pp.103-108
    • /
    • 2021
  • Knowledge graph is a technology that improves search results by using semantic information based on various resources. Therefore, due to these advantages, the knowledge graph is being defined as one of the core research technologies to provide AI-based services recently. However, in the case of the knowledge graph, since the form of knowledge collected from various service domains is defined as plain text, it is very important to be able to analyze the text and understand its meaning. Recently, various lexical dictionaries have been proposed together with the knowledge graph, but since most lexical dictionaries are defined in a language other than Korean, there is a problem in that the corresponding language dictionary cannot be used when providing a Korean knowledge service. To solve this problem, this paper proposes an ontology based on the parts of speech of Korean. The proposed ontology uses 9 parts of speech in Korean to enable the interpretation of words and their semantic meaning through a semantic connection between word class and word class. We also studied various scenarios to apply the proposed ontology to vehicle services.

음성 입출력 API를 이용한 모바일 접근성 지원 인터페이스 구현 (Implementation of Interface to Support Mobile Accessibility Using Speech I/O APIs)

  • 오승철;윤영선
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.71-80
    • /
    • 2013
  • 최근에 모바일 기기의 확산으로 인하여 모바일 접근성에 대한 많은 논의가 이뤄지고 있다. 모바일 접근성이란 모바일 기기를 사용하여 애플리케이션을 이용하고자 하는 장애인, 고령자 등을 포함한 모든 사람들에게 모바일 기기의 활용 가능성이 제공됨을 말한다. 본 논문에서는 음성 서비스 기술을 이용하여 모바일 접근성을 향상하기 위한 인터페이스를 제안하고 구현하였다. 제안된 방법은 안드로이드 스마트폰에서 구현하였으며, 시스템에서 제공하는 음성 인식과 음성 합성 기술을 이용하였다. 또한, 전맹인과 저시력자들의 인터넷 접근을 도와주기 위하여 접근성을 고려한 웹 리더 기능을 응용 프로그램 차원에서 설계하고 구현하였다.

Speech Interactive Agent on Car Navigation System Using Embedded ASR/DSR/TTS

  • Lee, Heung-Kyu;Kwon, Oh-Il;Ko, Han-Seok
    • 음성과학
    • /
    • 제11권2호
    • /
    • pp.181-192
    • /
    • 2004
  • This paper presents an efficient speech interactive agent rendering smooth car navigation and Telematics services, by employing embedded automatic speech recognition (ASR), distributed speech recognition (DSR) and text-to-speech (ITS) modules, all while enabling safe driving. A speech interactive agent is essentially a conversational tool providing command and control functions to drivers such' as enabling navigation task, audio/video manipulation, and E-commerce services through natural voice/response interactions between user and interface. While the benefits of automatic speech recognition and speech synthesizer have become well known, involved hardware resources are often limited and internal communication protocols are complex to achieve real time responses. As a result, performance degradation always exists in the embedded H/W system. To implement the speech interactive agent to accommodate the demands of user commands in real time, we propose to optimize the hardware dependent architectural codes for speed-up. In particular, we propose to provide a composite solution through memory reconfiguration and efficient arithmetic operation conversion, as well as invoking an effective out-of-vocabulary rejection algorithm, all made suitable for system operation under limited resources.

  • PDF

개인의 감성 분석 기반 향 추천 미러 설계 (Design of a Mirror for Fragrance Recommendation based on Personal Emotion Analysis)

  • 김현지;오유수
    • 한국산업정보학회논문지
    • /
    • 제28권4호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문에서는 사용자의 감정 분석에 따른 향을 추천하는 스마트 미러 시스템을 제안한다. 본 논문은 자연어 처리 중 임베딩 기법(CounterVectorizer와 TF-IDF 기법), 머신러닝 분류 기법 중 최적의 모델(DecisionTree, SVM, RandomForest, SGD Classifier)을 융합하여 시스템을 구축하고 그 결과를 비교한다. 실험 결과, 가장 높은 성능을 보이는 SVM과 워드 임베딩을 파이프라인 기법으로 감정 분류기 모델에 적용한다. 제안된 시스템은 Flask 웹 프레임워크를 이용하여 웹 서비스를 제공하는 개인감정 분석 기반 향 추천 미러를 구현한다. 본 논문은 Google Speech Cloud API를 이용하여 사용자의 음성을 인식하고 STT(Speech To Text)로 음성 변환된 텍스트 데이터를 사용한다. 제안된 시스템은 날씨, 습도, 위치, 명언, 시간, 일정 관리에 대한 정보를 사용자에게 제공한다.