• 제목/요약/키워드: Speech-to-text services

검색결과 38건 처리시간 0.021초

텍스트 마이닝 기법을 이용한 게임 마케팅 비디오에서의 스피치 분석 (Analysis of speech in game marketing video using text mining techniques)

  • 이여경;김재직
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.147-159
    • /
    • 2022
  • 오늘날 다양한 소셜 미디어 플랫폼이 널리 퍼져 있고 사람들은 그들의 일상생활 속에서 밀접하게 그러한 플랫폼들을 이용하고 있다. 이에 따라, 많은 수의 구독자, 시청, 댓글 등을 보유한 인플루언서들은 우리 사회 속에서 큰 영향력을 가지게 되었다. 이러한 추세에 따라 많은 회사들은 그들의 상품과 서비스 판매의 촉진을 위한 마케팅 목적으로 인플루언서들을 적극 활용하고 있다. 본 연구에서는 게임 마케팅을 위한 비디오에서 인플루언서들의 스피치를 추출하고 텍스트화하여 이를 텍스트 마이닝 기술을 이용하여 탐색적으로 분석한다. 분석에 있어, 성공한 마케팅 비디오와 실패한 마케팅 비디오를 구분하고 성공, 실패한 마케팅 비디오에서 인플루언서들의 언어적 특징들을 비교 분석한다.

Hate Speech Detection Using Modified Principal Component Analysis and Enhanced Convolution Neural Network on Twitter Dataset

  • Majed, Alowaidi
    • International Journal of Computer Science & Network Security
    • /
    • 제23권1호
    • /
    • pp.112-119
    • /
    • 2023
  • Traditionally used for networking computers and communications, the Internet has been evolving from the beginning. Internet is the backbone for many things on the web including social media. The concept of social networking which started in the early 1990s has also been growing with the internet. Social Networking Sites (SNSs) sprung and stayed back to an important element of internet usage mainly due to the services or provisions they allow on the web. Twitter and Facebook have become the primary means by which most individuals keep in touch with others and carry on substantive conversations. These sites allow the posting of photos, videos and support audio and video storage on the sites which can be shared amongst users. Although an attractive option, these provisions have also culminated in issues for these sites like posting offensive material. Though not always, users of SNSs have their share in promoting hate by their words or speeches which is difficult to be curtailed after being uploaded in the media. Hence, this article outlines a process for extracting user reviews from the Twitter corpus in order to identify instances of hate speech. Through the use of MPCA (Modified Principal Component Analysis) and ECNN, we are able to identify instances of hate speech in the text (Enhanced Convolutional Neural Network). With the use of NLP, a fully autonomous system for assessing syntax and meaning can be established (NLP). There is a strong emphasis on pre-processing, feature extraction, and classification. Cleansing the text by removing extra spaces, punctuation, and stop words is what normalization is all about. In the process of extracting features, these features that have already been processed are used. During the feature extraction process, the MPCA algorithm is used. It takes a set of related features and pulls out the ones that tell us the most about the dataset we give itThe proposed categorization method is then put forth as a means of detecting instances of hate speech or abusive language. It is argued that ECNN is superior to other methods for identifying hateful content online. It can take in massive amounts of data and quickly return accurate results, especially for larger datasets. As a result, the proposed MPCA+ECNN algorithm improves not only the F-measure values, but also the accuracy, precision, and recall.

오디오 데이터 내 개인 신상 정보 검출과 마스킹을 위한 인공지능 API의 활용 및 음성 분할 방법의 연구 (A System of Audio Data Analysis and Masking Personal Information Using Audio Partitioning and Artificial Intelligence API)

  • 김태영;홍지원;김도희;김형종
    • 정보보호학회논문지
    • /
    • 제30권5호
    • /
    • pp.895-907
    • /
    • 2020
  • 최근 기존 텍스트 기반 콘텐츠 외 멀티미디어 콘텐츠의 영향력이 급증함에 따라 콘텐츠 내 정보들을 처리할 수 있도록 도와주는 서비스가 콘텐츠 이용에 큰 편리함을 주고 있다. 이러한 서비스의 대표적인 기능으로는 중요 정보에 대한 검색과 마스킹이 있다. 텍스트 데이터와 이미지 데이터의 검색 및 마스킹 기술을 제공해주는 솔루션들은 활발히 보급되고 있어 쉽게 접할 수 있다. 그러나 오디오 콘텐츠의 경우, 검색 및 마스킹의 필요성은 인식되지만 기술의 난이도로 인해 범용적으로 적용되는 솔루션을 찾는 것이 쉽지 않다. 본 논문은 음성 분할을 이용하여 오디오 데이터 내 정보 검색과 마스킹 기능을 제공하는 웹 애플리케이션을 제안한다. 추가적으로, 국내외 인공지능 기반 음성 인식 API에 대한 분석을 통해 적절한 API의 선택을 진행하였으며, 정규식을 이용한 개인 신상 정보의 검출 방법을 제시하였다. 마지막으로 구현결과의 정확도를 측정하여 성능을 검증하였다. 본 논문의 기여점은 오디오 데이터 내 특정 패턴의 검출 및 마스킹 기능을 설계하고 실험을 통해 검증한 것에 있다.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.

119 응급신고에서 수보요원과 신고자의 통화분석을 활용한 머신 러닝 기반의 심정지 탐지 모델 (Machine-learning-based out-of-hospital cardiac arrest (OHCA) detection in emergency calls using speech recognition)

  • 김종인;이주영;정지오;신대진;최동현;김기홍;홍기정;김선희;정민화
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.109-118
    • /
    • 2023
  • 심정지는 초기 대응에 따라 생존율과 예후에 영향을 미치는 중요한 응급 상황이다. 특히 병원밖심정지(out-of-hospital cardiac arrest, OHCA)의 경우, 119 구조대의 초기 조치가 심정지 환자의 생존율을 높이는 데 결정적인 역할을 한다. 그러나 국내에서는 수보요원의 수가 제한적이지만 다량의 신고 전화에 응대해야 하는 현실이다. 이런 상황에서 머신러닝 기반의 OHCA 탐지 프로그램은 수보요원의 보조 역할로 심정지 환자의 생존률을 높일 수 있다. 본 연구에서는 이러한 문제를 해결하기 위해 머신러닝 기반의 심정지(OHCA) 탐지 프로그램을 개발하였다. 이 프로그램은 수보요원과 신고자의 통화 녹취록을 분석하여 심정지 여부를 판단한다. 제안한 모델은 수보요원 및 신고자와의 통화를 자동으로 전사하는 모델, 텍스트 기반의 심정지 탐지 모델, 그리고 프로그램 개발을 위한 서버와 클라이언트로 구성되어 있다. 실험 결과, 본 연구에서 제안한 모델은 F1 점수 기준으로 79.49%의 성능을 보였으며, 수보요원과 비교하여 심정지 감지 시간을 15초 단축하였다. 이 연구는 소규모 데이터셋을 사용하였음에도 불구하고, 심정지 기반의 탐지 프로그램이 수보요원의 보조 역할로 심정지 생존률에 기여할 수 있음을 입증하였다.

Research on Developing a Conversational AI Callbot Solution for Medical Counselling

  • Won Ro LEE;Jeong Hyon CHOI;Min Soo KANG
    • 한국인공지능학회지
    • /
    • 제11권4호
    • /
    • pp.9-13
    • /
    • 2023
  • In this study, we explored the potential of integrating interactive AI callbot technology into the medical consultation domain as part of a broader service development initiative. Aimed at enhancing patient satisfaction, the AI callbot was designed to efficiently address queries from hospitals' primary users, especially the elderly and those using phone services. By incorporating an AI-driven callbot into the hospital's customer service center, routine tasks such as appointment modifications and cancellations were efficiently managed by the AI Callbot Agent. On the other hand, tasks requiring more detailed attention or specialization were addressed by Human Agents, ensuring a balanced and collaborative approach. The deep learning model for voice recognition for this study was based on the Transformer model and fine-tuned to fit the medical field using a pre-trained model. Existing recording files were converted into learning data to perform SSL(self-supervised learning) Model was implemented. The ANN (Artificial neural network) neural network model was used to analyze voice signals and interpret them as text, and after actual application, the intent was enriched through reinforcement learning to continuously improve accuracy. In the case of TTS(Text To Speech), the Transformer model was applied to Text Analysis, Acoustic model, and Vocoder, and Google's Natural Language API was applied to recognize intent. As the research progresses, there are challenges to solve, such as interconnection issues between various EMR providers, problems with doctor's time slots, problems with two or more hospital appointments, and problems with patient use. However, there are specialized problems that are easy to make reservations. Implementation of the callbot service in hospitals appears to be applicable immediately.

차량 보안을 위한 어구독립 화자증명의 등록시간 단축에 관한 연구 (A Study on the Fast Enrollment of Text-Independent Speaker Verification for Vehicle Security)

  • 이태승;최호진
    • 한국항행학회논문지
    • /
    • 제5권1호
    • /
    • pp.1-10
    • /
    • 2001
  • 음성은 차량 운행시 여러 가지 조작으로 분주한 운전자에게 간편한 장비 입력 및 조작을 위한 수단으로 유용한 특성을 지니고 있다. 본 논문에서는 이런 음성의 특성을 이용하여 차량 도난이나 중요한 온라인 서비스 접근시 신원을 증명할 수 있는 화자증명 방식을 제안한다. 이 방식에서는 음성의 언어정보를 이용하는 지속음 인식 기법과 함께 확률적 인식 방식에 비해 몇 가지 이점을 갖는 MLP(multi-layer perceptron)를 사용한다. 하지만 MLP를 사용하는 인식 기법은 학습에 많은 계산량을 요구하므로 실시간으로 화자를 등록해야 하는 화자증명에서는 적용하기가 쉽지 않다. 이 문제를 해결하기 위해 본 논문에서는 기존의 화자점수 평준화 방법에서 화자군집 모델 기법을 도입하여 배경화자를 사전에 여러 개의 작은 화자군집으로 분리하는 방법을 제안한다. 등록화자를 이렇게 나눈 화자군집 중 하나로 분류한 뒤 해당 화자군집에 대해서만 등록 학습과정을 거치는 방법으로 계산량을 큰 폭으로 줄일 수 있다.

  • PDF

위험사회 재난 안전 분야 대응을 위한 AI 조력자 (AI Advisor for Response of Disaster Safety in Risk Society)

  • 이용학;강윤희;이민호;박성호;강명주
    • Journal of Platform Technology
    • /
    • 제8권3호
    • /
    • pp.22-29
    • /
    • 2020
  • 4차 산업혁명은 초기 단순 제조업 혁신에서 사회 및 경제분야에서 다양한 기술적 융합 방향을 이끄는 메가 트랜드로서 국가별로 진행하고 있다. COVID-19와 같은 감염병의 유행은 디지털 중심의 비대면 비즈니스를 경제 운영에서 전환되고 있으며 온라인화 확산을 위해서는 개인 맞춤형서비스를 위한 AI와 빅데이터 기술의 활용은 필수적이다. 이 논문에서는 4차산업혁명을 주요한 기술 특징 및 정부에서 추진하는 디지털 뉴딜의 효과적 이행을 위해 핵심 기술인 인공지능기술의 적용을 중심으로 사례를 분석하고 재난대응 분야에서의 활용 사례를 기술한다. 재난대응 활용사례로서 AI 조력자는 긴급호출에서 신고자의 상태에 따른 적절한 대응책들을 제시한다. 이를 위해 AI 조력자는 적응적 대응을 위한 음성인식 데이터 기반 분석 및 변환 텍스트의 재난 분류를 제공한다.

  • PDF

Infodemic: The New Informational Reality of the Present Times

  • Araujo, Carlos Alberto Avila
    • Journal of Information Science Theory and Practice
    • /
    • 제10권1호
    • /
    • pp.59-72
    • /
    • 2022
  • This text discusses elements and characteristics of contemporary informational reality, that is, the ways of producing, circulating, organizing, using, and appropriating information in the current context. Initially, seven terms and concepts used to describe this reality are discussed: fake news, false testimonials, hate speech, scientific negationism, disinformation, post-truth, and infodemic. Next, an attempt is made to present a framework for such phenomena as an object of study in information science. Therefore, this scenario is characterized based on the three main models of information science study: physical, cognitive, and social. The contribution of each of them to the study of contemporary informational reality is analyzed, identifying aspects such as the bubble effect, clickbaits, confirmation bias, cults of amateurism, and post-truth culture. Finally, it presents the discussion of a possible veritistic turn in the field, in order to think about elements not covered so far by information science in its task and challenge of producing adequate understanding and diagnoses of current phenomena. In conclusion, it is argued that only accurate and comprehensive diagnoses of such phenomena will allow information science to develop services and systems capable of combating their harmful effects.

유비쿼터스 환경을 위한 하프미러형 인터페이스 시스템 개발과 응용 (Development of Half-Mirror Interface System and Its Application for Ubiquitous Environment)

  • 권영준;김대진;이상완;변증남
    • 제어로봇시스템학회논문지
    • /
    • 제11권12호
    • /
    • pp.1020-1026
    • /
    • 2005
  • In the era of ubiquitous computing, human-friendly man-machine interface is getting more attention due to its possibility to offer convenient services. For this, in this paper, we introduce a 'Half-Mirror Interface System (HMIS)' as a novel type of human-friendly man-machine interfaces. Basically, HMIS consists of half-mirror, USB-Webcam, microphone, 2ch-speaker, and high-speed processing unit. In our HMIS, two principal operation modes are selected by the existence of the user in front of it. The first one, 'mirror-mode', is activated when the user's face is detected via USB-Webcam. In this mode, HMIS provides three basic functions such as 1) make-up assistance by magnifying an interested facial component and TTS (Text-To-Speech) guide for appropriate make-up, 2) Daily weather information provider via WWW service, 3) Health monitoring/diagnosis service using Chinese medicine knowledge. The second one, 'display-mode' is designed to show decorative pictures, family photos, art paintings and so on. This mode is activated when the user's face is not detected for a time being. In display-mode, we also added a 'healing-window' function and 'healing-music player' function for user's psychological comfort and/or relaxation. All these functions are accessible by commercially available voice synthesis/recognition package.