• 제목/요약/키워드: Text-to-speech

검색결과 501건 처리시간 0.025초

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지 (Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction)

  • 김승민;박소희;최대선
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.439-449
    • /
    • 2024
  • 최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.

시각장애인을 위한 CNN 기반의 점자 변환 및 음성 출력 장치 설계 (Design of CNN-based Braille Conversion and Voice Output Device for the Blind)

  • 박승빈;김봉현
    • 사물인터넷융복합논문지
    • /
    • 제9권3호
    • /
    • pp.87-92
    • /
    • 2023
  • 시대가 발전함에 따라 정보가 다양해지고 이를 얻는 방법도 다양해진다. 살아가면서 얻는 정보의 양 중 약 80%는 시각적 감각으로 습득한다. 하지만 시각장애인들은 시각 자료를 해석하는 능력이 제한된다. 그래서 점자라는 시각장애인용 문자가 등장했다. 그러나 시각장애인들의 점자 해독률은 5%에 불과하며 시간에 지남에 따라 다양한 형태의 플랫폼이나 자료를 원하는 시각장애인들의 요구가 늘어나면서 시각장애인들을 위한 개발 및 물품 제작이 이루어지고 있다. 물품 제작의 예로는 점자 도서를 들 수 있는데 이 점자 도서는 장점보단 단점이 많아 보이고 비장애인과 다르게 아직도 정보 접근에 대해서는 많이 어려운 것이 사실이다. 본 논문에서는 시각장애인이 정보를 기존의 방법보다 쉽게 얻을 수 있도록 CNN 기반 점자 변환 및 음성 출력 장치를 설계하였다. 이 장치는 점자로 되어 있지 않고 점자로 제작이 되지 않은 책, 텍스트 이미지나 손글씨 이미지 등을 카메라 인식을 통해 점자로 변환할 수 있도록 하고, 점자로 변환 후 시각장애인들의 요구에 따라서 음성으로 변환해 출력할 수 있는 기능을 설계해 시각장애인들이 정보를 얻을 수 있게 도와주어 삶의 질을 높이고자 한다.

SVM을 이용한 음성채팅시스템의 성능 향상 방법 (Performance Improvement Methods of a Spoken Chatting System Using SVM)

  • 안혁주;이성희;송영길;김학수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권6호
    • /
    • pp.261-268
    • /
    • 2015
  • 음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다. 자동음성인식기의 1순위 정밀도를 향상시키기 위하여 본 논문에서는 RankSVM을 이용하여 자동음성인식기의 n개 결과를 재순위화하는 후처리 모델을 제안한다. 채팅시스템을 학습하기 위해서는 대용량의 채팅 문장들이 필요하다. 만약 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는다면 채팅시스템의 응답은 금방 진부해질 것이다. 이러한 문제를 해결하기 위하여 본 논문에서는 SVM을 이용하여 TV와 영화 시나리오로부터 채팅 문장들을 자동으로 선택하는 데이터 수집 모델을 제안한다. 실험에서 제안된 후처리 모델은 후처리를 하지 않은 모델보다 정확률에서 4.4%, 재현율에서 6.4% 더 좋은 결과를 보였다. 그리고 제안된 데이터 수집 모델은 98.95%의 높은 정확률과 57.14%의 재현율을 보였다.

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

성대마비의 음성장애 측정을 위한 청지각적 및 음향학적 평가 (Auditory-Perceptual and Acoustic Evaluation in Measuring Dysphonia Severity of Vocal Cord Paralysis)

  • 김근효;이연우;박희준;배인호;이병주;권순복
    • 대한후두음성언어의학회지
    • /
    • 제28권2호
    • /
    • pp.106-111
    • /
    • 2017
  • Background and Objectives : The purpose of this study was to investigate the criterion-related concurrent validity of two standardized auditory-perceptual assessments and the Acoustic Voice Quality Index (AVQI) for measuring dysphonia severity in patients with vocal cord paralysis (VCP). Materials and Methods : Total 210 patients with VCP and 236 normal voice subjects were asked to sustain the vowel [a:] and to read aloud the Korean text "Walk". A 2 second mid-vowel portion of the sustained vowel and two sentences (with 26 syllables) were recorded. And then voice samples were edited, concatenated, and analyzed according to Praat script. Two standardized auditory-perceptual assessment (GRBAS and CAPE-V) were performed by three raters. Results : The VCP group showed higher AVQI, Grade (G) and Overall Severity (OS) values than normal voice group. And the correlation among AVQI, G, and OS ranged from 0.904 to 0.926. In ROC curve analysis, cutoff values of AVQI, G, and OS were <3.79, <0.00, and <30.00, respectively, and the AUC of each analysis was over .89. Conclusion : AVQI and auditory evaluation can improve the early screening ability of VCP voice and help to establish effective diagnosis and treatment plan for VCP-related dysphonia.

  • PDF

악성댓글 판별의 성능 향상을 위한 품사 자질에 대한 분석 연구 (An analysis study on the quality of article to improve the performance of hate comments discrimination)

  • 김형주;문종민;김판구
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.71-79
    • /
    • 2021
  • 인터넷의 사용이 광범위 해져감에 따라 변화되는 사회적 측면 중 하나는 온라인 공간에서의 의사소통이다. 과거에는 물리적으로 같은 공간에 있을 때를 제외하고는 일대일 대화만 원격으로 가능했지만, 요즘은 게시판이나 커뮤니티, 소셜네트워크서비스(SNS) 등을 통해 다수의 사람들과 원격으로 소통할 수 있는 기술이 발달했다. 이러한 정보통신망의 발달로 생활이 편리해지고, 동시에 급격한 정보교류에 따른 피해도 끊임없이 증가하고 있다. 최근에는 연예인뿐 아니라 인플루언서 등 인터넷에서 인지도가 높은 특정인에게 성적인 메시지를 보내거나 인신공격을 가하는 등의 사이버 범죄가 발생하고 있으며, 이들 사이버 범죄에 노출된 이들 중 일부는 극단적인 선택을 하기도 하였다. 본 논문에서는 악성 댓글로 인한 피해를 줄이기 위해 음성 부분별 기능추출을 통한 차별적 악성 댓글의 성능향상 방안을 연구하였다.

로봇보조언어교육을 통한 초등 영어 학습자의 운율 변화 (The Prosodic Changes of Korean English Learners in Robot Assisted Learning)

  • 인지영;한정혜
    • 정보교육학회논문지
    • /
    • 제20권4호
    • /
    • pp.323-332
    • /
    • 2016
  • 로봇의 발음인식과 진단 그리고 발음빠르기는 로봇보조언어교육의 가장 중요한 상호작용이다. 이 연구는 한국인 초등 영어 학습자를 위하여 음율적 오류를 수정함으로써 원어민과 같은 억양을 산출하기 위한 로봇음성합성기의 효과성을 측정하기 위한 것이다. 이를 위해 초등 4학년 영어학습자들의 F0 범위값과 발화 속도라는 음성음향적 변수를 측정하여 분석하였고, 그 결과를 정규 영어교육의 시작하지 않은 1학년 학습자와 비교하였다. 로봇음성합성기를 활용한 언어학습에서 두 집단은 F0값보다 발화속도 변인에 반응하였다.

안드로이드 플랫폼 기반 시각장애인용 음성도서 서비스 모델 구축 및 평가 (Designing and Evaluating an Audiobook Service Model on Android Platform for the Visually-Impaired)

  • 장원홍;오삼균
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.221-236
    • /
    • 2015
  • 본 연구의 목적은 LG상남도서관 '책 읽어주는 도서관' 서비스의 안드로이드 플랫폼 기반 서비스 구축과정과 모델에 대한 기술과 그 서비스의 유용성을 평가하는 것이다. 연구방법은 서베이를 통한 이용자 요구조사, 이용현황통계분석 및 이용자 인터뷰를 실시하였고, 도출된 중요한 연구결과는 다음과 같다: 1) 시각장애인이 스마트기기 사용에 높은 관심을 보였고, 스마트기기를 사용해 본 적이 없는 시각장애인도 비용과 접근성만 해결된다면 사용할 의사가 있음을 표명하였으며, 2) 스트리밍보다는 다운로드 방식을 선호하는 것으로 나타났다. 3) 육성과 TTS 음성 차이를 중요하게 생각치 않는 것으로 밝혀졌으며, 4) 희망도서의 종류는 연령별로 각기 다른 선호도를 보였다. 5) 2014년 거의 14만 건의 다운로드가 이루어졌고 - 피처폰에 비해 36.3% 증가, 6) 가장 중요한 기능은 책갈피와 페이지/목차 이동 기능인 것으로 판명되었다.

『오리엔탈리즘』 계보학의 해체론적 재해석 "Truths are illusions which we have forgotten are illusions") (진리란 그것이 환상임을 망각하고 있는 착각이다) (Deconstructing the Genealogy of Orientalism in Term of a Supplement)

  • 최수
    • 영미문화
    • /
    • 제17권2호
    • /
    • pp.29-61
    • /
    • 2017
  • Said's Orientalism criticized the European representations on the Middle-East by theorizing orientalism as a discourse. In this text, he explored and criticized the colonial forms of knowledge and language that distorted the image of the colonized. The justification of the discourse of orientalism is derived from the binary system that is originated from Plato which Derrida rejects on the ground that it always privileges one term over the other, that is, colonizer over colonized. Derrida names for this traditional heritage of Western binary system logocentrism which regards logos(the Greek term for speech or reason) as the central principle of language and philosophy, whereas mythos derives its meaning from the logos on the basis of binary oppositions. Thus according to logocentrism, the colonized is merely the defined who can have its meaning from the definers, colonizers. In this paper, utilizing Derrida's a (non)concept called supplement which means both to add on as a surplus and to make up something missing as a mere extra, I propose another alternative interpretation towards the critique of colonial representation by raising internal contradictions in the Platonic dichotomy between logos and mythos embedded in western colonialism discourse, orientalism. I attempt to show that logos(colonizer) and mythos(colonized) is inseparable in itself due to the fact that they exist as supplementary. For this purpose, I demonstrate how colonial binary system constituted and was constituted in terms of language. Through this paper I reinterpret the colonial rationality of privileging 'logos' over 'mythos' by substituting the colonial binary system with the supplement.

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.