• 제목/요약/키워드: text-to-speech

검색결과 499건 처리시간 0.028초

SVM을 이용한 음성채팅시스템의 성능 향상 방법 (Performance Improvement Methods of a Spoken Chatting System Using SVM)

  • 안혁주;이성희;송영길;김학수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권6호
    • /
    • pp.261-268
    • /
    • 2015
  • 음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다. 자동음성인식기의 1순위 정밀도를 향상시키기 위하여 본 논문에서는 RankSVM을 이용하여 자동음성인식기의 n개 결과를 재순위화하는 후처리 모델을 제안한다. 채팅시스템을 학습하기 위해서는 대용량의 채팅 문장들이 필요하다. 만약 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는다면 채팅시스템의 응답은 금방 진부해질 것이다. 이러한 문제를 해결하기 위하여 본 논문에서는 SVM을 이용하여 TV와 영화 시나리오로부터 채팅 문장들을 자동으로 선택하는 데이터 수집 모델을 제안한다. 실험에서 제안된 후처리 모델은 후처리를 하지 않은 모델보다 정확률에서 4.4%, 재현율에서 6.4% 더 좋은 결과를 보였다. 그리고 제안된 데이터 수집 모델은 98.95%의 높은 정확률과 57.14%의 재현율을 보였다.

구문 의미 이해 기반의 VOC 요약 및 분류 (VOC Summarization and Classification based on Sentence Understanding)

  • 김문종;이재안;한규열;안영민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권1호
    • /
    • pp.50-55
    • /
    • 2016
  • VOC(Voice of Customer)는 기업의 제품 또는 서비스에 대한 고객의 의견이나 요구를 파악할 수 있는 중요한 데이터이다. 그러나 VOC 데이터는 대화체의 특징으로 인해 내용의 분절이나 중복이 다수 존재할 뿐 아니라 다양한 내용의 대화가 포함되어 유형을 파악하는데 어려움이 있다. 본 논문에서는, 문서에서 중요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하였고, 이를 바탕으로 문장의 구조 및 의미를 이해하기 위한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이해 기반의 주요 문장을 요약문으로 추출하였다. 요약문을 생성함에 있어 분절된 문장을 연결하고 중복된 의미를 갖는 문장을 줄이는 방법을 제안하였다. 또한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하였다. 실험에서는 VOC 데이터를 대상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하였다.

성대마비의 음성장애 측정을 위한 청지각적 및 음향학적 평가 (Auditory-Perceptual and Acoustic Evaluation in Measuring Dysphonia Severity of Vocal Cord Paralysis)

  • 김근효;이연우;박희준;배인호;이병주;권순복
    • 대한후두음성언어의학회지
    • /
    • 제28권2호
    • /
    • pp.106-111
    • /
    • 2017
  • Background and Objectives : The purpose of this study was to investigate the criterion-related concurrent validity of two standardized auditory-perceptual assessments and the Acoustic Voice Quality Index (AVQI) for measuring dysphonia severity in patients with vocal cord paralysis (VCP). Materials and Methods : Total 210 patients with VCP and 236 normal voice subjects were asked to sustain the vowel [a:] and to read aloud the Korean text "Walk". A 2 second mid-vowel portion of the sustained vowel and two sentences (with 26 syllables) were recorded. And then voice samples were edited, concatenated, and analyzed according to Praat script. Two standardized auditory-perceptual assessment (GRBAS and CAPE-V) were performed by three raters. Results : The VCP group showed higher AVQI, Grade (G) and Overall Severity (OS) values than normal voice group. And the correlation among AVQI, G, and OS ranged from 0.904 to 0.926. In ROC curve analysis, cutoff values of AVQI, G, and OS were <3.79, <0.00, and <30.00, respectively, and the AUC of each analysis was over .89. Conclusion : AVQI and auditory evaluation can improve the early screening ability of VCP voice and help to establish effective diagnosis and treatment plan for VCP-related dysphonia.

  • PDF

악성댓글 판별의 성능 향상을 위한 품사 자질에 대한 분석 연구 (An analysis study on the quality of article to improve the performance of hate comments discrimination)

  • 김형주;문종민;김판구
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.71-79
    • /
    • 2021
  • 인터넷의 사용이 광범위 해져감에 따라 변화되는 사회적 측면 중 하나는 온라인 공간에서의 의사소통이다. 과거에는 물리적으로 같은 공간에 있을 때를 제외하고는 일대일 대화만 원격으로 가능했지만, 요즘은 게시판이나 커뮤니티, 소셜네트워크서비스(SNS) 등을 통해 다수의 사람들과 원격으로 소통할 수 있는 기술이 발달했다. 이러한 정보통신망의 발달로 생활이 편리해지고, 동시에 급격한 정보교류에 따른 피해도 끊임없이 증가하고 있다. 최근에는 연예인뿐 아니라 인플루언서 등 인터넷에서 인지도가 높은 특정인에게 성적인 메시지를 보내거나 인신공격을 가하는 등의 사이버 범죄가 발생하고 있으며, 이들 사이버 범죄에 노출된 이들 중 일부는 극단적인 선택을 하기도 하였다. 본 논문에서는 악성 댓글로 인한 피해를 줄이기 위해 음성 부분별 기능추출을 통한 차별적 악성 댓글의 성능향상 방안을 연구하였다.

로봇보조언어교육을 통한 초등 영어 학습자의 운율 변화 (The Prosodic Changes of Korean English Learners in Robot Assisted Learning)

  • 인지영;한정혜
    • 정보교육학회논문지
    • /
    • 제20권4호
    • /
    • pp.323-332
    • /
    • 2016
  • 로봇의 발음인식과 진단 그리고 발음빠르기는 로봇보조언어교육의 가장 중요한 상호작용이다. 이 연구는 한국인 초등 영어 학습자를 위하여 음율적 오류를 수정함으로써 원어민과 같은 억양을 산출하기 위한 로봇음성합성기의 효과성을 측정하기 위한 것이다. 이를 위해 초등 4학년 영어학습자들의 F0 범위값과 발화 속도라는 음성음향적 변수를 측정하여 분석하였고, 그 결과를 정규 영어교육의 시작하지 않은 1학년 학습자와 비교하였다. 로봇음성합성기를 활용한 언어학습에서 두 집단은 F0값보다 발화속도 변인에 반응하였다.

안드로이드 플랫폼 기반 시각장애인용 음성도서 서비스 모델 구축 및 평가 (Designing and Evaluating an Audiobook Service Model on Android Platform for the Visually-Impaired)

  • 장원홍;오삼균
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.221-236
    • /
    • 2015
  • 본 연구의 목적은 LG상남도서관 '책 읽어주는 도서관' 서비스의 안드로이드 플랫폼 기반 서비스 구축과정과 모델에 대한 기술과 그 서비스의 유용성을 평가하는 것이다. 연구방법은 서베이를 통한 이용자 요구조사, 이용현황통계분석 및 이용자 인터뷰를 실시하였고, 도출된 중요한 연구결과는 다음과 같다: 1) 시각장애인이 스마트기기 사용에 높은 관심을 보였고, 스마트기기를 사용해 본 적이 없는 시각장애인도 비용과 접근성만 해결된다면 사용할 의사가 있음을 표명하였으며, 2) 스트리밍보다는 다운로드 방식을 선호하는 것으로 나타났다. 3) 육성과 TTS 음성 차이를 중요하게 생각치 않는 것으로 밝혀졌으며, 4) 희망도서의 종류는 연령별로 각기 다른 선호도를 보였다. 5) 2014년 거의 14만 건의 다운로드가 이루어졌고 - 피처폰에 비해 36.3% 증가, 6) 가장 중요한 기능은 책갈피와 페이지/목차 이동 기능인 것으로 판명되었다.

『오리엔탈리즘』 계보학의 해체론적 재해석 "Truths are illusions which we have forgotten are illusions") (진리란 그것이 환상임을 망각하고 있는 착각이다) (Deconstructing the Genealogy of Orientalism in Term of a Supplement)

  • 최수
    • 영미문화
    • /
    • 제17권2호
    • /
    • pp.29-61
    • /
    • 2017
  • Said's Orientalism criticized the European representations on the Middle-East by theorizing orientalism as a discourse. In this text, he explored and criticized the colonial forms of knowledge and language that distorted the image of the colonized. The justification of the discourse of orientalism is derived from the binary system that is originated from Plato which Derrida rejects on the ground that it always privileges one term over the other, that is, colonizer over colonized. Derrida names for this traditional heritage of Western binary system logocentrism which regards logos(the Greek term for speech or reason) as the central principle of language and philosophy, whereas mythos derives its meaning from the logos on the basis of binary oppositions. Thus according to logocentrism, the colonized is merely the defined who can have its meaning from the definers, colonizers. In this paper, utilizing Derrida's a (non)concept called supplement which means both to add on as a surplus and to make up something missing as a mere extra, I propose another alternative interpretation towards the critique of colonial representation by raising internal contradictions in the Platonic dichotomy between logos and mythos embedded in western colonialism discourse, orientalism. I attempt to show that logos(colonizer) and mythos(colonized) is inseparable in itself due to the fact that they exist as supplementary. For this purpose, I demonstrate how colonial binary system constituted and was constituted in terms of language. Through this paper I reinterpret the colonial rationality of privileging 'logos' over 'mythos' by substituting the colonial binary system with the supplement.

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

정보 검색을 위한 숫자의 해석에 관한 구문적.의미적 판별 기법 (Syntactic and Semantic Disambiguation for Interpretation of Numerals in the Information Retrieval)

  • 문유진
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권8호
    • /
    • pp.65-71
    • /
    • 2009
  • 월드 와이드 웹의 정보 검색에서 산출되어지는 수많은 정보를 효율적으로 검색하기 위해서 자연어 정보처리가 필수적이다. 이 논문은 텍스트에서 숫자의 의미 파악을 위한 판별기법을 제안한 것이다. 숫자 의미 판별기법은 챠트 파싱 기법과 함께 문맥자유 문법을 활용하여 숫자 스트링과 연관된 접사를 해석하였으며, N-그램 기반의 단어에 의거하여 조직화된 의미 파악을 하도록 설계되었다. 그리고 POS 태거를 사용하여 트라이그램 단어의 제한조건이 자동 인식되도록 시스템을 구성하여, 점진적으로 효율적인 숫자의 의미 파악을 하도록 하였다. 이 논문에서 제안한 숫자 해석 시스템을 실험한 결과, 빈도수 비례 방법은 86.3%의 정확률을 나타냈고 조건수 비례 방법은 82.8%의 정확률을 나타냈다.

한국형 멀티모달 몽타주 앱을 위한 생성형 AI 연구 (Research on Generative AI for Korean Multi-Modal Montage App)

  • 임정현;차경애;고재필;홍원기
    • 서비스연구
    • /
    • 제14권1호
    • /
    • pp.13-26
    • /
    • 2024
  • 멀티모달 (multi-modal) 생성이란 텍스트, 이미지, 오디오 등 다양한 정보를 기반으로 결과를 도출하는 작업을 말한다. AI 기술의 비약적인 발전으로 인해 여러 가지 유형의 데이터를 종합적으로 처리해 결과를 도출하는 멀티모달 기반 시스템 또한 다양해지는 추세이다. 본 논문은 음성과 텍스트 인식을 활용하여 인물을 묘사하면, 몽타주 이미지를 생성하는 AI 시스템의 개발 내용을 소개한다. 기존의 몽타주 생성 기술은 서양인들의 외형을 기준으로 이루어진 반면, 본 논문에서 개발한 몽타주 생성 시스템은 한국인의 안면 특징을 바탕으로 모델을 학습한다. 따라서, 한국어에 특화된 음성과 텍스트의 멀티모달을 기반으로 보다 정확하고 효과적인 한국형 몽타주 이미지를 만들어낼 수 있다. 개발된 몽타주 생성 앱은 몽타주 초안으로 충분히 활용 가능하기 때문에 기존의 몽타주 제작 인력의 수작업을 획기적으로 줄여줄 수 있다. 이를 위해 한국지능정보사회진흥원의 AI-Hub에서 제공하는 페르소나 기반 가상 인물 몽타주 데이터를 활용하였다. AI-Hub는 AI 기술 및 서비스 개발에 필요한 인공지능 학습용 데이터를 구축하여 원스톱 제공을 목적으로 한 AI 통합 플랫폼이다. 이미지 생성 시스템은 고해상도 이미지를 생성하는데 사용하는 딥러닝 모델인 VQGAN과 한국어 기반 영상생성 모델인 KoDALLE 모델을 사용하여 구현하였다. 학습된 AI 모델은 음성과 텍스트를 이용해 묘사한 내용과 매우 유사한 얼굴의 몽타주 이미지가 생성됨을 확인할 수 있다. 개발된 몽타주 생성 앱의 실용성 검증을 위해 10명의 테스터가 사용한 결과 70% 이상이 만족한다는 응답을 보였다. 몽타주 생성 앱은 범죄자 검거 등 얼굴의 특징을 묘사하여 이미지화하는 여러 분야에서 다양하게 사용될 수 있을 것이다.