• 제목/요약/키워드: 음성 속도 변환

검색결과 56건 처리시간 0.029초

템플릿 기반의 자동 소셜 매거진 및 영상 합성 서비스 (Template-based Auto Social Magazine and Video Creation Service)

  • 이재원;장달원;김미지;김지수;김서율;이종설
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 하계학술대회
    • /
    • pp.129-132
    • /
    • 2019
  • 최근 자연어 처리 기술에 대한 중요도가 높아지고, 발전 속도가 빨라지면서, 산업 전반에 걸쳐 챗봇에 대한 수요가 증가하고 있다. 본 논문은 챗봇을 이용한 소셜 매거진 생성 및 배포, 그리고 이를 활용하여 사용자에게 텍스트를 음성으로 변환하여 동영상의 형태로 전달해 주는 시스템을 다루고 있다. 챗봇이 사용자 대화를 수집, 분석하여 상황에 맞는 키워드를 추출하고, 중복 콘텐츠 제거, 텍스트 요약 등 일련의 과정을 거쳐 소셜 매거진을 생성 및 배포하는 서비스와, 매거진의 각 콘텐츠를 구성하는 이미지, 텍스트 정보를 가지고 음성 합성, 자막 생성, 영상 효과 등을 이용하여 영상을 합성하는 서비스에 관한 것이다. 본 논문에서 제안한 시스템에 대한 성능은 실험을 통하여 검증하였다.

  • PDF

디지털 전송을 위한 페이딩 채널의 필터 모델링에 관한 연구 (A Study on the Filter Modeling of Fading Channel for Digital Transmission)

  • 임승각;김노환
    • 한국컴퓨터정보학회지
    • /
    • 제2권1호
    • /
    • pp.55-67
    • /
    • 1995
  • 원거리 지점간의 정보 전송을 위한 통신 시스템은 반도체 기술과 컴퓨터 기술의 발전으로 아날로그에서 디지탈 방식으로 변환되어 기존의 음성에서 데이타, 동 영상등 비음성급 데이타의 고속 전송이 가능하게 되었다. 디지탈 방식으로 변환되므로써 잡음의 영향, 저가격화를 이룰 수 있는 반면 전송 대역폭이 넓어지는 문제점이 있다. 특히 무선 전송의 경우 전송 과정에서 발생하는 페이딩은 전송 대역폭에 비례하므로 고속, 광대역의 통신 시스템에서는 이의 영향이 커지므로 새로운 대책이 필요하다. 디지탈 통신 시스템을 설계하는 경우 송신 전력, 변/복조 방식, 전송 속도, 비트 오율 특성을 결정하기 위해서는 전송 과정에서 발생되는 현상등을 반드시 고려하여야 되는데 본 논문은 채널에서 일어나는 페이딩 영향을 컴퓨터 모델로 표현하기 위한 채널 시뮬레이터의 구성과 송신 신호와 수신 신호를 이용하여 무선 채널의 필터 모델링에 관한 것으로 모델링된 필터 특성의 역수를 취하므로써 채널에서 발생되는 찌그러짐과 부호간 간섭 현상을 감소하여 설계하고자 하는 통신 시스템의 성능을 개선할 수 있다.

  • PDF

적응형 재생제어를 이용한 동기화된 일대다 미디어 스트리밍 (Synchronized One-to-many Media Streaming employing Server-Client Coordinated Adaptive Playout Control)

  • Jo, Jin-Yong;Kim, Jong-Won
    • 한국통신학회논문지
    • /
    • 제28권5C호
    • /
    • pp.493-505
    • /
    • 2003
  • 본 논문에서는 1:N 멀티캐스트 미디어 스트리밍을 위한 적응형 재생제어 기법을 제안한다. 제안된 적응형 재생 제어에서는 음성의 시간규모 변환(time-scale modification)을 통해 음성과 영상이 함께 있는 미디어의 재생속도를 조절한다. 수신자의 동기화 상태 및 버퍼 점유율에 기초해 재생속도가 조절되며 재생 품질에 영향을 미치지 않는 범위 내에서 속도 변화가 가해지게 된다. 이를 통하여 시스템의 불안정성 및 네트워크 혼잡에 의해 발생할 수 있는 미디어 재생의 끊김 현상을 최소화하고 멀티미디어 품질을 극대화시킬 수 있다. 또한 적응형 재생제어 기법은 재전송에 의한 손실 복구 시 복구를 위한 가용 시간을 보상해 줄 수 있다. 네트워크 시뮬레이터에 기초한 모의실험을 통해 제안된 멀티캐스트 스트리밍 기법이 재생 시 발생하는 끊김 현상을 줄이고 그룹 참가자들 간의 이질성을 완화시킴을 확인한다.

토큰기반 변환중심 한일 기계번역을 위한 변환사전 (Transfer Dictionary for A Token Based Transfer Driven Korean-Japanese Machine Translation)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제9권3호
    • /
    • pp.64-70
    • /
    • 2004
  • 한국어와 일본어는 동일한 어족에 속하며 비슷한 문장구조를 가지고 있어 변환중심 기계번역 방법이 효율적이다. 본 논문에서는 토큰 단위의 변환중심 한일 기계번역 시스템을 위한 변환 사전을 생성하는 방법에 관하여 기술하였다. 변환 사전이 잘 구성되면 구문분석 단계에서는 대역어를 선정하기에 적합한 정도까지의 의존트리를 생성하는 간이 파싱 만을 함으로써 필요 없는 노력을 경감시킬 수 있다. 게다가 구문해석 시에 최종의 결과 트리를 만들지 않아도 되므로 문어체 문장은 물론 입력 형태가 비정형적인 대화체 문장에서 더욱 큰 효과를 볼 수 있다. 본 논문의 변환 사전은 한국전자통신 연구원이 수집한 음성 데이터베이스로부터 추출한 말뭉치를 사용해 구성하였다. 구현한 시스템은 여행 계획영역에서 수집된 900여 발화 안의 문장을 대상으로 시험하였는데 제한된 환경에서 $92\%$, 아무런 제약이 없는 환경에서는 $81\%$의 성공률을 보였다.

  • PDF

화자식별 기반의 AI 음성인식 서비스에 대한 사이버 위협 분석 (Cyber Threats Analysis of AI Voice Recognition-based Services with Automatic Speaker Verification)

  • 홍천호;조영호
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.33-40
    • /
    • 2021
  • 음성인식(ASR: Automatic Speech Recognition)은 사람의 말소리를 음성 신호로 분석하고, 문자열로 자동 변화하여 이해하는 기술이다. 초기 음성인식 기술은 하나의 단어를 인식하는 것을 시작으로 두 개 이상의 단어로 구성된 문장을 인식하는 수준까지 진화하였다. 실시간 음성 대화에 있어 높은 인식률은 자연스러운 정보전달의 편리성을 극대화하여 그 적용 범위를 확장하고 있다. 반면에, 음성인식 기술의 활발한 적용에 따라 관련된 사이버 공격과 위협에 대한 우려 역시 증가하고 있다. 기존 연구를 살펴보면, 자동화자식별(ASV: Automatic Speaker Verification) 기법의 고안과 정확성 향상 등 기술 발전 자체에 관한 연구는 활발히 이루어지고 있으나, 실생활에 적용되고 있는 음성인식 서비스의 자동화자 식별 기술에 대한 사이버 공격 및 위협에 관한 분석연구는 다양하고 깊이 있게 수행되지 않고 있다. 본 연구에서는 자동화자 식별 기술을 갖춘 AI 음성인식 서비스를 대상으로 음성 주파수와 음성속도를 조작하여 음성인증을 우회하는 사이버 공격 모델을 제안하고, 상용 스마트폰의 자동화자 식별 체계를 대상으로 실제 실험을 통해 사이버 위협을 분석한다. 이를 통해 관련 사이버 위협의 심각성을 알리고 효과적인 대응 방안에 관한 연구 관심을 높이고자 한다.

Generalized AbS 구조를 이용한 4kb/s ACELP 음성 부호화기의 설계 (Design of a 4kb/s ACELP Codec Using the Generalized AbS Principle)

  • 성호상;강상원
    • 한국음향학회지
    • /
    • 제18권7호
    • /
    • pp.33-38
    • /
    • 1999
  • 본 논문에서는 generalized analysis-by-synthesis (AbS) 개념을 algebraic CELP 부호화기에 도입한 새로운 4kb/s 음성 부호화기를 설계하였다. 전체적인 구조는 G.729를 부분적으로 이용하였고, line spectrum pair (LSP) 양자화기와 적응코드북 및 여기코드북을 4kb/s 전송속도에 맞게 새로이 설계하였으며, 20㎳ 프레임 크기와 5㎳ lookahead를 고려해서 총 25㎳의 알고리즘 전송지연을 갖는다. 제안된 방식은 일반적인 AbS방식을 사용하는 CELP구조의 음성 부호화기가 4kb/s이하의 전송률에서 성능이 급격하게 떨어지는 단점을 보완하기 위해 저속에서 좋은 특성을 보이는 generalized AbS구조를 사용하였다. 그리고 LPC 계수는 LSP 계수로 변환한 후 예측 2단 VQ를 통해서 양자화하며, 여기 신호는 음질 저하를 최소화하며 복잡도를 감소시킨 shift 방식의 대수적 고정 코드북 구조를 사용하고, 적응코드북과 여기코드북의 이득은 VQ로 양자화 하였다. 본 논문에서 제시된 4kb/s 음성 부호화기의 주관적인 성능을 시험하기 위해 고정률 8kb/s QCELP와 A-B 선택 시험을 실시한 결과 전체적인 음질 성능이 거의 비슷한 수준을 가지는 것으로 나타났다.

  • PDF

직교인자의 동적 특성을 이용한 화자인식 (Speaker Recognition Using Dynamic Time Variation fo Orthogonal Parameters)

  • 배철수
    • 한국통신학회논문지
    • /
    • 제17권9호
    • /
    • pp.993-1000
    • /
    • 1992
  • 음성신호의 분석으로부터 유도되는 직교인자는 화자의 개인성을 많이 포함하고 있으므로, 최근 많은 연구자들이 이것을 이용한 통계적 처리방법으로 화자인식을 수행하여 좋은 화자인식율을 얻고 있다. 그러나 이러한 방법들은 아직 음성의 발성속도나 시간적 동특성으로 인해서 발생하는 문제점을 갖고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해서 음성분석의 한 방법인 Karhunen-Loeve 직교 변환에 의해서 추출한 직교인자를 화자인식에 이용하는 방법에 DTW법을 결합하는 두가지 기법을 제안하였다. 첫째는 직교인자를 특징벡터로 하여 DTW법을 적용하고, 둘째는 직교인자를 최적경로에 이용하는 기법이다. 이들 두 기법에 의한 화자인식 결과와 직교인자의 통계적 처리에 의한 종래의 화자인식방법의 결과를 비교하였다. 사용된 직교인자는 음성신호에서 선형예측계수와 부분자기상관계수를 각각 추출하여 위의 화자인식방법에 각각 적용하였다. 이를 실험한 결과, 선형예측계수로 부터 얻은 직교인자를 최적경로를 이용한 기법에 적용하는 경우 88.6%의 가장 높은 인식율을 얻었다.

  • PDF

CRT와 중첩다중비트 주사기법을 접목한 승산기 (Multiplier Using CRT and Overlapped Multiple-bit Scanning Method)

  • 김우완;장상동
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제30권12호
    • /
    • pp.749-755
    • /
    • 2003
  • 최근 레지듀 수체계를 기반으로 하는 컴퓨터 영상처리, 음성출력 등의 디지털 신호처리 하드웨어에 관한 연구가 고속저가의 하드웨어 구현에 크게 기여하고 있다. 본 논문에서는 모듈라이$(2^k-1, 2^k, 2^k+1)$를 사용하여 RNS에서 WNS로 WNS에서 RNS로 변환하는 방법을 통해 승산기를 설계 및 구현한다. 이는 CRT 변환을 중첩다중비트 주사기법을 접목한 시뮬레이션을 통해, 기존의 방법보다 속도가 빠르다는 것을 알 수 있고, 이는 RNS의 병렬처리와 캐리부재의 연산특성 때문임을 알 수 있다.

딥러닝 기반 이미지 인식 기술을 활용한 영어 학습 애플리케이션 개발 (Development of an English Study Application using Deep Learning-based lmage Recognition techniques)

  • 김유정;김주연;이유빈;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.151-154
    • /
    • 2017
  • 본 논문에서는 사용자의 주변사물을 인식하여 영단어로 알려줌으로써 사용자가 실생활에서 영단어를 능동적으로 학습할 수 있도록 돕는 애플리케이션을 개발한다. 본 애플리케이션은 사용자가 카메라로 촬영하거나 사진첩에서 선택한 이미지를 인식하여 사진 속 물체의 영어 단어와 한국어 뜻을 알려주며, 단어의 발음 또한 확인할 수 있고, 직접 단어장에 저장하여 다시 학습할 수 있도록 한다. 이를 위해 TensorFolw를 활용한 딥러닝 기반 이미지 인식 기술을 사용하였으며, 추후 TensorFolw를 통하여 모델을 추가적으로 훈련시킴으로써 이미지 인식의 정확도를 높일 수 있다. 그 외 영어-한국어 번역, 텍스트-음성 변환 등 부가 기능을 통해 사용자가 다양한 방식으로 영단어를 학습할 수 있도록 한다.

u-Class Gateway: IEEE802.11b/g 기반 컴퓨터 영상 송수신 장치 (u-Class Gateway: IEEE802.11Ib/g based Computer Audio/video Trans&Receiver Device)

  • 김풍일;이동유;이세훈;진영배
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.225-228
    • /
    • 2007
  • 컴퓨터 영상 화면을 아날로그 음성영상신호로 변환한 후 무선으로 송신하여 처리하기 때문에 해상도가 낮아 화질이 떨어진다. 또한 대형프로젝션TV에 보낼 영상화면의 단말기 RGB포트에 게이트웨이를 직접 연결해야 하는 불편이 따른다. 이러한 문제를 해결하기 위하여 이 논문에서는 IEEE802.11b/g 무선네트워크 기반에서 대용량 영상데이터를 최대 54Mbps의 속도로 송수신할 수 있는 무선통신시스템 개발과 이를 게이트웨이에 적용하여 영상데이터까지 무선으로 처리할 수 있도록 하는 장치를 개발하고, 대용량 영상데이터 송수신 처리 소프트웨어를 개발한다.

  • PDF