• Title/Summary/Keyword: 모델합성

Search Result 1,752, Processing Time 0.03 seconds

TTS 시스템을 위한 휴지기간 모델링 (The Modeling of Pause Duration For Text-To-Speech Synthesis System)

  • 정지혜;이양희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.83-86
    • /
    • 2000
  • 본 논문에서는 비정형 단위를 사용한 음성 합성 시스템의 합성음에 대한 자연성을 향상시키기 위한 휴지 구간 추출 및 휴지 지속시간 예측 모델을 제안한다. 제안된 휴지 지속시간 예측 모델은 트리 기반 모델링 기법 중 하나인 CART (Classification And Regression Trees)방법을 이용하였다. 이를 위해 남성 단일 화자가 발성한 6,220개의 어절경계 포함하는 총 400문장의 문 음성 데이터베이스를 구축하였고, 이 데이터베이스로부터 V-fold Cross-Validation 방법에 의해 최적의 트리를 결정하였다. 이 모델을 평가한 결과, 휴지 구간 추출 정확율은 $81\%$로 휴지 구간 존재 추출 정확율은 $83\%, 휴지 구간 비존재 추출 정확율은 $80\%이었고, 실 휴지지속시간과 예측 휴지지속시간과의 다중상관 계수는 0.84로, 오차 범위 20ms 이내에서 의 정 확율은 $88\%$ 이었다. 또한, 휴지지속시간을 예측하여 적용한 합성음을 청취 실험한 결과 자연 음성과 대체적으로 유사하게 나타났다.

  • PDF

CNN 을 이용한 단일영상 고해상도 복원 및 수용영역 확장을 통한 성능 향상

  • 박가람;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.76-79
    • /
    • 2019
  • 합성곱 신경망의 성능이 증가하면서 다양한 영상 처리 문제를 해결하기 위해 합성곱 신경망을 적용한 시도들이 증가하고 있다. 고해상도 복원 문제도 그 중 하나였으며, 보다 높은 성능을 얻기 위해 주로 신경망의 깊이를 깊게 하는 시도들이 있었다. 본 논문에서는 고해상도 복원 작업을 위한 합성곱 신경망의 성능 향상을 위해 깊이를 증가시키는 접근법이 아닌 수용영역을 확장시키는 접근법을 시도하였다. 논문에서 제시한 모델은 신경망 내부에 두 개의 브랜치를 두어, 하나의 브랜치는 Dilated Convolution 을 이용해 수용영역을 확장하는데 사용되며, 다른 하나는 이 브랜치를 통해 나온 feature 를 가공하는데 사용된다. 기본 모델은 EDSR 을 사용하였으며, 최종적으로 4.79M 의 파라미터로 평균 32.46dB 의 PSNR 을 보여주었다. 하지만 모델의 구조가 복잡하여 깊이를 늘이는 접근법을 적용하기 어렵다는 한계점이 있다.

  • PDF

호텔예약을 위한 자동통역 시스템 (An Experimental Speech Translation System for Hotel Reservation)

  • 구명완;김웅인;김재인;도삼주;강용범;박상규;손일현;김우성;장두성
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.105-108
    • /
    • 1995
  • 한국에 있는 손님이 한국어 만을 사용하여 일본 호텔을 예약할 수 있도록 해 주는 한일간 자동통역 시연 시스템에 관해 기술하였다. 이 시스템은 한국어 음성인식부, 한일 기계번역부, 한국어 음성합성부로 구성되어 있다. 한국어 음성인식부는 기본적으로 HMM을 이용하는 화자독립, 약 300단어급 연속음성인식 시스템으로서 전향 언어 모델로 바이그램 언어 모델, 후향 언어 모델로는 의존 문법을 사용하여 N-BEST 문장을 생성해낸다. 실험결과, 단어 인식률은 top1 문장에 대해 약 94.5%, top5 문장에 대해 약 94.7%의 인식률을 얻었다. 인식 시간은 길이가 다른 여러 문장들에 대해 약 0.1~3초가 걸렸다. 기계번역부에서는 음성인식에서 의존 문법을 사용하여 분석된 파싱 결과를 이용, 직접 번역 방식을 채택하여 일본어를 생성한다. 음성 합성부는 반음소를 합서의 기본단위로 하고, 합성방식으로는 주기 파형 분해 및 재배치 방식으로 하였다. 실험 환경은 2 CPU를 장착한 SPARC 20 workstation 이었으며 실시간 특징 추출을 위해 TMS320C30 DSP 보드 1개를 이용하였다.

  • PDF

합성곱 오토인코더 모델과 이미지 연산 기법을 활용한 가공품 표면 불량 검출 시스템 (Surface Defect Detection System for Steel Products using Convolutional Autoencoder and Image Calculation Methods)

  • 김석주;권중장
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.69-70
    • /
    • 2021
  • 본 논문은 PPM으로 관리되고 있는 자동차 부품 제조 공정에서 검사자의 육안검사 방법을 대체하기 위해 머신비전 및 CNN 기반 불량 검출 시스템으로 제안되었던 방식들의 단점을 개선하기 위하여 기존 머신 비전 기술에 합성곱 오토인코더 모델을 적용하여 단점을 해결하였다. 본 논문에서 제시한 오토인코더를 이용하는 방법은 정상 생산품의 이미지만으로 학습을 진행하고, 학습된 모델은 불량 부위가 포함된 이미지를 입력받아 정상 이미지로 출력한다. 이 방법을 사용하여 불량의 부위와 크기를 알 수 있었으며 불량 여부의 판단은 임계치에 의한 불량 부위의 화소 수 계산으로 판단하였다.

  • PDF

객체 바운딩 박스와 원본 이미지 결합을 이용한 합성 데이터 생성 기법 (Synthetic data generation technique using object bounding box and original image combination)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.476-478
    • /
    • 2023
  • 딥러닝은 컴퓨터 비전의 상당한 발전을 기여했지만, 딥러닝 모델을 학습하려면 대규모 데이터 세트가 필요하다. 이를 해결하기 위해 데이터 증강 기술이 주목받고 있다. 본 논문에서는 객체 추출 바운딩 박스와 원본 이미지의 바운딩 박스를 결합하여 합성 데이터 생성기법을 제안한다. 원본 이미지와 동일한 범주의 데이터셋에서 참조 이미지의 객체를 추출한 다음 생성 모델을 사용하여 참조 이미지와 원본 이미지의 특징을 통합하여 새로운 합성 이미지를 만든다. 실험을 통해, 생성 기법을 통한 딥러닝 모델의 성능향상을 보여준다.

CTGAN기반 데이터 증강 비율 최적화 연구 (A Study on the Optimization of Data Augmentation Ratio using CTGAN)

  • 성다훈;임유진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.327-330
    • /
    • 2023
  • 머신러닝과 딥러닝 모델의 사용이 급증함에 따라 충분한 데이터 확보의 중요성이 부각되고 있다. 이에 따라 생성 모델을 통한 데이터 증강 기술이 주목받고 있으나, 증강 데이터를 활용했을 때 학습의 성능 분석은 아직 부족하다. 따라서 본 연구에서는 데이터 증강 시나리오에 따라 증강 비율별 합성 데이터의 유용성을 조사하고자 한다. 본 연구에서는 테이블 데이터를 증강하는 것에 초점을 맞추었으며, 이를 위해 테이블 데이터를 합성할 때 유용한 성능을 보이는 딥러닝 모델 CTGAN을 활용하였다. 실험에서 데이터를 증강하는 두 가지 다른 시나리오를 고려한 결과, 두 시나리오에서 모두 실험에서 설정한 증강 비율까지의 합성 데이터가 유용한 결과를 보임을 확인할 수 있었다.

대학수학에서 함수의 합성과 합성함수의 극한에 대한 이해

  • 김병무
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제18권1호
    • /
    • pp.289-296
    • /
    • 2004
  • 수업시간을 이용하지 않고 인터넷을 이용하여 조사와 학생 스스로 학습할 기회와 자료를 제공하여 개념을 이해할 모델을 만들어 본다. 함수의 합성과 극한에 대한 이해도를 1차로 조사한 결과는 정답율이 7.5%에 불과하여 같은 설문지에 대해 각자 공부하고 대답하도록 2차 조사를 하고, 함수의 합성과 합성함수의 극한에 대해 개념의 이해를 도우려고 그래프를 이용한 자료를 수집하여 확실하고 쉽게 이해할 기회를 제공하며 새로운 교수-학습 방법을 개발한다.

  • PDF

5자유도 잔향 모델을 이용한 실내 잔향 필터 설계 (Design of Room Reverberation Filter by Using 5 DOF Reverberation Model)

  • 김소희;김양한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
    • /
    • pp.227-230
    • /
    • 1999
  • 잔향에 대한 인간의 주관적인 지각을 잔향기 설계에 객관적인 수치로써 반영하는 방법으로, 5 자유도 잔향 모델이 제안된 바 있다[1]. 5자유도 잔향 모델은 잔향에 대한 다섯 개의 객관적인 평가량들을 이용하여 시간에 따른 음 에너지 감쇠 곡선을 근사화한 것이다. 즉 5 자유도 잔향 모델을 이용하여 청취자가 원하는 특성을 갖는 잔향을 객관적으로 묘사할 수 있고, 이는 잔향을 합성할 때 잔향 필터의 설계 기준이 된다. 그러나 이 모델로부터 만들 수 있는 잔향 필터의 개수는 실로 무한하고, 그 중에는 인간이 듣기에 부자연스러운 합성음을 만들어 내는 경우도 있다. 즉 자연스러운 잔향을 만들기 위해서는 잔향 모델 외에도 부가적인 잔향 설계 기준이 필요하다. 시간, 주파수 영역에서 대표적인 특성을 갖는 몇 종류의 원음에 대한 청음실험을 통해, 필요한 잔향 설계 기준을 제시한다.

  • PDF

웨이블릿 변환을 이용한 음성신호의 AbS/OLA 정현파 모델링 (AbS/OLA Sinusoidal Modeling of Speech Signal Using Wavelet Transform)

  • 김기홍;홍진근;정용익;이상이
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.114-117
    • /
    • 2004
  • 본 논문에서는 합성에 의한 분석(Analysis-by-Synthesis) 및 가산중첩(Overlap-Add) 방식을 채택하고 있는 음성신호의 AbS/OLA 정현파 모델에 웨이블릿 변환을 적용한 새로운 모델을 제안하였다. 즉, 기존의 모델에 웨이블릿 변환을 적용하여 입력신호를 몇 개의 부대역 신호로 나눈 다음 각각 다른 길이의 분석 윈도우를 적용한다. 이는 기존 모델의 정현파 파라미터 추출 시 고정된 길이의 분석 윈도우를 이용하는 단점을 극복하여 좀 더 정확한 파라미터 추출을 가능하게 한다. 시험결과 제안된 정현파 모델이 기존 모델에 비해 합성음의 스펙트럼 및 위상 특성, 음질 등에서 성능이 개선됨을 확인할 수 있었다.

  • PDF

합성곱 신경망 기반의 딥러닝에 의한 수치표면모델의 객체분류 (Semantic Classification of DSM Using Convolutional Neural Network Based Deep Learning)

  • 이대건;조은지;이동천
    • 한국측량학회지
    • /
    • 제37권6호
    • /
    • pp.435-444
    • /
    • 2019
  • 최근 딥러닝(DL)은 여러 분야에서 급속도로 활용되고 있으며, 특히 영상으로부터 객체를 인식하여 분류하고 인식하기 위한 컴퓨터비전 분야에서 활발하게 연구가 진행되고 있다. 영상분야에서는 주로 합성곱 신경망(CNN)을 이용한 딥러닝 모델의 성능 향상에 주력하고 있다. 대부분의 합성곱 신경망은 영상을 학습시켜 영상분류 및 객체인식에 활용하고 있지만, 본 논문에서는 독일 사진측량, 원격탐사 및 공간정보학회(DGPF)가 구축하고 국제 사진측량 및 원격탐사학회(ISPRS)가 제공하는 데이터 셋 중에서 수치표면모델(DSM)과 이 데이터로부터 생성한 경사 및 주향 정보를 효율성과 성능이 우수하다고 평가받는 합성곱 신경망기반의 SegNet 모델에 적용하여 객체를 분류하고 분석하였다. 딥러닝은 고사양의 컴퓨터 시스템과 다량의 학습 데이터와 라벨 데이터가 필요하고, 다수의 시행착오에 의한 풍부한 경험이 요구된다. 또한 본 논문에서는 한정된 수량의 데이터로부터 효율적인 학습을 위한 데이터 생성 방법을 제시하고 수치표면모델을 분류하였다. 분석 결과 수치표면모델 데이터와 이로부터 도출한 부가적인 데이터를 딥러닝 모델에 적용해도 객체를 타당한 정확도로 분류할 수 있음을 확인하였다.