통합 검색 | Korea Science

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

김준우;정호영
- 말소리와 음성과학
- /
- 제12권3호
- /
- pp.55-63
- /
- 2020
음성 변환은 다양한 음성 처리 응용에 적용될 수 있으며, 음성 인식을 위한 학습 데이터 증강에도 중요한 역할을 할 수 있다. 기존의 방법은 음성 합성을 이용하여 음성 변환을 수행하는 구조를 사용하여 멜 필터뱅크가 중요한 파라미터로 활용된다. 멜 필터뱅크는 뉴럴 네트워크 학습의 편리성 및 빠른 연산 속도를 제공하지만, 자연스러운 음성파형을 생성하기 위해서는 보코더를 필요로 한다. 또한, 이 방법은 음성 인식을 위한 다양한 데이터를 얻는데 효과적이지 않다. 이 문제를 해결하기 위해 본 논문은 원형 스펙트럼을 사용하여 음성 신호 자체의 변환을 시도하였고, 어텐션 메커니즘으로 스펙트럼 성분 사이의 관계를 효율적으로 찾아내어 변환을 위한 자질을 학습할 수 있는 transformer 네트워크 기반 딥러닝 구조를 제안하였다. 영어 숫자로 구성된 TIDIGITS 데이터를 사용하여 개별 숫자 변환 모델을 학습하였고, 연속 숫자 음성 변환 디코더를 통한 결과를 평가하였다. 30명의 청취 평가자를 모집하여 변환된 음성의 자연성과 유사성에 대해 평가를 진행하였고, 자연성 3.52±0.22 및 유사성 3.89±0.19 품질의 성능을 얻었다.
https://doi.org/10.13064/KSSS.2020.12.3.055 인용 PDF KSCI

화제한어 '도서관' 명칭의 변용과 쟁점에 관한 연구 (A Study on the Transformation and Issue of the Japanese-Chinese Word 'Library')

윤희윤
- 한국문헌정보학회지
- /
- 제57권1호
- /
- pp.23-44
- /
- 2023
도서관(図書館)이란 말은 일본 메이지 중기에 서양의 library와 bibliothek를 번역한 화제한어다. 이를 한자문화권의 중국(도서관(图书馆)), 대만(도서관(圖書館)), 한국(도서관), 베트남(Dồ thư quán)이 수용하였다. 그렇다면 일본과 중국에서는 언제, 누가 서양 도서관을 최초로 소개하였는가. 일본의 중론은 계몽사상가 후쿠자와(福澤諭吉)의 『서양사정(西洋事情), 1866』이고, 중국은 개혁사상가 양계초(梁启超)의 『시무보(时务报), 1896년』 기사를 최초로 지목하는 견해가 많다. 이에 본 연구는 양국에 서양 도서관을 소개한 근대 사전, 저서, 역서, 논문, 신문기사 등을 중심으로 '도서관'이란 명칭이 등장한 시기와 인물을 추적하고 논증하였다. 그 결과, 일본에서는 모도끼(本木正栄)의 『안게리아어림대성(諳厄利亜語林大成), 1814』를 비롯한 여러 견문기 및 사전에서 다양한 용어로 서양 도서관을 기술하였기 때문에 1866년 후쿠자와 소개설은 오류다. 그리고 중국에서는 류정담(刘正埮)의 『한어외래사사전(汉语外来词词典), 1884』에 도서관이란 용어가 최초로 등장하므로 1896년 양계초 도입설은 사실이 아니다. 동일한 맥락에서 한국에서 도서관이란 용어가 최초로 사용된 시기, 1901년 일본홍도회 부산지회가 설립한 한국 최초의 도서관 명칭에 대한 추적과 논증이 요구된다.
https://doi.org/10.4275/KSLIS.2023.57.1.023 인용 PDF

국제 음소의 자동 생성을 활용한 연속음성인식에 관한 연구 (A Study on the Continuous Speech Recognition for the Automatic Creation of International Phonetics)

김석동;홍성수;신좌철;우인성;강흥순
- 한국게임학회 논문지
- /
- 제7권2호
- /
- pp.83-90
- /
- 2007
자동 음성 인식(Automatic Speech Recognition)기술은 세계적인 의사소통과 협력을 원활히 할 수 있는 가능성을 제시한다. 현재까지 대부분의 연구들은 주로 사용되는 단일 언어의 말하기에만 집중되어 있다. 따라서 다른 언어들과 함께 사용되는 특정 ASR 시스템을 도입하는 데에는 비싼 비용이 뒤따른다. 본 논문은 다국어 음성 인식에 대한 일반적 접근으로 각 나라 언어를 대표한 발음사전(어휘모델)을 만들기 위하여 음성 인식에 이용하는 어휘 모델을 만들기 위하여 음소 언어 인식(PLI, Phonetic Language Identity) 형식의 입력된 파일을 해석하는 국제 음소 엔진(IPE, International Phoneticizing Engine)를 제안한다. IPE는 독립적이며 규칙을 기본으로 한다. 어휘모델 생성 과정은 Java 언어로 구현된 프로그램에 의해 이루어지고, 이 과정들은 규칙 상충을 줄여주며, 언어학적 훈련을 받지 않은 사람의 규칙 생성도 가능하게 한다. IPE에 의해 생성된 어휘모델을 연속 음성 인식기에 적용한 결과 우리말 인식률이 92.55%, 영어에 대하여 89.93%를 얻었다.
PDF

검색결과 83건 처리시간 0.015초

Transformer 네트워크를 이용한 음성신호 변환 (Voice-to-voice conversion using transformer network)

화제한어 '도서관' 명칭의 변용과 쟁점에 관한 연구 (A Study on the Transformation and Issue of the Japanese-Chinese Word 'Library')

국제 음소의 자동 생성을 활용한 연속음성인식에 관한 연구 (A Study on the Continuous Speech Recognition for the Automatic Creation of International Phonetics)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)