통합 검색 | Korea Science

다층 퍼셉트론 신경회로망을 사용한 구간 검출 알고리즘 (Section Detection Algorithm using Multi-layer Perceptron Neural Network)

최재승
- 한국정보통신학회:학술대회논문집
- /
- 한국해양정보통신학회 2010년도 추계학술대회
- /
- pp.274-277
- /
- 2010
본 논문에서는 다층 퍼셉트론 신경회로망을 사용하여 각 프레임에서 유성음, 무성음, 그리고 묵음 구간을 검출하는 구간검출 알고리즘을 제안한다. 신경회로망의 입력으로는 고속 푸리에변환에 의한 전력스펙트럼 및 고속 푸리에변환 계수가 사용되어 네트워크가 학습된다. 본 실험에서는 원 음성에 백색잡음이 중첩된 음성을 신경회로망에 입력함으로서 각 프레임에서의 유성음, 무성음, 묵음 구간의 검출성능 결과를 나타낸다.
PDF

어말 무성폐쇄음을 포함한 영어 자음군의 발음에 관한 연구

구희산;이봉경
- 대한음성언어의학회:학술대회논문집
- /
- 대한음성언어의학회 2003년도 제19회 학술대회
- /
- pp.237-238
- /
- 2003
본 연구는 어말에 무성 폐쇄음 /p, t, k/로 끝나는 자음군이 위치할 경우 한국인과 미국인의 발음에 어떤 차이가 있는가를 알아보고자 함이 그 목적이다. (중략)
PDF

모어청자에 의한 일본어 어두 폐쇄음의 지각 (Perception of Japanese word-initial stops by native listeners)

변희경
- 말소리와 음성과학
- /
- 제13권3호
- /
- pp.53-64
- /
- 2021
일본어의 어두 폐쇄음은 일차적으로 VOT로 구별되며 유성음은 음 값의 VOT, 무성음은 양 값의 VOT를 갖는 것으로 알려져 있다. 최근의 연구에 의하면 유성음이 양 값의 VOT를 갖는 어두 유성 폐쇄음의 무성화 현상이 전국적으로 젊은 층을 중심으로 진행되고 있는 것이 확인되었다. 또한 지역마다 정도의 차이는 있으나 어두 폐쇄음 구별에 VOT 이외에 후속 모음의 F0 차이가 유효한 것이 밝혀졌다. 본고는 산출에 쓰이는 음향 변수 VOT와 F0가 지각 변수로도 유효한지를 검토한 것이다. 4개 지역의 대학생 55명을 대상으로 자연음과 합성음을 이용한 세 가지 지각 실험을 실시한 결과는 어느 지역에서나 어두 폐쇄음의 일차적 지각 변수로 기능하는 것은 VOT이며 예상했던 F0의 사용은 극히 한정적인 것으로 나타났다. F0는 VOT가 기능하지 않을 때에 높은 F0를 무성음으로 지각하는 경우는 있으나 반대로 낮은 F0를 유성음으로 지각하는 경우는 거의 보이지 않았다. 이러한 결과는 유성/무성의 구별에 관여하는 산출의 음향 변수와 지각 변수가 일치하지 않는 것을 뜻하며, 나아가 일차적 변수인 VOT의 구별이 어려운 상황에서도 F0의 적극적인 사용 없이 일상생활에서 유성/무성의 구별에 혼란이 없는 것은 VOT와 F0 이외의 다른 요인이 관여하고 있음을 시사한다. 본고에서는 산출에서 어느 정도 관여가 인정된 모음의 음질(H1-H2)이나 음향 변수가 아닌 문맥이 관여하고 있을 가능성에 대해 논하였으나 이에 대한 검증은 앞으로의 과제로 남아 있다.
https://doi.org/10.13064/KSSS.2021.13.3.053 인용 PDF KSCI

한국어 음성인식에서 음성의 특성을 고려한 음소 경계 검출 (Phoneme Segmentation in Consideration of Speech feature in Korean Speech Recognition)

서영완;송점동;이정현
- 인터넷정보학회논문지
- /
- 제2권1호
- /
- pp.31-38
- /
- 2001
음소 단위로 구축된 음성 데이터는 음성인식과 음성합성 및 분석 등의 분야에서 매우 중요한 문제이다. 일반적으로 음소는 유성음과 무성음으로 구분된다. 이러한 유성음과 무성음은 많은 특징적 차이가 있지만, 기존의 음소 경계 검출 알고리즘은 이를 고려하지 않고 시간 축을 기준으로 이전 프레임과의 스펙트럼 비교만을 통하여 음소의 경계를 결정한다. 본 논문에서는 음소 경계 검출을 위하여 유성음과 무성음의 특징적 차이를 고려한 블록기반의 분류 알고리즘을 설계하였다. 분류 알고리즘을 사용하기 위한 스펙트럼 비교 방법은 MFCC(kel-Frequency Cepstrum Coefficient)를 기반으로 한 거리 측정 법을 사용하였고 유성음과 무성음의 구분은 에너지 영 교차율, 스펙트럼 비, 포만트 주파수를 이용하였다. 본 논문의 실험결과 3-4음절 고립단어를 대상으로 약 7%,의 정확도를 얻음으로써 기존의 음소 경계 검출 시스템보다 약 8%의 정확도 향상을 보였다.
PDF

유/무성음 구분 및 이종적 특징 파라미터 결합을 이용한 화자인식 성능 개선 (Speaker Recognition Performance Improvement by Voiced/Unvoiced Classification and Heterogeneous Feature Combination)

강지훈;정상배
- 한국정보통신학회논문지
- /
- 제18권6호
- /
- pp.1294-1301
- /
- 2014
본 논문에서는 화자 인식의 성능을 개선하기 위해서 유성음 및 무성음에 대한 별도의 확률분포 모델링을 사용하였다. 또한, 종래의 멜-주파수 캡스트럼 계수 이외에 유성음 구간에서 추가적으로 왜도, 첨도, 하모닉 대 잡음비 등을 추출하여 활용하였다. 화자 인식을 위한 스코어는 유성음 및 무성음 확률분포 모델에서 각각 구해지는데 전수 조사방식에 의해서 최적의 스코어 결합 가중치가 결정되었다. 제안된 방식의 화자인식기의 성능은 종래의 멜-주파수 캡스트럼 계수 및 화자당 하나의 혼합 가우시안 기반 확률분포 모델링을 사용한 방식과 비교되었으며 실험 결과 제안된 방식이 가우시안 혼합의 수가 낮아질수록 더 큰 성능 향상을 얻음을 알 수 있었다.
https://doi.org/10.6109/jkiice.2014.18.6.1294 인용 PDF KSCI

이중 전송률(2.4/4.0 kbps)을 갖는 개선된 하모닉-CELP 음성부호화기 (Improved Harmonic-CELP Speech Coder with Dual Bit-Rates(2.4/4.0 kbps))

김경민;윤성완;최용수;박영철;윤대희;강태익
- 한국통신학회논문지
- /
- 제28권3C호
- /
- pp.239-247
- /
- 2003
본 논문에서는 기존에 제안한 바 있는 EHC(Efficient Harmonic-CELP) 부호화기에 기반한 이중 전송률(2.4/4.0 kbps)의 개선된 하모닉-CELP(Improved Harmonic-CELP: IHC) 음성 부호화기를 제안한다. 제안된 IHC는 유/무성음 판별에 따라 유성음에서는 하모닉 추정, 하모닉 양자화, 하모닉 합성 및 잡음 혼합을 통한 자연성 제어 등의 과정을 통해, 무성음에서는 고속 CELP 방식을 통해 음성신호를 부호화/복호화한다. 또한 제안된 IHC는 EHC의 유/무성음 판별과 하모닉 추정 성능을 개선한다. 피치 이득과 에너지 등을 이용한 유/무성음 판별은 프레임 내의 에너지 변화 등에 의해 재판별된다. 하모닉 부호화에서는 첨점 추출과 델타 조정 방법을 이용하여 정확한 하모닉 추정을 하고, 혼합하는 잡음의 대역과 양을 적절하게 조절하여 자연성을 제어한다. 제안된 IHC 부호화기에 성능평가 결과, 비교 부호화기인 HVXC 연산량의 약 40%이내의 연산량으로 우수한 음질을 보임을 확인하였다.
PDF KSCI

가변율 half rate 음성 부호화기의 설계 (Design of a Variable half rate speech codec)

성호상
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
- /
- pp.293-296
- /
- 1998
본 논문에서는 다양한 멀티미디어 서비스를 위해 가변율 half rate 음성 부호화기를 설계하였다. 유, 무성음과 묵음의 구분을 위해 본 논문에서는 프레임 에너지와 음성 파라메터들을 이용한 효과적인 voicing 결정 알고리즘을 사용하였다. 유성음을 위한 half rate 음성 부호화기는 저속에서 좋은 특성을 보이는 generalized AbS구조를 이용하였다. LPC 계수는 LSP 계수로 변환한 후 predictive 2-stage VQ를 통해서 양자화하며, 여기 신호는 음질저하를 최소화하며 복잡도를 감소시킨 shift 방식의 대수적 고정 코드북 구조를 사용하고, 적응코드북과 여기코드북의 이득은 VQ로 양자화 하였다. 무성음을 위한 부호화기는 대부분이 유성음을 위한 부호화기와 동일하지만, 무성음에서는 피치간 상관도가 매우 낮으므로 피치 보간 방법을 사용하지 않고 개루프로 피치 lag를 찾은 후 전체 프레임에 사용한다. 1 kb/s 부호화기는 묵음 구간과 주변소음 구간에 사용되며 이 구간의 신호를 피치 성분이 미약한 주변소음들로 제한하고 이에 최적인 부음성 부호화기를 설계하였다. 최종적으로 완성된 가변율 half rate 부호화기는 voice activity factor(VAF)가 0.47인 시험음성에서 약 2.6 kb/s의 평균 전송률을 보였다. 주관적 음질 평가의 일환으로 IS-96 표준 코덱인 가변율 8 kb/s QCELP와 A-B preference 시험을 실시하였다. 시험 결과 평균전송률이 약 2배인 가변율 8 kb/s QCELP 보다 우수한 음질 성능을 보였다.
PDF

Level Crossing과 DPCM을 사용한 유성음/무성음/묵음의 분류 (Voiced/Unvoiced/Silence Classification of Speech Signal by Level Crossing and DPCM)

김진영;성굉모
- 대한전기학회:학술대회논문집
- /
- 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
- /
- pp.1615-1618
- /
- 1987
시간 영역에서 만들어진 음성신호의 파라미터을 이용하여 주어진 음성신호의 구간이 유성음, 무성음, 혹은 묵음인지를 분류하는 새로운 알고리듬을 제시하였다. 이에 사용한 파라미터은 구간내에서 샘플링된 값의 절대치 합과 일정한 level 이상의 peak의 합(T-peak), T-peak와 절대치 합의 비 그리고, DPCM의 절대치 합들이다. 이를 파라미터를 이용하여 간단히 유성음/무성음/묵음 구간을 분류 할였다. This paper proposes new algorithm for classifying speech signal frame into voiced, unvoiced, silence frame, using the parameters extracted from time domain behavior of speech signal The parameters used in this paper are absolute magnitude, the sum of peaks lager than reference level (T-peak), the ratio of T-peak to absolute magnitude and the magnitude of signal outputs of DPCM. Using this parameters, speech signal is more easily classified into voiced/unvoiced/silence frame.
PDF

퍼셉트론 신경회로망을 사용한 유성음, 무성음, 묵음 구간의 검출 알고리즘 (Voiced-Unvoiced-Silence Detection Algorithm using Perceptron Neural Network)

최재승
- 한국전자통신학회논문지
- /
- 제6권2호
- /
- pp.237-242
- /
- 2011
본 논문에서는 다층 퍼셉트론 신경회로망을 사용하여 각 프레임에서의 유성음, 무성음, 그리고 묵음 구간을 검출하는 구간검출 알고리즘을 제안한다. 다층 퍼셉트론 신경회로망의 입력으로는 고속 푸리에변환에 의한 전력스펙트럼 및 고속 푸리에변환 계수가 사용되어 네트워크가 학습된다. 본 실험에서는 원 음성에 백색잡음이 중첩된 음성을 신경회로망에 입력함으로서 각 프레임에서의 유성음, 무성음, 묵음 구간의 검출성능 결과를 나타낸다. 본 실험에서는 신경회로망의 학습 데이터 및 평가 데이터가 다를 경우에도 이러한 음성 및 백색잡음에 대하여 92% 이상의 검출율을 구할 수 있었다.
https://doi.org/10.13067/JKIECS.2011.6.2.237 인용 PDF KSCI

한국어 파열연자음 유성화에 관한 음향음성학적 고찰 -운율구조와 관련하여- (An Acoustic study of Korean Lenis Stop Voicing -in relation to Prosodic Structures-)

김효숙;김선주;김선미
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1999년도 학술발표대회 논문집 제18권 2호
- /
- pp.383-386
- /
- 1999
이 논문은 한국어 파열연자음이 유성음 환경에서 유성음화하는 현상을 운율구조와 관련해서 음향음성학적으로 고찰하는 것을 목적으로 한다. 이 논문에서는 첫째, 음성적 자질로서나 청각적인 판단에 의해서나 무성음과 유성음의 이분법으로 나뉘는 것을 음향적 고찰을 통하여 각각을 하위의 범주로 나누었다. 문장 안에서 파열연자음이 음향적으로 실현될 때 각각의 범주가 어느 정도의 빈도수로 출현하는지를 살펴보았다. 둘째, 한국어 파열연자음은 어절 초에서는 무성음으로 실현되나 앞뒤에 유성음이 오는 경우에는 유성화되는 음운규칙이 있는데, 음향적인 분석을 통하여 앞뒤에 유성음이 온다는 조건만으로 설명할 수 없는 예들을 발견하였다. 그리하여 인접음절(특히 앞음절에 오는 분절음의 특성)과 운율구조(액센트구 내에서의 위치, 억양구경계의 유무)를 함께 고려하는 파열연자음 유성화규칙의 조건을 제안하였다.
PDF

검색결과 122건 처리시간 0.025초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)