• 제목/요약/키워드: Spectrogram

검색결과 236건 처리시간 0.025초

시각과 청각 및 음향적 관점에서의 노랫말 모음 연구 (Visual.Auditory.Acoustic Study on Singing Vowels of Korean Lyric Songs)

  • 이재강
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.362-366
    • /
    • 1996
  • This paper is generally divided in 2 parts. One is the study on vowels about korean singer's lyric song in view of Daniel Jones' Cardinal Vowel. The other is acoustic study on vowels in my singing about korean lyric song. Analysis data are KBS concert video tape and CSL's. NSP file on my singing and Informants are famous singers i.e. 3 sopranos, 1 mezzo, 2 tenors, 1baritone, and me. Analysis aim is to find out Korean 8 vowels([equation omitted]) quality in singing. The methods of descrition are used in closed vowels, half closed vowels, half open vowels, open vowels and rounded vowels, unroundes vowels and formants. The study of the former is while watching the monitor screen to stop the scene that is to be analysixed. The study of the latter is to analysis the spectrogram converted by CSL's. SP file. Analysis results are an follows: Visual and auditory korean vowels quality in singing have the 3 tendency. One is the tendency of more rounded than is usual Korean vowels. Another is the tendency of centralized to center point in Cardinal Vowel and the other is the tendency of diversity in vowel quality. Acoustic analysis is studied by means of 4 formants. Fl and F2 show similiar step in spoken. In Fl there is the same formant values. This seems to vocal organization be perceived the singign situation. The width of F3 is the widest of all, so F3 may be the characteristics in singing. In conclude, the characteristics of vowels in Korean lyric songs are seems to have the tendencies of rounding, centralizing to center point in Cardinal Vowel, diversity in vowel quality and, F3'widest width in compared with usual Korean vowels.

  • PDF

음성 신호 분류에 따른 장애 음성의 변동률 분석, 비선형 동적 분석, 캡스트럼 분석의 유용성 (The Utility of Perturbation, Non-linear dynamic, and Cepstrum measures of dysphonia according to Signal Typing)

  • 최성희;최철희
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.63-72
    • /
    • 2014
  • The current study assessed the utility of acoustic analyses the most commonly used in routine clinical voice assessment including perturbation, nonlinear dynamic analysis, and Spectral/Cepstrum analysis based on signal typing of dysphonic voices and investigated their applicability of clinical acoustic analysis methods. A total of 70 dysphonic voice samples were classified with signal typing using narrowband spectrogram. Traditional parameters of %jitter, %shimmer, and signal-to-noise ratio were calculated for the signals using TF32 and correlation dimension(D2) of nonlinear dynamic parameter and spectral/cepstral measures including mean CPP, CPP_sd, CPPf0, CPPf0_sd, L/H ratio, and L/H ratio_sd were also calculated with ADSV(Analysis of Dysphonia in Speech and VoiceTM). Auditory perceptual analysis was performed by two blinded speech-language pathologists with GRBAS. The results showed that nearly periodic Type 1 signals were all functional dysphonia and Type 4 signals were comprised of neurogenic and organic voice disorders. Only Type 1 voice signals were reliable for perturbation analysis in this study. Significant signal typing-related differences were found in all acoustic and auditory-perceptual measures. SNR, CPP, L/H ratio values for Type 4 were significantly lower than those of other voice signals and significant higher %jitter, %shimmer were observed in Type 4 voice signals(p<.001). Additionally, with increase of signal type, D2 values significantly increased and more complex and nonlinear patterns were represented. Nevertheless, voice signals with highly noise component associated with breathiness were not able to obtain D2. In particular, CPP, was highly sensitive with voice quality 'G', 'R', 'B' than any other acoustic measures. Thus, Spectral and cepstral analyses may be applied for more severe dysphonic voices such as Type 4 signals and CPP can be more accurate and predictive acoustic marker in measuring voice quality and severity in dysphonia.

다양한 합성곱 신경망 방식을 이용한 모바일 기기를 위한 시작 단어 검출의 성능 비교 (Performance comparison of wake-up-word detection on mobile devices using various convolutional neural networks)

  • 김상홍;이보원
    • 한국음향학회지
    • /
    • 제39권5호
    • /
    • pp.454-460
    • /
    • 2020
  • 음성인식 기능을 제공하는 인공지능 비서들은 정확도가 뛰어난 클라우드 기반의 음성인식을 통해 동작한다. 클라우드 기반의 음성인식에서 시작 단어 인식은 대기 중인 기기를 활성화하는 데 중요한 역할을 한다. 본 논문에서는 공개 데이터셋인 구글의 Speech Commands 데이터셋을 사용하여 스펙트로그램 및 멜-주파수 캡스트럼 계수 특징을 입력으로 하여 모바일 기기에 대응한 저 연산 시작 단어 검출을 위한 합성곱 신경망의 성능을 비교한다. 본 논문에서 사용한 합성곱 신경망은 다층 퍼셉트론, 일반적인 합성곱 신경망, VGG16, VGG19, ResNet50, ResNet101, ResNet152, MobileNet이며, MobileNet의 성능을 유지하면서 모델 크기를 1/25로 줄인 네트워크도 제안한다.

한국에 서식하는 곤박쥐 Rhinolophus ferrumequinum, 집박쥐 Pipistrellus abramus, 큰발윗수염박쥐 Myotis macrodactylus의 반향정위 형태 (General Patterns in Echolocation Call of Greater Horseshoe Bat Rhinolophus ferrumequinum, Japanese Pipistrelle Bat Pipistrellus abramus and Large-Footed Bat Myotis macrodactylus in Korea)

  • 정철운;한상훈;임춘우;김성철;이화진;권용호;김철영;이정일
    • 한국환경과학회지
    • /
    • 제19권1호
    • /
    • pp.61-68
    • /
    • 2010
  • In this study, we analyzed the pulse-duration, pulse-interval and peak-frequency of echolocation call in three species as Rhinolophus ferrumequinum, Pipistrellus abramus, and Myotis macrodactylus. The peak frequency and pulse duration for above mentioned species were 69 kHz, 47 kHz and 49 kHz and $69.39{\pm}8.76\;ms$, $4.95{\pm}0.77\;ms$ and $3.09{\pm}0.48\;ms$ for R. ferrumequinum, P. abramus and M. macrodactylus, respectively. The pulse intervals for R. ferrumequinum, P. abramus and M. macrodactylus were $103.61{\pm}9.05\;ms$, $67.59{\pm}3.47\;ms$ and $66.35{\pm}4.96\;ms$, respectively. The pulse pattern of R. ferrumequinum was setting into a short FM call and linked to long CF call and went through the short FM call again. The pulse pattern of M. macrodactylus was comprised with serial short FM call and the CF call was not checked up in accordance with the spectrogram analysis. The long FM call and short CF call got join together for the P. abramus and the peak frequency was checked up at the pulse ending as CF call.

한국어 반음절단위 규칙합성의 개선을 위한 포만트천이의 변경규칙 (An Alteration Rule of Formant Transition for Improvement of Korean Demisyllable Based Synthesis by Rule)

  • 이기영;최창석
    • 한국음향학회지
    • /
    • 제15권4호
    • /
    • pp.98-104
    • /
    • 1996
  • 본 연구에서는 반음절단위 규칙합성에서 연속음성을 합성할 때 조음결합에 의한 천이구간이 없는 반음절의 연결로 접속되어 부자연스러운 합성음이 되는 것을 개선하기 위하여 연쇄모음의 천이구간을 보상하는 방법으로 포만트천이의 변경규칙을 제안하였다. 반음절 단위만으로는 포만트천이가 발생하는 부분을 채울 수 없기 때문에 반음절단위의 음성데이타와 모음의 반음절 단위의 정상부위로부터 세그멘트한 정상모음 42개를 추가하여 데이터베이스를 구축하였으며 포만트를 변경하는 방법으로 포만트합성에서의 공진회로를 이용하였다. 제안한 방법의 타당성을 확인하기 위하여 음성합성시 연쇄모음 부분에 포만트천이의 변경규칙을 적용하여 원음성 및 변경규칙을 적용하지 않은 반음절단위 음성합성방식에 의한 합성음성의 스펙트로그램과 비교하고 MOS 테스트를 실시한 결과 보다 자연스러운 합성음성을 얻을 수 있음을 확인하였다.

  • PDF

가속도계와 자이로스코프 데이터를 사용한 인간 행동 인식 기반의 템포 지향 음악 추천 시스템 (Tempo-oriented music recommendation system based on human activity recognition using accelerometer and gyroscope data)

  • 신승수;이기용;김형국
    • 한국음향학회지
    • /
    • 제39권4호
    • /
    • pp.286-291
    • /
    • 2020
  • 본 논문에서는 템포 기반의 음악 분류와 센서 기반의 인간 행동 인식을 통한 음악을 추천하는 시스템을 제안한다. 제안하는 방식은 템포 기반의 음악 분류를 통해 음악 파일을 색인하고, 인식된 행동에 따라 적합한 음악을 추천한다. 정확한 음악 분류를 위해 변조 스펙트럼 기반의 동적 분류기와 멜 스펙트로그램 기반의 시퀀스 분류기가 함께 사용된다. 또한, 간단한 스마트폰 가속도계, 자이로스코프 센서 데이터가 심층 스파이킹 신경망에 적용되어 행동 인식 성능을 향상시킨다. 마지막으로 인식된 행동과 색인된 음악 파일의 관계를 고려한 매핑 테이블을 통해 음악 추천이 수행된다. 실험 결과는 제안된 시스템이 음악 플레이어가 있는 실제 모바일 장치에 사용하기에 적합하다는 것을 보여준다.

모돈의 인공수정 후 시기별 발성음의 특성 (Characteristics of Estrus-related Vocalizations of Sows after Artificial Insemination)

  • 임신재;김민진;이주영;김나라;강정훈
    • Journal of Animal Science and Technology
    • /
    • 제50권3호
    • /
    • pp.401-406
    • /
    • 2008
  • 본 연구는 모돈의 인공수정 후 시기별 발성음의 특성을 파악하기 위해 요크셔(Yorkshire)와 랜드레이스(Landrace)의 교잡종을 대상으로 2006년 9월부터 2007년 3월까지의 기간 동안 실시되었다. 모돈의 인공수정 상태에 따라 수정 당일, 수정 후 3일, 수정 후 50일로 구분하였고, 하루 3회 각각 1시간씩 디지털녹음기(MD Recorder, Marantz PMD650)와 마이크(RF Condesner MIC, MKH 416P48)를 이용하여 발성음을 수집한 후 분석하였다. 발성음의 스펙트로그램을 비교한 결과 수정 후 시기별 차이가 있는 것으로 나타났으며, 수정 후 시기별 발성음의 스펙트럼을 비교한 결과 역시 차이가 있었다. 또한 모돈 발성음의 주파수, 강도는 시기별로 유의한 차이를 보였으나 발성음의 길이는 큰 차이가 없었다. 모돈은 인공 수정 후 시기별로 발성음의 차이를 보였으며, 앞으로 더욱 깊이 있는 연구를 통해서 돼지의 신체적, 심리적 상태를 비롯한 동물복지의 지표로 이용이 가능 할 것으로 판단된다.

The f0 distribution of Korean speakers in a spontaneous speech corpus

  • Yang, Byunggon
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.31-37
    • /
    • 2021
  • The fundamental frequency, or f0, is an important acoustic measure in the prosody of human speech. The current study examined the f0 distribution of a corpus of spontaneous speech in order to provide normative data for Korean speakers. The corpus consists of 40 speakers talking freely about their daily activities and their personal views. Praat scripts were created to collect f0 values, and a majority of obvious errors were corrected manually by watching and listening to the f0 contour on a narrow-band spectrogram. Statistical analyses of the f0 distribution were conducted using R. The results showed that the f0 values of all the Korean speakers were right-skewed, with a pointy distribution. The speakers produced spontaneous speech within a frequency range of 274 Hz (from 65 Hz to 339 Hz), excluding statistical outliers. The mode of the total f0 data was 102 Hz. The female f0 range, with a bimodal distribution, appeared wider than that of the male group. Regression analyses based on age and f0 values yielded negligible R-squared values. As the mode of an individual speaker could be predicted from the median, either the median or mode could serve as a good reference for the individual f0 range. Finally, an analysis of the continuous f0 points of intonational phrases revealed that the initial and final segments of the phrases yielded several f0 measurement errors. From these results, we conclude that an examination of a spontaneous speech corpus can provide linguists with useful measures to generalize acoustic properties of f0 variability in a language by an individual or groups. Further studies would be desirable of the use of statistical measures to secure reliable f0 values of individual speakers.

빔공간 다채널 비음수 행렬 분해에 기초한 잔향에서의 지속파 능동 소나 표적 탐지 기법에 대한 연구 (A study on the target detection method of the continuous-wave active sonar in reverberation based on beamspace-domain multichannel nonnegative matrix factorization)

  • 이석진
    • 한국음향학회지
    • /
    • 제37권6호
    • /
    • pp.489-498
    • /
    • 2018
  • 본 논문에서는 잔향이 존재하는 환경에서 낮은 도플러 주파수를 가지는 지속파 능동 소나의 반사음이 수신될 때, 빔공간 다채널 비음수 행렬 분해 기법을 이용하여 이를 탐지하는 기법에 대한 연구를 수행하였다. 지속파 능동 소나에서 수신기가 이동하는 경우 도플러 효과로 인하여 잔향 주파수 대역이 넓어지며, 이 경우 낮은 도플러 주파수를 가지는 표적 반사음은 잔향에 의해 방해를 받는다. 본 논문에서 고안한 알고리즘은 빔공간 다채널 비음수 행렬 분해 기법을 이용하여 수신음의 다채널 스펙트로그램을 주파수 기저, 시간 기저, 빔형성기 이득으로 분석한 후, 적절한 기저를 선택하여 반사음의 주파수, 시간, 그리고 방위를 추정한다. 해당 알고리즘의 동작을 분석하기 위하여 다양한 신호대잔향음 환경에서의 시뮬레이션을 수행하였으며, 분석 결과 고안한 알고리즘이 주파수, 시간, 그리고 방위를 추정할 수 있으나 낮은 신호대잔향비 환경에서 성능이 저하됨을 확인할 수 있었다. 시뮬레이션 결과에 따르면, 향후 기저 선택 알고리즘을 수정함으로써 성능을 개선할 수 있을 것이라 예상된다.

An Interdisciplinary Study of A Leaders' Voice Characteristics: Acoustical Analysis and Members' Cognition

  • Hahm, SangWoo;Park, Hyungwoo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4849-4865
    • /
    • 2020
  • The traditional roles of leaders are to influence members and motivate them to achieve shared goals in organizations. However, leaders such as top managers and chief executive officers, in practice, do not always directly meet or influence other company members. In fact, they tend to have the greatest impact on their members through formal speeches, company procedures, and the like. As such, official speech is directly related to the motivation of company employees. In an official speech, not only the contents of the speech, but also the voice characteristics of the speaker have an important influence on listeners, as the different vocal characteristics of a person can have different effects on the listener. Therefore, according to the voice characteristics of a leader, the cognition of the members may change, and, the degree to which the members are influenced and motivated will be different. This study identifies how members may perceive a speech differently according to the different voice characteristics of leaders in formal speeches. Further, different perceptions about voices will influence members' cognition of the leader, for example, in how trustworthy they appear. The study analyzed recorded speeches of leaders, and extracted features of their speaking style through digital speech signal analysis. Then, parameters were extracted and analyzed by the time domain, frequency domain, and spectrogram domain methods. We also analyzed the parameters for use in Natural Language Processing. We investigated which leader's voice characteristics had more influence on members or were more effective on them. A person's voice characteristics can be changed. Therefore, leaders who seek to influence members in formal speeches should have effective voice characteristics to motivate followers.