• 제목/요약/키워드: voice transformation

검색결과 54건 처리시간 0.037초

발성장애 평가 시 /a/ 모음연장발성 및 문장검사의 켑스트럼 분석 비교 (Comparison of Vowel and Text-Based Cepstral Analysis in Dysphonia Evaluation)

  • 김태환;최정임;이상혁;진성민
    • 대한후두음성언어의학회지
    • /
    • 제26권2호
    • /
    • pp.117-121
    • /
    • 2015
  • Background : Cepstral analysis which is obtained from Fourier transformation of spectrum has been known to be effective indicator to analyze the voice disorder. To evaluate the voice disorder, phonation of sustained vowel /a/ sound or continuous speech have been used but the former was limited to capture hoarseness properly. This study is aimed to compare the effectiveness in analysis of cepstrum between the sustained vowel /a/ sound and continuous speech. Methods : From March 2012 to December 2014, total 72 patients was enrolled in this study, including 24 unilateral vocal cord palsy, vocal nodule and vocal polyp patients, respectively. The entire patient evaluated their voice quality by VHI (Voice Handicap Index) before and after treatment. Phonation of sustained vowel /a/ sample and continuous speech using the first sentence of autumn paragraph was subjected by cepstral analysis and compare the pre-treatment group and post-treatment group. Results : The measured values of pre and post treatment in CPP-a (cepstral peak prominence in /a/ vowel sound) was 13.80, 13.91 in vocal cord palsy, 16.62, 17.99 in vocal cord nodule, 14.19, 18.50 in vocal cord polyp respectively. Values of CPP-s (cepstral peak prominence in text-based speech) in pre and post treatment was 11.11, 12.09 in vocal cord palsy, 12.11, 14.09 in vocal cord nodule, 12.63, 14.17 in vocal cord polyp. All 72 patients showed subjective improvement in VHI after treatment. CPP-a showed statistical improvement only in vocal polyp group, but CPP-s showed statistical improvement in all three groups (p<0.05). Conclusion : In analysis of cepstrum, text-based analysis is more representative in voice disorder than vowel sound speech. So when the acoustic analysis of voice by cepstrum, both phonation of sustained vowel /a/ sound and text based speech should be performed to obtain more accurate result.

  • PDF

전기통신금융사기 사고에 대한 이상징후 지능화(AI) 탐지 모델 연구 (Study on Intelligence (AI) Detection Model about Telecommunication Finance Fraud Accident)

  • 정의석;임종인
    • 정보보호학회논문지
    • /
    • 제29권1호
    • /
    • pp.149-164
    • /
    • 2019
  • Digital Transformation과 4차 산업혁명 등 변화의 시대에 급변하는 기술 변화에 맞게 전자금융서비스는 안전하게 제공하여야 한다. 그러나 전기통신금융사기(보이스피싱) 사고는 현재진행형 이어서 사고의 지속적 증가, 지능화 및 고도화 현상을 대응하려 법률 제 개정 및 정책 제도 개선등 사고 근절을 위해 다양한 노력을 기울이고 있다. 더불어 금융회사는 이상금융거래탐지 시스템 개선 및 고도화를 통한 전기통신금융사기 사고 방지에 노력하고 있으나, 그 대응 결과는 그리 밝지 않다. 이러한 노력에도 불구하고 전기통신금융사기 사고는 관련 대책에 맞서 변화하며 진화를 거듭하고 있다. 본 연구에서는 보이스피싱에 의한 금융거래 사고발생 방지를 위해 시나리오 기반의 Rule 모델과 인공지능 알고리즘을 통해 모델링 된 지능형 이상금융거래 시스템을 설계하고 금융기관의 전자금융거래 시스템 에 실제 설치 운용해 본 결과를 바탕으로 인공지능형 이상금융거래 탐지시스템의 구현 모델과 분석 탐지 결과를 차단 대응 할 수 있는 고도화 된 대응 모델을 제안하고자 한다.

멀티미디어 입출력 서버를 위한 오디오 변환 필터 (Audio Transformation Filter for Multimedia I/O Server)

  • 조병호;장유탁;김우진;김기종;유기영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권6호
    • /
    • pp.580-587
    • /
    • 2000
  • 본 논문에서는 음성 입력으로 받아들인 멜로디를 MIDI 데이타로 변환하는 필터의 설계 방법과 분산 멀티미디어 환경에서 동작하는 입출력 서버 시스템인 MuX 환경에 적용하는 방법에 관해 기술한다. MuX는 다양한 입출력 디바이스와의 인터페이스를 위해 장치 독립적인 DLM(Dynamic Linking Module)을 사용하는데, 현재 MuX 시스템의 입출력 디바이스 인터페이스로 사용되는 웨이브 형식의 오디오 DLM과 MIDI(Musical Instrument Digital Interface) DLM의 기능을 보강하기 위해서 사람의 음성을 MIDI 데이타로 변환해주는 필터를 설계하고 구현하였다. MIDI 데이타의 입력 방식이 파일이나 MIDI 악기 외에도 사람의 음성 데이타로도 가능하므로 악기 연구에 익숙하지 않은 사람들도 MIDI 데이타를 입력할 수 있고, 미디어의 표현력이 증가되어 다양한 응용에 활용될 수 있다.

  • PDF

A study on Iris Recognition using Wavelet Transformation and Nonlinear Function

  • Hur, Jung-Youn;Truong, Le Xuan
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.553-559
    • /
    • 2004
  • In todays security industry, personal identification is also based on biometric. Biometric identification is performed basing on the measurement and comparison of physiological and behavioral characteristics, Biometric for recognition includes voice dynamics, signature dynamics, hand geometry, fingerprint, iris, etc. Iris can serve as a kind of living passport or living password. Iris recognition system is the one of the most reliable biometrics recognition system. This is applied to client/server system such as the electronic commerce and electronic banking from stand-alone system or networks, ATMs, etc. A new algorithm using nonlinear function in recognition process is proposed in this paper. An algorithm is proposed to determine the localized iris from the iris image received from iris input camera in client. For the first step, the algorithm determines the center of pupil. For the second step, the algorithm determines the outer boundary of the iris and the pupillary boundary. The localized iris area is transform into polar coordinates. After performing three times Wavelet transformation, normalization was done using sigmoid function. The converting binary process performs normalized value of pixel from 0 to 255 to be binary value, and then the converting binary process is compare pairs of two adjacent pixels. The binary code of the iris is transmitted to the by server. the network. In the server, the comparing process compares the binary value of presented iris to the reference value in the University database. Process of recognition or rejection is dependent on the value of Hamming Distance. After matching the binary value of presented iris with the database stored in the server, the result is transmitted to the client.

  • PDF

중국 IT기업 포용적 리더십이 직원 혁신행동과 직무성과에 미치는 영향 -직원 발언 행동의 매개효과를 중심으로 (The Influence of Inclusive Leadership on Innovative Behavior and Job Performance in Chinese IT Enterprises -Employee Voice Behavior as Mediating Variables)

  • 정준의;이염남;원호
    • 한국콘텐츠학회논문지
    • /
    • 제22권2호
    • /
    • pp.501-513
    • /
    • 2022
  • COVID-19 위기가 디지털 전환을 가속화하며, 혁신 능력이 기업에게 어느 시기보다 중요해졌다. 특히 IT기업간의 경쟁이 갈수록 치열해지고 있다. 포용적 리더십의 친근감은 직원들의 혁신행동과 직무성과 향상에 중요한 역할을 하며 기업의 발전과 경쟁력에 도움을 준다. 본 연구는 포용적 리더십이 직원의 혁신행동과 직무성과에 어떠한 영향을 미치는지, 그리고 그 과정에 직원의 발언 행동이 어떠한 매개역할을 하고 있는지에 연구목적을 두고 있다. 이러한 연구목적을 확인하기 위해 본 논문에서는 중국 IT기업에 근무하고 있는 직원을 대상으로 설문 조사를 실시하였다. 총 309개의 유효 설문이 사용되었고 수집된 데이터는 SPSS 26.0을 활용해 실증 분석하였다. 연구 결과는 다음과 같이 요약된다. 연구 결과, 1) 포용적 리더십이 혁신행동과 직무성과에 정의 영향을 미친다. 2) 직원 발언 행동이 혁신행동과 직무성과에 정의 영향을 미친다. 3) 직원 발언 행동이 포용적 리더십과 혁신행동 사이에 긍정적인 매개효과가 나타났다. 3) 직원 발언 행동이 포용적 리더십과 직무성과 사이에도 부분매개효과가 있다는 것을 확인하였다. 본 연구는 IT 분야 직원들의 혁신행동을 격려하고 성과를 개선하는 데 유용한 가이드라인이 될 것이라고 사료된다.

음성특성을 이용한 LSP 변환시간 단축에 관한 연구 (A Study on the Reduction of LSP(Line Spectrum Pair) Transformation Time Using the Voice Characteristic)

  • 강은영;민소연;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.557-560
    • /
    • 2000
  • LSP 파라미터는 일정한 ,스펙트럼 민감도와 낮은 스펙트럼 왜곡을 보이고 선형보간이 용이하다는 장점을 갖는다. 피러나 LPC 계수를 LSP 파라미터로 변환하는 방법이 복잡하여 계산시간이 많이 소요된다. 기존의 LSP 변환 방법 중 음성 부호화기에 주로 사용되는 Real Root 방법은 근을 구하기 위해 주파수 역을 순차적으로 검색하기 때문에 계산시간이 많이 소요된다. 본 논문에서 제안하는 방법은 음성 특성을 이용하는 것으로, 묵음의 경우는 묵음 구간에서 일정하게 나타나는 LSP 파라미터의 분포 특성을 이용하여 검색하고 유/무성음에 대해서는 LSP 파라미터의 분포도에 따라 검색구간의 순서와 검색간격을 달리한다. 또한, 모음에 대해서는 제1 포만트와 제2 포만트의 연관성을 고려하여 검색구간을 조절한다. 기존의 Real Root 방법과 제안한 방법을 비교한 결과 검색시간이 평균 46.5% 단축되었다.

  • PDF

Application of the Wavelet transformation to denoising and analyzing the speech

  • Hung Phan Duy;Lan Huong Nguyen Thi;Ngoc Yen Pham Thi;Castelli Eric
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.249-253
    • /
    • 2004
  • Wavelet transform (WT) has attracted most engineers and scientists because of its excellent properties. The coherence of practical approach and a theoretical basis not only solves currently important problems, but also gives the potential of formulating and solving completely new problems. It has been show that multi-resolution analysis of Wavelet transforms is good solution in speech analysis and threshold of wavelet coefficients has near optimal noise reduction property for many classes of signals. This paper proposed applications of wavelet in speech processing: pitch detection, voice-unvoice (V -UV) decision, denoising with the detailed algorithms and results.

  • PDF

G.723.1 보코더에서 주파수 간격 정보조절을 통한 계산량 감소에 관한 연구 (A Study on Reduction of Computation Time through Adjustment the Frequency Interval Information in the G.723.1 Vocoder)

  • 민소연;김영규;배명진
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(4)
    • /
    • pp.405-408
    • /
    • 2002
  • LSP(Line Spectrum Pairs) Parameter is used for speech analysis in vocoders or recognizers since it has advantages of constant spectrum sensitivity. low spectrum distortion and easy linear interpolation. However the method of transforming LPC(Linear Predictive Coding) into LSP is so complex that it takes much time to compute. Among conventional methods, the real root method is considerably simpler than others, but nevertheless, it still suffers from its jndeterministic computation time because the root searching is processed sequentially in frequency region. We suggest a method of reducing the LSP transformation time using voice characteristics The proposed method is to apply search order and interval differently according to the distribution of LSP parameters. in comparison with the conventional real root method, the proposed method results in about 46.5% reduction. And, the total computation time is reduce to about 5% in the G.723.1 vocoder.

  • PDF

음성 부호화기에서 불균등 간격조절을 통한 계산량 단축법 (A Reduction Method of Computational Complexity through Adjustment the Non-Uniform Interval in the Vocoder)

  • 전우진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 춘계학술발표논문집 1부
    • /
    • pp.277-280
    • /
    • 2010
  • LSP(Line Spectrum Pairs) Parameter is used for speech analysis in vocoders or recognizers since it has advantages of constant spectrum sensitivity, low spectrum distortion and easy linear interpolation. However the method of transforming LPC(Linear Predictive Coding) into LSP is so complex that it takes much time to compute. Among conventional methods, the real root method is considerably simpler than others, but nevertheless, it still suffers from its indeterministic computation time because the root searching is processed sequentially in frequency region. We suggest a method of reducing the LSP transformation time using voice characteristics.

  • PDF

Machine Learning-Based Programming Analysis Model Proposal : Based on User Behavioral Analysis

  • Jang, Seonghoon;Shin, Seung-Jung
    • International journal of advanced smart convergence
    • /
    • 제9권4호
    • /
    • pp.179-183
    • /
    • 2020
  • The online education platform market is developing rapidly after the coronavirus infection-19 pandemic. As school classes at various levels are converted to non-face-to-face classes, interest in non-face-to-face online education is increasing more than ever. However, the majority of online platforms currently used are limited to the fragmentary functions of simply delivering images, voice and messages, and there are limitations to online hands-on training. Indeed, digital transformation is a traditional business method for increasing coding education and a corporate approach to service operation innovation strategy computing thinking power and platform model. There are many ways to evaluate a computer programmer's ability. Generally, piecemeal evaluation methods are used to evaluate results in time through coding tests. In this study, the purpose of this study is to propose a comprehensive evaluation of not only the results of writing, but also the execution process of the results, etc., and to evaluate the programmer's propensity habits based on the programmer's coding experience to evaluate the programmer's ability and productivity.