• 제목/요약/키워드: Perceptual signal analysis

검색결과 21건 처리시간 0.027초

공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거 (Online blind source separation and dereverberation of speech based on a joint diagonalizability constraint)

  • 유호건;김도희;송민환;박형민
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.503-514
    • /
    • 2021
  • 신호에서의 잔향은 암묵음원분리 시스템의 성능을 크게 저하시키는 경향이 있다. 특히 온라인으로 진행되는 시스템일 때, 그 영향이 더욱 두드러진다. 최근 공동 행렬대각화를 활용하여 해당 문제를 해결하고자 하는 연구들이 이루어지고 있다. 본 논문에서는 이를 활용, 발전하여 잔향이 존재하는 환경에서의 미결정 다중 화자의 음원 분리 온라인 알고리즘에 잔향 제거 기능을 추가함으로써 분리한 음원의 품질을 개선하였다. WSJCAM0 데이터베이스에서 실험을 통해 기존에 사용되고 있는 온라인 알고리즘 성능과 비교하였다. 성능 평가는 신호 대 왜곡 비(Signal-to-Distortion Ratio, SDR)와 Perceptual Evaluation of Speech Quality(PESQ)를 통해 이루어졌고, 기존 알고리즘 대비 SDR은 평균 1.23 dB에서 3.76 dB로 향상되었고, PESQ는 1.15에서 2.12로 성능이 향상되었음을 검증하였다.

식품 품질관리를 위한 신호탐지이론(SDT) 감각차이식별분석 이론과 생수 품질관리에의 활용 (Food quality management using sensory discrimination method based on signal detection theory and its application to drinking water)

  • 김민아;심혜민;이혜성
    • 식품과학과 산업
    • /
    • 제52권1호
    • /
    • pp.20-31
    • /
    • 2019
  • Sensory perception of food/beverage products is one of the most important quality factors to determine consumer acceptability and thus sensory discrimination methodology has been a vital tool for quality management. Signal detection theory(SDT) and Thurstonian modeling provide the most advanced psychometric approach to modeling various discrimination methods. In these theories, perceptual and cognitive decisional factors are considered so that, a fundamental measure of sensory difference (d') can be computed, independent of test methods used. In this paper, sensory discrimination analysis based on SDT and Thurstonian modeling is introduced for more accurate and systematic applications of sensory and hedonic quality management in industry. Ways to realize the statistical power and relative sensitivity of sensory discrimination methods theorized in SDT and Thurstonian modeling in practice, are also discussed by using a case study of the Nongshim quality management program for drinking water in which SDT A-Not A test methodology was further optimized.

동적 세그멘테이션을 이용한 폴리포닉 오디오 신호의 정현파 모델링 (Sinusoidal Modeling of Polyphonic Audio Signals Using Dynamic Segmentation Method)

  • 장호근;박주성
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.58-68
    • /
    • 2000
  • 본 논문에서는 폴리포닉 오디오 신호에 대한 정현파 모델링 방법을 제안한다. 정현화 모델링을 폴리포닉 오디오 신호에 적용하는데 있어서 가장 큰 문제점은 스펙트럼 분석을 위한 분석 윈도우의 크기를 결정할 수 없다는 것이다. 또한 고음질의 합성음을 위해서는 악기음의 특성을 결정짓는 어택이 잘 보존되어야 한다. 본 논문에서는 입력 신호를 6개의 옥타브 벤드 구조의 다중 해상도 필터 뱅크를 통과시키고, 각 서브벤드 신호에 대해 서로 다른 크기의 분석 윈도우를 적용시킴으로써 폴리포닉 오디오 신호에 대한 분석 윈도우 크기 결정 문제를 해결한다. 정현파 모델링에서 발생하는 어택과 같은 천이 구간에서의 퍼짐 현상을 개선하기 위해 각 서브밴드 신호에 동적 세그맨테이션 방법을 적용하여 천이 구간 근처에서는 분석과 합성 프레임 크기를 작게 하는 방법을 사용한다. 이 방법을 통해 서브밴드 신호의 구간별 시간-주파수 특성에 따라 적절한 크기의 윈도우를 선택할 수 있다. 동적 세그멘테이션 방법으로는 기존의 방법보다 계산량과 성능 면에서 더 나은 특성을 보이는 방법을 제안한다. 여러가지 폴리포닉 오디오 신호에 대한 시뮬레이션 결과 제안한 정현파 모델링 방법이 음질의 손상 없이 원래 신호를 잘 복원할 수 있음을 확인하였다.

  • PDF

범용 DSP를 이용한 MPEG-2 오디오 부호화기의 성능 개선 (An Enhancement of the MPEG-2 Audio Encoder Using General DSPs)

  • 오현오;김성윤;윤대희;차일환;이준용
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1997년도 학술대회
    • /
    • pp.63-67
    • /
    • 1997
  • The ISO(International Standard Organization) has standardized MPEG-2 audio. The MPEG-2 audio compression algorithm is based upon subband analysis and exploits the human auditory characteristics to achieve a low bit rate with minimum perceptual loss of audio signal quality. This thesis presents an enhanced MPEG-2 audio encoder using multiple TMS320C30 general purpose DSP's. The developed system is made up of five slave boards and one master board. Each slave board performs susband analysis psychoacoustic parameter calculation for one channel, and the master board manages bit allocation, quantization, and bit-stream formatting for all channels. Parallel processing and pipelining techniques are used in hardware structure and fast algorithms are applied in each subroutine to implement a real-time process. The implemented system supports multichannel up to 5.1 and various bitrates.

  • PDF

음성신호를 이용한 감정인식 (An Emotion Recognition Technique using Speech Signals)

  • 정병욱;천성표;김연태;김성신
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.494-500
    • /
    • 2008
  • 휴먼인터페이스 기술의 발달에서 인간과 기계의 상호작용은 중요한 부분이다. 감정인식에 대한 연구는 이러한 상호작용에 도움을 준다. 본 연구는 개인화된 음성신호에 대하여 감정인식 알고리즘을 제안하였다. 감정인식을 위하여 PLP 분석을 이용하여 음성신호의 특징으로 사용하였다. 처음에 PLP 분석은 음성인식에서 음성신호의 화자 종속적인 성분을 제거하기 위하여 사용되었으나 이후 화자인식을 위한 연구에서 PLP 분석이 화자의 특징 추출을 위해 효과적임을 설명하고 있다. 그래서 본 논문은 PLP 분석으로 만들어진 개인화된 감정 패턴을 이용하여 쉽게 실시간으로 음성신호로부터 감정을 평가하는 알고리즘을 제안하였다. 그 결과 최대 90%이상의 인식률과 평균 75%의 인식률을 보였다. 이 시스템은 간단하지만 효율적이다.

청각보철을 위한 PLP방식의 음성신호처리에 관한 연구 (A Study on the Speech Signal Processing for Cochlear Implant using the PLP Analysis)

  • 김영선;최두일;박상희;백승화
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1992년도 춘계학술대회
    • /
    • pp.167-170
    • /
    • 1992
  • 본 논문에서는 감각성 난청자들이 정상인들과 유사한 음성 인식을 하도록 청각 보철 기기를 구성하였다. 음성의 포먼트를 추출하기 위해서는 PLP(Perceptual Linear Prediction) 방식을 이용하였으며, pitch 추출을 위해서는 3 단계 클리핑 함수를 이용한 자기 상관법을 이용하였다. 또한 다중 채널 - 다중 전극 방식을 이용하여 내이의 헤어셀에 17 개의 전극을 삽입하여 신호를 가하는 시뮬레이션을 하였다. 실험에 사용한 데이타는 모음 /a/, /e/, /i/, /o/, /u/로 전모음과 후모음의 차이를 구별하였으며 두번째 포먼트의 변화와 포먼트 통합 이론에 대한 검증을 하였다.

  • PDF

한국어 낭독체 문장의 음향분석 -바람과 햇님의 운율구 생성을 중심으로- (The Acoustic Analysis of Korean Read Speech - with respect to the prosodic phrasing -)

  • 성철재
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 2월 학술대회지
    • /
    • pp.157-172
    • /
    • 1996
  • This study aims to suggest some theoretical methodology for analysis of the prosodic patterns in Korean Read Speech. The engineering effort relevant to the phonetic study has focused to the importance of prosodic phrasing which may play a major role in analyzing the phonetic DB. Before establishing the prosodic phrase as the prosodic unit, we should describe the features of the boundary signal in a target sentence. With this in mind, the general characteristics of Read Speech and the ToBI(tones and Break Indices), which has been currently in vogue with respect to the prosodic labelling system were presented as the first step. The concrete analysis was carried out with the fable 'North Wind and the Sun' Korean version, where about 25 prosodic units were discriminated by perceptual approach for 5 subjects. Establishing various informations which can be used for deciding a boundary position systematically, we can proceed to the next, viz. acoustic analysis of prosodic unit. The most important which we primarily study for improving the naturalness of synthetic speech may be, at first, detecting the boundary signals in the speech file and accordingly reestablishment it within the raw text.

  • PDF

움직임 분석 기반의 시각인지 모델을 이용한 비디오 코딩 방법 (Video Coding Method Using Visual Perception Model based on Motion Analysis)

  • 오형석;김원하
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.223-236
    • /
    • 2012
  • 본 논문에서는 인간 인지 기반 비디오 코딩을 위한 비디오 처리 방법을 개발한다. 제안하는 방법은 율-왜곡(rate-distortion) 최적화의 영향뿐만 아니라 제한적인 시, 공간 해상도, 지역적인 움직임 이력(history), visual saliency에 의한 인간 시각 인지를 고려한다. 이러한 인간의 인지적인 효과들을 고려하기 위하여 본 논문에서는 움직임 패턴을 모델링하고 Hedge 알고리듬을 사용하여 움직임 패턴을 결정하는 기법을 개발한다. 그 다음, 제안한 움직임 패턴과 기존의 visual saliency와의 결합을 통하여 인간 시각 인지 모델을 수립한다. 제안된 인간 시각 인지 모델을 구현하기 위하여 기존의 foveation filtering 방법을 확장한다. 시각적 자극이 덜한 지역만을 부드럽게(smoothing)하는 기존의 foveation filtering 기법과 비교하여 제안하는 foveation filtering 기법은 인간 시각 인지 모델에 따라 지역적으로 부드럽게 또는 지역적 특성을 향상시킴으로써, 시각적 자극이 덜한 지역에서 줄여진 대역폭을 효과적으로 시각적 자극이 큰 지역에서 사용하도록 이동 시킬 수 있는 장점이 있다. 제안된 방법의 성능은 전반적인 비디오 화질을 만족할 뿐만 아니라 인간이 인지하는 화질의 품질을 12%~44% 향상시킨다.

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

영상 특성에 적응적인 블록 DCT 기반 지각적 디지털 워터마킹 (Image Adaptive Block DCT-Based Perceptual Digital Watermarking)

  • 최윤희;최태선
    • 대한전자공학회논문지SP
    • /
    • 제41권6호
    • /
    • pp.221-229
    • /
    • 2004
  • 본 논문에서는 기존의 영상 압축 표준과 호환되며 영상 또는 비디오의 특성에 따라 워터마크를 삽입하는 새로운 방법을 제안한다. 워터마크를 최대의 강도로 삽입하기 위해 블록내의 DCT 계수의 계층구조를 이용한 가중치 함수를 정의한다. 이 구조를 이용하면 DCT 블록 내에서 공간-주파수 지역화 특성을 이용할 수 있다. 워터마크의 검출 단계에서는 통계적 분석을 통한 주어진 오검출 확률에 대한 최적의 사후 임계값을 계산하는 방법을 제시한다. 실험결과는 제안된 방법이 여러 가지 신호처리 공격과 널리 사용되는 JPEG, MPEG 부호화에 강인함을 보여준다.