통합 검색 | Korea Science

다양한 손실 함수를 이용한 음성 향상 성능 비교 평가 (Performance comparison evaluation of speech enhancement using various loss functions)

황서림;변준;박영철
- 한국음향학회지
- /
- 제40권2호
- /
- pp.176-182
- /
- 2021
본 논문은 다양한 손실 함수에 따른 Deep Nerual Network(DNN) 기반 음성 향상 모델의 성능을 비교 평가한다. 베이스라인 모델로는 음성의 위상 정보를 고려할 수 있는 복소 네트워크를 사용하였다. 손실 함수는 두 가지 유형의 기본 손실 함수, Mean Squared Error(MSE)와 Scale-Invariant Source-to-Noise Ratio(SI-SNR)를 사용하였으며 두 가지 유형의 지각 기반 손실 함수 Perceptual Metric for Speech Quality Evaluation(PMSQE)과 Log Mel Spectra(LMS)를 사용한다. 성능은 각 손실 함수의 다양한 조합을 사용하여 얻은 출력을 객관적인 평가와 청취 테스트를 통해 측정하였다. 실험 결과, 지각기반 손실 함수를 MSE 또는 SI-SNR과 결합하였을 때 전반적으로 성능이 향상되며, 지각기반 손실함수를 사용하면 객관적 지표에서 약세를 보이는 경우라도 청취 테스트에서 우수한 성능을 보임을 확인하였다.
https://doi.org/10.7776/ASK.2021.40.2.176 인용 PDF KSCI

비동기 MC-CDMA 상향 링크 시스템에서의 시간 옵셋 영향 분석 (Effect Analysis of Timing Offsets for Asynchronous MC-CDMA Uplink Systems)

고균병;우중재
- 대한전자공학회논문지TC
- /
- 제47권8호
- /
- pp.1-8
- /
- 2010
본 논문에서는 Cyclic prefix 형태의 보호구간을 갖는 비동기 MC-CDMA 상향 링크 시스템의 시간 옵셋의 영향을 주파수 선택적 다경로 페이딩 채널에 대하여 분석하였다. 분석을 위하여 시간 옵셋을 보호구간 및 최대 접속 지연 시간 (maximum access delay time)과 관련하여 모델링하였다. 수식적 분석을 통하여 시간 옵셋이 원하는 신호성분의 전력 누수와 자기 간섭성분을 발생시키는 것을 확인하였다. 이러한 시간 옵셋이 유효 SNR 및 평균 오류율에 미치는 영향을 분석하였다. 근사화를 통하여 평균 오류율 및 SNR 감쇄를 닫혀진 형태로 유도하였다. 분석결과의 정확성은 모의실험 결과와의 비교를 통해 다양한 시간 옵셋 및 SNR에 대해 검증하였다.
PDF KSCI

효과적인 복소 스펙트럼 기반 음성 향상을 위한 시간과 주파수 영역 손실함수 조합에 관한 연구 (A study on loss combination in time and frequency for effective speech enhancement based on complex-valued spectrum)

정재희;김우일
- 한국음향학회지
- /
- 제41권1호
- /
- pp.38-44
- /
- 2022
잡음에 오염된 음성의 명료도와 음질을 향상시키고자 음성 향상을 수행한다. 본 연구에서는 복소값 스펙트럼을 이용한 마스크기반 음성 향상에서 시간 영역 손실함수와 주파수 영역 손실함수에 따른 학습 결과를 비교하였다. 시간 영역의 음성 파형과 주파수 영역의 스펙트럼의 세부정보를 고려해 두 영역의 장점을 활용할 수 있도록 손실함수 조합에 관해 연구를 진행하였다. 시간 영역 손실함수는 Scale Invariant-Source to Noise Ratio(SI-SNR)을 이용해 계산하고, 주파수 영역 손실함수는 복소값 스펙트럼과 크기 스펙트럼을 Mean Squared Error(MSE)로 계산하여 사용하였고, sin 함수를 이용해 위상에 대한 손실함수를 계산하였다. 손실함수 조합은 시간 영역 손실함수인 SI-SNR과 각 주파수 영역 손실함수를 조합하였다. 또한 크기 값과 위상 값을 모두 고려할 수 있도록 SI-SNR과 크기 스펙트럼, 위상에 관련된 손실함수들도 조합하여 실험을 진행하였다. 음성 향상 결과는 Source-to-Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를이용해 성능 비교 평가를 진행하였다. 음성 향상 결과를 확인해보기 위해 스펙트럼 상에서 비교를 진행하였다. TIMIT 데이터베이스를 이용한 실험 결과, 시간 영역 또는 주파수 영역 손실함수보다 SI-SNR과 크기 스펙트럼을 조합한 손실함수를 사용하여 음성 향상을 학습했을 때 가장 높은 성능을 보였다.
https://doi.org/10.7776/ASK.2022.41.1.038 인용 PDF KSCI

MIMO 시스템의 채널 용량에 대한 채널 추정 오차의 영향 분석 (Effect of Channel Estimation Error on Capacity of MIMO Systems)

함재상;심세준;이충용;박현철;홍대식
- 대한전자공학회논문지TC
- /
- 제41권8호
- /
- pp.63-68
- /
- 2004
채널 추정 오차가 존재하는 상황에서 MIMO 시스템의 채널 용량을 수식적으로 분석한다. 수식적인 분석에 의해, 채널 용량은 평균 신호 대 잡음비 (SNR) 와 함께 채널 추정 오차 (MSE)에 영향을 받음을 알 수 있다. 또한 본 논문에서는 평균 SNR 과 채널 용량의 손실량이 제한되어 있을 경우, 허용가능한 채널 추정 오차를 구함으로써 주어진 시스템에 적합한 채널 추정기법을 선택하는 기준을 제시한다. 실험 결과로부터 1 bps/Hz 채널용량의 손실에 대해 허용 가능한 채널 추정 오차는 20dB와 40dB의 평균 신호 대 잡음비에서 각각 10/sup -2/와 10/sup -4/임을 확인 할 수 있다.
PDF KSCI

Auditory Recognition of Digit-in-Noise under Unaided and Aided Conditions in Moderate and Severe Sensorineural Hearing Loss

Aghasoleimani, Mina;Jalilvand, Hamid;Mahdavi, Mohammad Ebrahim;Ahmadi, Roghayeh
- Journal of Audiology & Otology
- /
- 제25권2호
- /
- pp.72-79
- /
- 2021
Background and Objectives: The speech-in-noise test is typically performed using an audiometer. The results of the digit-in-noise recognition (DIN) test may be influenced by the flat frequency response of free-field audiometry and frequency of the hearing aid fit based on fitting rationale. This study aims to investigate the DIN test in unaided and aided conditions. Subjects and Methods: Thirty four adults with moderate and severe sensorineural hearing loss (SNHL) participated in the study. The signal-to-noise ratio (SNR) for 50% of the DIN test was obtained in the following two conditions: 1) the unaided condition, performed using an audiometer in a free field; and 2) aided condition, performed using a hearing aid with an unvented individual earmold that was fitted based on NAL-NL2. Results: There was a statistically significant elevation in the mean SNR for the severe SNHL group in both test conditions when compared with that of the moderate SNHL group. In both groups, the SNR for the aided condition was significantly lower than that of the unaided condition. Conclusions: Speech recognition in hearing-impaired patients can be realized by fitting hearing aids based on evidence-based fitting rationale rather than by measuring it using free-field audiometry measurement that is utilized in a routine clinic setup.
https://doi.org/10.7874/jao.2020.00094 인용

잡음에 강한 음성 인식에서 SNR 기준 함수를 사용한 가우시안 함수 변형 및 결정에 관한 연구 (A Study on Variation and Determination of Gaussian function Using SNR Criteria Function for Robust Speech Recognition)

전선도;강철호
- 한국음향학회지
- /
- 제18권7호
- /
- pp.112-117
- /
- 1999
잡음에 강한 음성인식시스템을 위하여 주파수 차감법을 사용할 경우 음성 신호마저 차감하여 신호를 더욱 부식시키는 경우가 존재한다. 본 연구에서는 이러한 경우를 위해서 프레임 마다 추정 잡음과 차감 신호의 SNR(Signal to Noise Ratio) 함수로부터 반연속 HMM(Hidden Markov Model)의 가우시안 함수를 변형 및 결정하는 방법을 제안한다. 이 방법의 타당성을 위해 프레임마다 추정 잡음의 오류 정도가 추정 잡음의 크기와 관계함을 신호 파형 형태로써 보였으며, 이러한 이유에서 SNR을 기준으로 가우시안 함수를 변형 및 결정하게 된다. 실험에서 80㎞/h 이상의 속도로 달리는 차량 내에서 배경 잡음과 음성이 혼합되었을 때의 음성 인식율을 평가하였다. 그 결과 주파수 차감한 경우와 차감하지 않은 경우에 비해 본 논문에서 제안한 SNR에 의한 가우시안 결정 방법이 더욱 향상된 인식율을 보였다.
PDF

비대칭 2PAM의 설계와 성능 분석: 5G 네트워크의 비직교 다중 접속 관점에서 (On Design and Performance Analysis of Asymmetric 2PAM: 5G Network NOMA Perspective)

정규혁
- 융합정보논문지
- /
- 제10권10호
- /
- pp.24-31
- /
- 2020
비직교 다중 접속에서 약 채널 사용자의 저하된 성능은 문제로 제기되고 있다. 본 논문에서는, 수용 가능한 정도의 강 채널 사용자의 BER 손실로, 비직교 다중 접속의 약 채널 사용자의 BER 성능을 향상시키기 위해, 비대칭 2PAM을 제안한다. 먼저, 비대칭 2PAM을 설계하고, 총 할당 전력을 계산한 후, 제안된 기법의 BER에 대한 폐쇄형 수식을 구한다. 다음, 강 채널 사용자의 적은 BER 저하로, 약 채널 사용자의 BER이 향상되었음을 보여준다. 또한, 강 채널 사용자의 3 dB 의 SNR 저하로 약 채널 사용자의 SNR 이득이 10 dB 에 달하는 것을 보여줌으로서 제안된 기법의 우수성을 입증한다. 결과적으로, 5G 시스템의 비직교 다중 접속에서 비대칭 2PAM이 고려될 수도 있다. 향후 연구 주제로서, 제안된 기술에 대한 최대 전송률을 분석하는 것은 의미있는 연구일 수 있다.
https://doi.org/10.22156/CS4SMB.2020.10.10.024 인용 PDF KSCI

PACS운영 시스템 차이에 따른 의료 영상 업로드 시 무손실 압축 방식의 유용성 분석: SNR, CNR, Histogram 비교 분석을 중심으로 (Depending on PACS Operating System Differences Analysis of Usefulness of Lossless Compression Method in Medical Image Upload: SNR, CNR, Histogram Comparative Analysis)

최지안;황준호;이경배
- 한국콘텐츠학회논문지
- /
- 제18권3호
- /
- pp.299-308
- /
- 2018
본 연구는 타 병원 전원 시 발급받는 의료영상이 서로 다른 소프트웨어를 사용하는 경우 PACS상의 영상화질에 영향을 미칠 수도 있다는 점을 착안하였다. A 대학병원 영상을 DICOM 파일로 복사하여 B 대학병원 PACS상에 등록하였고 해당 대학병원에서 사용하는 소프트웨어의 압축에 따른용량과 화질을 SNR, CNR, 히스토그램을 통해 평가하였다. 압축률이 커질수록 SNR, CNR은 떨어졌고, 주목할 점은 No Compression에 비해 Lossless Compression은 용량은 1/2로 줄었지만 SNR, CNR은 변화가 없었다. 히스토그램은 압축률이 높아질수록 언더플로우 현상에 의한 정보손실이 눈에 띄게 나타났다. 타 병원 전원 시 병원마다 다른 시스템을 사용하기 때문에, 압축하여 영상을 등록하면 영상의 화질이 저하되고 정보량이 손실되므로 비압축 또는 무손실 압축방식을 사용해야 한다. 결론적으로 업로드 시 대기시간과 경제적 효율성을 고려하면, 무손실 압축방식 사용이 유용하다.
https://doi.org/10.5392/JKCA.2018.18.03.299 인용 PDF KSCI

Auditory Recognition of Digit-in-Noise under Unaided and Aided Conditions in Moderate and Severe Sensorineural Hearing Loss

Aghasoleimani, Mina;Jalilvand, Hamid;Mahdavi, Mohammad Ebrahim;Ahmadi, Roghayeh
- 대한청각학회지
- /
- 제25권2호
- /
- pp.72-79
- /
- 2021
Background and Objectives: The speech-in-noise test is typically performed using an audiometer. The results of the digit-in-noise recognition (DIN) test may be influenced by the flat frequency response of free-field audiometry and frequency of the hearing aid fit based on fitting rationale. This study aims to investigate the DIN test in unaided and aided conditions. Subjects and Methods: Thirty four adults with moderate and severe sensorineural hearing loss (SNHL) participated in the study. The signal-to-noise ratio (SNR) for 50% of the DIN test was obtained in the following two conditions: 1) the unaided condition, performed using an audiometer in a free field; and 2) aided condition, performed using a hearing aid with an unvented individual earmold that was fitted based on NAL-NL2. Results: There was a statistically significant elevation in the mean SNR for the severe SNHL group in both test conditions when compared with that of the moderate SNHL group. In both groups, the SNR for the aided condition was significantly lower than that of the unaided condition. Conclusions: Speech recognition in hearing-impaired patients can be realized by fitting hearing aids based on evidence-based fitting rationale rather than by measuring it using free-field audiometry measurement that is utilized in a routine clinic setup.
https://doi.org/10.7874/jao.2020.00094 인용

CELP 부호화기를 위한 양방향 패킷 손실 은닉 알고리즘 (BS-PLC(Both Side-Packet Loss Concealment) for CELP Coder)

이인성;황정준;정규혁
- 대한전자공학회논문지TC
- /
- 제42권12호
- /
- pp.127-134
- /
- 2005
VoIP에서 패킷의 손실은 음성의 품질에 영향을 주는 가장 중요한 요인이다. 따라서 수신된 정보로부터 손실된 패킷을 복구하는 것은 중요하다. 따라서 본 논문은 VoIP에서 가장 많이 사용되는 CELP 부호화기를 위한 수신측 기반의 손실 패킷 복구방법을 제안한다. 제안하는 WSOLA(Waveform Shift OverLab Add)기반의 BS-PLC (Both Side Packet Loss Concealment) 방법은 패킷 손실이 발생하였을 경우 미래 패킷을 이용할 수 있는 경우와 그렇지 않을 경우로 나누고, LP(Linear prediction) 파라미터와 여기 신호를 복구한다. 미래 패킷을 이용할 수 없는 경우에는 과거에 전송된 정상 패킷만을 가지고 복원을 하며, 미래 패킷을 이용할 수 있을 경우에는 과거의 정상 패킷과 미래의 정상 패킷을 동시에 이용하여 손실된 패킷을 복구한다. 연속 패킷 손실 환경은 Gilbert 모델로 설정하였고, 제안한 알고리즘을 VoIP에서 가장 많이 사용되는 CELP 음성부호화기인 G.729에 적용하여 성능을 비교한다. 성능 비교를 위해 손실율을 변화시키면서 SNR(Signal to Noise)와 MOS(Mean Opinion Score)측정하였고, 제안한 방법을 G.729의 패킷 손실 은닉 방법과 비교하였다. 실험 결과, 평균 손실률이 $20\%$에서도 SNR은 2dB, MOS값은 0.3정도로의 음질 개선을 보였다.
PDF KSCI

검색결과 123건 처리시간 0.023초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)