통합 검색 | Korea Science

효과적인 복소 스펙트럼 기반 음성 향상을 위한 시간과 주파수 영역 손실함수 조합에 관한 연구 (A study on loss combination in time and frequency for effective speech enhancement based on complex-valued spectrum)

정재희;김우일
- 한국음향학회지
- /
- 제41권1호
- /
- pp.38-44
- /
- 2022
잡음에 오염된 음성의 명료도와 음질을 향상시키고자 음성 향상을 수행한다. 본 연구에서는 복소값 스펙트럼을 이용한 마스크기반 음성 향상에서 시간 영역 손실함수와 주파수 영역 손실함수에 따른 학습 결과를 비교하였다. 시간 영역의 음성 파형과 주파수 영역의 스펙트럼의 세부정보를 고려해 두 영역의 장점을 활용할 수 있도록 손실함수 조합에 관해 연구를 진행하였다. 시간 영역 손실함수는 Scale Invariant-Source to Noise Ratio(SI-SNR)을 이용해 계산하고, 주파수 영역 손실함수는 복소값 스펙트럼과 크기 스펙트럼을 Mean Squared Error(MSE)로 계산하여 사용하였고, sin 함수를 이용해 위상에 대한 손실함수를 계산하였다. 손실함수 조합은 시간 영역 손실함수인 SI-SNR과 각 주파수 영역 손실함수를 조합하였다. 또한 크기 값과 위상 값을 모두 고려할 수 있도록 SI-SNR과 크기 스펙트럼, 위상에 관련된 손실함수들도 조합하여 실험을 진행하였다. 음성 향상 결과는 Source-to-Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를이용해 성능 비교 평가를 진행하였다. 음성 향상 결과를 확인해보기 위해 스펙트럼 상에서 비교를 진행하였다. TIMIT 데이터베이스를 이용한 실험 결과, 시간 영역 또는 주파수 영역 손실함수보다 SI-SNR과 크기 스펙트럼을 조합한 손실함수를 사용하여 음성 향상을 학습했을 때 가장 높은 성능을 보였다.
https://doi.org/10.7776/ASK.2022.41.1.038 인용 PDF KSCI

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

정재희;김우일
- 한국음향학회지
- /
- 제40권3호
- /
- pp.234-240
- /
- 2021
본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.
https://doi.org/10.7776/ASK.2021.40.3.234 인용 PDF KSCI

그래프 신경망 하이퍼 파라미터 연구 (A Study on Hyper Parameters of Graph Neural Network)

민연아;전진영
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
- /
- pp.517-518
- /
- 2023
본 논문에서는 인공지능 신경망의 하이퍼 파라미터들이 그래프 신경망 모델의 성능에 미치는 영향을 알아보기 위하여 대규모 그래프 데이터를 기반으로 이진 분류 문제를 예측하는 그래프 합성곱 신경망 모델(Graph Convolution Network Model)을 구현하고 모델의 다양한 하이퍼 파라미터 중 손실함수와 활성화 함수를 여러 가지 조합으로 적용하며 모델 학습과 예측 실험을 시행하였다. 실험 결과, 활성화 함수보다는 손실함수의 선택이 모델의 예측 성능에 좀 더 큰 영향을 미치는 것을 확인하였다.
PDF

다특성치 파라미터 설계의 평가척도에 관한 연구 (Performance measures for correlated multiple characteristics in parameter design)

김욱일;강창욱
- 한국경영과학회:학술대회논문집
- /
- 대한산업공학회/한국경영과학회 1994년도 춘계공동학술대회논문집; 창원대학교; 08월 09일 Apr. 1994
- /
- pp.367-369
- /
- 1994
지금까지 다구치 방법에서는 다특성치 문제에 있어서 특성치들 간의 관계를 무시하고 특성치들은 서로 독립이라는 가정 하에, 각 특성치에 대한 최적공 정조건을 찾아 다특성치로 확장시키는 방법이 사용되었다. 그러나 현실적으 로 많은 다특성치 문제에서 특성치들 간의 상관관계가 존재한다. 따라서 본 연구에서는 특성치들 간의 상관관계를 고려한 새로운 평가척도를 제시하고 자 한다. 본 연구에서는 각 특성치와 특성치들 간의 상관관계에 가중치를 부 여하는 방법을 사용하였다. 다특성치 손실함수를 단일 특성치 종류의 조합에 따라 여섯개의 모형으로 구분하였고, 각 모형의 다특성치 손실함수는 특성치 자체에 의해 야기되는 손실과 특성치들간의 관계에 의해 야기되는 손실로 나누었다. 또한 새로운 평가척도로는 다특성치 손실함수의 각 항에 의해 야 기되는 기대손실의 합인 다특성치의 기대손실을 선택하였다. 본 연구의 타당 성에 대해서는 기존의 데이터를 이용. 분석하여 기존 논문과 비교하였다.

다양한 손실 함수를 이용한 음성 향상 성능 비교 평가 (Performance comparison evaluation of speech enhancement using various loss functions)

황서림;변준;박영철
- 한국음향학회지
- /
- 제40권2호
- /
- pp.176-182
- /
- 2021
본 논문은 다양한 손실 함수에 따른 Deep Nerual Network(DNN) 기반 음성 향상 모델의 성능을 비교 평가한다. 베이스라인 모델로는 음성의 위상 정보를 고려할 수 있는 복소 네트워크를 사용하였다. 손실 함수는 두 가지 유형의 기본 손실 함수, Mean Squared Error(MSE)와 Scale-Invariant Source-to-Noise Ratio(SI-SNR)를 사용하였으며 두 가지 유형의 지각 기반 손실 함수 Perceptual Metric for Speech Quality Evaluation(PMSQE)과 Log Mel Spectra(LMS)를 사용한다. 성능은 각 손실 함수의 다양한 조합을 사용하여 얻은 출력을 객관적인 평가와 청취 테스트를 통해 측정하였다. 실험 결과, 지각기반 손실 함수를 MSE 또는 SI-SNR과 결합하였을 때 전반적으로 성능이 향상되며, 지각기반 손실함수를 사용하면 객관적 지표에서 약세를 보이는 경우라도 청취 테스트에서 우수한 성능을 보임을 확인하였다.
https://doi.org/10.7776/ASK.2021.40.2.176 인용 PDF KSCI

Loss Function 변화에 따른 VT-ADL 모델 성능 비교 분석 (Comparative Analysis of VT-ADL Model Performance Based on Variations in the Loss Function)

김남중;박창준;박준휘;이재현;곽정환
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
- /
- pp.41-43
- /
- 2024
본 연구에서는 Vision Transformer 기반의 Anomaly Detection and Localization (VT-ADL) 모델에 초점을 맞추고, 손실 함수의 변경이 MVTec 데이터셋에 대한 이상 검출 및 지역화 성능에 미치는 영향을 비교 분석한다. 기존의 손실 함수를 KL Divergence와 Log-Likelihood Loss의 조합인 VAE Loss로 대체하여, 성능 변화를 심층적으로 조사했다. 실험을 통해 VAE Loss로의 전환은 VT-ADL 모델의 이상 검출 능력을 현저히 향상시키며, 특히 PRO-score에서 기존 대비 약 5%의 개선을 보였다는 점을 확인하였다. 이러한 결과는 손실 함수의 최적화가 VT-ADL 모델의 전반적인 성능에 중요한 영향을 미칠 수 있음을 시사한다. 또한, 이 연구는 Vision Transformer 기반 모델의 이상 검출과 지역화 작업에 있어서 손실 함수 선택의 중요성을 강조하며, 향후 관련 연구에 유용한 기준을 제공할 수 있을 것으로 기대된다.
PDF

시뮬레이티드 어닐링을 이용한 배전 계통 재구성 (Reconfiguration of Distribution System Using Simulated Annealing)

전영재;김재철
- 한국데이타베이스학회:학술대회논문집
- /
- 한국데이타베이스학회 1999년도 춘계공동학술대회: 지식경영과 지식공학
- /
- pp.195-202
- /
- 1999
본 논문은 배전 계통에서 부하 제약조건과 운전 제약조건을 고려한 손실 감소와 부하 평형에 대해 시뮬레이티드 어닐링 알고리즘을 적용한 재구성 방법을 서술하였다. 네트워크 재구성은 수많은 연계 개폐기와 구분 개폐기의 조합에 의해 이루어지기 때문에 조합적인 최적화 문제이다. 이러한 문제는 수많은 조합에 제약조건까지 있어 해를 구하기가 쉽지 않을 뿐 아니라 국소 해에 빠질 가능성이 많다. 따라서 신경망 중에서 제약조건에 따라 신경망 구조에 영향을 미치지 않으면서 전역 최소해에 수렴하는 특성을 가진 시뮬레이티드 어닐링 기법을 이용하여 배전 계통의 선로를 재구성하였다. 시뮬레이티드 어닐링은 이론적으로 최적해가 보장되지만 무한대의 시간이 걸리기 때문에 현실적으로 적용할 때 해 공간을 탐색하는 규칙과 온도를 적절히 내리는 냉각 스케줄(cooling schedule)이 중요하다. 본 논문에서는 알고리즘 상에서 제약조건 위반 여부를 점검할 수 있는 제약조건과 페널티 상수(penalty factor)를 통해 목적함수에 반영하는 제약조건으로 나누어 모든 후보해를 가능해가 되게 하였고 기존에 사용되던 Kirkpatrick의 냉각 스케줄 대신에 후보해의 통계적 처리에 의해 온도를 내리는 다항-시간 냉각 스케줄(polynomial-time cooling schedule)을 사용하여 수행시간을 단축하고 수렴성을 높였다. 제안한 알고리즘의 효용성을 입증하기 위해 32, 69모선 예제 계통으로 테스트하였다.
PDF

시뮬레이티드 어닐링을 이용한 배전 계통 재구성 (Reconfiguration of Distribution System Using Simulated Annealing)

전영재;김재철
- 한국지능정보시스템학회:학술대회논문집
- /
- 한국지능정보시스템학회 1999년도 춘계공동학술대회-지식경영과 지식공학
- /
- pp.195-202
- /
- 1999
본 논문은 배전 계통에서 부하 제약조건과 운전 제약조건을 고려한 손실 감소와 부하 평형에 대해 시뮬레이티드 어닐링 알고리즘을 적용한 재구성 방법을 서술하였다. 네트워크 재구성은 수많은 연계 개폐기와 구분 계폐기의 조합에 의해 이루어지기 때문에 조합적인 최적화 문제이다. 이러한 문제는 수많은 조합에 제약조건까지 있어 해를 구하기가 쉽지 않을뿐 아니라 국소 해에 빠질 가능성이 많다. 따라서 신경망 중에서 제약조건에 따라 신경망 구조에 영향을 미치지 않으면서 전역 최소해에 수렴하는 특성을 가진 시뮬레이티드 어닐링 기법을 이용하여 배전 계통의 선로를 재구성하였다. 시뮬레이티드 어닐링은 이론적으로 최적해가 보장되지만 무한대의 시간이 걸리기 때문에 현실적으로 적용할 때 해 공간을 탐색하는 규칙과 온도를 적절히 내리는 냉각 스케줄(cooling schedule)이 중요하다. 본 논문에서는 알고리즘 상에서 제약조건 위한 여부를 점검할 수 있는 제약조건과 페널티 상수(penalty factor)를 통해 목적함수에 반영하는 제약조건으로 나누어 모든 후보해를 가능해가 되게 하였고 기존에 사용되는 Kirkpatrick의 냉각 스케줄 대신에 후보해의 통계적 처리에 의해 온도를 내리는 다항-시간 냉각 스케줄(polynomial-time schedule)을 사용하여 수행시간을 단축하고 수렴성을 높였다. 제안한 알고리즘의 효용성을 입증하기 위해 32,69모선 예제 계통으로 테스트하였다.
PDF

축사내 암모니아 제거를 위한 바이오필터 시스템 개발 (Development of Biofilter System to Ammonia Removal exhausted from Livestock Facilities)

조성인;김명락;여운영
- 한국농업기계학회:학술대회논문집
- /
- 한국농업기계학회 2002년도 동계 학술대회 논문집
- /
- pp.383-388
- /
- 2002
본 연구에서 구성한 바이오필터 시스템은 암모니아 가스를 대상으로 여러 조건에서 성능을 구명하였으며, 필터 설계시 중요 인자인 송풍량, 온도, 함수율, 압력강하, 체류시간들간의 관계를 구명하였다. 필터 내부의 온도 변화는 체류시간 및 압력손실에 거의 영향을 주지 않았으며, 함수율의 변화가 체류시간과 압력손실에 미치는 영향은 함수율 값이 증가할수록 체류시간은 감소했으며 반대로 압력손실은 증가하는 결과를 보였다. 이는 필터 내부의 공극률 변화로 생긴 결과라 판단된다. 송풍량은 바이오필터 효율에 절대적으로 영향을 미치며 송풍량이 증가할수록 체류시간은 감소하며 초기 제거율도 떨어진다. 미생물의 투입 여부에 따른 제거율은 미생물 접종을 하지 않은 경우 초기 흡착에 의한 영향으로 제거율이 높다가 시간이 지남에 따라 차츰 낮아져 90% 이하로 떨어지는 경향을 보였고, 균주를 접종한 경우에 있어서는 시운전 기간 동안 거의 100% 가까운 제거 성능을 보였다. 본 연구는 실험실에서 암모니아 가스만을 대상을 하여 실험하였다. 따라서 실제 축사에서 발생하는 다양한 성분의 악취와 농도에 대한 성능 검증과 개선에 대한 연구가 보다 장기간에 걸쳐 이루어져야 할 것이다. 또한 소요되는 에너지와 운전비용의 절감 등의 유지관리, 바이오필터와 타 방식과의 조합, 그리고 다양한 전처리 방식의 개발 등 여러 측면에서 바이오필터 성능 개선에 대한 연구가 병행되어야 할 것으로 판단된다.
PDF

단일 레이블 분류를 이용한 종단 간 화자 분할 시스템 성능 향상에 관한 연구 (A study on end-to-end speaker diarization system using single-label classification)

정재희;김우일
- 한국음향학회지
- /
- 제42권6호
- /
- pp.536-543
- /
- 2023
다수의 화자가 존재하는 음성에서 "누가 언제 발화했는가?"에 대해 레이블링하는 화자 분할은 발화 중첩 구간에 대한 레이블링과 화자 분할 모델의 최적화를 위해 심층 신경망 기반의 종단 간 방법에 대해 연구되었다. 대부분 심층 신경망 기반의 종단 간 화자 분할 시스템은 음성의 각 프레임에서 발화한 모든 화자의 레이블들을 추정하는 다중 레이블 분류 문제로 분할을 수행한다. 다중 레이블 기반의 화자 분할 시스템은 임계값을 어떤 값으로 설정하는지에 따라 모델의 성능이 많이 달라진다. 본 논문에서는 임계값 없이 화자 분할을 수행할 수 있도록 단일 레이블 분류를 이용한 화자 분할 시스템에 대해 연구하였다. 제안하는 화자 분할 시스템은 기존의 화자 레이블을 단일 레이블 형태로 변환하여 모델의 출력으로부터 레이블을 바로 추정한다. 훈련에서는 화자 레이블 순열을 고려하기 위해 Permutation Invariant Training(PIT) 손실함수와 교차 엔트로피 손실함수를 조합하여 사용하였다. 또한 심층 구조를 갖는 모델의 효과적인 학습을 위해 화자 분할 모델에 잔차 연결 구조를 추가하였다. 실험은 Librispeech 데이터베이스를 이용해 화자 2명에 대한 시뮬레이션 잡음 데이터를 생성하여 사용하였다. Diarization Error Rate(DER) 성능 평가 지수를 이용해 제안한 방법과 베이스라인 모델을 비교 평가했을 때, 제안한 방법이 임계값 없이 분할이 가능하며, 약 20.7 %만큼 향상된 성능을 보였다.
https://doi.org/10.7776/ASK.2023.42.6.536 인용 PDF

검색결과 25건 처리시간 0.022초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)