통합 검색 | Korea Science

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

손현수;박호성;김규진;조은수;김지환
- 한국음향학회지
- /
- 제40권5호
- /
- pp.530-536
- /
- 2021
최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.
https://doi.org/10.7776/ASK.2021.40.5.530 인용 PDF KSCI

구름레이더를 이용한 대기 공기의 연직속도 추정연구 (Study on the Retrieval of Vertical Air Motion from the Surface-Based and Airborne Cloud Radar)

정은실
- 대기
- /
- 제29권1호
- /
- pp.105-112
- /
- 2019
대기 중에 지름이 약 1.68 mm 이상인 물방울이 존재하는 경우, 연직방향으로 주사하는 구름레이더에서 미(Mie) 기법을 사용하여 공기의 연직속도를 구할 수 있다. 이 리뷰논문에서는 강수가 있는 작은 적운 구름에서 구름레이더를 사용하여 공기의 연직속도를 구할 수 있는 방법을 정리하였다. 공기의 연직속도는 첫 번째 미(Mie) 최소치가 이론적으로 가지는 낙하속도와 스펙트럼상에서 첫 번째 미(Mie) 최소치가 실제로 관측된 시선속도와의 차이로 추정할 수 있다. 구름레이더가 항공기에 탑재된 경우에는, 항공기의 운동 및 자세각이, 관측된 도플러속도의 연직성분에 영향을 미치므로 이 항들을 보정하여 공기의 연직속도를 구할 수 있다. 항공용 도플러 레이더의 경우, 미(Mie)기법으로 구한 공기의 연직속도는 구름입자로부터 직접 후방산란 되어 관측된 연직속도 및 항공기 운항시스템으로부터 구한 연직속도와 잘 일치하는 결과를 보여주었다. 구름 레이더로부터 미(Mie) 산란 특징을 이용하여 연직속도를 추정하는 이 기술은 강수 및 비강수 구름시스템에서의 연직속도장 매핑(mapping)에 응용할 수 있다. 또한 여러 고도에서의 항공기 관측을 통하여, 연직속도의 총체적인 구조뿐 만 아니라 폭풍우의 성장, 발달, 소멸 주기(life cycle)를 재구성할 수 있을 것으로 기대된다.
https://doi.org/10.14191/Atmos.2019.29.1.105 인용 PDF KSCI HTML

TerraSAR-X 영상으로부터 Modified U-NET을 이용한 홍수 매핑 (Flood Mapping Using Modified U-NET from TerraSAR-X Images)

유진우;윤영웅;이어루;백원경;정형섭
- 대한원격탐사학회지
- /
- 제38권6_2호
- /
- pp.1709-1722
- /
- 2022
지구온난화로 인해 발생한 기온 상승은 엘니뇨, 라니냐 현상을 초래하였고, 해수의 온도를 비정상적으로 변화시켰다. 해수 온도의 비정상적인 변화는 특정 지역에 강우가 집중되는 현상을 발생시켜 이상 홍수를 빈번하게 일으킨다. 홍수로 인한 인명 및 재산 피해를 복구하고 방지하기 위해서는 침수피해 지역을 신속하게 파악하는 것이 중요한데 이는 합성개구레이더(synthetic aperture radar, SAR)를 통해 가능하다. 본 연구에서는 멀티 커널(kernel) 기반의 수정된 U-NET과 TerraSAR-X 영상을 활용하여 다양한 특성 맵 추출을 통해 반전 잡음(speckle noise)의 효과를 저감하고, 홍수 전, 후의 두 장의 영상을 입력자료로 활용해 홍수 발생 지역을 직접적으로 도출해내는 모델을 제작하고자 한다. 이를 위해 두 장의 SAR 영상을 전처리하여 모델의 입력자료를 제작하였고, 이를 수정된 U-NET 구조에 적용하여 홍수 탐지 딥러닝 모델을 학습시켰다. 해당 방법을 통해 평균 F1 score 값이 0.966으로 높은 수준으로 홍수 발생 지역을 탐지할 수 있었다. 이 결과는 수해 지역에 대한 신속한 복구 및 수해 예방책 도출에 기여할 것으로 기대된다.
https://doi.org/10.7780/kjrs.2022.38.6.2.11 인용 PDF KSCI HTML

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

박보경;박소민;홍현기
- 정보처리학회논문지:소프트웨어 및 데이터공학
- /
- 제12권7호
- /
- pp.303-314
- /
- 2023
음성 변환(Voice Conversion)은 개인의 음성 데이터를 다른 사람의 음향적 특성(음조, 리듬, 성별 등)으로 재생성할 수 있는 기술로, 교육, 의사소통, 엔터테인먼트 등 다양한 분야에서 활용되고 있다. 본 논문은 StarGAN-VC 모델을 기반으로 한 접근 방식을 제안하여, 병렬 발화(Utterance) 없이도 현실적인 음성을 생성할 수 있다. 고정된 원본(source) 및 목표(target)화자 정보의 원핫 벡터(One-hot vector)를 이용하는 기존 StarGAN-VC 모델의 제약을 극복하기 위해, 본 논문에서는 사전 훈련된 Rawnet3를 사용하여 목표화자의 특징 벡터를 추출한다. 이를 통해 음성 변환은 직접적인 화자 간 매핑 없이 잠재 공간(latent space)에서 이루어져 many-to-many를 넘어서 any-to-any 구조가 가능하다. 기존 StarGAN-VC 모델에서 사용된 손실함수 외에도, Wasserstein-1 거리를 사용하여 생성된 음성 세그먼트가 목표 음성의 음향적 특성과 일치하도록 보장했다. 또한, 안정적인 훈련을 위해 Two Time-Scale Update Rule (TTUR)을 사용한다. 본 논문에서 제시한 평가 지표들을 적용한 실험 결과에 따르면, 제한된 목소리 변환만이 가능한 기존 StarGAN-VC 기법 대비, 본 논문의 제안 방법을 통해 다양한 발화자에 대한 성능이 개선된 음성 변환을 제공할 수 있음을 정량적으로 확인하였다.
https://doi.org/10.3745/KTSDE.2023.12.7.303 인용 PDF

이용자 요구 기반 장서개발을 위한 대학도서관 희망도서 주제 분석 (A Topic Analysis of Requested Books by User Types at a University Library for Patron-Driven Acquisition)

최상희
- 한국문헌정보학회지
- /
- 제58권1호
- /
- pp.395-415
- /
- 2024
대학도서관의 장서개발에 있어 희망도서는 이용자의 직접적인 정보요구를 해결하는 수서방식이다. 이 연구에서는 대학도서관의 효율적인 장서개발을 위해 희망도서를 신청하는 이용자 집단간의 주제 선호도를 파악하고자 대학도서관의 10년치 희망도서를 분석하였다. 장서개발에 있어 이용자의 희망도서 신청이 활발한 영역을 파악하는 것은 사서가 장서개발의 핵심 영역을 파악하고 균현있는 장서개발 정책을 수립하는데 필요한 사항이다. 이용자별 주요 주제영역을 파악하기 위하여 KDC 주제분류를 매핑한 분석결과 모든 신청자 집단에서 '사회과학'이 주요 대주제 영역에 해당하는 것으로 나타났으나 중주제 분석에서는 대학원생의 주요 주제 분야로 '의학'과 '심리학'이 나타나 다른 신청자 집단과 차별화되는 것으로 나타났다. 대학원생의 희망도서 영역이 다른 집단과 차별화된 요인은 A대학에서 대학원이 가장 활성화되어 있는 전공영역을 중심으로 희망도서 신청이 활발하게 일어나고 있지만 여가용으로는 희망도서 신청이 이루어지고 있지 않긴 때문에 이와 같은 현상이 나타난 것으로 분석되었다. 주제 네트워크 분석에서는 학부생은 공무원, 취업과 진로 등 다른 신청자 집단에서는 나타나지 않는 주제들이 주요 주제 클러스터로 나타났고 대학원생은 소수 전공 주제에 집중되어 주제 클러스터가 형성되는 것으로 분석되었다.
https://doi.org/10.4275/KSLIS.2024.58.1.395 인용 PDF

다중 센서 융합을 위한 무인항공기 물리 오프셋 검보정 방법 (Physical Offset of UAVs Calibration Method for Multi-sensor Fusion)

김철욱;임평채;지준화;김태정;이수암
- 대한원격탐사학회지
- /
- 제38권6_1호
- /
- pp.1125-1139
- /
- 2022
무인항공기에 부착된 위성 항법 시스템/관성 측정 센서(global positioning system/inertial measurement unit, GPS/IMU)와 관측 센서 사이에는 물리적인 위치와 자세 오차가 존재한다. 해당 물리 오프셋으로 인해, 관측 데이터는 비행 방향에 따라 서로 위치가 어긋나는 이격 오차가 발생한다. 특히나, 다중 센서를 활용하여 데이터를 취득하는 다중 센서 무인항공기의 경우, 관측 센서가 변경될 때마다 고액의 비용을 지불하고 외산 소프트웨어 의존하여 물리 오프셋을 조정하고 있는 실정이다. 본 연구에서는 다중 센서에 적용 가능한 초기 센서 모델식을 수립하고 물리 오프셋 추정 방법을 제안한다. 제안된 방안은 크게 3가지 단계로 구성된다. 먼저, 직접지리 참조를 위한 회전 행렬 정의 및 초기 센서 모델식을 수립한다. 다음으로, 지상기준점과 관측 센서에서 취득된 데이터 간의 대응점을 추출하여 물리 오프셋 추정을 위한 관측방정식을 수립한다. 마지막으로, 관측 자료를 기반으로 물리 오프셋을 추정하고, 추정된 파라미터를 초기 센서 모델식에 적용한다. 전주, 인천, 알래스카, 노르웨이 지역에서 취득된 데이터셋에 적용한 결과, 4개 지역 모두 물리 오프셋 적용 전에 발생되던 영상 접합부의 이격 오차가 물리 오프셋을 적용 후 제거되는 것을 확인했다. 인천 지역의 지상기준점 대비 절대 위치 정확도를 분석한 결과, 초분광 영상의 경우, X, Y 방향으로 약 0.12 m 위치 편차를 보였으며, 라이다 포인트 클라우드의 경우 약 0.03 m의 위치 편차를 보여줬다. 더 나아가 영상 내 특징점에 대하여 초분광, 라이다 데이터의 상대 위치 정확도를 분석한 결과, 센서 데이터 간의 위치 편차가 약 0.07 m인 것을 확인했다. 따라서, 제안된 물리 오프셋 추정 및 적용을 통해 별도 기준점 없이 정밀한 데이터 매핑이 가능한 직접 지리 참조가 가능하다는 것을 확인했으며, 다중 센서를 부착한 무인항공기에서 취득된 센서 데이터 간의 융합 가능성에 대해 확인하였다. 본 연구를 통해 독자적인 물리 파라미터 추정 기술 보유를 통한 경제적 비용 절감 효과 및 관측 조건에 따른 유연한 다중 센서 플랫폼 시스템 운용을 기대한다.
https://doi.org/10.7780/kjrs.2022.38.6.1.13 인용 PDF KSCI HTML

검색결과 96건 처리시간 0.018초

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

구름레이더를 이용한 대기 공기의 연직속도 추정연구 (Study on the Retrieval of Vertical Air Motion from the Surface-Based and Airborne Cloud Radar)

TerraSAR-X 영상으로부터 Modified U-NET을 이용한 홍수 매핑 (Flood Mapping Using Modified U-NET from TerraSAR-X Images)

RawNet3 화자 표현을 활용한 임의의 화자 간 음성 변환을 위한 StarGAN의 확장 (Extending StarGAN-VC to Unseen Speakers Using RawNet3 Speaker Representation)

이용자 요구 기반 장서개발을 위한 대학도서관 희망도서 주제 분석 (A Topic Analysis of Requested Books by User Types at a University Library for Patron-Driven Acquisition)

다중 센서 융합을 위한 무인항공기 물리 오프셋 검보정 방법 (Physical Offset of UAVs Calibration Method for Multi-sensor Fusion)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)