• 제목/요약/키워드: performance test

검색결과 21,718건 처리시간 0.047초

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

OATSP를 이용한 마이크로폰의 주파수 특성 응답 측정 알고리즘 (The Measurement Algorithm for Microphone's Frequency Character Response Using OATSP)

  • 박병욱;김학윤
    • 한국음향학회지
    • /
    • 제26권2호
    • /
    • pp.61-68
    • /
    • 2007
  • 마이크로폰의 주파수 응답 특성은 마이크로폰이 레벨 허용 범위로 재생할 수 있는 주파수 범위를 나타내는 것으로, 마이크로폰이 가지고 있는 특성을 평가하는 기준으로 사용되는 가장 중요한 음향 특성 파라메타 중의 하나이다. 이와 같은 마이크로폰의 주파수 응답 특성을 측정하기 위한 기존의 방법들은 그 측정 조건이 매우 까다로울 뿐만 아니라, 고가의 장비를 사용하여 측정하여야 한다는 문제점을 갖고 있다. 이러한 단점을 보완하기 위하여 본 논문에서는 마이크로폰의 주파수 응답 특성을 간단하게 측정할 수 있는 알고리즘을 제안한다. 제안한 알고리즘은 컴퓨터로 생성한 Optimized Aoshima's Time Stretched Pulse(OATSP) 신호를 표준 스피커를 통하여 발생시킨 다음, 측정하고자 하는 마이크로폰으로 수음된 신호와 역 OATSP 신호를 컨볼루션시켜 마이크로폰의 임펄스 응답을 측정하고, 이 신호를 이용하여 측정할 마이크로폰의 주파수 응답 특성을 구하는 방범이다. 제안한 알고리즘의 성능 평가는 제안한 알고리즘을 이용하여 구한 마이크로폰의 주파수 응답 특성 측정값과 그들이 갖고 있던 주파수 응답 특성 데이터를 비교 분석하였다. 비교 결과, 측정한 각각의 마이크로폰 주파수 응답 특성들 사이에 오차가 발생하였으나, 오차가 그 측정값들이 허용 오차(${\pm}3{\sim}{\pm}5dB$) 범위에 내에 있었으므로 제안한 알고리즘이 마이크로폰의 주파수 응답 특성을 측정하기에 적합한 방법임을 입증하였다.

가변 Break를 이용한 코퍼스 기반 일본어 음성 합성기의 성능 향상 방법 (A Performance Improvement Method using Variable Break in Corpus Based Japanese Text-to-Speech System)

  • 나덕수;민소연;이종석;배명진
    • 한국음향학회지
    • /
    • 제28권2호
    • /
    • pp.155-163
    • /
    • 2009
  • Text-to-speech 시스템에서 입력 텍스트로부터 운율 정보를 생성하기 위해서는 운율구 경계, 음소 지속시간, 기본주파수 포락선 설정의 3가지 기본적인 모듈이 필요하다. Break 인덱스 (BI; Break Index)는 합성기에서 운율구의 경계를 나타내고, 자연스러운 합성음을 생성하기 위해서는 BI를 정확히 예측하여야 한다. 그러나 BI는 문장의 의미나 화자의 읽기 습관(reading style)에 따라 임의적으로 결정되는 경우가 많아 정확한 예측이 매우 어렵다. 특히 일본어 합성기에서는 악센트 구 경계 (APB; Accentual Phrase Boundary)와 major phrase 경계 (MPB; Major Phrase Boundary)의 정확한 예측이 어렵다. 따라서 본 논문에서는 APB와 MPB 예측 오류를 보완할 수 있는 방법을 제안한다. BI를 고정 break (FB; Fixed Break)와 가변 break (VB; Variable Break)로 분류하여 합성단위 선택을 수행한다. 일반적으로 BI는 한번 생성되면 변하지 않는다. 따라서 BI가 잘못 생성된 경우 최적의 합성음을 생성할 수 없게 되는데, VB는 생성된 BI와 그것과 유사한 BI를 함께 이용하여 합성단위 선택을 수행함으로써 합성음의 BI가 생성된 BI와 다를 수 있는 것을 의미한다. APB와 MPB에 해당하는 BI에 대하여 VB인지 FB인지 CART(Classification and Regression Tree)를 이용하여 예측하고, VB인 경우 기본 주파수와 음소 지속시간에 대해 다중 운율 모델을 생성하여 합성단위 선택을 수행하였다. MOS 테스트 결과 원음이 4.99, 제안한 방법을 4.25, 기존의 방법은 4.01로 합성음의 자연성을 향상시킬 수 있었다.

근단 배경 잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on G.729A Speech Codec Parameter Under Near-End Background Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.392-400
    • /
    • 2009
  • 본 논문에서는 근단 (Near-End) 잡음 환경에서 ITU-T의 표준 음성부호화기인 G.729A CS-ACELP 기반의 효과적인 음성강화 기법을 제시한다. 일반적으로 다양한 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 기존의 음성강화 시스템과는 대조적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 음성부호화기에 기반하여, 원단으로부터 수신된 비트스트림 파라미터 중 여기신호(excitation signal)를 강화하는 알고리즘을 제시한다. 구체적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 G.729A CS-ACELP의 부호화기를 통해 배경 잡음의 여기신호를 추정하고, 추정된 배경 잡음의 여기신호를 기반으로 원단 화자로부터 전송된 음성 신호의 여기신호를 강화시키는데, 특별히 G.729A 복호화기내에서 원단의 음성 신호를 직접 강화하는 알고리즘을 제안한다. 제안된 음성 강화 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 SNR 복구 기법과 비교해서 우수한 성능을 보여주었다.

대용량 복수후보 TTS 방식에서 합성용 DB의 감량 방법 (A DB Pruning Method in a Large Corpus-Based TTS with Multiple Candidate Speech Segments)

  • 이정철;강태호
    • 한국음향학회지
    • /
    • 제28권6호
    • /
    • pp.572-577
    • /
    • 2009
  • 대용량 음성 DB를 사용하는 음편접합 TTS는 부가적인 신호처리 기술을 거의 사용하지 않고, 문맥을 반영하는 여러 합성유닛들을 결합해 합성음을 생성하기 때문에 높은 자연성을 가진다는 장점이 있다. 중복되는 음편의 감량을 위해서 음성인식분야에서 사용되는 결정트리 기반의 트라이폰 군집화 알고리즘을 사용할 수 있지만 음편 내의 음향적 천이 특성을 반영하기가 어렵고 문맥질의 적용이 체계적이지 못하여 TTS에 바로 적용하기 어렵다. 본 논문에서는 DB감량을 위해 결정 트리 기반의 새로운 음소 군집화 방법을 제안한다. 먼저 음편의 처음, 중간, 끝 3프레임의 각 13차 MFCC벡터를 통합한 39차의 벡터로 음편내의 변이성과 연결성을 표현한다. 결정 트리의 상위부분에서는 포괄적인 문맥질의를 하위부분에서는 세부적인 문맥질의를 적용시켰다. 그리고 기존 결정트리 시스템과 제안된 시스템과의 성능평가를 위하여 평가용 트라이폰 모델의 음편과 트리에서 탐색한 트라이폰 모델의 음편들 간의 음향적 유사도를 DTW를 적용하여 계산하였다. 실험결과 제안된 방법을 사용할 경우 전체 음성DB의 크기를 23%로 줄일 수 있었고, 음향적 유사도가 높은 음편을 선택함을 보이므로 향후 소용량 DB TTS에 적용 가능성을 보였다.

중소기업 종사자의 창업역량과 창업의도 간의 영향 관계: 창업효능감과 창업멘토링의 매개효과 중심으로 (The Relationship Between Entrepreneurial Competency and Entrepreneurial Intention of SME Workers: Focusing on the Mediating Effect of Start-Up Efficacy and Start-Up Mentor)

  • 이언주
    • 벤처창업연구
    • /
    • 제18권6호
    • /
    • pp.201-214
    • /
    • 2023
  • 본 연구는 중소기업 종사자를 대상으로 개인의 창업역량이 창업의도에 미치는 영향을 분석하고자 했으며, 창업역량과 창업의도간에 창업효능감과 창업멘토링의 매개효과를 확인하고자 했다. 창업역량의 하위변수로는 창의성, 문제해결, 의사소통, 마케팅으로 구분하여 분석하였다. 전국에 소재하는 중소제조기업에서 종사자를 중심으로 수집한 설문지 368부를 실증 분석에 사용하였다. 매개변수 간 인과관계가 없는 병렬이중매개모형을 실증분석에 활용하였다. 분석 결과 첫째, 창업역량 중에서 창의성, 의사소통, 마케팅은 창업효능감에 유의한 정(+)의 영향을 미치는 것으로 확인되었다. 둘째, 창업역량 중에서 창의성, 의사소통, 마케팅은 창업멘토링에 유의한 정(+)의 영향을 미치는 것으로 검정되었다. 셋째, 창업효능감과 창업멘토링 모두 창업 의도에 영향을 주는 것으로 나타났다. 넷째, 창업역량 중에서 창의성과 마케팅은 창업의도에 영향을 미치는 것으로 확인되었다. 다섯째, 창업효능감과 창업멘토링은 창업역량 중에서 문제해결을 제외하고 창업의도에 매개효과가 있는 것으로 나타났다. 결과적으로 중소기업 종사자의 창업의도를 강화하기 위해서는 창업효능감과 창업멘토링이 중요한 요인이고 개인의 창업역량 중에서도 마케팅과 창의성이 중요한 영향을 미치기에 이에 대한 교육 및 사전준비가 필요하다는 것을 확인하였다. 후속 연구로는 다변량 모형 적용이나 시계열 데이터 분석 및 외부 환경 요인을 고려한 연구, 세부화된 인구 특성을 고려한 창업역량과 성과 간의 차이를 검정하는 연구도 필요할 것이다.

  • PDF

단일절리 암반에서 그라우팅 주입거리 분석 (Analysis of grout injection distance in single rock joint)

  • 김지영;원조현;이종원;오태민
    • 한국터널지하공간학회 논문집
    • /
    • 제25권6호
    • /
    • pp.541-554
    • /
    • 2023
  • 터널 및 에너지/폐기물 저장과 관련하여 지하공간의 활용이 증가하는 추세이다. 지하공간의 안정성 확보를 위해서는 암반균열 및 절리를 보강하는 것이 중요하다. 절리와 같은 불연속면은 암반의 강도를 저하시키고, 지하공간 내부로 지하수 유입을 발생시킬 수 있다. 불연속면 주변의 암반 강도의 증대와 차수를 위해 암반 그라우팅을 활용할 수 있다. 그러나 암반 그라우팅 시 주입재료가 암반 절리 내 원활하게 주입되고 있는지 직접적인 확인에 한계가 있다. 그라우팅 주입재가 사전에 목표한 설계안과 같이 주입되지 않을 시 강도, 내구성 증대 및 차수성 향상 효과를 볼 수 없다. 따라서 실험적으로 평가가 어려운 그라우팅 주입재가 설계대로 주입되고 있는지 수치해석을 활용하여 사전에 평가할 필요가 있다. 본 연구에서는 개별요소 수치해석 프로그램인 UDEC (Universal Distinct Element Code)을 활용한 그라우팅 주입재의 물/시멘트 배합비, 주입압력, 주입유량과 같은 주입변수에 따른 주입성능을 평가하였다. 또한 실내실험을 통해 수치해석 결과와 비교하여 수치해석 모델의 신뢰도를 검증하였다. 본 연구결과는 향후 현장에서 그라우팅 설계 시 주입재의 물성, 주입시간, 펌프 압력과 같은 변수들을 최적화할 수 있는데 도움이 될 것으로 기대된다.

시내버스 승하차 의도분석 기반 사고방지 AI 시스템 연구 (A study on accident prevention AI system based on estimation of bus passengers' intentions)

  • 박성환;변선오;박정훈
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.57-66
    • /
    • 2023
  • 본 논문에서는 시내버스 내 CCTV 시스템을 활용, 비전AI 기반의 승하차 승객 의도를 예측하여 사고방지가 가능한 시스템에 대해 연구한 내용을 기술한다. 본 시스템은 YOLOv7 Pose 모델과 Object Tracking 기술을 활용하여 버스 내부의 승객을 감지하고 추적하며, LSTM 모델을 활용하여 승객의 승하차 여부를 예측한다. 시스템은 버스 내 CCTV 단말기 상에 설치 가능하여 운전 중 어느 때에나 승하차 여부 예측 결과를 시각적으로 확인할 수 있으며, 운전자에게 자동 알람을 주어 승하차 시 일어날 수 있는 사고를 예방할 수 있다. 테스트 결과, 승객의 승차 의도를 분석하는 채널 A와 하차 의도를 예측하는 채널 C에서 각각 0.81과 0.79의 정확도를 달성하였으며, 실시간성을 보장하기 위해 GPU 환경에서 초당 최소 5 프레임 이상의 분석이 가능하다는 것을 확인하였다. 본 알고리즘을 통해 시내버스 운행 중의 승객 승하차 과정을 모니터링하고, 그 안전과 편의성에 도움을 줄 것으로 생각된다. 추후 하드웨어가 발전하고, DB를 통해 데이터가 많이 수집된다면, 이 또한 다양한 안전 관련 지표로의 확장이 가능할 것이다. 더불어 본 알고리즘은 추후 자율주행 버스 상용화 시, 인간을 대신하여 승객 안전에 더욱 핵심적인 역할을 수행할 것이라 생각되며, 기타 지하철 및 승객이 내리고 탈 수 있는 모든 대중교통 환경에의 확장 또한 가능하여 대중교통의 안전화에 도움을 줄 것으로 생각한다.

T1 Map-Based Radiomics for Prediction of Left Ventricular Reverse Remodeling in Patients With Nonischemic Dilated Cardiomyopathy

  • Suyon Chang;Kyunghwa Han;Yonghan Kwon;Lina Kim;Seunghyun Hwang;Hwiyoung Kim;Byoung Wook Choi
    • Korean Journal of Radiology
    • /
    • 제24권5호
    • /
    • pp.395-405
    • /
    • 2023
  • Objective: This study aimed to develop and validate models using radiomics features on a native T1 map from cardiac magnetic resonance (CMR) to predict left ventricular reverse remodeling (LVRR) in patients with nonischemic dilated cardiomyopathy (NIDCM). Materials and Methods: Data from 274 patients with NIDCM who underwent CMR imaging with T1 mapping at Severance Hospital between April 2012 and December 2018 were retrospectively reviewed. Radiomic features were extracted from the native T1 maps. LVRR was determined using echocardiography performed ≥ 180 days after the CMR. The radiomics score was generated using the least absolute shrinkage and selection operator logistic regression models. Clinical, clinical + late gadolinium enhancement (LGE), clinical + radiomics, and clinical + LGE + radiomics models were built using a logistic regression method to predict LVRR. For internal validation of the result, bootstrap validation with 1000 resampling iterations was performed, and the optimism-corrected area under the receiver operating characteristic curve (AUC) with 95% confidence interval (CI) was computed. Model performance was compared using AUC with the DeLong test and bootstrap. Results: Among 274 patients, 123 (44.9%) were classified as LVRR-positive and 151 (55.1%) as LVRR-negative. The optimism-corrected AUC of the radiomics model in internal validation with bootstrapping was 0.753 (95% CI, 0.698-0.813). The clinical + radiomics model revealed a higher optimism-corrected AUC than that of the clinical + LGE model (0.794 vs. 0.716; difference, 0.078 [99% CI, 0.003-0.151]). The clinical + LGE + radiomics model significantly improved the prediction of LVRR compared with the clinical + LGE model (optimism-corrected AUC of 0.811 vs. 0.716; difference, 0.095 [99% CI, 0.022-0.139]). Conclusion: The radiomic characteristics extracted from a non-enhanced T1 map may improve the prediction of LVRR and offer added value over traditional LGE in patients with NIDCM. Additional external validation research is required.

Bone Age Assessment Using Artificial Intelligence in Korean Pediatric Population: A Comparison of Deep-Learning Models Trained With Healthy Chronological and Greulich-Pyle Ages as Labels

  • Pyeong Hwa Kim;Hee Mang Yoon;Jeong Rye Kim;Jae-Yeon Hwang;Jin-Ho Choi;Jisun Hwang;Jaewon Lee;Jinkyeong Sung;Kyu-Hwan Jung;Byeonguk Bae;Ah Young Jung;Young Ah Cho;Woo Hyun Shim;Boram Bak;Jin Seong Lee
    • Korean Journal of Radiology
    • /
    • 제24권11호
    • /
    • pp.1151-1163
    • /
    • 2023
  • Objective: To develop a deep-learning-based bone age prediction model optimized for Korean children and adolescents and evaluate its feasibility by comparing it with a Greulich-Pyle-based deep-learning model. Materials and Methods: A convolutional neural network was trained to predict age according to the bone development shown on a hand radiograph (bone age) using 21036 hand radiographs of Korean children and adolescents without known bone development-affecting diseases/conditions obtained between 1998 and 2019 (median age [interquartile range {IQR}], 9 [7-12] years; male:female, 11794:9242) and their chronological ages as labels (Korean model). We constructed 2 separate external datasets consisting of Korean children and adolescents with healthy bone development (Institution 1: n = 343; median age [IQR], 10 [4-15] years; male: female, 183:160; Institution 2: n = 321; median age [IQR], 9 [5-14] years; male: female, 164:157) to test the model performance. The mean absolute error (MAE), root mean square error (RMSE), and proportions of bone age predictions within 6, 12, 18, and 24 months of the reference age (chronological age) were compared between the Korean model and a commercial model (VUNO Med-BoneAge version 1.1; VUNO) trained with Greulich-Pyle-based age as the label (GP-based model). Results: Compared with the GP-based model, the Korean model showed a lower RMSE (11.2 vs. 13.8 months; P = 0.004) and MAE (8.2 vs. 10.5 months; P = 0.002), a higher proportion of bone age predictions within 18 months of chronological age (88.3% vs. 82.2%; P = 0.031) for Institution 1, and a lower MAE (9.5 vs. 11.0 months; P = 0.022) and higher proportion of bone age predictions within 6 months (44.5% vs. 36.4%; P = 0.044) for Institution 2. Conclusion: The Korean model trained using the chronological ages of Korean children and adolescents without known bone development-affecting diseases/conditions as labels performed better in bone age assessment than the GP-based model in the Korean pediatric population. Further validation is required to confirm its accuracy.