Search | Korea Science

Analysis of Speech-To-Text (STT) Based Voice Memo Service (STT(Speech-To-Text)를 이용한 음성메모장 서비스 분석)

Gi-Hwan Oh;Sung Jin Kim;Young Hyun Yoon;Jai Soon Baek
- Proceedings of the Korean Society of Computer Information Conference
- /
- 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
- /
- pp.265-266
- /
- 2023
본 연구에서는 음성메모 기능을 통해 스마트폰에서 메모를 편리하게 작성할 수 있는 방안을 제안하였다. 이 제안은 취약 계층을 포함한 다양한 사용자들이 스마트폰을 보다 쉽고 효율적으로 활용할 수 있는 기회를 제공한다. 음성메모를 통해 중요한 정보를 빠르게 기록하고, 필요할 때 언제든지 액세스할 수 있으며, 기억력에 의존하지 않고 안정적인 방식으로 정보를 보존할 수 있다. 이러한 기능은 취약 계층을 위해 스마트폰 사용의 장벽을 낮추어 정보 접근과 활용의 평등성을 증진시킬 것으로 기대된다. 또한, 연구 결과는 스마트폰 기술과 사용자 경험 분야에 대한 심층적인 이해를 제고하고, 향후 관련 연구와 개발에 영향을 미칠 것으로 기대된다.
PDF

Single-Channel Speech Separation Using Phase Model-Based Soft Mask (위상 모델 기반의 소프트 마스크를 이용한 단일 채널 음성분리)

Lee, Yun-Kyung;Kwon, Oh-Wook
- The Journal of the Acoustical Society of Korea
- /
- 제29권2호
- /
- pp.141-147
- /
- 2010
In this paper, we propose a new speech separation algorithm to extract and enhance the target speech signals from mixed speech signals by utilizing both magnitude and phase information. Since the previous statistical modeling algorithms assume that the log power spectrum values of the mixed speech signals are independent in the temporal and frequency domain, discontinuities occur in the resultant separated speech signals. To reduce the discontinuities, we apply a smoothing filter in the time-frequency domain. To further improve speech separation performance, we propose a statistical model based on both magnitude and phase information of speech signals. Experimental results show that the proposed algorithm improve signal-to-interference ratio (SIR) by 1.5 dB compared with the previous magnitude-only algorithms.
https://doi.org/10.7776/ASK.2010.29.2.141 인용 PDF KSCI

Statistical Model-Based Voice Activity Detection Using the Second-Order Conditional Maximum a Posteriori Criterion with Adapted Threshold (적응형 문턱값을 가지는 2차 조건 사후 최대 확률을 이용한 통계적 모델 기반의 음성 검출기)

Kim, Sang-Kyun;Chang, Joon-Hyuk
- The Journal of the Acoustical Society of Korea
- /
- 제29권1호
- /
- pp.76-81
- /
- 2010
In this paper, we propose a novel approach to improve the performance of a statistical model-based voice activity detection (VAD) which is based on the second-order conditional maximum a posteriori (CMAP). In our approach, the VAD decision rule is expressed as the geometric mean of likelihood ratios (LRs) based on adapted threshold according to the speech presence probability conditioned on both the current observation and the speech activity decisions in the pervious two frames. Experimental results show that the proposed approach yields better results compared to the statistical model-based and the CMAP-based VAD using the LR test.
https://doi.org/10.7776/ASK.2010.29.1.076 인용 PDF KSCI

Construction of Korean Speech DB at KLE (국어공학센터의 한국어 음성 DB 구축계획)

이용주
- Proceedings of the Acoustical Society of Korea Conference
- /
- 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
- /
- pp.276-279
- /
- 1995
국어공학센터에서 국어정보베이스 구축의 일환으로 추진되고 있는 한국어 음성 DB에 대하여 구축현황 및 향후 계획을 소개한다.
PDF

Drone controller using motion imagery brainwave and voice recognition (동작 상상뇌파와 음성인식을 이용한 드론 컨트롤러)

Park, Myeong-Chul;Oh, Dae-Sung;Han, JI-Hun;Oh, Hyo-Jun;Kim, Yu-Sin;Jeong, Jin-Yong;Park, Sang-Uk;Son, Yeong-Woong
- Proceedings of the Korean Society of Computer Information Conference
- /
- 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
- /
- pp.257-258
- /
- 2020
기존의 드론 조작은 초보자에게 어려웠다. 초보자의 경우 드론을 조종하다가 드론이 추락하거나 장애물에 걸려 프로펠러 등의 부품들이 손상되는 경우를 빈번하게 마주한다. 본 연구에서는 초보자 또한 드론 파손의 걱정 없이 드론의 조작을 더욱 쉽게 개선시키는 것을 전제로 뇌파와 보조입력인 음성인식을 이용한 드론 컨트롤러 기술을 적용하고자 한다. 현재 대중적으로 출시되어 있는 드론의 경우 호버링 기능을 포함시켜 드론의 추락 위험을 줄여주는 기능을 탑재하고 있다. 하지만 속도가 빠른 드론의 조작에 있어 미숙한 초보자들은 장애물과의 충돌 그리고 드론 착륙 시 기체손상 등의 위험에 대비하기 힘들다. 본 논문은 이러한 문제점들을 개선하기 위해 기존의 드론 컨트롤러 대신 특정한 동작을 상상할 때 발현되는 동작상상뇌파와 음성입력을 적용한 '동작상상뇌파와 음성인식을 이용한 드론 컨트롤러' 기술을 제안한다. 기존의 드론 컨트롤러와는 다르게 빅 데이터 처리기술인 머신러닝을 이용하여 뇌파 데이터를 처리하고 그 데이터들과 입력되는 뇌파 값을 비교하여 드론을 제어한다. 또한 뇌파의 발현이 안정적이지 못하는 상황을 대비한 보조입력인 음성인식을 이용하여 드론의 기체손상을 최소화 시킬 수 있다.
PDF

Automatic segmentation for continuous spoken Korean language recognition based on phonemic TDNN (음소단위 TDNN에 기반한 한국어 연속 음성 인식을 위한 데이타 자동분할)

Baac, Coo-Phong;Lee, Geun-Bae;Lee, Jong-Hyeok
- Annual Conference on Human and Language Technology
- /
- 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
- /
- pp.30-34
- /
- 1995
신경망을 이용하는 연속 음성 인식에서 학습이라 함은 인위적으로 분할된 음성 데이타를 토대로 진행되는 것이 지배적이었다. 그러나 분할된 음성데이타를 마련하기 위해서는 많은 시간과 노력, 숙련 등을 요구할 뿐만아니라 그 자체가 인식도메인의 변화나 확장을 어렵게 하는 하나의 요인 되기도 한다. 그래서 분할된 음성데이타의 사용을 가급적 피하고 그러면서도 성능을 떨어뜨리지 않는 신경망 학습법들이 나타나고 있다. 본 논문에서는 학습된 인식기를 이용하여 자동으로 한국어 음성데이타를 분할한 후 그 분할된 데이타를 이용하여 다시 인식기를 재학습시켜나가는 반복 과정을 소개하고자 한다. 여기에는 TDNN이 인식기로 사용되며 인식단위는 음소이다. 학습은 cross-validation 기법을 이용하여 제어된다.
PDF

The storage structure and retrieval mechanism for korean speech database (한국어 음성 데이타베이스의 저장 구조와 검색 기법)

Song, Gun-Seop;Park, Yeong-Bae
- Annual Conference on Human and Language Technology
- /
- 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
- /
- pp.321-330
- /
- 1991
기존의 데이타베이스에 음성 데이타를 저장하여 음성 데이타 베이스를 구축하고자 할 경우, 음성 데이타의 특성이 가변장(variable length)이며, 튜플(음소 단위)의 길이가 매우 긴 패턴 데이타이므로 기존의 데이타베이스 시스템에서는 지원할 수 없다. 또, 현재의 음성 인식 시스템에서는 패턴 데이타를 순차적인 검색 방법으로 검색하고 있어 빠른 검색 방법이 요구된다. 본 논문에서는 음성 데이타를 음소 단위로 인식하기 위해 음소 패턴 데이타를 저장하고, 유사한 특성을 갖는 부류와 음소 길이에 의한 분류를 혼합한 방법을 이용하여 빠른 시간에 검색을 할 수 있게 하기 위한 저장 구조와 검색 알고리즘을 제시한다.
PDF

A Korean Speech Recognition Using Fuzzy Rule Base (Fuzzy Rule Base를 이용한 한국어 연속 음성인식)

Song, Jeong-Young
- The Journal of Engineering Research
- /
- 제2권1호
- /
- pp.13-21
- /
- 1997
This paper describes how to represent varations of feature parameters to improve recognition of continuous speech. For speech recognition, feature parameters, which are formant frequencies, pitches, logarithmic energies and zero crossing retes are used in general. But, their values and variations depend on speakers, for example disparities between man and woman, and on their age. It is difficult to decide a priority the value of the variation width. Hence, we try to represent this variation by introducing fuzziness and recognize a continuous speech by fuzzy inference using fuzzy production rules.
PDF

Error detection and correction in speech recognition by using lexico-semantic patterns (어휘의미패턴을 이용한 음성인식 오류 검출 및 수정)

Yoon, Yong-Wook;Jung, Han-Min;Lee, Gary Geun-Bae
- Annual Conference on Human and Language Technology
- /
- 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
- /
- pp.62-68
- /
- 2002
음성인식기를 거친 결과는 오류를 포함할 수 있으며 이를 다른 자연어처리 응용에 이용하기 위해서는 오류의 검출과 수정과정이 필수적이다. 음성인식 오류 후처리는 그 성격상 문자인식 후처리와는 다른 접근 방법을 필요로 하며, 본 인구에서는 잡음환경을 제외한 특정 도메인에 국한된 음성발화 상황에 초점을 맞추고자 한다. 후처리 방법에 있어서는 통계적 접근과 패턴매칭에 의한 접근 방법이 있으며, 본 연구에서는 특정 도메인에서 사용되는 어휘의 의미정보를 포함하는 패턴을 자동으로 생성시켜 이에 의한 오류 검출 및 수정 방안을 제안한다. 본 실험에 사용된 도메인은 차량정보센터용 음성정보 제공 시나리오이며 상용 음성인식기를 후처리를 위한 개발 툴로 사용하였다.
PDF

Categorization and Analysis of Error Types in the Korean Speech Recognition System (한국어 음성 인식 시스템의 오류 유형 분류 및 분석)

Son, Junyoung;Park Chanjun;Seo, Jaehyung;Lim, Heuiseok
- Annual Conference on Human and Language Technology
- /
- 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
- /
- pp.144-151
- /
- 2021
딥러닝의 등장으로 자동 음성 인식 (Automatic Speech Recognition) 기술은 인간과 컴퓨터의 상호작용을 위한 가장 중요한 요소로 자리 잡았다. 그러나 아직까지 유사 발음 오류, 띄어쓰기 오류, 기호부착 오류 등과 같이 해결해야할 난제들이 많이 존재하며 오류 유형에 대한 명확한 기준 정립이 되고 있지 않은 실정이다. 이에 본 논문은 음성 인식 시스템의 오류 유형 분류 기준을 한국어에 특화되게 설계하였으며 이를 다양한 상용화 음성 인식 시스템을 바탕으로 질적 분석 및 오류 분류를 진행하였다. 실험의 경우 도메인과 어투에 따른 분석을 각각 진행하였으며 이를 통해 각 상용화 시스템별 강건한 부분과 약점인 부분을 파악할 수 있었다.
PDF

검색결과 1,116건 처리시간 0.03초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)