통합 검색 | Korea Science

음성 인식을 위한 개선된 평균 예측 LMS 필터를 이용한 DNN 기반의 강인한 음성 특징 추출 및 신호 잡음 제거 기법 (DNN based Robust Speech Feature Extraction and Signal Noise Removal Method Using Improved Average Prediction LMS Filter for Speech Recognition)

오상엽
- 융합정보논문지
- /
- 제11권6호
- /
- pp.1-6
- /
- 2021
음성 인식 분야에서 DNN이 적용됨에 따라 음성 인식의 이용이 증대되고 있으나 기존의 GMM 보다 병렬 훈련에 대한 계산의 양이 많아야 되며, 데이터의 양이 적으면 오버피팅이 발생한다. 이를 해결하기 위해 데이터의 양이 작은 경우에도 강인한 음성 특징 추출과 음성 신호 잡음 제거에 효율적인 방안을 제시한다. 음성 특징 추출은 음성에 대한 프레임 에너지의 차이와 음성 신호에 영향을 받는 영 교차율과 레벨 교차율을 적용하여 음성 에너지의 효율적 추출을 한다. 또한, 잡음 제거를 위해 음성 신호에 대한 검출에서 음성의 고유 특성을 유지하면서 음성 정보 손상이 적은 평균 예측 LMS 필터를 개선하여 음성 신호의 잡음을 제거하여 데이터양이 적은 경우의 문제를 해결한다. 개선된 LMS 필터는 입력 신호에 대한 활성 파라미터 임계치를 조정하여 입력된 음성 신호에 대한 잡음을 처리하는 방법을 사용한다. 본 논문에서 제안한 방법을 사용하여 기존의 프레임 에너지를 이용한 방법과 비교한 결과 음성의 시작점의 오차율은 7%, 끝나는 점 오차율에서 11% 향상된 성능을 확인하였다.
https://doi.org/10.22156/CS4SMB.2021.11.06.001 인용 PDF KSCI

음성통신을 위한 잡음처리 기술

신종원;장준혁;김남수
- 정보와 통신
- /
- 제24권4호
- /
- pp.27-35
- /
- 2007
음성 통신을 할 때 배경 잡음이 존재하게 되면 일반적으로 음질이 저하된다. 이것은 잡음 자체가 듣기 싫다거나 음성을 더 작게 들리게 만들기 때문이기도 하고 음성 코덱이 잡음이 섞이지 않은 깨끗한 음성에 최적화되어 있어서 잡음이 섞인 음성에 대한 코딩 효율이 떨어지기 때문이기도 하다. 이 논문에서는 잡음에 의한 음성 통신의 품질 저하를 막기 위한 방법으로서 음성 향상(speech enhancement) 기술과 음성 강화(speech reinforcement) 기술에 대해 소개한다. 음성 향상 기술이란 전송부의 마이크에서 녹음된 잡음과 음성이 섞인 입력 음성으로부터 깨끗한 음성을 추정하는 기술을 말한다. 음성 향상 기술은 상당히 오랜 기간 동안 연구되어 온 기술이며, 최근에는 각 파라미터의 분포에 의존하는 방법보다 확률 모델에 기반한 방법이 각광을 받고 있으며 인간의 청각 특성을 고려한 음성 향상 방법도 제안되고 있다. 음성 강화 기술이란 수신단에서 주변 잡음에 따라 전송되어 온 음성을 주파수별로 증폭하여 더 잘 들리도록 만드는 기술이다. 음성 향상이 내 주위의 잡음이 상대방에게 들리는 음성에 미치는 영향 혹은 상대방 주변의 잡음이 나에게 들리는 소리에 미치는 영향을 줄여주는 기술이라면 음성 강화는 내 주위의 잡음이 나에게 들리는 음성에 미치는 영향을 상쇄해 주는 기술이다. 이 경우 주변 잡음은 어떤 전자 시스템도 거치지 않고 귀로 직접 들어오기 때문에 잡음 자체를 줄여 주는 것은 힘들고 전송되어 온 음성을 적절히 증폭 혹은 변형함으로써 귀에 들리는 음질 또는 명료성을 개선하게 된다. 이 논문에서는 통계 모델을 기반으로 한 음성 향상 기법과 인간의 청각 특성을 고려한 음성 향상 기법, 그리고 음성 강화 기법에 대해 설명한다.을 시도한 결과 안정적이고 반복 가능한 급성 심부전 모델을 얻을 수 있었다. bench scale실험결과와 같이 AOC는 배수관망에서의 박테리아 증식과 크게 상관관계를 갖고 있는 것으로 밝혀졌다.)', 'have a headache (2.10±0.79)', 'poor memory (2.09±0.83)', 'no appetite (1.99±0.85)', As for the correlation between iron parameter and clinical symptoms related to anemia, the hematocrit rate was negatively correlated with 'get a cold easily', 'pale face', 'feeling blue', 'difficult digestion' (p<0.05). The level of iron was negatively correlated with 'tired out easily', 'get a cold easily' (p<0.05) and TS (%) were negatively correlated with 'tired out easily (p<0.05)', 'get a cold easily (p<0.01). Our study resulted that the prevalence of a iron deficiency of a middle school girl is very high, therefore the guidelines for iron supplementation and nutritional education to improve their iron status should be provided.한 질소제거를 N-balance로부터
PDF KSCI

Windows환경에서 음성인식을 이용한 멀티미디어 게임의 구현 (An Implementation of Multimedia Game using Speech Recognition for Windows)

윤재선
- 한국음향학회:학술대회논문집
- /
- 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
- /
- pp.335-338
- /
- 1998
본 논문에서는 음성인식 알고리즘인 HMM을 사용하여 Windows 환경에서 온라인으로 사용할 수 있는 음성인식 게임“Voice Illust Magic”개발에 관하여 소개한다. 사용자와 컴퓨터가 상호작용(Interaction)할 수 있는 매체를 마우스와 키보드뿐만 아니라 게임에 필요한 명령어를 음성인식으로 실행함으로써 정보전달이 매우 효과적으로 이루어져 사용자가 접근하기 쉽고 편리하게 되었으며 의사전달 효율을 높일 수 있었다. 음성인식 과정을 온라인으로 마이크를 통해 들어온 음성을 자동으로 끝점을 검출한 후, Mel-Cepstrum을 추출하여 Word 단위의 reference HMM과 비교하여 최적의 model이 선택되면, 윈도우즈에게 메시지를 보내어 마우스나 키보드가 동작하는 것과 마찬가지로 실행되도록 하였다. 또한, 입력 음성을 모든 reference pattern과 비교하는 것이 아니라 그 상황에 적용될 수 있는 표준 패턴을 한정함으로써 탐색시간을 줄일 수 있었으며 높은 인식률을 나타내었다.
PDF

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

박미성
- 한국도서관정보학회지
- /
- 제35권3호
- /
- pp.271-291
- /
- 2004
전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.
PDF

음성 인식 디지털 도어락 (Digital Doorlock with Voice Recognition)

허경용;장우영;박준표
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2012년도 제46차 하계학술발표논문집 20권2호
- /
- pp.269-270
- /
- 2012
본 논문에서는 키패드로만 동작하는 디지털 도어락에 보안을 강화하기 위해 음성 인식 장치를 추가한 음성 인식 디지털 도어락을 설계하고 구현하였다. 비밀번호로만 동작하는 도어락은 비밀번호의 분실 가능성이 있기 때문에 보안을 위해서는 화자의 특징을 인식할 수 있는 화자 종속 방식의 음성인식이 효율적이다. 본 논문에서 제안하는 방식은 가정집뿐만이 아니라 회사에서 보다 높은 수준의 보안이 필요한 곳에서 사용이 가능하다. 또한 구현한 시스템은 장애인을 위해 음성만으로 동작하는 시스템 등으로 쉽게 변경이 가능하다. 제안한 시스템은 ATmega128을 기반으로 키패드, 텍스트 LCD, 음성인식 모듈을 결합하여 구성하였다.
PDF

음성인식용 아동음성데이터베이스의 구축 및 음향모델의 검토 (The Construction of a Children Speech Database for Speech Recognition and The Validation of Acoustic Models)

김연화;이용주
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
- /
- pp.717-720
- /
- 2003
최근 아동음성을 이용한 응용분야가 활기를 띄고 있다. 따라서 아동음성DB의 구축이 시급히 필요하게 되었다. 이러한 요구에 따라 아동음성을 여러 응용분야에 적용하기 위한 한 방법으로 아동음성DB를 구축하였고, 이를 이용한 음향모델을 작성하였다. 아동음성의 효율적인 인식을 위한 음향모델을 고찰하기 위하여 연령대별로 음향모델을 만들고, 이를 이용하여 훈련 및 평가용 데이터로 인식 실험한 결과를 비교 검토한다.
PDF

PDA기반 음성전화시스템의 설계 및 구현 (Design and Implementation of a Phone System Operating on PDA)

안용운;김상철
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
- /
- pp.199-201
- /
- 2001
최근 모바일 컴퓨팅 기술이 발전되면서, PDA 등과 같은 소형 컴퓨팅 장치가 빠른 속도로 보급되고 있다. PDA는 이동전화나 무선 LAN 등을 통해서 다른 PDA 또는 일반 컴퓨터에 접속해서 메일 수신, 인터넷, 채팅 등에 사용되고 있다. 우리는 PDA간 또는 PDA와 데스크탑 컴퓨터간의 음성통신 기능을 제공하는 음성 전화 시스템을 개발하였다. 본 논문은 우리가 개발한 음성 전화 시스템의 기능, 구조, 구현을 소개한다. 우리의 음성 전화 시스템은 Windows CE 환경 하에서 동작하고 H.323을 지원하도록 설계되어있다. 또한, 본 논문에서는 음성통신을 위한 송, 수신 버퍼 사용의 효율적인 방법을 제안한다. 우리의 조사에 의하면, Windows CE 기반의 음성전화시스템에 대한 기존 연구가 거의 발표되지 않았다.

음성 데이터 보안을 위한 효율적인 ECC 암호 알고리즘 설계 및 구현 (Design and Implementation of effective ECC Encryption Algorithm for Voice Data)

김현수;박석천
- 한국정보통신학회논문지
- /
- 제15권11호
- /
- pp.2374-2380
- /
- 2011
모바일 인터넷전화는 요금이 무료일 뿐만 아니라 편리한 인터페이스와 일반전화 급의 통화품질을 제공하고 있어 많은 사용자들이 선호하고 있다. 반면 인터넷망을 이용하기 때문에 제3자에 의해 도청의 위험을 가지고 있어 음성 데이터에 대한 보안이 중요시 되고 있다. 기존에는 음성 데이터 보안에 대칭키 암호 알고리즘이 많이 이용되었지만, 공개키 방식의 ECC 암호 알고리즘은 다른 공개키 방식의 알고리즘보다 비트 대비 암호화 강도가 뛰어나기 때문에 음성 데이터 암호화에 더 선호되고 있다. 그러나 기존 방식은 암호 연산 횟수 때문에 자원 소모가 열악한 모바일 환경에서는 제약이 될 수 있다. 따라서 본 논문에서는 암호 연산 횟수를 감소하여 자원 소모 효율성을 높일 수 있는 방법을 제안한다.
https://doi.org/10.6109/jkiice.2011.15.11.2374 인용 PDF KSCI

음악 및 음성 신호의 융합 압축 기술 (Unified coding scheme of speech and music)

오은미
- 방송과미디어
- /
- 제16권4호
- /
- pp.59-71
- /
- 2011
오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.
PDF KSCI

멀티미디어 환경에서 효율적인 음성 전송을 위한 WATM MAC 프로토콜 (A WATM MAC Protocol for the Efficient Transmission of Voice Traffic in the Multimedia Environment)

민구봉;최덕규;김종권
- 한국통신학회논문지
- /
- 제25권1A호
- /
- pp.96-103
- /
- 2000
WATM(Wireless Asynchronous Transfer Mode) 네트워크에서 음성은 실시간 전송이 요구되는 주된 요소 중의 하나다. 본 논문에서는 멀티미디어 환경에서 음성 트래픽을 효율적으로 전송하기 위한 새로운 매체접근제어(MAC: Medium Access Control) 프로토콜을 설계하고 성능을 평가하여 기존의 MAC방식과 비교한다. 새로 제안한 프로토콜은 상향링크(uplink)의 예약 슬롯구간(request slot period)을 음성 예약 슬롯구간과 비실시간 데이터 예약 슬롯 구간으로 구분하고, 음성 트래픽에 대해서는 QoS(Quality of Service)를 보장할 수 있도록 프레임 크기에 따른 적절한 슬롯 할당함수를 제시하였다. 이때 MAC은 반복적으로 휴지(silent)상태가 된 음성 소스의 수에 비례하여 음성예약 슬롯을 동적으로 할당하고, 슬롯예약 시 데이터를 함께 보냄으로써 평균 접근지연시간을 줄일 수 있도록 한다. 시뮬레이션에 의한 성능분석결과는 제안한 MAC방법이 고정된 음성 예약슬롯을 가진 Slotted ALOHA 방법에 비하여 대역폭 사용효율이 높음을 보인다. 또한 음성 단말의 수가 변하는 동적 환경하에서도 일정한 QoS를 제공 할 수 있다. 이것은 모든 음성 단말에게 하나씩의 뭬\ulcorner슬롯을 할당하는 NC-PRMA(None Collision-Packet Reservation Multiple Access)프로토콜보다 향상된 성능을 가진다는 사실을 나타낸다.
PDF

검색결과 871건 처리시간 0.024초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)