Search | Korea Science

Speech-to-MIDI Conversion with Autocorrelation (자기상관을 이용한 음성 신호의 MIDI 변환)

박상보;황인준
- Proceedings of the Korean Information Science Society Conference
- /
- 2004.10c
- /
- pp.439-441
- /
- 2004
효율적인 멀티미디어 검색의 필요성이 증대됨에 따라 내용기반 멀티미디어의 검색에 대한 다양한 기법들이 소개되고 있다. 그 중에서 친숙한 멜로디를 가지고 사용자가 직접 마이크를 통해 생성한 음성 질의에 대한 분석에 대해 다루고자 한다. 음성 질의에 사용되는 음성 데이터를 분석함으로써 검색에 이용하는 것이다. 음성데이터를 분석하기 위한 방법으로 시간영역에서 가장 많이 쓰이는 기법 중의 하나인 자기상관함수를 사용한다. 자기상관 함수를 이용하여 특정구간에서 발생하는 일정한 주기 즉 기본주기를 검출할 수 있다. 자기상관함수에 의해 분석된 결과를 가지고, 음의 높낮이를 구하기 위한 기본주파수 검출 알고리즘과 음의 길이, 음의 세기를 결정하기 위한 방법을 제안한다.
PDF

Activities of Speech DB construction out of Countries (해외 음성 DB 구축 동향)

이용주
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1995.06a
- /
- pp.253-260
- /
- 1995
음성정보처리 연구에 공통으로 이용 가능한 대량의 각종 음성 데이터를 수집, 편집, 배포하는 dfl은 연구 개발자의 입장에서는 분석, 합성, 인식등의 알고리즘 개발 평가에 이용 가능하며, 음성인식, 합성 시스템의 사용자 입장에서는 각종 시스템의 성능을 객관적으로 평가할 수 있다는 면에서 매우 중요하다. 본 논문에서는 국내 음성 DB 의 효율적인 구축을 위한 방안 도출에 참고하기 위하여 해외 각국의 구축 동향을 기관별, 형태별, 분야별로 구체적으로 정리하여 소개한다.
PDF

Speech Emotion Recognition Framework on Smartphone Environment (스마트폰환경에서 음성기반 감정인식 프레임워크)

Bang, Jae Hun;Lee, Sungyoung;Jung, Taechung
- Proceedings of the Korea Information Processing Society Conference
- /
- 2013.05a
- /
- pp.254-256
- /
- 2013
기존의 음성기반 감정인식 기술은 충분한 컴퓨팅 파워를 가진 PC에서 수백개의 특징을 사용하여 감정을 인식하고 있다. 이러한 음성기반 감정인식 기술은 컴퓨팅 파워에 제약이 많은 스마트폰 환경을 고려하지 않은 방법이다. 본 논문에서는 제한된 스마트폰 컴퓨팅 파워를 고려한 음성의 특징 추출 기법과 서버 클라이언트 개념을 도입한 효율적인 음성기반 감정인식 프레임워크를 제안한다.
https://doi.org/10.3745/PKIPS.y2013m05a.254 인용 PDF

A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition (대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구)

Kang ByungOk
- Proceedings of the KSPS conference
- /
- 2003.10a
- /
- pp.65-68
- /
- 2003
본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9％, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3％의 성능향상을 보였다.
PDF

VAD By Neural Network Under Wireless Communication Systems (Neural Network을 이용한 무선 통신시스템에서의 VAD)

Lee Hosun;Kim Sukyung;Park Sung-Kwon
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.30 no.12C
- /
- pp.1262-1267
- /
- 2005
Elliptical basis function (EBF) neural network works stably under high-level background noise environment and makes the nonlinear processing possible. It can be adapted real time VAD with simple design. This paper introduces VAD implementation using EBF and the experimental results show that EBF VAD outperforms G729 Annex B and RBF neural networks. The best error rates achieved by the EBF networks were improved more than $70\%$ in speech and $50\%$ in silence while that achieved by G.729 Annex B and RBF networks respectively.
PDF KSCI

A Study on Real-time Bloking System for the Voice Marketing Call (음성스팸 실시간 차단시스템에 관한 연구)

Park, Haeryong;Park, Yunsik;Seo, Hyejung;Bong, Kihwan
- Proceedings of the Korea Information Processing Society Conference
- /
- 2017.04a
- /
- pp.203-206
- /
- 2017
최근 휴대전화 문자스팸 차단 강화로 인한 풍선효과로 휴대전화 음성스팸이 지속적으로 증가하고 있고, 2015년 3월부터는 음성스팸 건수가 문자스팸 건수를 역전해서 급속도로 증가하고 있어 효율적으로 음성스팸을 차단할 수 있는 시스템 구축의 필요성이 대두되고 있다. 이에, 음성스팸 신고번호와 음성스팸 가상 트랩(실제 존재하지 않는 가상의 휴대전화번호를 적용)을 통해 탐지된 내용을 기반으로 음성스팸 전화번호 차단리스트를 생성하고 이를 이통사에게 제공하여 일정기간 동안 음성호를 차단하는 음성스팸 실시간 차단시스템을 설계하고자 한다.
https://doi.org/10.3745/PKIPS.y2017m04a.203 인용 PDF

Design and Implementation of RISC Processor for Speech Coding (음성부호 처리에 적합한 RISC 프로세서의 설계 및 구현)

Kim, Jin;Lee, Jun-Yong
- Proceedings of the Korean Information Science Society Conference
- /
- 2000.10c
- /
- pp.18-20
- /
- 2000
디지털 음성통신을 위한 빠르고 쉬운 내장 프로세서(Embedded processor)가 요구되어짐에 따라 음성신호 압축 복원 알고리즘인 ADPCM과 LD-CELP의 구현에 가장 빈번히 사용되는 연산의 특성을 조사하였다. ARM6 processor core의 기본 구성요소들과 명령어집합을 기반으로 하여 음성부호화 알고리즘의 연산의 특성을 효율적으로 처리하기 위한 명령어와 구조를 추가한 범용 프로세서의 구조를 제안하고 VHDL로 기술하여 동작을 검증하였다. ARM6의 ALU logic에 leading zero count를 위한 회로를 추가하였고 opcode를 변경하였으며, LPC 계수 연산을 위해 제안된 MAC을 도입하여 효율적인 구현이 가능하도록 설계하였다.
PDF

Implementation of Stock Information System and Methods for Efficient Use of System Resources (KT 증권정보 서비스 시스템의 구현과 시스템 자원의 효율적 활용을 위한 방법 고찰)

박성준
- Proceedings of the Acoustical Society of Korea Conference
- /
- 1998.06e
- /
- pp.323-326
- /
- 1998
본 논문에서는 한국통신에서 음성인식을 이용한 전화정보 서비스의 일환으로 개발해 온 증권정보 시스템의 구조와 기능을 설명하고, 시스템을 다채널로 확장함에 있어서 시스템의 자원을 효율적으로 활용하기 위하여 적용한 방법에 대하여 기술하였다. 이 시스템에서는 음성특징을 추출하는 프로세서(DSP0)들과 단억검색을 하는 프로세서(DSP1)들이 분리되어 있으며, 이 둘 간의 개수 비율을 조절함으로써 실시간적 처리 효과를 유지하면서도 시스템의 전체 프로세서의 개수를 줄였다. DSP0와 DSP1 간의 음성 특징 데이터 전송에 있어서는 DSP0에서 발생하는 데이터를 음성이 입력되는 중에 전송할 수 있게 함으로써, DSP1에서는 DSP0과 병렬적으로 작업을 수행시킬 수 있으며, 결과적으로 시스템의 속도를 빠르게 하였다.
PDF

Edge Computing-Based Voice Command Smart Home Control System (에지 컴퓨팅 기반 음성 명령 스마트홈 제어 시스템 구축)

Kim, So-Chul;Yoon, Seo-Jeong;Ko, Hyungyu
- Proceedings of the Korea Information Processing Society Conference
- /
- 2022.11a
- /
- pp.764-766
- /
- 2022
본 시스템은 스마트폰에서 사용자의 음성을 이용해 집 안이나 밖에서 IoT 단말을 효율적으로 제어할 수 있는 시스템으로, 인식된 음성에 맞춰 가전제품 기동, 조명 조절 등 IoT 단말을 컨트롤한다. 사용자의 음성은 Json 형태의 명령으로 변환되어 에지 컴퓨팅 기술을 통해 저사양 단말이 고사양 단말의 유휴자원을 활용하며 명령에 따른 IoT 단말 컨트롤이 진행된다. 이러한 아키텍처는 IoT 단말 데이터를 외부에 노출하지 않고 컴퓨팅 자원을 효율적으로 운용할 수 있는 시스템을 제공한다.
https://doi.org/10.3745/PKIPS.y2022m11a.764 인용 PDF

Transcoding Algorithm from 8 kbps G.729A to 5.3 kbps G.723.1 (8 kbps G.729A에서 5.3 kbps G.723.1로의 상호부호화 알고리듬)

윤성완;정성교;박영철;윤대희
- Proceedings of the IEEK Conference
- /
- 2000.09a
- /
- pp.823-826
- /
- 2000
유/무선 통신 시스템에서는 통신망마다 각각 다른 음성 부호화기를 사용하므로 음성신호는 두 번의 부/복호화 과정을 거치게 된다. 이로 인해 음질저하, 계산량 증가, 그리고 전달 지연 증가 등의 문제가 발생된다. 본 논문에서는 위의 문제점들을 개선하기 위하여 패킷 음성통신과 무선 이동 통신에 사용되는 음성 부호화기의 상호부호화를 위한 알고리듬을 제안한다 효율적인 음성 패킷 변환 방법을 제안하였으며, 8 kbps G.729A 패킷을 5.3 kbps G.723.1 패킷으로 변환하는 방법을 제안한다. 제안된 음성 패킷 변환 방법은 LSP 변환과정, 적응코드북 변환과정 그리고 고정 코드북 고속 탐색 과정으로 구성된다. 여러 가지 음성 신호로 모의 실험한 결과, 본 논문에서 제안된 상호부호화 알고리듬이 두 번의 부/복호화 과정을 거친 경우보다 짧은 전달 지연 시간과 적은 계산량으로 동등한 음질의 음성신호로 복호화함을 확인하였다.
PDF

Search Result 871, Processing Time 0.031 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)