• 제목/요약/키워드: 비음성

검색결과 1,996건 처리시간 0.031초

음성 데이터베이스로부터의 효율적인 색인데이터베이스 구축과 정보검색 (The Extraction of Effective Index Database from Voice Database and Information Retrieval)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제35권3호
    • /
    • pp.271-291
    • /
    • 2004
  • 전자도서관과 같은 정보제공원은 이미지, 음성, 동영상 등과 같은 비정형 멀티미디어 데이터 서비스에 대한 요구를 받고 있다. 그리하여 본 연구에서는 음성 처리를 위해 어절생성기, 음절복원기, 형태소분석기, 교정기를 제안하였다. 제안한 음성처리 기술로 음성데이터베이스를 텍스트데이터베이스로 변환 한후 텍스트데이터베이스로부터 색인데이터베이스를 추출하였다. 그리고 추출한 색인데이터베이스로 텍스트와 음성의 내용기반정보검색에 활용할 수 있음을 보이기 위해 정보검색모델을 제안하였다.

  • PDF

넥마이크로 입력된 음성 신호에 대한 인식 연구 (A Study on Speech Recognition for Neck-Microphone Input Signal)

  • 이연철;이상운;홍훈섭;한문성;마평수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.747-750
    • /
    • 2002
  • 본 논문에서는 일반적으로 사용되는 마이크가 잡음에 민감하여 음성인식피치 성능을 저하시키기 때문에 잡음치 영향을 받지 않는 고지향성을 가지는 넥마이크로 입력되는 음성신호에 대한 특성을 고찰하고 기존의 일반마이크 입력 음성을 이용하는 인식시스템에서의 인식성능을 살펴본다. 넥마이크는 일반마이크와 동일한 원리로 음성을 채집하는 목부위에 장착된다. 실험에서 넥마이크에 의한 음성은 일반마이크 입력 음성에 비해 인식 성능이 저하되는 결과를 보여주어 앞으로 새로운 인터페이스의 연구대상으로 여겨진다.

  • PDF

이동단말에서 다중발화를 이용한 Home network 환경에서의 QoS 보장 연구 (A study on The Guarantee of QoS in the Home Network using Multiple Speech)

  • 황지수;이창섭;박준석;김유섭;박찬영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.811-813
    • /
    • 2004
  • 휴대전화에서 전달되는 음성데이터들이 전달되는 과정에서 잡음 등의 외부 요인으로 인하여 데이터에 손실이 생기는 문제가 발생한다. 이렇게 전달된 음성데이터가 음성 인식기를 통과하면 바로 음성 인식기를 통과했을 때 보다 인식률이 낮아진다. 본 연구에서는 음성인식 알고리즘을 이용하여 홈 네트워크를 제어하는데 있어서 음성 인식율을 향상시키기 위해서 반복적으로 음성 데이터를 입력받아. 이를 유사율 알고리즘을 적용시켜 추출 된 여러 개의 데이터(text)를 이미 구축된 홈 네트워크 용어 관련 사전에 등록된 단어와의 유사성을 검토하여 추출된 결과로 홈 네트워크를 제어하는 방안을 제안한다. 이 결과, 기존의 방법에 비해서 10% 정도의 인식률의 향상을 확인할 수 있었다.

  • PDF

담화 정보를 이용한 음성 인식 후처리 (Post Correction of Speech Recognition using Discourse Information)

  • 김주희;강상우;선충녕;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-151
    • /
    • 2010
  • 본 연구는 대화 시스템에서 처리되는 사용자 발화의 의도 분석 기법과 담화 정보를 사용하여 음성 인식 결과로서의 인식 후보 문장들을 재순위하는 방법을 제안한다. 담화 정보는 사용자 발화의 의도 분석에 매우 중요한 자질로 사용되고 있기 때문에 음성 인식 결과들의 후보를 선택하는 문제에서도 담화 정보는 매우 중요한 자질로 사용될 수 있다. 음성 인식 결과의 후보 문장들을 모두 의도 분석 과정을 거치고 각각의 후보 의도들과 이전 담화 정보의 연관성을 이용하여 음성 인식 결과를 재순위화 한다. 실험을 통하여 재순위 과정을 수행한 결과 1순위 음성 인식 결과는 재순위 과정을 거치지 않는 결과에 비해 7.08%의 오류 감소율을 보였다.

  • PDF

노인음성인식을 위한 전처리에 관한 연구 (A Study on Preprocessing for Elderly Voice Recognition)

  • 박지웅;이승준;권순일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1646-1648
    • /
    • 2013
  • 고령화 되어 가는 현대 사회에서 노인들이 일반 성인과 동등한 수준에서 정보를 접근 가능하도록 스마트기기의 손쉬운 인터페이스 방법이 요구된다. 음성 인터페이스는 노인들의 스마트기기 활용도를 높여 줄 수 있지만, 성능이 평균적 성인연령 대의 발성행태에 최적화되어 있어, 노인들이 사용할 경우 음성인식률 저하를 초래한다. 그래서 노인 친화형 음성 인터페이스를 개발하기 위한 일환으로 노인음성에 대한 인식률을 향상시켜 줄 수 있는 전처리 알고리즘을 개발하고자 한다. 이를 위해 노인층과 청년층을 대상으로 음성샘플을 수집하여 분석하였고, 그 결과 노인이 청년에 비해 발성속도가 느리며 이는 스마트기기의 음성인식 기능저하로 이어진다는 것을 확인할 수 있었다.

VoIP의 음성품질/대역효율 개선을 위한 음성패킷 처리 (Voice Packet Processing Scheme for Voice Quality and Bandwidth Efficiency in VoIP)

  • 김재원;손동철
    • 한국멀티미디어학회논문지
    • /
    • 제7권7호
    • /
    • pp.896-904
    • /
    • 2004
  • 본 논문에서는 10msec 프레임의 가변전송률 G.729 음성부호화기를 설계하여 VoIP에서의 대역 효율을 개선하고, 부전송률 부호화기 도입을 통한 인터넷 프로토콜에서 발생하는 패킷 손실구간의 음성 품질을 개선할 수 있는 방안을 도출하였다. 가변 전송률 음성부호화기 설계는 음성 통화중 발생하는 약 60% 정도의 묵음 구간을 활용하는 기법으로서 활성 음성구간은 8kbps로 전송하고,비 활성 음성구간은 1kbps로 전송함에 의하여 고정 전송률 방식의 음성 부호화기에 비하여 평균 패킷 전송량을 약 50% 감소시켜 대역 효율을 개선할 수 있다. 제안 방법의 성능은 동일 프레임 크기를 갖는 ITU-T G.729B방식과 감지 활성도의 변화분과 음성품질 손상 구간의 비율을 기준으로 비교 평가하였다. 그리고 인터넷 환경에서의 패킷 손실에 의한 음성 품질 저하 방지는 4kbps 부전송률 음성부호화기 도입과 오류 발생 전후의 패킷에 의한 오류은닉 방법을 활용하였으며, 성능은 재생 음성품질로서 평가하였다. 본 논문에서 설계한 가변 전송률 부호화 방식은 고정 전송률 방식에 대비하여 평균 음성 패킷의 전송량을 1/2로 감소시켜 대역효율 개선이 가능하며, 감소된 전송률을 손실 패킷구간에 활용하는 경우 8kbps 고정 전송률 방식과 동일 대역이용에서 3dB의 음성품질 개선이 가능하여 VoIP 성능 개선이 가능하리라 사료된다.

  • PDF

확률적 비음수 행렬 인수분해를 사용한 통계적 음성검출기법 (Statistical Voice Activity Detection Using Probabilistic Non-Negative Matrix Factorization)

  • 김동국;신종원;권기수;김남수
    • 한국통신학회논문지
    • /
    • 제41권8호
    • /
    • pp.851-858
    • /
    • 2016
  • 본 논문은 비음수 행렬 인수분해(NMF)의 확률적 해석에 근거한 새로운 통계적 음성검출기법을 제안한다. NMF의 기저와 부호화 행렬들이 주어졌을 때, 데이터 행렬의 분포를 Poisson 분포로 가정한 로그 우도는 Kullback-Leibler 발산을 이용한 NMF의 목적 함수와 일치한다. 이러한 NMF의 확률모델에 근거하여 음성검출을 위해 DFT영역에서 잡음과 음성의 크기 스펙트럼을 Poisson 분포로 모델링하여 새로운 우도비 검출 규칙을 유도한다. 실험 결과를 통해 제안된 기법이 0-15dB 신호 대 잡음비의 시뮬레이션 환경에서 기존 Gaussian과 NMF을 사용한 기법보다 향상된 음성검출 결과를 보여준다.

잡음환경 하에서의 음성의 SNR 개선 (Improvement of Signal-to-Noise Ratio for Speech under Noisy Environment)

  • 최재승
    • 한국정보통신학회논문지
    • /
    • 제17권7호
    • /
    • pp.1571-1576
    • /
    • 2013
  • 본 논문에서는 잡음 환경 하에서 음성신호에 대한 신호대잡음비(SNR)를 개선하기 위한 알고리즘을 제안한다. 본 논문에서 제안하는 알고리즘은 백색잡음 및 자동차잡음 등과 같은 배경잡음으로부터 음성신호의 SNR을 개선할 목적으로 먼저 저역, 중역, 고역 SNR 대역에서 SNR을 추정한다. 다음으로 본 알고리즘은 각 대역에서 스펙트럼을 강조함으로써 잡음으로 오염된 음성신호 속에서 잡음신호를 차감한다. 백색잡음, 자동차잡음에 의하여 오염된 음성에 대하여 본 논문에서 제안한 알고리즘이 스펙트럼 차감 방법과 비교하여 양호한 신호대잡음비 값을 구하였다. 실험결과로부터 스펙트럼 차감 방법과 비교하여 백색잡음에 대하여 최대 4.2 dB, 자동차잡음에 대하여 최대 3.7 dB의 출력 신호대잡음비가 개선된 것을 확인할 수 있었다.

RPE-LTP와 VSELP 음성부호화기의 비교에 관한 연구 (The Study of Comparison between RPE-LTP and VSELP Speech Coder)

  • 박대덕;김화준;심재훈;유재희;정하봉;서정하
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1838-1847
    • /
    • 1994
  • 현재 북미, 유럽, 일본 등에서는 디지털 이동 통신용 음성부호화 방식의 표준을 확정하여 세부기술을 경쟁적으로 개발하고 있으나, 아직까지 우리나라는 이를 확정하지 못하고 있는 실정이다. 본 논문에서는 유럽 표준인 RPE-LTP와 북미 표준인 VSELP 알고리즘을 소스 코팅에 중점을 두어 연구, 비교 및 검토하였다. 각 음성부호화기에 대해 종합적으로 분석 및 비교한 후, 성능 개선 방안에 대하여 논의하였다. 또한, 실시간 처리에 가장 큰 영향을 미치는 연산 횟수를 계산, 비교하였다. 아울러 각 부호화기의 알고리즘을 구체화하여 한국인 음성데이타에 대하여 모의 실험을 수행하였으며, 모의 실험 평가결과로서 구간 신호대 잡음비와 5-포인트 MOS를 비교하였다. 연산횟수는 VSELP 부호기의 곱센연산횟수가 가장 많은 것으로 나타났다. 26가지 음성 데이타에 대하여 구간 신호대 잡음비는 VSELP가 RPE-LTP에 비해 큰 것으로 계산되었고, 5-포인트 MOS 실험을 실시한 결과 VSELP가 RPE-LTP에 비해 음질이 동등하거나 보다 우수한 것으로 평가되었다.

  • PDF

16 비트 고정 소수점 DSP를 이용한 GSM-EFR 음성 부호화기의 실시간 구현 (Real-time Implementation of a GSM-EFR Speech Coder on a 16 Bit Fixed-point DSP)

  • 최민석;변경진;김경수
    • 한국음향학회지
    • /
    • 제19권7호
    • /
    • pp.42-47
    • /
    • 2000
  • 본 논문에서는 DSP Group사의 16비트 고정 소수점 DSP(Digital Signal Processor)인 OakDSP Core를 사용하여 유럽의 이동통신에서 표준으로 사용되고 있는 음성 부호화기 알고리즘인 GSM-EFR (Global System for Mobile communications-Enhanced Full Rate)을 실시간으로 구현하였다. 실시간 구현된 GSM-EFR 음성 부호화기의 계산량은 약 24MIPS가 소요 되며, 7.06K 워드의 코드 메모리와 12.19K 워드의 데이터 메모리를 사용하였다. 구현된 음성 부호화기는 ETSI에서 제공하는 시험 벡터 샘플을 모두 통과하였으며, 객관적 평가툴을 이용하여 지각 평가를 수행한 결과, 32kbps ADPCM과 비슷한 음질을 보였다. 본 논문에서 실시간으로 구현된 GSM-EFR 음성 부호화기는 IMT2000 비동기 방식의 음성 부호화기 표준인 GSM-AMR의 최상위 전송률 모드로서, 앞으로 IMT-2000 비동기식 단말기용 모뎀 ASIC에 탑재할 GSM-AMR 음성 부호화기의 구현을 위한 기본 구조로 이용될 예정이다.

  • PDF