• Title/Summary/Keyword: Speech Processing

Search Result 956, Processing Time 0.031 seconds

Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation (문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리)

  • 이용주;손종목;강경옥;배건성
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 1999.11b
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

Big data for Speech and Language Processing (빅데이터 기반 음성언어 처리 기술)

  • Na, S.H.;Jung, H.Y.;Yang, S.I.;Kim, C.H.;Kim, Y.K.
    • Electronics and Telecommunications Trends
    • /
    • v.28 no.1
    • /
    • pp.52-61
    • /
    • 2013
  • 음성언어 처리 분야는 인간의 자연어 발화를 컴퓨터가 자동으로 이해하고 처리하는 알고리즘을 연구하는 분야로, 자동 통번역, Siri와 같은 음성 대화 시스템, 차세대 인터페이스, 질의 응답 시스템 등 다양한 응용군을 포함한다. 특히, 음성언어 처리 기술은, 최근 빅데이터(big data) 시대를 맞이하여, 방대한 음성/텍스트 정보를 처리하기 위한 필수 기술로 각광받고 있다. 한편, 빅데이터는 그 자체가 거대한 말뭉치 데이터로서 음성언어 처리 기술의 성능을 향상시키는 주된 리소스가 된다. 이에 따라, 최근 빅데이터를 이용하여 음성언어 처리 기술의 성능을 개선시키고자 하는 연구가 활발히 진행되고 있는데, 본고에서는 이들 연구의 배경 및 연구 동향들을 소개하기로 한다.

  • PDF

An Efficient Korean Morpheme Analyzer and Synthesizer using Dictionary Information and Chart Data Structure (사전 정보와 차트 자료 구조를 이용한 효율적인 형태소 분석기 및 합성기(KoMAS))

  • 김정해;이상조
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.3
    • /
    • pp.123-131
    • /
    • 1994
  • This paper describes on the analysis of morphemes and it's synthesis being constituted of Korean word phrases. To analyze morphemes, we propose the introduction of "morph" for morpheme features in lexicon and the usage of chart data structures. it controls over the generation of unnecessary morpheme, and extracts every possible morpheme unit in a word phrase which minimized lexicon investigation by using heuristic information. Moreover, to synthesize morphemes, it is composed of every possible analyzed morphemes in word phrases to take advantage of speech and union information which can be obtained for program. Therefore, the systhesis of analyzed morphemes were designed to aid a syntactic analysis next step of natural language processing. This system for analyzing and systhesizing morpheme was to generate a word phrase by unifying syntactic and semantic features of analyzed morphemes in lexicon, and then established by C language of the personal computer.

  • PDF

Processing of Morphological Transformation for Korean Continuous Speech Recognition (한국어 연속음성 인식을 위한 형태론적 변형 처리)

  • 정경석;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.489-491
    • /
    • 2003
  • 한국어는 형태론적 변형 현상이 자주 일어나게 되어 최종적으로 음성인식의 성능에 졸지 않은 영향을 끼친다. 본 논문에서는 연속음성 인식의 성능 개선을 위해 형태론적 변형을 처리하는 방법을 제시하고 짧은 형태소를 결합하여 의사형태소를 추출하고자 한다. 이 방법은 음성인식의 성능 개선을 위하여 품사세트와 사전을 다시 정의하고 텍스트 정규화를 수행한다. 그리고 불규칙 용언 처리의 규칙을 작성하고 나머지 형태론적 변형현상은 에러 패턴을 분석하여 빈출 어휘 중심 및 다단계로 규칙 처리하였다. 마지막으로, 단음절 형태소들을 결합함으로써 최종적으로 원하는 의사형태소를 구할 수 있었다. 제안된 시스템은 오 인식률이 높은 단음절 형태소들을 결합하여 성능 향상이 기대됨은 물론, 형태론적 변형현상에서는. 9~10%의 높은 성능 향상을 가져올 수 있었다.

  • PDF

Performance Improvement of Stereo Acoustic Echo Canceller Using MINT Filtering (MINT 필터링에 의한 스테레오 음향 반향 제거기의 성능 향상)

  • 차경환
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.1
    • /
    • pp.42-46
    • /
    • 2002
  • In this paper, a new pre-processing algorithm is proposed to improve the performance of stereo acoustic echo canceller. The proposed algorithm has the improved performance by the estimation error reduction of filter coefficient using input signal which was reduced reverberation of room in the basis MINT (Mu1tip1e-input/output Inverse Theorem) filtering. For real stereo speech signal and real room impulse response the results of simulation, we showed that the proposed method could improved 3∼5 dB ERLE (Echo Return Loss Enhancement) regardless of NLMS (Normalized Least Mean Square) and Projection adaptive algorithm.

Feature Extraction through the post processing of WFBA based on MMSE-STSA for Robust Speech Recognition (강인한 음성인식을 위한 MMSE-STSA기반 후처리 가중필터뱅크분석을 통한 특징추출)

  • Jung Sungyun;Bae Keunsung
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • autumn
    • /
    • pp.39-42
    • /
    • 2004
  • 본 논문에서는, 잡음음성에 강인한 음성인식을 위한 특징추출 방법을 제시한다. 제시한 방법은 2 단계 잡음제거 과정으로 구성되어 있다. 첫번째 단계는 MMSE-STSA 음성개선기법을 통해 잡음음성신호를 개선시키는 과정이고, 두 번째 단계는, MMSE-STSA 의 개선된 음성에 후처리 가중필터뱅크분석을 통해 잔여잡음의 영향을 감소시키는 과정이다. 제안한 방법의 성능평가를 위해, AURORA2의 잡음음성 DB 중 테스트 집합 A 에 대해 인식실험을 수행하고, 결과를 기존 방법들과 비교, 검토한다.

  • PDF

Frequency Domain Blind Source Seperation Using Cross-Correlation of Input Signals (입력신호 상호상관을 이용한 주파수 영역 블라인드 음원 분리)

  • Sung Chang Sook;Park Jang Sik;Son Kyung Sik;Park Keun-Soo
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.3
    • /
    • pp.328-335
    • /
    • 2005
  • This paper proposes a frequency domain independent component analysis (ICA) algorithm to separate the mixed speech signals using a multiple microphone array By estimating the delay timings using a input cross-correlation, even in the delayed mixture case, we propose a good initial value setting method which leads to optimal convergence. To reduce the calculation, separation process is performed at frequency domain. The results of simulations confirms the better performances of the proposed algorithm.

  • PDF

Semantic Processing in Korean and English Word Production (모국어와 외국어 단어 산출에서의 의미정보 처리과정)

  • Kim Hyo-Sun;Nam Ki-Chun;Kim Choong-Myung
    • MALSORI
    • /
    • no.57
    • /
    • pp.59-72
    • /
    • 2006
  • The purpose of this study was to see whether Korean-English bilinguals' semantic systems of Korean and English are shared or separated between the two languages. In a series of picture-word interference tasks, participants were required to name the pictures in Korean or in English with distractor words printed either in Korean or English. The distractor words were any of identical, semantically related, or neutral to the picture. The response time of naming was facilitated when distractor words were semantically identical for both same- and different-language pairs. But this facilitation effect was stronger when naming was produced in their native language, which in this case was Korean. Also, inhibitory effect was found when the picture and its distractor word were semantically related in both same- and different-language paired conditions. From these results it can be concluded that semantic representations of Korean and English may not be entirely but partly overlapping in bilinguals.

  • PDF

A Study on the Speech Signal Processing for Cochlear Implant using the PLP Analysis (청각보철을 위한 PLP방식의 음성신호처리에 관한 연구)

  • Kim, Young-Sun;Choi, Doo-Il;Park, Sang-Hui;Beack, Seung-Hwa
    • Proceedings of the KOSOMBE Conference
    • /
    • v.1992 no.05
    • /
    • pp.167-170
    • /
    • 1992
  • 본 논문에서는 감각성 난청자들이 정상인들과 유사한 음성 인식을 하도록 청각 보철 기기를 구성하였다. 음성의 포먼트를 추출하기 위해서는 PLP(Perceptual Linear Prediction) 방식을 이용하였으며, pitch 추출을 위해서는 3 단계 클리핑 함수를 이용한 자기 상관법을 이용하였다. 또한 다중 채널 - 다중 전극 방식을 이용하여 내이의 헤어셀에 17 개의 전극을 삽입하여 신호를 가하는 시뮬레이션을 하였다. 실험에 사용한 데이타는 모음 /a/, /e/, /i/, /o/, /u/로 전모음과 후모음의 차이를 구별하였으며 두번째 포먼트의 변화와 포먼트 통합 이론에 대한 검증을 하였다.

  • PDF

Polyphase Representation of the Relationships Among Fullband, Subband, and Block Adaptive Filters

  • Tsai, Chimin
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 2005.06a
    • /
    • pp.1435-1438
    • /
    • 2005
  • In hands-free telephone systems, the received speech signal is fed back to the microphone and constitutes the so-called echo. To cancel the effect of this time-varying echo path, it is necessary to device an adaptive filter between the receiving and the transmitting ends. For a typical FIR realization, the length of the fullband adaptive filter results in high computational complexity and low convergence rate. Consequently, subband adaptive filtering schemes have been proposed to improve the performance. In this work, we use deterministic approach to analyze the relationship between fullband and subband adaptive filtering structures. With block adaptive filtering structure as an intermediate stage, the analysis is divided into two parts. First, to avoid aliasing, it is found that the matrix of block adaptive filters is in the form of pseudocirculant, and the elements of this matrix are the polyphase components of the fullband adaptive filter. Second, to transmit the near-end voice signal faithfully, the analysis and the synthesis filter banks in the subband adaptive filtering structure must form a perfect reconstruction pair. Using polyphase representation, the relationship between the block and the subband adaptive filters is derived.

  • PDF