• 제목/요약/키워드: 학습벡터 양자화

검색결과 47건 처리시간 0.022초

벡터 양자화를 위한 학습 알고리즘을 이용한 음성 전송 기술에 관한 연구 (A study on the competitive learning algorithm for robust vector qantization to transmit speech signal)

  • 홍강유;박상희
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 하계학술대회 논문집 G
    • /
    • pp.3150-3152
    • /
    • 1999
  • The efficient representation and encoding of signals with limited resources, e.g., finite storage capacity and restricted transmission bandwidth, is a fundamental problem in technical information processing systems. Typically under realistic circumstances, the encoding and communication of message has to deal with different sources of noise and disturbances. In this paper, I propose a unifying approach to data compression by robust vector quantization, which explicitly deals with channel noise, and random elimination of prototypes. The resulting algorithm is able to limit the detrimental effect of noise in a very general communication scenario. In this paper, based on the robust vector quantization I have an experiment about speech coding.

  • PDF

DCT 맵 FSVQ와 단방향 분포 허프만 트리를 이용한 영상 압축 (Image Compression Using DCT Map FSVQ and Single - side Distribution Huffman Tree)

  • 조성환
    • 한국정보처리학회논문지
    • /
    • 제4권10호
    • /
    • pp.2615-2628
    • /
    • 1997
  • 본 논문에서는 영상 전송을 위한 벡터 양자화기를 설계할 때 2차원 DCT에 근거한 DCT 맵과 유한상태 벡터 양자화를 이용하는 새로운 부호책(codebook) 설계 알고리듬을 제안한다. 영상을 윤곽선이 많은 부분과 적은 부분으로 나누어 맵을 만들고 이 맵에 따라 영상의 중요한 특징들을 2차원 DCT로 추출한다. 유한상태 벡터 양자화기의 마스터 부호책은 트리 구조에 근거한 2진 트리를 사용하여 두 영역을 따로 학습세트로 나눔으로서 만들어진다. 이와 같이 작성된 마스터 부호책으로부터 상태 부호책을 작성하여 입력 벡터에 대하여 마스터 부호책이 아닌 상태 부호책으로부터 부호단어를 찾는다. 또한 인덱스의 부호화는 고속 디지털 전송에 중요한 부분이기 때문에 고정길이의 부호를 엔트로피 부호화 법칙에 따라 가변 길이의 부호로 바꾸어 수행한다. 즉, 설계한 부호책에서 각 부호에 전송 부호 할당은 허프만 부호화를 수행하는데, 허프만 트리에서의 허프만 코드의 생성을 빠르게 하기 위해 본 논문에서는 트리의 단방향 분포 허프만 트리 알고리듬을 제안한다. Einstein과 Bridge 영상에 대하여 본 알고리듬으로 영상을 부호화했을 때 PNN 알고리듬보다는 각각 2.94 dB과 2.48 dB만큼, CVQ 알고리듬보다 각각 약 1.75 dB과 0.99dB만큼 더 좋은 영상의 화질을 얻을 수 있었다.

  • PDF

연속분포 HMM을 이용한 한국어 연속 음성 인식 시스템 개발 (On the Development of a Continuous Speech Recognition System Using Continuous Hidden Markov Model for Korean Language)

  • 김도영;박용규;권오욱;은종관;박성현
    • 한국음향학회지
    • /
    • 제13권1호
    • /
    • pp.24-31
    • /
    • 1994
  • 본 논문에서는 연속분포 hidden Markov모델을 이용한 화자독립 연속 음성 인식 시스템에 관해 기술한다. 연속분포 모델은 평균과 분산 벡터로 구성되며 음성신호를 직접 모델링하여 양자화 왜곡이 없어진다. 특징벡터는 filter bank 계수 및 그 1, 2차 미분계수를 사용하여 음성신호의 동적 특성을 반영하였다. Segmental K-means 알고리즘을 이용하여 학습하였으며, 연속어 인식에서 가장 문제가 되는 조음화 현상으로 인한 인식률 저하를 막기 위해 앞뒤의 음소를 고려해주는 triphone을 인식단위로 사용하였다. Search 알고리즘으로는 시간 면에서 효율이 좋은 one-pass search 알고리즘을 사용하였다 성능 평가를 위한 회자 독립인식 실험에서 문법이 없을 경우 $83\%$, finite state network을 적용한 경우에는 $94\%$의 인식률을 나타내었다.

  • PDF

유전 알고리즘에서의 자기 조직화 신경망의 활용 (New Usage of SOM for Genetic Algorithm)

  • 김정환;문병로
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권4호
    • /
    • pp.440-448
    • /
    • 2006
  • 자기 조직화 신경망 (SOM: Self-Organizing Map)은 자율 학습 신경망으로 사전 지식이 존재하지 않는 자료에 존재하는 구조적 관계성을 보전하는데 이용된다. 자기 조직화 신경망은 벡터 양자화, 조합 최적화, 패턴 인식과 같은 복잡한 문제 해결을 위한 연구에 많이 이용되어 왔다. 이 논문에서는 좀더 효율적인 유전 알고리즘을 얻기 위한 스키마 변환 도구로서 자기 조직화 신경망을 이용하는 새로운 사용법에 대해서 제안한다. 즉, 각 자식해는 탐색 공간에서 좀더 바람직한 모양을 가지는 동질의 인공 신경망으로 변환된다. 이 변환으로 인해 강한 상위(epistasis)를 가지는 유전자들은 염색체 상에서 서로 인접하게 되는 것이다. 실험 결과는 기존 결과에 비해서 주목할만한 성능 개선이 있음을 보여준다.

사상멤버쉽함수에 의한 화자적응 단어인식 (Speaker-adaptive Word Recognition Using Mapped Membership Function)

  • 이기영;최갑석
    • 한국음향학회지
    • /
    • 제11권3호
    • /
    • pp.40-52
    • /
    • 1992
  • 본논문에서는 불특정화자 음성인식의 문제점이 되는 개인차에 의한 변동을 흡수하기 위하여 사상멤버쉽함수에 의한 화자적응 단어인식 방법을 제안하였다. 이방법의 학습과정에서는 미지화자의 표준화자의 스펙트럼패턴 사이에서 작성된 사상코드북에 퍼지이론을 도입하여 사상멤버쉽함수를 작성하였으며, 인식과정에서는 미지화자의 음성패턴을 사상멤버쉽함수에 의해 표준화자의 음성패턴에 적응된 패턴으로 재구성하고 뉴럴-퍼지패턴매칭에 의해 단어를 인식하였다. 본 방법의 타당성을 평가하기 위하여, 28개의 DDD 지역명을 대상으로 실험한 결과, 종래의 사상코드북에 의한 벡터양자화 화자적응방법에서는 64.9[%], 퍼지벡터양자화 화자적응방법에서는 76.1[%]의 인식율을 얻었으나, 사상멤버쉽함수에 의한 화자적응방법에서는 95.4[%]의 향상된 인식율을 얻으므로써 인식성능의 우수함을 확인하였다. 또한 사상멤버쉽함수의 작성과정에서는 반복된 학습과정이 불피요하며, 기억용량과 계산량도 사상코드북에 의한 화자적응방법보다 각각 1/30, 1/500배 정도였다.

  • PDF

배경 모델 갱신을 통한 코드북 기반의 전배경 분할 (Codebook-Based Foreground-Background Segmentation with Background Model Updating)

  • 정재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권5호
    • /
    • pp.375-381
    • /
    • 2016
  • 최근 코드북 기반의 전 배경 분리 알고리즘에 대한 연구가 활발히 진행되고 있다. 코드북은 입력 영상 시퀀스로부터 화소당 하나씩 만들어 지는데, 코드북 내의 각 코드워드는 동일 위치의 훈련 화소들을 대상으로 양자화를 수행한 클러스터 대표 벡터이다. 일반적인 코드북 기반 방법들은 초기 배경 모델 생성을 위하여 긴 시간동안 훈련 샘플들의 학습 과정을 거친다. 본 논문에서는 초기 몇 장의 프레임으로 부터 간단한 중위수 연산을 통하여 초기 배경 모델을 생성하고, 시간의 흐름에 따라 변화된 배경 정보를 포함할 수 있도록 코드워드의 사용 빈도수에 기반하여 배경 모델을 갱신한다. 제안한 알고리즘을 OpenCV 3.0과 연동하여 C언어로 구현하여 몇 개의 PETS2009 데이터에 적용 실험하였다. 해당 데이터는 준-주기적 움직임을 갖는 영상 시퀀스, 이동 물체의 일시 정지 등의 시나리오를 포함하고 있다. 실험을 통하여 제안한 방식이 GMM 알고리즘, 표준 코드북 알고리즘에 비하여 우수한 성능을 나타내고 있음을 확인하였다.

Hi, KIA! 기계 학습을 이용한 기동어 기반 감성 분류 (Hi, KIA! Classifying Emotional States from Wake-up Words Using Machine Learning)

  • 김태수;김영우;김근형;김철민;전형석;석현정
    • 감성과학
    • /
    • 제24권1호
    • /
    • pp.91-104
    • /
    • 2021
  • 본 연구에서는 승용차에서 사람들이 기기를 사용하기 위해 사용하는 기동어인 "Hi, KIA!"의 감성을 기계학습을 기반으로 분류가 가능한가에 대해 탐색하였다. 감성 분류를 위해 신남, 화남, 절망, 보통 총 4가지 감정별로 3가지 시나리오를 작성하여, 자동차 운전 상황에서 발생할 수 있는 12가지의 사용자 감정 시나리오를 제작하였다. 시각화 자료를 기반으로 총 9명의 대학생을 대상으로 녹음을 진행하였다. 수집된 녹음 파일의 전체 문장에서 기동어 부분만 별도로 추출하는 과정을 거쳐, 전체 문장 파일, 기동어 파일 총 두 개의 데이터 세트로 정리되었다. 음성 분석에서는 음향 특성을 추출하고 추출된 데이터를 svmRadial 방법을 이용하여 기계 학습 기반의 알고리즘을 제작해, 제작된 알고리즘의 감정 예측 정확성 및 가능성을 파악하였다. 9명의 참여자와 4개의 감정 카테고리를 통틀어 기동어의 정확성(60.19%: 22~81%)과 전체 문장의 정확성(41.51%)을 비교했다. 또한, 참여자 개별로 정확도와 민감도를 확인하였을 때, 성능을 보임을 확인하였으며, 각 사용자 별 기계 학습을 위해 선정된 피쳐들이 유사함을 확인하였다. 본 연구는 기동어만으로도 사용자의 감정 추출과 보이스 인터페이스 개발 시 기동어 감정 파악 기술이 잠재적으로 적용 가능한데 대한 실험적 증거를 제공할 수 있을 것으로 기대한다.