• 제목/요약/키워드: 음성분류

검색결과 627건 처리시간 0.028초

TMS320C30을 이용한 실시간 음성부 검출 알고리즘 구현 (Implementation of A REal-time Endpoint Detection Algorithm Using TMS320C30)

  • 이항섭
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.229-232
    • /
    • 1993
  • 이 논문은 최근에 개발된 실시간 음성부 검출 알고리즘[1]을 TMS320C30 System board와 IBM PC486을 이용한 implementation에 관한 논문이다. 음성부 검출 알고리즘은 Energy와 LCR(Level Crossing Rate)를 이용하여 각 frame을 음성/묵음으로 분류하는 방법을 사용하였고 DSP 보드를 사용하여 한 frame이 입력되면 다음 frame이 입력되기 전에 그 frame에 대한 음성/묵음 분류를 하여 음성입력이 끝남과 동시에 음성이라고 판단되는 부분만을 DPS moemory상에 저장하므로 불필요한 memory의 낭비를 중이고 다음 단계의 음성처리를 위한 시간을 절약하였다. 이 알고리즘의 성능 평가를 위하여 Rabiner와 Sambur의 알고리즘과 한민수의 알고리즘과를 전문가가 수작업으로 찾아낸 결과와 비교 평가하였다. 알고리즘의 오차는 평균 남성 4.925ms, 여성 5.85ms로 1 frame 이내의 오차를 보였다.

  • PDF

음성 구간 검출기의 실시간 적응화를 위한 특징 벡터의 차원 축소 방법 (Dimension Reduction Method of Feature Vector for Real-Time Adaptation of Voice Activity Detection)

  • 김평환;한학용;김창근;고시영;허강인
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 춘계학술발표대회 논문집 제23권 1호
    • /
    • pp.53-56
    • /
    • 2004
  • 본 논문은 잡음 환경하에서 특징 벡터의 차원 축소를 통한 음성 구간 검출에 관한 연구이다. 음성/비음성 분류는 통계적 모델을 이용한 분류-기반 방법을 사용한다. 검출기에서 실시간 적응화를 위해 우도-기반의 특징 벡터에 대한 차원 축소 방법을 제안한다. 이 방법은 음성/비음성 클래스에 대한 가우시안 확률 밀도 함수에 의한 비선형적 우도값을 새로운 특징으로 취하는 방법이다. 음성/비음성 결정은 우도비 검증(Likelihood Ratio Test)의 방법을 이용하며, LDA(Linear Discriminant Analys)에 의한 축소 결과와 성능을 비교한다. 실험 결과 제안된 차원 축소 방법을 통하여 2차원으로 축소된 특징 벡터가 고차원에서의 결과와 대등함을 확인하였다.

  • PDF

음성 데이터의 지능적 분류 및 컨텍스트 분석 시스템 구현 (Intelligent Classification and Context Analysis System of Voice Data)

  • 최현석;주성환;김대천;박예찬;염상길;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.162-163
    • /
    • 2016
  • 사람은 의사소통을 위해 음성, 글자, 몸짓 등 다양한 매개체를 활용한다. 오늘날 스마트폰의 발달로 문자의 비중이 높아지고 있지만 음성 대화는 여전히 사람들 사이에서 가장 많이 사용되어지는 의사소통 수단이다. 음성 대화는 녹음해서 음성 데이터로 남길 수 있다. 음성을 녹음하는 과정은 간편하지만 녹음파일에서 원하는 데이터를 찾는 것은 많은 시간이 소모된다. 본 논문에서는 음성 데이터를 인식하여 텍스트화 시키고 문자화 된 데이터를 분석하여 사용자에게 효율적으로 분류하는 시스템을 제안한다. 이 시스템으로 사용자는 음성 데이터의 내용을 들어보지 않고 파악할 수 있으며 원하는 내용을 찾을 수도 있다.

MPEG TS 패킷 분류 프로그램과 데이터 정보의 복원 프로그램 (A Decoding Program of MPEG TS Packet and A Restoring Program of Data Information)

  • 정명수;손승일
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 춘계종합학술대회
    • /
    • pp.646-650
    • /
    • 2005
  • 요즘 아날로그 방송에서 디지털 방송시대로 변화함에 따라 디지털 방송기술이 많이 발전되었다. 디지털 방송은 방송국으로부터 만들어지는 영상, 음성, 데이터 스트림들이 MPEG을 통해 효율적으로 압축하고 동기식으로 패킷화되어서 MPEG TS 패킷형식으로 서비스 이용자에게 위성 또는 지상파를 통해 전송되어진다. 방송되어지는 데이터 정보는 물론 그 외의 비관련 데이터도 제공되어짐으로써 서비스 이용범위도 많이 늘어나고 특히 기존의 영상과 음성위주의 방송과는 달리 사업자와 이용자간의 쌍방향으로 데이터를 송수신할 수 있는 기술이 고부가가치 사업으로 대두되고 있다. 디지털 방송을 수신해서 보기 위해서는 튜너로부터 수신되어 디지털화된 MPEG TS 패킷들을 분류해주는 과정이 필요하다. 본 연구에서는 실제 디지털 방송되었던 패킷 파일을 가지고 분류하였다. 영상 스트림과 음성 스트림을 분류하고 데이터 스트림을 분리하였다. 그리고 데이터 방송 규격의 데이터 스트림 파일을 별도로 입력하여 데이터를 분류하였다. 프로그램은 Microsoft visual c++6.0을 사용하여 구현하였다.

  • PDF

고속 발화음에 대한 음성 인식 향상 (Improvements on Speech Recognition for Fast Speech)

  • 이기승
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.88-95
    • /
    • 2006
  • 본 논문에서는 대화체 음성에 대한 음성 인식의 성능을 향상시키기 위한 방법으로, 고속 발화음에 대해 강인한 음성 인식 방법을 제안하고 성능을 평가하였다. 제안된 기법은 입력된 음성의 속도를 정량화하여 나타내기 위한 부가적인 음성 인식 과정이 필요치 않으며, 특정 대역내의 에너지 분포를 이용하여 모음 구간을 판정하고, 단위 시간당 모음의 개수를 구하여 음성의 속도를 측정하였다. 빠른 발성음에 대한 음성 인식의 성능을 향상시키기 위해, 기존의 방법은 표준 음소 길이와 측정된 음소 길이간의 비율을 이용하여 특징 벡터를 시간축으로 확장하였다. 제안된 방법에서는 발성 속도에 따라 음성을 분류하고, 분류된 음성에 대해 서로 다른 시간축 확장 비율을 정하도록 하였다. 여기서 분류에 필요한 문턱치들과 시간축 확장 비율들은 최대 우도 방법을 이용하여 구하였다. 10자리 이동 전화 번호에 대한 음성 인식의 실험 결과, 제안된 기법에 의해 전체적으로 $17.8\%$ 오류율이 감소되는 것을 확인할 수 있었다.

MFCC를 이용한 GMM 기반의 음성/혼합 신호 분류 (Speech/Mixed Content Signal Classification Based on GMM Using MFCC)

  • 김지은;이인성
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.185-192
    • /
    • 2013
  • 본 논문에서는 MFCC를 이용한 GMM 기반의 음성과 혼합 신호 분류 알고리즘을 MPEG의 표준 코덱인 USAC에 적용하였다. 효과적인 패턴 인식을 위해 GMM을 이용하였고, EM알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안하는 분류 알고리즘은 두 가지 중요한 부분으로 나뉜다. 첫째는 GMM을 통해 최적의 파라미터를 추출하는 것 이고, 두 번째는 MFCC 값을 이용한 패턴인식을 통해 음성/혼합 신호를 분류하였다. 제안된 알고리즘의 성능을 평가한 결과 MFCC를 이용한 GMM 기반의 제안된 방법이 기존 USAC의 방법보다 우수한 음성/혼합 신호 분류 성능을 보였다.

SMV코덱의 음성/음악 분류 성능 향상을 위한 최적화된 가중치를 적용한 입력벡터 기반의 SVM 구현 (Analysis and Implementation of Speech/Music Classification for 3GPP2 SMV Codec Employing SVM Based on Discriminative Weight Training)

  • 김상균;장준혁;조기호;김남수
    • 한국음향학회지
    • /
    • 제28권5호
    • /
    • pp.471-476
    • /
    • 2009
  • 본 논문에서는 변별적 가중치 학습 (discriminative weight training) 기반의 최적화된 가중치를 가지는 입력벡터를 구성하여 support vector machine (SVM)을 이용한 기존의 3GPP2 selectable mode vocoder (SMV)코덱의 음성/음악 분류 성능을 향상 시키는 방법을 제안한다. 구체적으로, 최소 분류 오차 minimum classification error (MCE) 방법을 도입하여, 최적화된 가중치를 각각의 특징벡터별로 부가한 SVM을 적용하여 기존의 가중치를 고려하지 않은 SVM 기반의 알고리즘과 비교하였으며, 우수한 음성/음악 분류 성능을 보였다.

ICA로 분리한 신호의 분류 (Classification of Signals Segregated using ICA)

  • 김선일
    • 전자공학회논문지 IE
    • /
    • 제47권4호
    • /
    • pp.10-17
    • /
    • 2010
  • ICA(Independent Component Analysis)를 이용하여 신호를 분리했을 때 그 중 어느 것이 원하는 신호인지 알아낼 수 있는 일반적인 방법이 없다. 본 논문에서는 자동차 배기음에 오염된 음성 신호를 가정하고 이를 ICA를 이용해 분리했을 때 분리된 신호에서 어느 것이 배기음이고 음성 신호인지 구별할 수 있는 방법을 제시하였다. 음성 신호는 음성 선호와의 상관계수가 가장 크게 나타날 것으로 예상되므로 오염된 음성 선호와 같은 동일인의 단모음 '아', '오', '우' 신호와 타인의 단모음 선호를 이용하여 분리된 각 신호와의 상관계수를 구하되 일괄 방식, 최대값 방식, 평균값 방식 등 세가지 방식으로 구하고 각 방식마다 '아', '오', '우'와의 상관 계수로 구분하고 이외에 투표 방법, 합산 방법을 추가한 다섯 가지 방법을 시도하여 가정 좋은 분류율을 나타내는 방식 및 방법을 제시하였다.

음성 신호 분석에 의한 사상 체질 분류 (Sasang Constitution Classification by Speech Signal Processing)

  • 조동욱
    • 한국통신학회논문지
    • /
    • 제31권5C호
    • /
    • pp.548-555
    • /
    • 2006
  • 본 논문에서는 사상 의학에서 가장 중요한 사상 체질 분류에 대한 방법론을 제안하고자 한다. 기존에 사상 체질 분류를 위해 사용해 온 방법들은 대개 용모사기와 체형기상에 의한 방법이었다. 또한 QSCC, QSCCII라고 불리우는 설문지를 이용하거나 사람이 말하는 음성을 듣고 판별하는 법등과 최근에는 체질 침이나 약물 반응 등의 방법도 사상 체질 분류를 위해 사용되고 있다. 그러나 이러한 방법들은 대개가 임상의들의 직관에 의지하는 방법들이 대부분으로 이와 같은 임상의들의 직관을 정량화하여 기기로 구현하는 것이 보다 정확하고 유용한 사상 체질 분류 방법이 되리라 사료된다. 이를 위해 본 논문에서는 음성 신호 분석에 의해 사상 체질을 분류하는 방법에 대해 제안하고자 한다. 각 사상 체질별로 음성 특성을 분류하고 이를 통해 피치, 인텐서티, 포먼트 값의 특징을 체질별로 차이점과 유사성을 분류하여 사상 체질 분류를 행하고자 한다. 끝으로 실험에 의해 제안한 방법의 유용성을 입증하고자 한다.

음성정보처리기술 응용서비스

  • 구명완;김재인
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.17-24
    • /
    • 2004
  • 음성정보처리 기술은 사람의 말을 음향, 언어, 심리학 및 공학적인 측면에서 연구하여 사람과 기계사이의 인터페이스를 자연스럽게 하는 것을 목표로 하고 있으며, 음성인식, 음성합성 및 언어처리 기술로 이루어져 있다. 음성인식기술이란 사람의 말을 이해하는 것뿐만 아니라 화자를 식별하고 인증하는 기술도 포함하고 있으며, 음성합성 기술이란 문자로부터 음성을 생성하는 기술을 의미한다. 그리고 언어처리 기술은 음성인식, 음성합성기술 속에 포함될 수 있으나 최근 마크업 언어를 활용하여 음성인식, 합성 등을 제어하는 경향이 도래함에 따라 언어처리 기술을 따로 분류하기도 한다[1][2].(중략)

  • PDF