• 제목/요약/키워드: 음성데이터베이스

검색결과 269건 처리시간 0.03초

음성학적인 정보를 포함한 SPLICE를 이용한 잡음환경에서의 음성인식 (Speech Recognition in Noise Environments Using SPLICE with Phonetic Information)

  • 김두희;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.83-86
    • /
    • 2002
  • 훈련과정과 인식과정에서의 주변환경 잡음과 채널 특성 등의 불일치는 음성인식 성능을 급격히 저하시킨다. 이러한 불일치를 보상하기 위해서 켑스트럼 영역에서의 다양한 전처리 방법이 시도되고 있으며 최근에는 stereo 데이터와 잡음 음성의 Gaussian Mixture Model (GMM)을 이용해 보상벡터를 구하는 SPLICE 방법이 좋은 결과를 보이고 있다(1). 기존의 SPLICE가 전체 발성에 대해서 음향학적인 정보만으로 Gaussian 모델을 구하는 반면 본 논문에서는 발성에 해당하는 음소정보를 고려하여 전체 음향 공간을 각 음소에 대해 나누어서 모델링하고 각 음소에 대한 Gaussian 모델과 그 음소에 해당하는 음성데이터만을 이용하여 음소별 보상벡터가 훈련되도록 하였다. 이 경우 보상벡터는 잡음이 각 음소에 미치는 영향을 보다 자세히 나타내게 된다. Aurora 2 데이터베이스를 이용한 실험결과, 제안된 방법이 기존의 SPLICE방법에 비해 성능향상을 보였다.

  • PDF

가변어휘 음성인식기 구현에 관한 연구 (A Study on the Implementatin of Vocalbulary Independent Korean Speech Recognizer)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.60-63
    • /
    • 1998
  • 본 논문에서는 사용자가 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경이 가능한 가변어휘 인식시스템에 관하여 기술한다. 가변어휘 음성인식에서는 미리 구성된 음소모델을 토대로 인식대상 어휘가 결정되명 발음사전에 의거하여 이들 어휘에 해당하는 음소모델을 연결함으로써 단어모델을 만든다. 사용된 음소모델은 현재 음소의 앞뒤의 음소 context를 고려한 문맥종속형(Context-Dependent)음소모델인 triphone을 사용하였고, 연속확률분포를 가지는 Hidden Markov Model(HMM)기반의 고립단어인식 시스템을 구현하였다. 비교를 위해 문맥 독립형 음소모델인 monophone으로 인식실험을 병행하였다. 개발된 시스템은 음성특징벡터로 MFCC(Mel Frequency Cepstrum Coefficient)를 사용하였으며, test 환경에서 나타나지 않은 unseen triphone 문제를 해결하기 위하여 state-tying 방법중 음성학적 지식에 기반을 둔 tree-based clustering 기법을 도입하였다. 음소모델 훈련에는 ETRI에서 구축한 POW (Phonetically Optimized Words) 음성 데이터베이스(DB)[1]를 사용하였고, 어휘독립인식실험에는 POW DB와 관련없는 22개의 부서명을 50명이 발음한 총 1.100개의 고립단어 부서 DB[2]를 사용하였다. 인식실험결과 문맥독립형 음소모델이 88.6%를 보인데 비해 문맥종속형 음소모델은 96.2%의 더 나은 성능을 보였다.

  • PDF

음성기반 회의록 시스템 설계 및 구현 (Design & Implementation of Audio Minute System)

  • 표상호;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.205-208
    • /
    • 2001
  • 인터넷과 컴퓨터 하드웨어 및 통신망의 발달로 멀티미디어 분야는 고도 정보 사회의 핵심적인 영역으로 부상되고 있으며, 멀티미디어 데이터에 대한 사용자의 요구도 날로 증가하고 있다. 문서, 녹취록, 테이프 형태로 관리되는 멀티미디어 데이터의 경우는 파일의 속성(attribute)에 대한 검색만이 아니라 내용(content)에 대한 검색이 필요하고, 따라서 순차검색 위주인 기존방법은 데이터의 활용 측면에서 문제가 있다. 본 논문에서는 멀티미디어 자료 중 음성 데이터를 저장 관리하는 방안으로 음성 데이터를 화면으로 도시하고 음성의 시작점과 끝점구간을 키로 하여 자동으로 데이터베이스에 삽입한 후 여기에 주석을 입력하는 음성기반 회의록 시스템(Audio Minute System)을 구현하고 그에 따른 기대효과를 제시한다.

  • PDF

셀룰러 시스템에서 이동멀티미디어 서비스지원을 위한 CDMA R-ALOHA의 성능분석 (A CDMA Reservation ALOHA Protocol for Mobile Multimedia Integrated Cellular Systems)

  • 허경;김수원;엄두섭;차균현
    • 한국통신학회논문지
    • /
    • 제25권11A호
    • /
    • pp.1630-1641
    • /
    • 2000
  • 본 논문은 셀룰러 시스템 상향 링크에서 음성데이터 및 실시간 영상데이터로 구성된 화상전화서비스, 고속 및 저속 데이터베이스의 다중 전송률 멀티미디어 서비스를 통합 지원할수 있는 CDMA R-ALOHA 프로토콜을 제안하였다. 제안된 프로토콜은 액세스슬롯과 전송슬롯으로 구분된 프레임의 구조를 이용한 코드할당 방식으로 전송슬롯에서의 간섭을 줄였다. 그리고, 각 서비스의 트래픽 특성에 따른 전송코드 예약과 화상전화서비스 사용자의 핸드오프호를 고려하여 분석된 각 서비스 부시스템의 Markov-chain 모델을 이용한 각 서비스의 채널 경쟁 사용자수 추정을 기반으로 서비스별 액세스 허용확률을 제안하여, 액세스슬롯에서의 패킷 충돌을 감소시키고 핸드오프호의 우선권을 보장할 수있다. 또한 화상전화서비스의 영상데이터 전송정보를 이용한 코드 예약방식을 제안하여, 음성 트래픽을 패킷의 손실이 없이 지원하였고 고속 및 저속 데이터베이스를 통해 채널 이용효율을 극대화하였다.

  • PDF

Component 기반 Interactive Multimedia Webboard 시스템의 설계 및 구현 (Design and Implementation of Multimedia Webboard System Using Component Technology)

  • 곽미라;김도년;강민숙;조동섭
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1999년도 하계학술대회 논문집 G
    • /
    • pp.2968-2970
    • /
    • 1999
  • 본 논문에서는 컴포넌트 기술을 기반으로 한 인터액티브 멀티미디어 웹보드 시스템을 설계, 구현하고 있다. 이 시스템은 문서를 게시하고 파일을 첨부하는, 일반적인 웹 기반의 게시판을 확장한 것으로, 이러한 기본적 기능 외에 사용자로 하여금 동영상, 음성, 정지영상을 캡쳐하여 전송할 수 있도록 하는 기능을 제공한다. 이와 같은 작업은 ActiveX 컨트롤이 임베드된 웹 페이지 상에서 이루어지므로, 사용자에게는 브라우저 외의 별도의 프로그램이 요구되지 않는다. 이 시스템을 구성하는 주요한 기술적 요소에는 컴포넌트 기술, 웹 데이터베이스 기술 등이 있다. 컴포넌트 기술을 통해 자체적인 인터페이스를 가진 동영상 정지영상, 음성 캡쳐기능의 ActiveX 컨트롤을 구현하였고, MS SQL Server와 ASP를 이용한 웹 데이터베이스 기술을 통해 인터액티브한 인터페이스를 제공하였다.

  • PDF

한국어 유아 음성인식을 위한 수정된 Mel 주파수 캡스트럼 (Modified Mel Frequency Cepstral Coefficient for Korean Children's Speech Recognition)

  • 유재권;이경미
    • 한국콘텐츠학회논문지
    • /
    • 제13권3호
    • /
    • pp.1-8
    • /
    • 2013
  • 본 논문에서는 한국어에서 유아 대상의 음성인식 향상을 위한 새로운 특징추출 알고리즘을 제안한다. 제안하는 특징추출 알고리즘은 세 가지 방법을 통합한 기법이다. 첫째 성도의 길이가 성인에 비해 짧은 유아의 음향적 특징을 보완하기 위한 방법으로 성도정규화 방법을 사용한다. 둘째 성인의 음성과 비교했을 때 높은 스펙트럼 영역에 집중되어 있는 유아의 음향적 특징을 보완하기 위해 균일한 대역폭을 사용하는 방법이다. 마지막으로 실시간 환경에서의 잡음에 강건한 음성인식기 개발을 위해 스무딩 필터를 사용하여 보완하는 방법이다. 세 가지 방법을 통해 제안하는 특징추출 기법은 실험을 통해 유아의 음성인식 성능 향상에 도움을 준다는 것을 확인했다.

음향음성학 파라미터를 사용한 비음 위치 검출 (Nasal Place Detection with Acoustic Phonetic Parameters)

  • 이석명;최정윤;강홍구
    • 한국음향학회지
    • /
    • 제31권6호
    • /
    • pp.353-358
    • /
    • 2012
  • 논문은 지식기반의 음성인식 시스템에서 비음 위치를 검출하기 위한 음향음성학적 파라미터를 제시하였다. 음향음성학적 파라미터는 앞선 연구자들의 연구내용을 토대로 비강을 통해 음성이 발성될 때 나타나는 특징을 기반으로 하여 선별하였다. 선별된 파라미터들은 대역별 에너지 비율, 대역별 에너지의 차이, 포먼트 그리고 포먼트의 차이로써, 비음 위치에 따라 변화하는 조음기관의 영향을 잘 나타내 주었다. 이러한 음향음성학 파라미터를 이용하여 비음을 순비음(/m/), 치경비음(/n/), 그리고 연구개비음(/ng/)으로 나누는 실험을 진행하였고, TIMIT 데이터베이스로 실험하였을 때 57.5%의 검출률을 얻을 수 있었다.

마켓포커스- IPv6

  • 신승철
    • 디지털콘텐츠
    • /
    • 3호통권142호
    • /
    • pp.30-35
    • /
    • 2005
  • 휴대인터넷, VoIP(음성데이터통합) 서비스에 새로운 인터넷 주소체계인 IPv6(IP version 6)을 지원하기 위한 2차 KOREAv6(KOREA IPv6) 시범사업이 이달부터 본격화되면서 ‘IPv6 특수’에 대한 기대감이 한껏 커지고 있다. IPv6를 둘러싼 정책 추진 현황과 업계반응을 살펴봤다.

  • PDF

한국형 감정 음성 데이터베이스 구축을 위한 타당도 연구 (Development and validation of a Korean Affective Voice Database)

  • 김예지;송혜선;전예솔;오유림;이영미
    • 말소리와 음성과학
    • /
    • 제14권3호
    • /
    • pp.77-86
    • /
    • 2022
  • 본 연구는 운율을 기반으로 감정을 인식하는 능력을 측정할 때 이용할 수 있는 한국형 감정 음성 데이터베이스(Korean Affective Voice Database, 이하 KAV DB)를 개발하고, 해당 DB가 의사소통장애 관련 임상과 연구에서 활용될 수 있는지를 점검하기 위하여 신뢰도, 민감도, 특이도를 산출하여 그 타당성을 살펴보았다. 본 연구에서는 배우 2명(남 1명, 여 1명)이 의미적으로 중립적인 문장 10개를 행복, 분노, 공포, 슬픔, 놀람, 중립의 6개 정서로 표현하도록 하여 음성을 녹음하였다. 녹음된 음성 중에서 목표 정서가 잘 표현된 문장을 선별하여 타당도 점검을 위한 음성파일 세트를 구성하였으며, 청자 31명(남 14명, 여 17명)이 시각적 아날로그 평정법을 이용하여 각 음성에서 6개의 정서가 얼마나 반영되었는지 평정하도록 하였다. 그 결과, KAV DB에 대한 청자의 내적 일관성 신뢰도는 .872, 전체 민감도 82.8%, 전체 특이도 83.8%였다. 이를 통하여, 타당도가 확보된 KAV DB는 감정 음성 인식 및 산출과 관련된 연구와 임상 콘텐츠 제작 등에 활용될 수 있을 것으로 기대된다.

음성활동영역검색을 사용하는 유색잡음에 오염된 음성의 향상을 위한 일반화 부공간 접근 (A Generalized Subspace Approach for Enhancing Speech Corrupted by Colored Noise Using Voice Activity Detector(VAD))

  • 손경식;김현태
    • 한국정보통신학회논문지
    • /
    • 제17권8호
    • /
    • pp.1769-1776
    • /
    • 2013
  • 본 논문에서는 유색잡음에 의해 오염된 음성신호의 음성향상 알고리즘인 YL 접근법에 VAD(voice activity detector)를 구현하는 수정된 알고리즘을 제안한다. 제안한 알고리즘을 YL 접근법 및 LS 접근법과 컴퓨터 시뮬레이션으로 성능을 비교하였다. 사용한 유색잡음은 자동차 잡음과 다중화자 배블 잡음으로 AURORA 데이터베이스로 부터 각각 발췌하였고, 음성신호는 TIMIT 데이터 베이스로부터 발췌하였다. 제안한 알고리즘을 실험했을 때 제안하는 방법이 신호대잡음비 및 스펙트럼 왜곡 측면에서 기존의 두 알고리즘 보다 개선됨을 확인하였다.