• 제목/요약/키워드: 음성데이터

검색결과 1,786건 처리시간 0.051초

연속분포 HMM을 이용한 음성인식 시스템에 관한 연구 (A Study on Speech Recognition System Using Continuous HMM)

  • 김상덕;이극
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.221-225
    • /
    • 1998
  • 본 논문에서는 연속분포(Continuous) HMM(hidden Markov model)을 기반으로 하여 한국어 고립단어인식 시스템을 설계, 구현하였다. 시스템의 학습과 평가를 위해 자동차 항법용 음성 명령어 도메인에서 추출한 10개의 고립단어를 대상으로 음성 데이터 베이스를 구축하였다. 음성 특징 파라미터로는 MFCCs(Mel Frequency Cepstral Coefficients)와 차분(delta) MFCC 그리고 에너지(energy)를 사용하였다. 학습 데이터로부터 추출한 18개의 유사 음소(phoneme-like unit : PLU)를 인식단위로 HMM 모델을 만들었고 조음 결합 현상(채-articulation)을 모델링 하기 위해 트라이폰(triphone) 모델로 확장하였다. 인식기 평가는 학습에 참여한 음성 데이터와 학습에 참여하지 않은 화자가 발성한 음성 데이터를 이용해 수행하였으며 평균적으로 97.5%의 인식성능을 얻었다.

  • PDF

컴퓨터 네트워크 망에서 음성/데이터 통합 서데스를 위한 네트워크 망 설계 (Design of Network Topology for voice/data integrated Services to Computer Network)

  • 엄기복;조경룡;여현
    • 한국전자파학회:학술대회논문집
    • /
    • 한국전자파학회 2000년도 종합학술발표회 논문집 Vol.10 No.1
    • /
    • pp.20-24
    • /
    • 2000
  • VoIP는 Packet Netwark(ATM, xDSL, Frame Relay, Cable Network)망을 이용하여 음성데이터를 전송 하는 기술로서 PSTN을 통해 음성데이터를 전송하는 것보다 비용절감의 효과가 크다. 본 연구에서는 최적의 VoIP 서비스 제공을 위한 음성/데이터 통합 네트워크 망을 설계하기 위하여 IP와 ATM을 이용한 서로 다른 2개의 망을 설계하여 지연과 Routing 정책, Traffic 추가 후 지연현상에 대하여 살펴보았다. 지연은 순수한 VoIP 망을 구성 할 경우 8-10ms. VoIP+ATM으로 망을 구성 할 경우 2ms로 나타났고, 라우팅 정책(RIP, IGRP, OSPF 적용)에서는 IP 또는 IP+ATM으로 망을 구성 할 경우 RIP는 25ms, IGRP는 22ms로 나타났고, OSPF를 이용할 경우 14ms로 평가되어 OSPF를 이용한 라우팅 정책을 설정하는 것이 바람직하다고 볼 수 있다. 결론적으로 본 연구의 결과 VoIP망을 구성 할 경우 IP+ATM을 기반으로 구축하면 보다 더 효과적인 인터넷 망을 구성할 수 있음을 확인하였다.

  • PDF

유비쿼터스 홈/오피스를 위한 음성, 데이터 통합 액세스 포인트 개발에 관한 연구 (Development of Voice, Data Integrated Access Point for Ubiquitous Home/Office)

  • 이상학;김대환;정태충
    • 정보통신설비학회논문지
    • /
    • 제3권1호
    • /
    • pp.5-14
    • /
    • 2004
  • "언제, 어디에서, 어떤 형태의 접속"도 가능하게 하는 유비쿼터스 네트워크 환경의 실현을 위해 음성, 데이터의 통합은 우선 지원되어야 할 애플리케이션이다. 블루투스는 음성, 데이터의 동시 처리가 가능한 무선 개인 영역 네트워크(WPAN: Wireless Personal Area Network) 표준이다. 저가, 저전력의 무선 통신을 기반으로 휴대폰, 무전 전화기(Cordless Telephone) 의 음성 통화와 노트북, PDA 등의 정보기기의 인터넷 접속을 가능하게 한다. 본 논문에서는 블루투스의 음성, 데이터 통합처리를 구현한 블루투스 액세스 포인트(Access Point)에 대해 기술한다. 근거리 무선 데이터 통신과 유실 네트워크의 연결을 이루어 노트북, PDA 등 단말기의 인터넷 동시 접속을 지원하며 블루투스 폰의 VoIP 통화를 구현하였다. 개발 완료된 시스템의 테스트 결과 다양한 벤더들의 제품들과 호환성을 이루어 표준안을 만족하였으며 성능 면에서 역시 규격에서 제시한 최대치에 근접한 매우 우수함을 나타내었다.

  • PDF

음성기반 회의록 시스템 설계 및 구현 (Design & Implementation of Audio Minute System)

  • 표상호;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.205-208
    • /
    • 2001
  • 인터넷과 컴퓨터 하드웨어 및 통신망의 발달로 멀티미디어 분야는 고도 정보 사회의 핵심적인 영역으로 부상되고 있으며, 멀티미디어 데이터에 대한 사용자의 요구도 날로 증가하고 있다. 문서, 녹취록, 테이프 형태로 관리되는 멀티미디어 데이터의 경우는 파일의 속성(attribute)에 대한 검색만이 아니라 내용(content)에 대한 검색이 필요하고, 따라서 순차검색 위주인 기존방법은 데이터의 활용 측면에서 문제가 있다. 본 논문에서는 멀티미디어 자료 중 음성 데이터를 저장 관리하는 방안으로 음성 데이터를 화면으로 도시하고 음성의 시작점과 끝점구간을 키로 하여 자동으로 데이터베이스에 삽입한 후 여기에 주석을 입력하는 음성기반 회의록 시스템(Audio Minute System)을 구현하고 그에 따른 기대효과를 제시한다.

  • PDF

음성인식을 이용한 URL Navigator 개발 (A Development of an URL Navigator using Speech Recognition)

  • 전한길;홍인숙;김윤중
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.122-125
    • /
    • 2009
  • 기존의 인터넷 익스플로러는 높은 보급률의 이점을 지니고 있지만 인터넷을 이용하기 위한 기본지식의 필요성과 키보드, 마우스와 같은 장치를 이용한 입력방식은 장애인 및 고령층의 사용자들이 이용하기에는 불편하다. 이와 같은 문제점을 해결하고자 본 논문에서는 웹 서비스 기술을 이용하여 기존의 음성인식 시스템을 웹 서비스로 재구성하고 클라이언트가 음성인식 웹 서비스를 요청하고 음성명령이 가능하도록 인터넷 익스플로러에 음성명령이 가능한 Navigaotr를 Toolbar 형태의 프로그램을 구현하였다. 본 시스템은 클라이언트가 사용하는 음성 Navigator Toolbar와 웹 서비스를 통해서 음성 서비스를 제공하는 음성 서비스 프로바이더로 구성된다. 음성 Navigator Toolbar는 인터넷 환경에서 음성데이터를 바이너리 포맷형식인 DIME을 이용하여 음성 서비스 프로바이더로 전송하고 반환 결과를 가지고 URL Navigator를 통해 인터넷 페이지를 이동시킨다. 음성 서비스 프로바이더는 사용자가 전송한 음성데이터를 인식기를 통해 인식하고 결과를 가지고 정보 Database를 검색하여 실제 인터넷 주소를 사용자에게 반환한다.

무선 통신망에서 음성인식률 개선을 위한 보상기법 연구 (Compensation Method for Improvement of Speech Recognition in Wireless Communication Network)

  • 서진호;박호종
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.65-68
    • /
    • 2004
  • 이동통신 기술의 발전으로 이동통신 사용이 폭발적으로 증가하였고 그에 따라 이동통신망을 이용한 많은 서비스가 제공되고 있다. 이동통신망에서의 음성 인식 서비스에서 음성 인식기에 입력되는 음성신호는 통신망을 통해 음성 압축기를 거치게 되고 이에 음성신호가 왜곡되어 인식기의 인식성능이 저하된다. 본 논문에서는 무선통신 환경에서 음성인식기의 성능을 개선하기 위한 보상 방법을 제안한다. 기존의 제안된 방법은 음성 데이터에 의존하는 방법을 사용하나 본 논문에서는 음성 데이터와는 독립적 방법인 음성 압축기에 의해 손상된 입력 신호의 스펙트럼 보상방법과 Cepstrum 보정방법을 통해 인식률을 향상시키는 방법을 제안한다. 즉, 음성 압축기에 의하여 왜곡된 스펙트럼을 단계적 방법으로 보상하고 그를 토대로 왜곡된 신호에서 만들어진 Cepstrum을 보정하여 음성 인식기의 성능을 향상시키는 방법을 연구하였으며, 그 견과 손상된 음성신호의 인식률 $64.88\%$에 대하여, 본 논문에서 제안하는 보상 방법을 적용한 음성신호의 인식률은 $79.73\%$로서 $14.85\%$가 향상된 결과를 얻을 수 있었다.

  • PDF

자기상관을 이용한 음성 신호의 MIDI 변환 (Speech-to-MIDI Conversion with Autocorrelation)

  • 박상보;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (3)
    • /
    • pp.439-441
    • /
    • 2004
  • 효율적인 멀티미디어 검색의 필요성이 증대됨에 따라 내용기반 멀티미디어의 검색에 대한 다양한 기법들이 소개되고 있다. 그 중에서 친숙한 멜로디를 가지고 사용자가 직접 마이크를 통해 생성한 음성 질의에 대한 분석에 대해 다루고자 한다. 음성 질의에 사용되는 음성 데이터를 분석함으로써 검색에 이용하는 것이다. 음성데이터를 분석하기 위한 방법으로 시간영역에서 가장 많이 쓰이는 기법 중의 하나인 자기상관함수를 사용한다. 자기상관 함수를 이용하여 특정구간에서 발생하는 일정한 주기 즉 기본주기를 검출할 수 있다. 자기상관함수에 의해 분석된 결과를 가지고, 음의 높낮이를 구하기 위한 기본주파수 검출 알고리즘과 음의 길이, 음의 세기를 결정하기 위한 방법을 제안한다.

  • PDF

공용 음성 데이터 베이스 PBW452의 전화망 변환 (Conversion of Common Speech Database into Telephone Channel Environment)

  • 박준호;김태윤;고한석
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 학술발표대회 논문집 제19권 2호
    • /
    • pp.37-40
    • /
    • 2000
  • 전화망 음성 인식 시스템에서 사용할 수 있는 데이터베이스 구축의 질과 양은 인식 시스템의 성능에 중대한 영향을 미친다. 따라서, 전화망 음성 데이터 베이스 구축에 관한 효과적인 방법들이 연구되고 있다. 본 논문은 공용으로 사용할 수 있는 음성 데이터 베이스의 전화망 변환 방법 및 활용 방안에 대하여 소개한다.

  • PDF

패킷 음성/데이터 집적 단말기의 개발 (Development of an Integrated Packet Voice/Data Terminal)

  • 전홍범;은종관;조동호
    • 한국통신학회논문지
    • /
    • 제13권2호
    • /
    • pp.171-181
    • /
    • 1988
  • 본 논문에서는 packet-switched network에서 음성을 서비스하는데 있어서 고려해야 할 여러가지 점들을 살펴보고, 실제로 음성과 데이터를 동시에 서비스하는 packet voice/data terminal을 구현하였으며 그 성능 분석을 시도하였다. PVDT의 software는 OSI 7 layer architecture에 맞추어 설계하였으며 음성과 데이터를 link level부터 구별하여 서비스하였다. 또한 음성 packet의 전송 delay를 작게 하기 위해 데이터보다 음성을 우선적으로 서비스하도록 하였으며 간략화된 protocol로 재전송에 의한 overhead를 없앴다. PVDT의 hardware의 구성은 기능별로 master control module, speech processing module, speech activity detection module, telelphone interface module, input/output inteface module로 나누어진다. Packet음성통신망에 대한 해석으로는 음성 packet의 전송 delay의 variance에 의한 영향을 줄이기 위한 최적 재생지연시간을 전송 delay의 분포를 통해 계산하였다.

  • PDF

적은 훈련 데이터를 이용한 LSP 파라메터 기반의 화자종속 음성인식에 관한 연구 (A Speaker Dependent Speech Recognition Method Using LSP Parameters for Small Training Data)

  • 곽수주
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.373-376
    • /
    • 1998
  • 통신 수단의 발달로 휴대단말기의 사용이 증가하고 있으며, 이와 함께 휴대단말기에서의 음성인식에 대한 수요도 증가하고 있다. 휴대단말기의 경우 저 전송율을 가지는 음성 부호화기를 사용하게 되며, 이러한 저전송율의 음성 부호화기에서의 음성인식을 수행할 경우 인식 성능이 저하되는 현상을 보이게 된다. 본 논문에서는 이러한 문제를 해결하기 위하여 LSP 파라메터 기반의 거리척도에 관하여 비교 검토하였으며, 적은 훈련 데이터에서 사용 가능한 화자 종속 음성인식 방법으로 Dynamic Time Warping(DTW)과 변형된 Hidden Markov Model(HMM)에 관하여 검토하였다. QCELP 음성 부호화기에서 인식 어휘 당 2번의 훈련 데이터만을 이용한 화자종속 인식방법을 사용한 결과 95% 이상의 인식 성능을 얻을 수 있었다.

  • PDF