• 제목/요약/키워드: 음성기반

검색결과 2,233건 처리시간 0.036초

음성인식기반 관제일지 자동화 시스템 개발에 관한 연구

  • 남경태;김남수;이영근;정현우
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.21-23
    • /
    • 2022
  • 본 연구는 해상교통관제에서 주 교신수단으로 사용되는 VHF 통신의 음성데이터를 음성인식기술을 이용하여 문자로 자동변환하고 이를 기반으로 관제일지를 자동화하여 관리하는 시스템의 개발에 대한 것으로, 현재 수기에 의해 작성되는 관제일지를 표준화하고 전자화하여 관제사의 업무효율을 향상시키고, VHF 교신데이터의 활용성을 최대화하는 것을 목표로 하는 연구이다..

  • PDF

문자정보 기반 비디오 분할에서 성능 향상을 위한 음성신호처리 (Speech Signal Processing for Performance Improvement of Text-Based Video Segmentation)

  • 이용주;손종목;강경옥;배건성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1999년도 학술대회
    • /
    • pp.187-191
    • /
    • 1999
  • 비디오 프로그램에서 영상 내에 포함되어 있는 문자정보는 동영상의 내용 검색 및 색인을 위한 비디오 분할에 사용될 수 있다. 일반적으로 장면 내에 포함되어 있는 문자들은 해상도가 낮고 글자 크기와 형태가 다양하기 때문에 추출과 인식이 어려울 뿐만 아니라 의도하지 않은 배경화면의 문자인 경우도 많기 때문에 내용기반 검색에는 사용되기가 어렵다. 그러나 비디오 내에 포함된 문자정보가 나타나는 시작 프레임과 끝나는 프레임을 검출하여 비디오 프로그램을 분할함으로써 내용기반요약정보를 만들 수 있으며, 동영상의 내용 검색 및 색인에 사용할 수 있다. 일반적으로 문자정보의 추출에 의해서 비디오를 분할할 때 음성정보는 전혀 고려되지 않으므로 분할된 비디오 정보를 재생할 경우음성신호가 단어 또는 어절/음절의 임의의 점에서 시작되고 끝나게 되어 듣기에 부자연스럽게 된다 따라서 본 논문에서는 뉴스방송의 비디오 프로그램에서 문자정보가 포함되어 는 비디오의 시작 프레임과 끝 프레임을 중심으로 그에 대응되는 구간의 음성신호를 검출한 후 이를 적절히 처리하여 분할 된 비디오를 재생할 때 음성신호가 보다 자연스럽게 들릴 수 있도록 하는 방법에 대해 연구하였다.

  • PDF

어휘독립 환경에서의 가변어휘 음성인식에 관한 연구 (A Study on the Variable Vocabulary Speech Recognition in the Vocabulary-Independent Environments)

  • 황병한
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.369-372
    • /
    • 1998
  • 본 논문은 어휘독립(Vocabulary-Independent) 환경에서 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경할 수 있는 가변어휘(Variable Vocabulary) 음성인식에 관한 연구를 다룬다. 가변어휘 인식은 처음에 대용량 음성 데이터베이스(DB)로 음소모델을 훈련하고 인식대상 어휘가 결정되면 발음사전에 의거하여 음소모델을 연결함으로써 별도의 훈련과정 없이 인식대상 어휘를 변경 및 추가할 수 있다. 문맥 종속형(Context-Dependent) 음소 모델인 triphone을 사용하여 인식실험을 하였고, 인식성능의 비교를 위해 어휘종속 모델을 별도로 구성하여 인식실험을 하였다. Unseen triphone 문제와 훈련 DB의 부족으로 인한 모델 파라메터의 신뢰성 저하를 방지하기 위해 state-tying 방법 중 음성학적 지식에 기반을 둔 tree-based clustering(TBC) 기법[1]을 도입하였다. Mel Frequency Cepstrum Coefficient(MFCC)와 대수에너지에 기반을 둔 3 가지 음성특징 벡터를 사용하여 인식 실험을 병행하였고, 연속 확률분포를 가지는 Hidden Markov Model(HMM) 기반의 고립단어 인식시스템을 구현하였다. 인식 실험에는 22 개 부서명 DB[3]를 사용하였다. 실험결과 어휘독립 환경에서 최고 98.4%의 인식률이 얻어졌으며, 어휘종속 환경에서의 인식률 99.7%에 근접한 성능을 보였다.

  • PDF

새로운 서브밴드 추정-스펙트럼 차감법에 기반한 음성향상방법에 관한 연구 (A Study on Speech Enhancement Method Based on the New Spectral Subtraction with Subband Estimation)

  • 주상현;김수남;김기두
    • 한국통신학회논문지
    • /
    • 제26권10B호
    • /
    • pp.1360-1366
    • /
    • 2001
  • 이 논문에서는, 잡음환경에서의 음성 향상을 위해서 일반적인 주파수 차감법에 기반한 새로운 형태의 방법을 제안한다. 기존의 방법들이 각각의 주파수 성분에 대해 잡음 및 음성스펙트럼을 추정하는데 비해, 본 논문에서는 주파수 대역을 여러 개의 서브밴드로 대역을 나누어 각각의 서브밴드에 대해서 잡음 및 음성의 스펙트럼을 추정한다. 본 논문에서는 잡음 스펙트럼을 추정하기 위하여 최소추적(Minima Tracking) 방법을 선택하였고, 필터링 방법으로는 스펙트럼 차감법에 기반한 Mel-Scaled 필터뱅크를 이용한 새로운 방법을 제안하였다. 모의실험결과, 기존의 방법들에 비해 음성구간에서의 SNR의 향상정도는 입력 SNR이 -10∼4dB의 범위에서 향상된 결과를 얻었다. 또한 전 구간에 대해서도 다른 알고리즘들 보다 향상된 결과를 얻었다.

  • PDF

텔레매틱스 환경에서 음성 컨텐츠 제공 시스템 (Voice Contents Providing System in Telematics Environment)

  • 김철수;김종익;윤대섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (D)
    • /
    • pp.553-556
    • /
    • 2006
  • 텔레매틱스는 통신장치와 컴퓨터를 이용하여 경로안내 서비스, 주변정보안내, 이메일 서비스 등과 같은 다양한 서비스를 차량 사용자에게 제공하는 통합기술이다. 운전자가 차량 운행 중에 작은 장치에 데이터를 입력하거나 디스플레이된 정보를 읽는 것은 무척 위험하다. 그래서 우리는 운전자의 손은 운전대에 그리고 눈은 도로 및 주변상황을 확인할 수 있도록 하기 위해서 개방형 텔레매틱스 환경에서 음성기반의 시스템을 개발할 수 있는 시스템 구조를 제안하였다. 그리고 제안된 시스템 구조를 이용하여 개방형 텔레매틱스 시스템을 위한 텔레매틱스 게이트웨이와 프레임워크를 기반으로 텔레매틱스용 음성기반 이메일 서비스를 개발하였다.

  • PDF

SIP 기반 음성 통신 환경에서의 실시간 모니터링 플랫폼 개발 (The Real-time Monitoring for SIP-based VoIP Network)

  • 우호진;이원석
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2009년도 춘계학술대회
    • /
    • pp.365-368
    • /
    • 2009
  • 고속 인터넷 망 구축과 멀티미디어 통신 수요의 증가에 따라 VoIP는 기존의 PSTN 망의 대체 혹은 확장 기술로서 지속적으로 검증되어 왔다. 음성 데이터 처리 규약들 중 SIP는 다른 규약에 비해 신호 처리 단계가 간단하기 때문에 이를 기반으로 RTP를 활용하여 음성 통신 시스템을 구축하는 사례가 늘어나고 있다. 그러나 RTP의 특성상 패킷을 처리할 때마다 복원 과정이 필요하며, 다중 세션으로 통신이 발생할 경우 전체 패킷들의 관리가 복잡해지므로 이들 간에 혼선 없이 데이터를 처리 및 유지할 수 있는 방법론이 요구된다. 본 논문에서는 SIP 기반의 IP 전화를 통해서 고객과 상담원 간의 통화 이벤트가 발생하는 일반 콜센터 환경에서 RTP 음성 데이터를 처리하는 다중 세션 어플리케이션의 구축 사례를 제시한다. 구현한 시스템은 IP 전화에서 발생하는 통화 내역을 통합 스위치 서버에서 포트 미러링하여 녹취 및 녹음 서버로 전송하며, 전송된 패킷 정보들의 세션이 유지되고 있는 동안 음성 데이터를 실시간으로 모니터링한다.

  • PDF

내장형 음성 인식 시스템을 위한 심층 신경망 최적화 방법 (Deep Neural Network Optimization for Embedded Speech Recognition)

  • 정훈;최우용;박전규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-233
    • /
    • 2015
  • 본 논문에서는 심층 신경망 기반의 내장형 음성 인식 시스템에서 음성 인식 속도를 개선하기 위한 최적화 방법에 대해 논한다. 심층 신경망 기반의 음성 인식은 기존의 Gaussian Mixture Model (GMM) 기반에 비해 좋은 인식 성능을 보이지만 높은 연산량으로 인해 리소스가 제약된 내장형 단말기에 적용하기에는 어려움이 따른다. 따라서, 본 연구에서는 심층 신경망의 계산량 문제를 해결하고자 ARM 코어에 내장된 병렬 명령어를 사용한 최적화 기법과 특이값 분해를 통해 심층 신경망 매트릭스 연산량 감소 방안에 대해 제안한다.

  • PDF

SAPI 기반 CPI 모듈을 이용한 주식정보 시스템 구현 (Stocks information Implementation System based on the SAIP at CTI module)

  • 오세일;고진한;박원배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.439-441
    • /
    • 2001
  • 보이스 포탈(Voice Portal) 서비스란 알고자 하는 정보를 음성으로 전화를 통해 명령하면 원하는 정보를 음성으로 서비스이다. 본 논문에서 구현된 시스템은 원하는 주식 정보를 음성으로 명령하면 Voice XML 서버가 찾고자 하는 주식 종목을 검색하여 다시 음성으로 알려주는 시스템이다. 인증의 절차를 수행하는 SMS(Short Message Service) 서버 모듈, PSTN 망과 Database 서버사이의 인터페이스를 제공하는 CTI(Computer Telephony Integration) 모듈, CTI 서버와 WWW(World Wide Web) 사이의 Voice XML 모듈, 정보를 검색하기 위한 Searching 모듈들이 필요하다. 음성 인식 기술을 기반으로 한 CTI 모듈 설계를 구현하였다. 또한 인정 방식으로 Random한 일회용 패스워드를 기반으로 한 SML 인증을 택하므로 더욱 더 안정된 서비스 제공을 목적으로 하였다.

음성인식을 이용한 ROS 기반 서빙 로봇 원격 제어 연구 (A Study on ROS based Control of Serving Robot Using Speech Recognition)

  • 김병준;이서현;조은영;박해준;권남규
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.211-212
    • /
    • 2021
  • 본 논문에서는 싱글보드 컴퓨터 Jetson nano 기반 음성 라이브러리 Snowboy를 활용하여 음성인식 시스템을 구현하여 Turtlebot의 동작을 제어하였다. Turtlebot은 ROS(Robot Operating System) 기반으로 동작하며 ROS core를 통해 Jetson nano와 데이터전송이 가능하다. 사용자에 의해 실시간으로 Snowboy에 저장된 특정 음성을 인식하고 지정된 좌표로 변환한다. 변환된 좌표에 따라 Turtlebot이 지정된 위치로 이동한다. Lidar센서를 활용하여 장애물을 감지하고 다른 경로를 생성해 지정된 위치로 이동한다.

  • PDF

콘포머 기반 FastSpeech2를 이용한 한국어 음식 주문 문장 음성합성기 (A Korean menu-ordering sentence text-to-speech system using conformer-based FastSpeech2)

  • 최예린;장재후;구명완
    • 한국음향학회지
    • /
    • 제41권3호
    • /
    • pp.359-366
    • /
    • 2022
  • 본 논문에서는 콘포머 기반 FastSpeech2를 이용한 한국어 메뉴 음성합성기를 제안한다. 콘포머는 본래 음성 인식 분야에서 제안된 것으로, 합성곱 신경망과 트랜스포머를 결합하여 광역과 지역 정보를 모두 잘 추출할 수 있도록 한 구조다. 이를 위해 순방향 신경망을 반으로 나누어 제일 처음과 마지막에 위치시켜 멀티 헤드 셀프 어텐션 모듈과 합성곱 신경망을 감싸는 마카론 구조를 구성했다. 본 연구에서는 한국어 음성인식에서 좋은 성능이 확인된 콘포머 구조를 한국어 음성합성에 도입하였다. 기존 음성합성 모델과의 비교를 위하여 트랜스포머 기반의 FastSpeech2와 콘포머 기반의 FastSpeech2를 학습하였다. 이때 데이터셋은 음소 분포를 고려한 자체 제작 데이터셋을 이용하였다. 특히 일반대화 뿐만 아니라, 음식 주문 문장 특화 코퍼스를 제작하고 이를 음성합성 훈련에 사용하였다. 이를 통해 외래어 발음에 대한 기존 음성합성 시스템의 문제점을 보완하였다. ParallelWave GAN을 이용하여 합성음을 생성하고 평가한 결과, 콘포머 기반의 FastSpeech2가 월등한 성능인 MOS 4.04을 달성했다. 본 연구를 통해 한국어 음성합성 모델에서, 동일한 구조를 트랜스포머에서 콘포머로 변경하였을 때 성능이 개선됨을 확인하였다.