• 제목/요약/키워드: Speech Processing

검색결과 956건 처리시간 0.023초

오인식 형태소 추정에 의한 한국어 문자 인식 후처리 기법 (A Postprocessing Method of Korean Character Recognition by Mis-recognized Morphology Presumption)

  • 김영훈;이영화;이상조
    • 전자공학회논문지C
    • /
    • 제36C권7호
    • /
    • pp.46-55
    • /
    • 1999
  • 본 논문에서는 형태소 분석을 이용한 후처리에서 속도 개선을 위해 사전 탐색 횟수를 줄이는 새로운 방법을 제안한다. 본 논문에서 제안하는 방법은, 오인식 어절 검출을 위한 형태소 분석 과정에서 분석되는 일부의 형태소 정보를 최대한 이용하여 오인식 어절의 형태소 구성을 추정한 후, 형태소 단위의 교정을 한다. 형태소 단위의 교정은 어절보다 길이가 짧으므로 최악의 경우라도 생성되는 후보의 수가 어절 단위의 교정보다 적다. 특히, 생성된 후보가 형태소 단위이므로 사전 탐색만으로 올바른 후보를 선택할 수 있으므로 형태소 분석으로 인한 사전 탐색 횟수를 줄일 수 있다. 본 논문에서 제안한 형태소 정보를 이용한 후처리는 기존의 어절 단위 후처리에 비해 생성된 후보의 형태소 분석이 필요 없다. 생성된 후보가 형태소이므로 사전 탐색에 의해 올바른 후보를 선택할 수 있었다. 이로 인해 사전 탐색 횟수는 어절 단위 후처리와 비교하였을 때 60%나 감소되었으며 후처리 결과 문자 인식기의 음절 인식률이 94%에서 97%로 향상되었다.

  • PDF

Knowledge Transfer Using User-Generated Data within Real-Time Cloud Services

  • Zhang, Jing;Pan, Jianhan;Cai, Zhicheng;Li, Min;Cui, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권1호
    • /
    • pp.77-92
    • /
    • 2020
  • When automatic speech recognition (ASR) is provided as a cloud service, it is easy to collect voice and application domain data from users. Harnessing these data will facilitate the provision of more personalized services. In this paper, we demonstrate our transfer learning-based knowledge service that built with the user-generated data collected through our novel system that deliveries personalized ASR service. First, we discuss the motivation, challenges, and prospects of building up such a knowledge-based service-oriented system. Second, we present a Quadruple Transfer Learning (QTL) method that can learn a classification model from a source domain and transfer it to a target domain. Third, we provide an overview architecture of our novel system that collects voice data from mobile users, labels the data via crowdsourcing, utilises these collected user-generated data to train different machine learning models, and delivers the personalised real-time cloud services. Finally, we use the E-Book data collected from our system to train classification models and apply them in the smart TV domain, and the experimental results show that our QTL method is effective in two classification tasks, which confirms that the knowledge transfer provides a value-added service for the upper-layer mobile applications in different domains.

VoiceXML을 이용한 대화형 음성 인식 증권 거래 시스템 구현 (An Implementation of Interactive Voice Recognition Stock Trading System Using VoiceXML)

  • 조창수;신정훈;홍광석
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.517-526
    • /
    • 2004
  • 본 논문에서는 음성 서비스 구현 시 개발시간을 단축시킬 수 있으며, 개발된 서비스간의 컨텐츠를 보다 자유롭게 공유할 수 있는 VoiceXML을 이용하여 응용서비스를 구현하였다. 현재까지의 음성 서비스 개발은 시스템 의존적인 API의 활용 및 C/C++등의 프로그래밍 언어나 전용 개발 도구를 사용하여 이루어져 왔다. 이로 인하여 각 응용서비스간 자원의 재활용이 어려운 실정이었다. 응용 서비스의 내용이 변경되어지거나 시스템이 바뀌게 되면 다시 프로그램을 작성하거나, 적절한 API로의 수정이 필요하였다. 이러한 문제점을 해결하기 위하여 최근에는 VoiceXML을 이용한 서비스 개발이 증가하고 있는 실정이다. 그러나 VoiceXML을 이용한 응용 서비스 구현시 실제 환경에서 발생되는 문제점 및 해결 방안에 대해서는 정확한 파학이 미비한 상황이다. 본 논문에서는 이러한 문제점들을 규명, 해결하기 위하여 VoiceXML에 기반을 둔 음성 인식 증권 거래 시스템을 구현하였으며, 서비스 구현 시 발생하는 문제점과 해결방안을 제시하였다. 또한, 구현 되어진 시스템을 토대로 응용서비스 및 시스템의 장단점을 분석한다.

NB 모델을 이용한 형태소 복원 (Morpheme Recovery Based on Naïve Bayes Model)

  • 김재훈;전길호
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.195-200
    • /
    • 2012
  • 한국어는 교착어이어서 형태소 분석 없이 품사 부착이 어려울 뿐 아니라 형태소를 분석할 때 다양한 어형 변화가 복원되어야 한다. 이것은 한국어 형태소 분석의 고질적인 문제 중 하나이며, 주로 규칙을 이용해서 해결한다. 규칙을 이용할 경우 주어진 문맥에 가장 적합한 복원을 어려워 여러 형태의 모호성을 생성하며, 이는 품사 부착에 의해서 해결된다. 본 논문에서는 이 문제를 기계학습 방법(Na$\ddot{i}$ve Bayes 모델)을 이용하여 해결한다. 기계학습 모델의 입력 자질은 어형 변화가 발생하는 주변 음절이며 출력 범주는 복원된 음절이다. ETRI 구문 말뭉치를 이용한 실험에서 제안된 형태소 복원 모델을 사용한 형태소 단위의 품사 부착 성능은 97.5%의 $F_1$점수를 보였으며 이 모델이 형태소 복원에 매우 유용함을 알 수 있었다.

영작문 자동 채점 시스템을 위한 문맥 고려 단어 오류 검사기 (Context-sensitive Word Error Detection and Correction for Automatic Scoring System of English Writing)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권1호
    • /
    • pp.45-56
    • /
    • 2015
  • 본 연구에서는 문맥 정보를 함께 고려해야만 인식할 수 있는 단어 오류에 대하여 오류 인식 방법과 수정 후보 생성 방법을 제안한다. 이 문제는 기존의 영어권에서 이미 많이 다룬 연구 주제이다. 본 연구에서는 영어 자동채점 시스템에서 사용하도록 특화된 방법을 제안한다. 문맥 정보를 고려한 단어 오류 검사에서는 자주 혼동되어 사용되는 단어집합(confusion set)을 활용한다. 비영어권 사용자의 작문 특성을 반영하기 위해 기존의 영어권에서 구축한 혼동집합 이외에 자동으로 혼동집합을 구축하여 실험해 보았다. 또한 품사 중의성으로 인해 기존의 구문오류 검사기가 다루지 못하는 오류를 정의하고 오류 인식과 오류수정 후보를 생성하는 방법을 제안한다. 실제 한국어가 모국어이면서 초/중급 작문 수준의 수험생들이 작성한 영어 문장에 대해 평가해 본 결과, 약 70.48%의 f1 값을 얻어 기존의 영어권 결과에 비해 뒤지지 않는 성능을 보였다.

좌최장일치법과 HMM을 결합한 경량화된 한국어 형태소 분석 (Light Weight Korean Morphological Analysis Using Left-longest-match-preference model and Hidden Markov Model)

  • 강상우;양재철;서정연
    • 인지과학
    • /
    • 제24권2호
    • /
    • pp.95-109
    • /
    • 2013
  • 본 논문에서는 제한된 자원을 사용하는 기기에 적합한 경량화된 한국어 형태소 분석 및 품사 부착 방법을 제안한다. 관련된 초기 연구로는 규칙에 기반을 둔 방법들이 적용되었으나 최근에는 통계에 기반을 둔 방법들을 중심으로 연구되고 있다. 계산 처리 능력과 사용 가능한 메모리가 제한되는 환경에서는 규칙에 기반을 둔 방법보다 상대적으로 많은 자원을 사용하는 통계에 기반을 둔 방법을 사용하여 형태소 분석 및 품사 부착을 수행하기에는 한계가 있다. 본 논문에서는 기존의 규칙에 기반을 둔 형태소 분석 방법인 좌최장일치법을 개선하여 형태소 분석을 수행하고, 통계적인 방법인 hidden Markov model을 축소하여 형태소 품사 부착을 수행한다. 제안하는 방법은 기존의 hidden Markov model을 사용한 시스템과 유사한 성능을 보여주며 소량의 메모리 사용과 월등히 빠른 속도로 형태소 분석 및 품사 부착을 수행할 수 있다.

  • PDF

스파크 기반 딥 러닝 분산 프레임워크 성능 비교 분석 (A Comparative Performance Analysis of Spark-Based Distributed Deep-Learning Frameworks)

  • 장재희;박재홍;김한주;윤성로
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.299-303
    • /
    • 2017
  • 딥 러닝(Deep learning)은 기존 인공 신경망 내 계층 수를 증가시킴과 동시에 효과적인 학습 방법론을 제시함으로써 객체/음성 인식 및 자연어 처리 등 고수준 문제 해결에 있어 괄목할만한 성과를 보이고 있다. 그러나 학습에 필요한 시간과 리소스가 크다는 한계를 지니고 있어, 이를 줄이기 위한 연구가 활발히 진행되고 있다. 본 연구에서는 아파치 스파크 기반 클러스터 컴퓨팅 프레임워크 상에서 딥 러닝을 분산화하는 두 가지 툴(DeepSpark, SparkNet)의 성능을 학습 정확도와 속도 측면에서 측정하고 분석하였다. CIFAR-10/CIFAR-100 데이터를 사용한 실험에서 SparkNet은 학습 과정의 정확도 변동 폭이 적은 반면 DeepSpark는 학습 초기 정확도는 변동 폭이 크지만 점차 변동 폭이 줄어들면서 SparkNet 대비 약 15% 높은 정확도를 보였고, 조건에 따라 단일 머신보다도 높은 정확도로 보다 빠르게 수렴하는 양상을 확인할 수 있었다.

내부 FC층을 갖는 새로운 CNN 구조의 설계 (Design of new CNN structure with internal FC layer)

  • 박희문;박성찬;황광복;최영규;박진현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.466-467
    • /
    • 2018
  • 최근 이미지 인식, 영상 인식, 음성 인식, 자연어 처리 등 다양한 분야에 인공지능이 적용되면서 딥러닝(Deep learning) 기술에 관한 관심이 높아지고 있다. 딥러닝 중에서도 가장 대표적인 알고리즘으로 이미지 인식 및 분류에 강점이 있고 각 분야에 많이 쓰이고 있는 CNN(Convolutional Neural Network)에 대한 많은 연구가 진행되고 있다. 본 논문에서는 일반적인 CNN 구조를 변형한 새로운 네트워크 구조를 제안하고자 한다. 일반적인 CNN 구조는 convolution layer, pooling layer, fully-connected layer로 구성된다. 그러므로 본 연구에서는 일반적인 CNN 구조 내부에 FC를 첨가한 새로운 네트워크를 구성하고자 한다. 이러한 변형은 컨볼루션된 이미지에 신경회로망이 갖는 장점인 일반화 기능을 포함시켜 정확도를 올리고자 한다.

  • PDF

서포트 벡터 머신과 퍼지 클러스터링 기법을 이용한 오디오 분할 및 분류 (Audio Segmentation and Classification Using Support Vector Machine and Fuzzy C-Means Clustering Techniques)

  • ;강명수;김철홍;김종면
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.19-26
    • /
    • 2012
  • 최근 멀티미디어 정보가 급증함에 따라 콘텐츠 관리에 대한 요구도 함께 증가되고 있다. 이에 오디오 분할 및 분류는 멀티미디어 콘텐츠를 효과적으로 관리할 수 있는 대안이 될 수 있다. 따라서 본 논문에서는 동영상에서 취득한 오디오 신호를 분할하고, 분할된 오디오 신호를 음악, 음성, 배경 음악이 포함된 음성, 잡음이 포함된 음성, 묵음(silence)으로 분류하는 정확도가 높은 오디오 분할 및 분류 알고리즘을 제안한다. 제안하는 알고리즘은 오디오 분할을 위해 서포트 벡터 머신(support vector machine, SVM)을 이용하였다. 오디오 신호의 분류를 위해서는 분할된 오디오 신호의 특징을 추출하고 이를 퍼지 클러스터링 알고리즘(fuzzy c-means, FCM)의 입력으로 사용하여 각 계층으로 오디오 신호를 분류하였다. 제안하는 알고리즘의 평가는 분할과 분류에 대해 각각 그 성능을 평가하였으며, 분할 성능 평가는 정확도율(precesion rate)과 오차율(recall rate)을 이용하였으며, 분류 성능 평가는 정확성(classification accuracy)을 사용하였다. 또한 오디오 분할의 경우는 이진 분류기와 퍼지 클러스터링을 이용한 기존의 알고리즘과 그 성능을 비교하였다. 모의 실험 결과, 제안한 알고리즘의 분류 성능이 기존 알고리즘 보다 정확도율과 오차율 면에서 모두 우수하였다.

음성인식모듈을 이용한 선박조타용 임베디드 시스템 개발 (Development of an Embedded System for Ship선s Steering Gear using Voice Recognition Module)

  • 박계각;서기열;홍태호
    • 한국지능시스템학회논문지
    • /
    • 제14권5호
    • /
    • pp.604-609
    • /
    • 2004
  • 최근 국내외적으로 소형선박의 효율적인 운용을 위해서 많은 자동화 기술의 발전을 이루었으나, 이에 따른 선박 운용은 더욱 복잡해져 각종 계기와 선박 기기를 조작해야하는 번거로움이 있다. 이러한 문제를 해결하기 위하여 휴먼 인터페이스 기술의 하나인 음성정보처리기술을 선박 운용시스템에 적용한 연구 사례가 있으나 아직까지 구체적인 시스템 구현이 미비하다고 할 수 있다. 따라서, 본 논문에서는 선박운항자의 및 부담경감 및 효율적인 선박운용을 위하여 음성인식 모델을 이용한 선박조타용 임베디드 시스템을 구현하고자 한다. 구체적인 연구방법으로는, 화자독립방식의 음성인식 모듈(VR-33R)을 이용하여 선박의 조타기를 제어할 수 있는 임베디드 시스템을 설계 및 구현하고, 실제 선박시스템을 축소한 모형선박의 조타시스템에 적용하여 그 효용성을 확인하고, 실용화를 위한 방안을 모색하고자 한다.