• Title/Summary/Keyword: Speech Recognition Technology

검색결과 527건 처리시간 0.027초

인공지능을 활용한 지능형 기록관리 방안 (Intelligent Records and Archives Management That Applies Artificial Intelligence)

  • 김인택;안대진;이해영
    • 한국기록관리학회지
    • /
    • 제17권4호
    • /
    • pp.225-250
    • /
    • 2017
  • 4차 산업혁명에 대한 관심이 고조되고 있다. 인공지능은 그 기반기술이며 핵심적인 기술이다. 기록관리 분야에서도 해외를 중심으로 효율적인 업무처리를 위해 인공지능이 도입되고 있는 추세이다. 본 연구에서는 먼저 인공지능의 개념을 제시 한 후, 인공지능이 태동되게 된 배경을 알아보았다, 또 인공지능의 다양한 분야에 대해 알아보고, 획기적인 사례를 중심으로 발전 과정을 살펴보았다. 다양한 영역에서 인공지능의 활용사례를 텍스트 분석, 영상인식 관련, 음성인식 관련하여 살펴보았다. 이 각각의 영역에서 기록정보서비스 측면에서의 적용 사례를 확인해보고, 지능형 기록정보서비스 모듈 구성 및 인터페이스 등 앞으로 기록관리 영역에서 가능한 활용 방안을 알아보고 제시하였다.

스마트 폰 음성 인식 서비스의 상황별 만족도 조사 (Study on the Situational satisfaction survey of Smart Phone based on voice recognition technology)

  • 이윤정;김승인
    • 디지털융복합연구
    • /
    • 제15권8호
    • /
    • pp.351-357
    • /
    • 2017
  • 본 연구는 스마트 폰 음성인식 서비스를 분석하고 음성인식 서비스의 상황별 만족도 조사를 통하여 사용자들의 기대요구와 만족도 간의 관련성을 분석하여 더 나은 음성인식 서비스 발전을 모색하고자 하였다. 1차로 문헌연구를 통하여 음성인식 서비스의 개념과 현황을 알아보고, 2차로 육하원칙을 기조로 한 설문지를 통해 설문 조사를 진행하였다. 그 결과, 사용자는 스마트 폰 음성인식 서비스를 전화를 걸 때에 가장 많이 사용하며, 주로 혼자 있을 때 사용하며 시간대는 대체로 평이하지만, 저녁 시간이 가장 많았다. 또한, 해당 서비스는 집에서 가장 많이 사용하며 손을 사용할 수 없을 때 서비스를 가장 많이 사용하는 것으로 나타났다. 이러한 상황별 다양한 결과를 통해 개인화 서비스, 조건 인식 기능, 위급 상황 자동인식, 음성으로 잠금 해제 등 다양한 방안을 도출할 수 있었다. 본 연구를 바탕으로 추후 국내 스마트 폰 음성인식 서비스 개선과 웨어러블 디바이스 개발을 위해 효과적으로 활용할 수 있을 것으로 기대한다.

연속 음성 인식 시스템을 위한 향상된 결정 트리 기반 상태 공유 (Improved Decision Tree-Based State Tying In Continuous Speech Recognition System)

  • 김동화;;;김형순;김영호
    • 한국음향학회지
    • /
    • 제18권6호
    • /
    • pp.49-56
    • /
    • 1999
  • 결정 트리 기반 상태 공유 방법은 HMM을 사용하는 많은 연속 음성 인식 시스템에서 강인하고 정확한 문맥 종속 음향 모델링 뿐만 아니라 훈련 중에는 나타나지 않은 모델들의 합성을 위하여 널리 사용되고 있다. 음성 결정 트리를 구성하기 위한 표준적인 방법은 단일 가우시안 트라이폰 모델을 이용한 1계층 프루닝 만을 사용하고 있다. 본 논문에서는 더욱 정교한 음향 모델링을 통하여 인식 성능 향상을 도모하기 위하여 새로운 2가지 접근 방법 즉, 2계층 결정 트리와 복수 혼합 결정 트리를 제안한다. 2계층 결정 트리는 상태 공유와 혼합 가중치 공유를 위하여 2계층 프루닝을 수행하며, 두 번째 계층을 사용하여 공유 상태들도 음성 문맥의 유사도에 따라서 서로 다른 가중치들을 사용할 수 있다. 두 번째 제안된 방법 에서는 훈련 과정 즉, 혼합 분할 및 재추정 과정과 함께 음성 결정 트리가 계속 갱신되어 진다. 복수 혼합 결정 트리를 구성하기 위하여 단일 가우시안 뿐만 아니라 복수 혼합 가우시안 모델이 함께 사용된다. 제안된 방법들을 이용하여 BN-96과 WSJ5k 데이터를 사용한 연속 음성 인식 실험을 수행한 결과, 표준 결정 트리를 사용한 시스템과 비교하여 공유 상태의 개수를 비슷하게 유지하면서 단어 오인식률을 줄일 수 있었다.

  • PDF

내부 FC층을 갖는 새로운 CNN 구조의 설계 (Design of new CNN structure with internal FC layer)

  • 박희문;박성찬;황광복;최영규;박진현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.466-467
    • /
    • 2018
  • 최근 이미지 인식, 영상 인식, 음성 인식, 자연어 처리 등 다양한 분야에 인공지능이 적용되면서 딥러닝(Deep learning) 기술에 관한 관심이 높아지고 있다. 딥러닝 중에서도 가장 대표적인 알고리즘으로 이미지 인식 및 분류에 강점이 있고 각 분야에 많이 쓰이고 있는 CNN(Convolutional Neural Network)에 대한 많은 연구가 진행되고 있다. 본 논문에서는 일반적인 CNN 구조를 변형한 새로운 네트워크 구조를 제안하고자 한다. 일반적인 CNN 구조는 convolution layer, pooling layer, fully-connected layer로 구성된다. 그러므로 본 연구에서는 일반적인 CNN 구조 내부에 FC를 첨가한 새로운 네트워크를 구성하고자 한다. 이러한 변형은 컨볼루션된 이미지에 신경회로망이 갖는 장점인 일반화 기능을 포함시켜 정확도를 올리고자 한다.

  • PDF

오디오 부호화기를 위한 스펙트럼 변화 및 MFCC 기반 음성/음악 신호 분류 (Speech/Music Signal Classification Based on Spectrum Flux and MFCC For Audio Coder)

  • 이상길;이인성
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.239-246
    • /
    • 2023
  • 본 논문에서는 오디오 부호화기를 위한 스펙트럼 변화 파라미터와 Mel Frequency Cepstral Coefficients(MFCC) 파라미터를 이용하여 음성과 음악 신호를 분류하는 개루프 방식의 알고리즘을 제안한다. 반응성을 높이기 위해 단구간 특징 파라미터로 MFCC를 사용하고 정확도를 높이기 위해 장구간 특징 파라미터로 스펙트럼 변화를 사용하였다. 전체적인 음성/음악 신호 분류 결정은 단구간 분류와 장구간 분류를 결합하여 이루어진다. 패턴인식을 위해 Gaussian Mixed Model(GMM)을 사용하였고, Expectation Maximization(EM) 알고리즘을 사용하여 최적의 GMM 파라미터를 추출하였다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 다양한 오디오 음원에서 평균적으로 1.5% 분류 오류율을 보였고 단구간 단독 분류 방법 보다 0.9%, 장구간 단독 분류 방법보다 0.6%의 분류 오류율의 성능 개선을 이룰 수 있었다. 제안된 장단구간 결합 음성/음악 신호 분류 방법은 USAC 오디오 분류 방법보다 타악기 음악 신호에서 9.1% 분류 오류율, 음성신호에서 5.8% 분류 오류율의 성능 개선을 이룰 수 있었다.

대각공분산 GMM에 최적인 선형변환을 이용한 강인한 화자식별 (Robust Speaker Identification Using Linear Transformation Optimized for Diagonal Covariance GMM)

  • 김민석;양일호;유하진
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.67-80
    • /
    • 2008
  • We have been building a text-independent speaker recognition system that is robust to unknown channel and noise environments. In this paper, we propose a linear transformation to obtain robust features. The transformation is optimized to maximize the distances between the Gaussian mixtures. We use rotation of the axes, to cope with the problem of scaling the transformation matrix. The proposed transformation is similar to PCA or LDA, but can achieve better result in some special cases where PCA and LDA can not work properly. We use YOHO database to evaluate the proposed method and compare the result with PCA and LDA. The results show that the proposed method outperforms all the baseline, PCA and LDA.

  • PDF

음성인식 게임과 교육의 연관성: 현재 연구 동향과 전망 (The Relationship between Voice Recognition Games and Education: Current Research Trends and Future Perspectives)

  • 허세정;김성진;윤영현;백재순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.397-398
    • /
    • 2023
  • 본 논문은 음성인식 기술을 활용한 게임과 교육 분야의 연계성에 대한 연구를 제시한다. 음성인식 게임은 사용자의 음성 명령을 인식하고 상호작용을 가능하게 함으로써 학습자의 참여와 흥미를 유발한다. 관련 연구들은 음성인식 게임이 언어 학습, 수학 학습, 학습 장애 학생 지원 등 다양한 교육 분야에서 효과적으로 활용될 수 있다는 것을 보여준다. 음성인식 게임은 교육 환경에서의 음성인식 기술의 잠재력을 제시하며, 추가 연구가 필요하다는 결론을 도출한다.

  • PDF

모바일 하이네임을 위한 음성인식 웹 서비스 환경 구축 (A Development of Speech Recognition Web Services Environment for Mobile Hi-Name)

  • 고유정;홍인숙;김윤중;송은숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.161-163
    • /
    • 2008
  • 한국인식기술에서는 명함정보를 원격에서 관리하는 모바일 하이네임(Hi-Name)을 출시하였다. 하지만 모바일 기기에서는 명함 정보를 이용하기 위해 작은 화면에 검색어를 펜으로 입력해야 하는 불편함과 공간상의 제약성으로 음성인식엔진의 탑재가 어려우므로 분산인식환경이 필요하다. 따라서 본 연구에서는 모바일 환경에서 음성인식기술을 이용하여 명함정보를 이용할 수 있는 하이네임의 웹 서비스 환경을 구축하였다.

콘텐츠 배급을 위한 RSS 기반의 VoiceXML 다이얼로그 시스템 (VoiceXML Dialog System Based on RSS for Contents Syndication)

  • 권형준;김정현;이현구;홍광석
    • 정보처리학회논문지B
    • /
    • 제14B권1호
    • /
    • pp.51-58
    • /
    • 2007
  • 본 논문은 갱신이 잦은 콘텐츠의 배급 및 구독을 위해 등장한 시맨틱 웹의 대표적인 기술인 RSS(RDF Site Summary or Really Simple Syndication)와 인터넷에 존재하는 정보를 음성으로 제공하기 위해 제안된 XML 규격의 W3C 표준 마크업 언어인 VoiceXML을 결합한 시스템의 프로토타입을 제시한다. 제안하는 시스템은 인터넷 기반으로 제공되는 콘텐츠를 유무선 전화망을 통해 음성인식 및 합성기술로 제공하기 위한 것으로서, RSS 서비스를 제공하기 위한 기존의 구성을 수정하지 않고 갱신된 콘텐츠의 구독이 손쉬운 RSS의 장점을 VoiceXML에 적용할 수 있는 특징이 있다. 정보 요청자 측면에서는 RSS로 제공되는 콘텐츠 탐색에 인터넷 환경이 아닌 유무선 전화망을 이용하므로 시공간의 제약을 줄일 수 있으며, 정보 제공자 측면에서는 음성인식 및 합성기술을 이용한 콘텐츠의 배급에 최신 정보의 제공을 위한 별도의 구성요소를 필요로 하지 않는 장점이 있다. 제안하는 시스템의 예로 뉴스 서비스를 구현한 결과, 실제 콘텐츠를 구독하고 탐색할 때에 응답 시간과 음성 인식 측면에서 장애 없이 RSS Feed를 이용해 비주얼 환경으로 제공되는 내용과 동일한 내용을 음성으로 제공받을 수 있었다.

한국어 음성인식 후처리기를 위한 학습 데이터 자동 생성 방안 (Automatic Generation of Training Data for Korean Speech Recognition Post-Processor)

  • 구선민;박찬준;문현석;서재형;어수경;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-469
    • /
    • 2022
  • 자동 음성 인식 (Automatic Speech Recognition) 기술이 발달함에 따라 자동 음성 인식 시스템의 성능을 높이기 위한 방법 중 하나로 자동 후처리기 연구(automatic post-processor)가 진행되어 왔다. 후처리기를 훈련시키기 위해서는 오류 유형이 포함되어 있는 병렬 말뭉치가 필요하다. 이를 만드는 간단한 방법 중 하나는 정답 문장에 오류를 삽입하여 오류 문장을 생성하여 pseudo 병렬 말뭉치를 만드는 것이다. 하지만 이는 실제적인 오류가 아닐 가능성이 존재한다. 이를 완화시키기 위하여 Back TranScription (BTS)을 이용하여 후처리기 모델 훈련을 위한 병렬 말뭉치를 생성하는 방법론이 존재한다. 그러나 해당 방법론으로 생성 할 경우 노이즈가 적을 수 있다는 관점이 존재하다. 이에 본 연구에서는 BTS 방법론과 인위적으로 노이즈 강도를 추가한 방법론 간의 성능을 비교한다. 이를 통해 BTS의 정량적 성능이 가장 높은 것을 확인했을 뿐만 아니라 정성적 분석을 통해 BTS 방법론을 활용하였을 때 실제 음성 인식 상황에서 발생할 수 있는 실제적인 오류를 더 많이 포함하여 병렬 말뭉치를 생성할 수 있음을 보여준다.

  • PDF