• 제목/요약/키워드: 음성영상융합

검색결과 84건 처리시간 0.043초

오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템 (Audio-Visual Integration based Multi-modal Speech Recognition System)

  • 이상운;이연철;홍훈섭;윤보현;한문성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.707-710
    • /
    • 2002
  • 본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.

  • PDF

신경망을 이용한 이중모달 음성 인식 모델링 (Bimodal Speech Recognition Modeling Using Neural Networks)

  • 류정우;성지애;이순신;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.567-569
    • /
    • 2003
  • 최근 잡음환경에서 강인한 음성인식을 위해 음성 잡음에 영향을 받지 않은 영상정보를 이용한 이중모달 음성인식 연구가 활발히 진행되고 있다. 기존 음성인식기로 좋은 성능을 보이는 HMM은 이질적인 정보를 융합하는데 있어 많은 제약과 어려움을 가지고 있다. 하지만 신경망은 이질적인 정보를 효율적으로 융합할 수 있는 장점을 가지고 있으며 그에 대한 많은 연구가 수행되고 있다. 따라서 본 논문에서는 잡음환경에 강인한 이중모달 음성 인식 모델로 이중모달 신경망(BN-NN)을 제안한다. 이중모달 신경망은 특징융합 방법으로 음성정보와 영상정보를 융합하고 있으며. 입력정보의 특성을 고려하기 위해 윈도우와 중복영역의 개념을 적용하여 시제위치를 고려하도록 설계되어있다. 제안된 모델은 잡음환경에서 음성인식기와 성능을 비교하고, 화자독립 고립단어 인식에서 기존 융합방법인 CHMM과 비교하여 그 가능성을 확인한다.

  • PDF

신경망 기반 음성, 영상 및 문맥 통합 음성인식 (Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks)

  • 김명원;한문성;이순신;류정우
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.67-77
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

방송기능이 있는 IP PBX 융합 중앙 관제 시스템 개발 (Development of the central control system using IP PBX convergence with broadcasting function)

  • 김삼택
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.1-6
    • /
    • 2021
  • 현재, 코로나19등 바이러스 감염이 일상화 되어 있고, 비대면 ICT 서비스를 위한 분야에 무인시스템에 대한 관심이 증가하고 있다. 본 논문에서는 방송기능을 가진 IP PBX를 이용하여 원격으로 중, 소형 점포를 중앙에서 영상과 음성을 통해 성공적으로 관제할 수 있는 기능과 성능을 시험을 통하여 입증하였다. 현재 완전 무인 시스템은 여러 가지 기술적 문제로 신뢰성이 없지만, 본 논문에서 개발한 중앙관제시스템은 영상과 음성을 통해 관제사가 출입과 내부를 모니터링 함으로 직접 소비자를 관제할 수 있어 매우 효율적이고 신뢰를 할 수 있는 시스템이다. 향후에는 A.I 기술을 활용한 완전 무인 원격제어 시스템을 연구할 예정이다.

음성 신호와 얼굴 영상을 이용한 특징 및 결정 융합 기반 감정 인식 방법 (Emotion Recognition Method based on Feature and Decision Fusion using Speech Signal and Facial Image)

  • 주종태;양현창;심귀보
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.11-14
    • /
    • 2007
  • 인간과 컴퓨터간의 상호교류 하는데 있어서 감정 인식은 필수라 하겠다. 그래서 본 논문에서는 음성 신호 및 얼굴 영상을 BL(Bayesian Learning)과 PCA(Principal Component Analysis)에 적용하여 5가지 감정 (Normal, Happy, Sad, Anger, Surprise) 으로 패턴 분류하였다. 그리고 각각 신호의 단점을 보완하고 인식률을 높이기 위해 결정 융합 방법과 특징 융합 방법을 이용하여 감정융합을 실행하였다. 결정 융합 방법은 각각 인식 시스템을 통해 얻어진 인식 결과 값을 퍼지 소속 함수에 적용하여 감정 융합하였으며, 특정 융합 방법은 SFS(Sequential Forward Selection)특정 선택 방법을 통해 우수한 특정들을 선택한 후 MLP(Multi Layer Perceptron) 기반 신경망(Neural Networks)에 적용하여 감정 융합을 실행하였다.

  • PDF

입술 움직임 영상 선호를 이용한 음성 구간 검출 (Speech Activity Detection using Lip Movement Image Signals)

  • 김응규
    • 융합신호처리학회논문지
    • /
    • 제11권4호
    • /
    • pp.289-297
    • /
    • 2010
  • 본 논문에서는 음성인식을 위한 음성구간 검출과정에서 유입될 수 있는 동적인 음향에너지 이외에 화자의 입술움직임 영상신호까지 확인함으로써 외부 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위한 한 가지 방법이 제시된다. 우선, 연속적인 영상이 PC용 영상카메라를 통하여 획득되고 그 입술움직임 여부가 식별된다. 다음으로, 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세서와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서 공유메모리에 저장되어진 데이터를 확인함으로써 화자의 발성에 의한 음향에너지인지의 여부가 입증된다. 최종적으로, 음성인식기와 영상처리기를 연동시켜 실험한 결과, 영상카메라에 대면해서 발성하면 음성인식 결과의 출력에 이르기까지 연동처리가 정상적으로 진행됨을 확인하였고, 영상카메라에 대면치 않고 발성하면 연동처리시스템이 그 음성인식 결과를 출력치 못함을 확인하였다. 또한, 오프라인하의 입술움직임 초기 특정값 및 템플릿 초기영상을 온라인하에서 추출된 입술움직임 초기특정값 및 템플릿 영상으로 대체함으로써 입술움직임 영상 추적의 변별력을 향상시켰다. 입술움직임 영상 추적과정을 시각적으로 확인하고 실시간으로 관련된 패러미터를 해석하기 위해 영상처리 테스트베드를 구축하였다, 음성과 영상처리 시스템의 연동결과 다양한 조명환경 하에서도 약 99.3%의 연동율을 나타냈다.

음성-영상 융합 음원 방향 추정 및 사람 찾기 기술 (Audio-Visual Fusion for Sound Source Localization and Improved Attention)

  • 이병기;최종석;윤상석;최문택;김문상;김대진
    • 대한기계학회논문집A
    • /
    • 제35권7호
    • /
    • pp.737-743
    • /
    • 2011
  • 서비스 로봇은 비전 카메라, 초음파 센서, 레이저 스캐너, 마이크로폰 등과 같은 다양한 센서를 장착하고 있다. 이들 센서들은 이들 각각의 고유한 기능을 가지고 있기도 하지만, 몇몇을 조합하여 사용함으로써 더욱 복잡한 기능을 수행할 수 있다. 음성영상 융합은 서로가 서로를 상호보완 해주는 대표적이면서도 강력한 조합이다. 사람의 경우에 있어서도, 일상생활에 있어 주로 시각과 청각 정보에 의존한다. 본 발표에서는, 음성영상 융합에 관한 두 가지 연구를 소개한다. 하나는 음원 방향 검지 성능의 향상에 관한 것이고, 나머지 하나는 음원 방향 검지와 얼굴 검출을 이용한 로봇 어텐션에 관한 것이다.

효과적 정보전달을 위한 영상정보의 3D 뷰 및 음성정보와의 융합 연구 (A Study on 3D View Design of Images and Voices Integration for Effective Information Transfer)

  • 신준철;이종수
    • 한국통신학회논문지
    • /
    • 제35권1B호
    • /
    • pp.35-41
    • /
    • 2010
  • 본 논문에서는 컴퓨터를 사용한 효과적 정보전달을 위해 2D 영상정보를 3D 가상공간에 배치하고 음성 정보와의 유기적 연결기능을 갖는 3D 뷰 설계를 제안한다. 3D 공간에 배치된 영상정보의 사용자 접속을 어느 시점 또는 어떤 각도에서도 가능하도록 하여, 시각정보 전달효과를 제고하고 있으며, 음성정보의 첨부가 용이하도록 설계하였다. 3D공간에서의 영상 및 음성정보 배치는 단순하지만 효과적인 접속기능을 포함하고 있으며, 이들의 탐색 및 시청을 사용자접속 관점에서 설계하여 정보전달 효과를 제고하였다.

모바일 멀티미디어 융합 서비스를 위한 자원 할당 방법 (Resource Allocation for Converged Mobile Multimedia Services)

  • 이종찬;이문호
    • 한국시뮬레이션학회논문지
    • /
    • 제21권1호
    • /
    • pp.45-54
    • /
    • 2012
  • 이동통신과 디지털 영상처리 기술의 발전에 의해 음성통신, WWW, e-mail, FTP 등 전통적 서비스 이외에 VoD 등 융합형서비스가 이동통신망에서도 상용화되고 있다. 이러한 융합형 서비스는 LTE-Advanced 네트워크 등 초고속 이동 통신망과 통합형 휴대 단말기를 바탕으로 U-cloud 서비스, 모바일 IP-TV 등으로 진화될 것 이다. 본 연구에서는 이종 융합 무선망에서 음성통신, VoD, 영상통화 등 실시간 서비스의 품질을 허용 가능한 수준으로 보장하면서도 무선자원의 활용도를 높여 WWW 등 기존의 비실시간 인터넷 서비스를 최대한 수용하기 위한 방안을 제안한다.

청각 장애인을 위한 수어 영상-자연어 번역 서비스 및 모바일 어플리케이션 구현 (Developing a mobile application serving sign-language to text translation for the deaf)

  • 조수민;조성연;신소연;이지항
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.1012-1015
    • /
    • 2021
  • Covid-19 로 인한 마스크 착용이 청각장애인들의 소통을 더 어렵게 하는 바, 제 3 자의 도움 없이 쌍방향 소통을 가능하게 하는 서비스의 필요성이 커지고 있다. 이에 본 논문은 소통의 어려움을 겪는 청각장애인과 비청각장애인을 위한 쌍방향 소통 서비스에 대한 연구와 개발 과정, 기대 효과를 담는다. 서비스는 GRU-CNN 하이브리드 아키텍처를 사용하여 데이터셋을 영상 공간 정보와 시간 정보를 포함한 프레임으로 분할하는 영상 분류 기법과 같은 딥 러닝 알고리즘을 통해 수어 영상을 분류한다. 해당 연구는 "눈속말" 모바일 어플리케이션으로 제작 중이며 음성을 인식하여 수어영상과 텍스트로 번역결과를 제공하는 청각장애인 버전과 카메라를 통해 들어온 수어 영상을 텍스트로 변환하여 음성과 함께 제공하는 비청각장애인 버전 두 가지로 나누어 구현한다. 청각장애인과 비장애인의 쌍방향 소통을 위한 서비스는 청각장애인이 사회로 나아가기 위한 가장 기본적인 관문으로서의 역할을 할 것이며 사회 참여를 돕고 소통이라는 장벽을 넘어서는 발돋움이 될 것이라 예측된다.