통합 검색 | Korea Science

신경망을 이용한 이중모달 음성 인식 모델링 (Bimodal Speech Recognition Modeling Using Neural Networks)

류정우;성지애;이순신;김명원
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
- /
- pp.567-569
- /
- 2003
최근 잡음환경에서 강인한 음성인식을 위해 음성 잡음에 영향을 받지 않은 영상정보를 이용한 이중모달 음성인식 연구가 활발히 진행되고 있다. 기존 음성인식기로 좋은 성능을 보이는 HMM은 이질적인 정보를 융합하는데 있어 많은 제약과 어려움을 가지고 있다. 하지만 신경망은 이질적인 정보를 효율적으로 융합할 수 있는 장점을 가지고 있으며 그에 대한 많은 연구가 수행되고 있다. 따라서 본 논문에서는 잡음환경에 강인한 이중모달 음성 인식 모델로 이중모달 신경망(BN-NN)을 제안한다. 이중모달 신경망은 특징융합 방법으로 음성정보와 영상정보를 융합하고 있으며. 입력정보의 특성을 고려하기 위해 윈도우와 중복영역의 개념을 적용하여 시제위치를 고려하도록 설계되어있다. 제안된 모델은 잡음환경에서 음성인식기와 성능을 비교하고, 화자독립 고립단어 인식에서 기존 융합방법인 CHMM과 비교하여 그 가능성을 확인한다.
PDF

컬러와 적외선 영상 간의 관계에 기반한 얼굴 인식 방법 (A Face Recognition Method Based on the Relationship between Color and Infrared Images)

엄태영;박종일
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송공학회 2011년도 추계학술대회
- /
- pp.11-14
- /
- 2011
최근 적외선 영상 정보를 사용하여 사용자를 인식하고 인터랙션을 하고자하는 연구들이 많이 이루어지고 있다. 특히, 보안과 같은 인간을 인식/추적/감시하는 분야에서는 적외선 입력 영상에 대한 얼굴인식 기술이 점차 많이 사용되고 있다. 이는 야간이나 특수한 조명 환경에서처럼 적절한 컬러 영상 정보를 알 수 없을 때 적외선 영상 정보를 이용하면 얼굴 영상 추출이 가능한 경우가 많기 때문이다. 본 논문에서는 이러한 적외선 영상을 입력받아 컬러 영상과의 관계에 기반하여 얼굴을 인식하는 방법을 제안하고자 한다. 이 방법은 일반적인 조명 환경에 강인하면서 컬러 데이터베이스만을 사용하여 얼굴 인식이 가능하다. 따라서 주위 조명 환경에 무관하게 얼굴을 인식하여 다양한 보안 및 휴먼 인터페이스에 사용이 가능할 것으로 기대한다.
PDF

잡음 환경에 강인한 이중모드 음성인식 시스템에 관한 연구 (A Study on the Robust Bimodal Speech-recognition System in Noisy Environments)

이철우;고인선;계영철
- 한국음향학회지
- /
- 제22권1호
- /
- pp.28-34
- /
- 2003
최근 잡음이 심한 환경에서 음성인식을 신뢰성 있게 하기 위하여 입 모양의 움직임 (영상언어)과 음성을 같이 사용하는 방법이 활발히 연구되고 있다 본 논문에서는 영상언어 인식기의 결과와 음성인식기의 결과에 각각 가중치를 주어 결합하는 방법을 연구하였다. 각각의 인식 결과에 적절한 가중치를 결정하는 방법을 제안하였으며, 특히 음성정보에 들어있는 잡음의 정도와 영상정보의 화질에 따라 자동적으로 가중치를 결정하도록 하였다. 모의 실험 결과 제안된 방법에 의한 결합 인식률이 잡음이 심한 환경에서도 84% 이상의 인식률을 나타내었으며, 영상에 번짐효과가 있는 경우 영상의 번짐 정도를 고려한 결합 방법이 그렇지 않은 경우보다 우수한 인식 성능을 나타내었다.
PDF KSCI

협업 환경을 위한 LED 기반 사용자 위치 추적 및 인터랙션 시스템 (User Location Determination and Interaction for Collaborative Environments using LED Tracking)

김인태;박준
- 한국HCI학회:학술대회논문집
- /
- 한국HCI학회 2007년도 학술대회 1부
- /
- pp.316-320
- /
- 2007
다수의 사용자가 동일한 디스플레이 화면을 보면서 의사를 교환하거나 공동 작업을 수행하는 협업환경에서의 인터랙션 기술은 네트워크 기술, 디스플레이 기술만큼이나 효율적인 협업을 위해 중요한 요소 기술이다. 이러한 인터랙션의 성공적인 수행을 위해서 중요한 기능 중의 하나는 사용자의 상황인식을 들 수 있는데 이는 사용자의 돌발 행동, 사용자들간의 의사교환 정도 등을 측정하고 예측하는데 유용하게 사용될 수 있다. 협업환경 내에서의 사용자의 위치 파악은 사용자의 상황인식뿐 아니라 다수의 사용자가 동시에 레이저 포인터를 이용하여 디스플레이 장치를 가리키고 있는 경우, 어느 사용자가 디스플레이 화면 중 어느 위치를 포인팅 하고 있는지를 계산하는데 도움을 줄 수 있다. 본 연구에서는 제한된 환경 내에서 사용자의 3차원 위치를 추적할 수 있는 시스템을 제안한다. 개발된 시스템은 사용자의 위치 계산뿐 아니라 사용자의 제스처도 함께 인식하여 사용자가 협업환경 시스템을 제어할 수 있고 공중에서 글씨 쓰는 등의 인터랙션도 수행할 수는 기능을 지원한다.
PDF

ubiTrack을 이용한 방위 인식 기법 (Orientation awareness method using ubiTrack)

정우진;우운택
- 한국정보과학회:학술대회논문집
- /
- 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (A)
- /
- pp.448-450
- /
- 2005
유비쿼터스 컴퓨팅 환경에서의 맥락 인지 응용들은 사용자의 상황에 맞는 서비스를 제공하기 위해 위치 정보를 활용한다. 그러나 대부분의 실내 위치 추적 시스템들은 환경이 사용자의 위치를 파악함으로 프라이버시 문제가 야기 된다 또한 더욱 지능화된 서비스를 제공하기 위해 위치 정보와 더불어 방위 정보 인식의 필요성이 대두되고 있다. 본 논문에서 제안된 방법은 사용자나 대상물의 방위를 알기 위해서 기존의 ubiTrack의 수신기에 두개의 적외선 수신기 소자를 부착한다. 두개의 적외선 수신 소자는 각각의 위치를 측정하고 각각의 위치로 부터 사용자나 대상물의 위치와 더불어 방위, 크기를 인식한다. 또한 대상물에 부착되어 있는 수신기가 대상물의 위치를 환경에 일정한 시간을 간격으로 환경에 알려 주도록 하여 사용자의 프라이버시 침범되지 않는 상태에서 사용자와 대상물의 위치 및 방위 정보를 제공한다. 실험 결과 제안된 방법은 홈 환경 내에서 여러 대상물의 방위를 10도 안팎의 오차를 가지고 인식하였다. 따라서 제안된 방법은 유비쿼터스 컴퓨팅 환경에서 여러 맥락 인지 서비스와 연동하여 사용자의 의도를 반영한 절러 LBS에 쉽게 응용이 될 수 있다.
PDF

AI 학습을 위한 탑 인식 방법에 대한 연구 (A Study on Tower Recognition Method for AI Learning)

강은수;고병국;이조순;최하진;김준오;이병권
- 한국컴퓨터정보학회:학술대회논문집
- /
- 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
- /
- pp.339-342
- /
- 2020
본 논문에서는 AI 학습을 위한 데이터 수집을 위해 윈도우 환경에서 YOLO 시스템을 사용한 객체 인식에 대한 방법을 제안한다. 이 방법은 아나콘다, 리눅스 등의 가상환경을 요구하지 않기 때문에 실사용 이전 사전 환경설정 작업 시간을 최소화한다. 또한 이 방법은 Visual Studio, OpenCV, CUDA 등 익숙한 플랫폼 및 라이브러리를 요구하기 때문에 다른 사람들에게 편안한 작업환경 제공한다. 또한 기존의 COCO 데이터 셋을 사용한 YOLOv3가 아닌 추가 학습 방법을 제안함으로써 보다 보편적인 객체 인식이 가능하다. 따라서 빠른 시간 내에 자신이 원하는 객체를 인식할 수 있는 시스템을 구축하는 방법을 제안한다.
PDF

3차원 시청각환경제시기의 현실감 평가 실험 (An Evaluation for Reality in 3D Visual and Auditory Environment Generator)

서형준;신찬수;장상철;박경동;고희동
- 한국감성과학회:학술대회논문집
- /
- 한국감성과학회 1998년도 추계학술발표 논문집
- /
- pp.195-199
- /
- 1998
본 논문은 감성측정평가 시뮬레이터 구축의 일환으로 개발한 3차원 시청각 환경 제시기가 생성하는 가상환경의 현실감 점도를 평가하는데 목적이 있다. 이를 위하여 가상환경의 최소 구성성분요소들로 Size, Length, Distance 등을 설정하였으며, 이들에 대하여 가상환경과 실제환경에서 각각 실험을 통해 피실험자들의 인식전도를 측정하였다. 실험에서 사용한 측정방법은 가상세계에 대한 인식실험을 위해 개발된 Size/Distance Estimation, Sketch Map, Object Search 방법 등을 사용하였으며, 가상환경과 실제환경에서 각각 도출된 실험결과의 차이를 토대로 3차원 시청각 환경 제시기의 현실감 수준을 평가하였다. 본 실험을 위해 구성한 피실험자의 집단은 컴퓨터 사용에 익숙한 20대 이공계열 84명(남:56, 여:28)의 학생들을 대상으로 하였다. 본 논문의 의의로는 3차원 시청각 환경 제시기가 생성하는 가상환경의 현실감 수준을 평가함으로써 개발 시스템의 보완 및 발전과 본격적인 감성공학 분야의 활용을 위한 지침을 마련하는데 있다.
PDF

환경과 인간요인을 고려한 지문인식시스템의 사용성 평가 및 분석 (Usability Test and Analysis of Fingerprint Recognition Systems with Environmental and Human Factors)

조웅근;홍진혁;조성배
- 한국HCI학회:학술대회논문집
- /
- 한국HCI학회 2006년도 학술대회 1부
- /
- pp.437-442
- /
- 2006
최근 많은 관심을 끌고 있는 지문인식시스템은 사용자의 지문영상을 입력 받아 사전에 등록된 템플릿과 비교하여 사용자 여부를 확인하는 사용자 인증 도구이다. 지문을 입력 받기 위한 센서와 매칭 알고리즘 등이 활발히 개발되고 있으며, 실제로 전자상거래나 출입통제시스템 등의 많은 분야에 적용되고 있다. 지문인식시스템에 대한 기존의 평가는 수집된 지문 DB 에 대해 인식 성능이 얼마인지, 쌍둥이들을 잘 구분하는지, 위조 지문을 파악할 수 있는지 등 주로 지문인식 자체의 성능에 초점이 맞추어져 있었다. 하지만 지문인식은 사용자나 환경과 관련된 많은 요인에 영향을 받기 때문에, 시스템을 효과적으로 적용하기 위해서는 이들에 대한 분석이 필요하다. 지문인식시스템에 대한 사용성 평가는 시스템이 대상환경에 효과적으로 적용되도록 하고, 사용성 분석을 통해 보다 편리하고 효율적인 사용자 인터페이스의 개발을 유도한다. 본 논문에서는 지문인식에 영향을 주는 요인을 사용자와 시스템 측면에서 분석하고, 사용성 평가를 통해 효과적인 지문인식시스템 인터페이스 구축을 위한 가이드라인을 제시한다.
PDF

잡음환경의 ASR 성능개선을 위한 음성강조 파라미터 (Using speech enhancement parameter for ASR)

차영동;김영섭;허강인
- 융합신호처리학회 학술대회논문집
- /
- 한국신호처리시스템학회 2006년도 하계 학술대회 논문집
- /
- pp.63-66
- /
- 2006
음성인식시스템은 사람이 별도의 장비 없이 음성만으로 시스템의 사용이 가능한 편리한 장점을 지니고 있으나 여러 가지 기술적인 어려움과 실제 환경의 낮은 인식률로 폭넓게 사용되지 못한 상황이다. 그 중 배경잡음은 음성인식의 인식률을 저하시키는 원인으로 지적 받고 있다. 이러한 잡음환경에 있는 ASR(Automatic Speech Recognition)의 성능 향상을 위해 외측억제 기능 이 추가된 파라미터를 제안한다. ASR 에서 널리 사용되는 파라미터인 MFCC을 본 논문에서 제안한 파라미터와 HMM를 이용하여 인식률을 비교하여 성능을 비교하였다. 실험결과를 통해 제안된 파라미터의 사용을 통해 잡음환경에 있는 ASR의 성능 향상을 확인할 수 있었다.
PDF

다양한 조명 환경에 강인한 seven-segment OCR 방법 (Robust seven-segment OCR method for various illumination environments)

김진성;노가은;남현길;박종일
- 한국방송∙미디어공학회:학술대회논문집
- /
- 한국방송∙미디어공학회 2022년도 하계학술대회
- /
- pp.235-238
- /
- 2022
본 논문은 인식이 어려운 조명 환경에도 강인한 seven-segment 문자 인식을 위해서, 영상 내에 다양한 조명 연출이 가능하도록 합성 데이터 셋을 생성하고 학습할 수 있는 OCR 방법을 제안한다. 기존 연구에서는 deblurring 과 같이 영상 이미지의 해상도를 높여 문자 인식의 정확도를 향상시키는 것에 초점을 두었으나, 여러 조명 환경에 대비할 수 있는 OCR 관련 연구들은 부족하다. 이를 해결하기 위해 본 논문에서는 문자가 포함된 자연스러운 배경 영상에, seven-segment 문자를 합성시킨 후 relighting 을 적용함으로써 실제 환경과 유사한 장면을 연출해 새로운 합성 데이터 셋을 생성한다. 그리고 생성된 데이터 셋을 딥러닝 기반 학습시켜 다양한 조명에도 강인한 문자 인식기를 만들고자 한다. 합성 데이터 셋의 사용여부와 일반적인 데이터 augmentation 기법의 사용 여부를 비교하여, 본 논문에서 제안한 방법의 효과를 확인할 수 있었다. 이를 통해서 seven-segment 문자 인식 뿐만 아니라, 다양한 문자에 대해서도 적용될 수 있는 초석이 될 것으로 기대된다.
PDF

검색결과 8,346건 처리시간 0.036초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)