• 제목/요약/키워드: Speech & image processing system

검색결과 25건 처리시간 0.026초

입술 움직임 영상 선호를 이용한 음성 구간 검출 (Speech Activity Detection using Lip Movement Image Signals)

  • 김응규
    • 융합신호처리학회논문지
    • /
    • 제11권4호
    • /
    • pp.289-297
    • /
    • 2010
  • 본 논문에서는 음성인식을 위한 음성구간 검출과정에서 유입될 수 있는 동적인 음향에너지 이외에 화자의 입술움직임 영상신호까지 확인함으로써 외부 음향잡음이 음성인식 대상으로 오인식되는 것을 방지하기 위한 한 가지 방법이 제시된다. 우선, 연속적인 영상이 PC용 영상카메라를 통하여 획득되고 그 입술움직임 여부가 식별된다. 다음으로, 입술움직임 영상신호 데이터는 공유메모리에 저장되어 음성인식 프로세서와 공유한다. 한편, 음성인식의 전처리 단계인 음성구간 검출과정에서 공유메모리에 저장되어진 데이터를 확인함으로써 화자의 발성에 의한 음향에너지인지의 여부가 입증된다. 최종적으로, 음성인식기와 영상처리기를 연동시켜 실험한 결과, 영상카메라에 대면해서 발성하면 음성인식 결과의 출력에 이르기까지 연동처리가 정상적으로 진행됨을 확인하였고, 영상카메라에 대면치 않고 발성하면 연동처리시스템이 그 음성인식 결과를 출력치 못함을 확인하였다. 또한, 오프라인하의 입술움직임 초기 특정값 및 템플릿 초기영상을 온라인하에서 추출된 입술움직임 초기특정값 및 템플릿 영상으로 대체함으로써 입술움직임 영상 추적의 변별력을 향상시켰다. 입술움직임 영상 추적과정을 시각적으로 확인하고 실시간으로 관련된 패러미터를 해석하기 위해 영상처리 테스트베드를 구축하였다, 음성과 영상처리 시스템의 연동결과 다양한 조명환경 하에서도 약 99.3%의 연동율을 나타냈다.

Interactive Rehabilitation Support System for Dementia Patients

  • Kim, Sung-Ill
    • 융합신호처리학회논문지
    • /
    • 제11권3호
    • /
    • pp.221-225
    • /
    • 2010
  • This paper presents the preliminary study of an interactive rehabilitation support system for both dementia patients and their caregivers, the goal of which is to improve the quality of life(QOL) of the patients suffering from dementia through virtual interaction. To achieve the virtual interaction, three kinds of recognition modules for speech, facial image and pen-mouse gesture are studied. The results of both practical tests and questionnaire surveys show that the proposed system had to be further improved, especially in both speech recognition and user interface for real-world applications. The surveys also revealed that the pen-mouse gesture recognition, as one of possible interactive aids, show us a probability to support weakness of speech recognition.

음성인식 및 영상처리 기반 멀티모달 입력장치의 설계 (Design of the Multimodal Input System using Image Processing and Speech Recognition)

  • 최원석;이동우;김문식;나종화
    • 제어로봇시스템학회논문지
    • /
    • 제13권8호
    • /
    • pp.743-748
    • /
    • 2007
  • Recently, various types of camera mouse are developed using the image processing. The camera mouse showed limited performance compared to the traditional optical mouse in terms of the response time and the usability. These problems are caused by the mismatch between the size of the monitor and that of the active pixel area of the CMOS Image Sensor. To overcome these limitations, we designed a new input device that uses the face recognition as well as the speech recognition simultaneously. In the proposed system, the area of the monitor is partitioned into 'n' zones. The face recognition is performed using the web-camera, so that the mouse pointer follows the movement of the face of the user in a particular zone. The user can switch the zone by speaking the name of the zone. The multimodal mouse is analyzed using the Keystroke Level Model and the initial experiments was performed to evaluate the feasibility and the performance of the proposed system.

ChatGPT와 영상처리를 이용한 졸음 감지 시스템 (A Drowsiness Detection System using ChatGPT and Image Processing)

  • 이현준;순현상;조성훈;서창희;강지윤;오세진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.259-260
    • /
    • 2024
  • 졸음운전으로 인한 교통사고는 매년 꾸준하게 일어나 이에 대한 다방면의 해결책이 요구되고 있다. 본 논문에서는 위 문제를 개선하고자 ChatGPT와 영상처리를 이용한 졸음 감지 시스템을 구현하였다. 이 시스템은 운전자의 얼굴 부분을 영상처리로 인식하여 눈동자의 종횡비를 구해 PERCLOS 공식에 따른 운전자의 졸음을 판별시키고, 경고와 동시에 ChatGPT가 운전자에게 특정 주제를 키워드로 TTS와 STT를 통해 대화한다. 운전자의 졸음을 판별하기 위해 임베디드 보드에서 연결된 캠을 통해 졸음 판별을 하고, ChatGPT도 마찬가지로 보드에서 연결한 스피커, 마이크를 통해 운전자와 대화한다. 이를 활용하여 운전자의 졸음 자각을 통한 안전운전 및 사고 발생률의 감소를 기대할 수 있다.

  • PDF

이미지 사전과 동사기반 문장 생성 규칙을 활용한 보완대체 의사소통 시스템 구현 (Implementation of Augmentative and Alternative Communication System Using Image Dictionary and Verbal based Sentence Generation Rule)

  • 류제;한광록
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.569-578
    • /
    • 2006
  • 본 논문에서는 언어장애인이 쉽게 인식할 수 있는 이미지들을 이용한 보완대체 의사소통 시스템의 구현에 관하여 연구하였다. 특히 보완대체 의사소통 도구의 휴대성 및 이동성과 보다 유연한 형태의 의사소통 시스템 구현에 초점을 맞추었다. 이동성과 휴대성을 위하여 PDA와 같은 모바일 기기에서 운용될 수 있는 시스템을 구현하여 사용 장소의 제약에서 벗어나 여러 장소에서 일반인과 다름없는 의사소통을 할 수 있도록 하였으며, 용량이 큰 이미지 데이터의 저장 공간 한계를 극복하기 위하여 유선 또는 무선 인터넷 환경에서 클라이언트/서버 형태의 보완대체 의사소통 시스템을 설계하였다. 또한 사용자의 원활한 의사소통이 가능하도록 동사를 기준으로 하여 동사에 대응하는 명사들을 하위 범주화하여 이미지 사전을 구축하였다. 이를 위하여 문장을 구성하는데 가장 중요한 역할을 하는 품사인 동사에 초점을 맞추어 동사의 유형에 따라 생성되는 문장의 유형을 정규화 하였다.

Human-Computer Interaction Based Only on Auditory and Visual Information

  • Sha, Hui;Agah, Arvin
    • Transactions on Control, Automation and Systems Engineering
    • /
    • 제2권4호
    • /
    • pp.285-297
    • /
    • 2000
  • One of the research objectives in the area of multimedia human-computer interaction is the application of artificial intelligence and robotics technologies to the development of computer interfaces. This involves utilizing many forms of media, integrating speed input, natural language, graphics, hand pointing gestures, and other methods for interactive dialogues. Although current human-computer communication methods include computer keyboards, mice, and other traditional devices, the two basic ways by which people communicate with each other are voice and gesture. This paper reports on research focusing on the development of an intelligent multimedia interface system modeled based on the manner in which people communicate. This work explores the interaction between humans and computers based only on the processing of speech(Work uttered by the person) and processing of images(hand pointing gestures). The purpose of the interface is to control a pan/tilt camera to point it to a location specified by the user through utterance of words and pointing of the hand, The systems utilizes another stationary camera to capture images of the users hand and a microphone to capture the users words. Upon processing of the images and sounds, the systems responds by pointing the camera. Initially, the interface uses hand pointing to locate the general position which user is referring to and then the interface uses voice command provided by user to fine-the location, and change the zooming of the camera, if requested. The image of the location is captured by the pan/tilt camera and sent to a color TV monitor to be displayed. This type of system has applications in tele-conferencing and other rmote operations, where the system must respond to users command, in a manner similar to how the user would communicate with another person. The advantage of this approach is the elimination of the traditional input devices that the user must utilize in order to control a pan/tillt camera, replacing them with more "natural" means of interaction. A number of experiments were performed to evaluate the interface system with respect to its accuracy, efficiency, reliability, and limitation.

  • PDF

영상처리 기반의 운전자 중심 정보처리 기술 개발 (A Driving Information Centric Information Processing Technology Development Based on Image Processing)

  • 양승훈;홍광수;김병규
    • 융합보안논문지
    • /
    • 제12권6호
    • /
    • pp.31-37
    • /
    • 2012
  • 오늘날 자동차 기술의 핵심은 IT 기반 융합 시스템기술로 변화하고 있다. 다양한 IT 기술을 접목하여 운전 중 다양한 상황에 대응하고 또한 운전자의 편의성을 지원하는 기술적 추세를 보이고 있다. 본 논문에서는 운전자의 안전성과 편의성을 증대하기 위해 영상 정보를 기반으로 도로 정보를 검출해 운전자에게 알려주고, 버튼을 직접 손으로 눌러야 하는 물리적 인터페이스를 대체할 비접촉식 인터페이스 기술을 융합한 Augmented Driving System (ADS) 기술을 제안한다. 본 기술은 카메라로부터 입력 받은 영상 정보를 제안된 알고리즘을 통해 앞차와의 거리, 차선, 교통 표지판을 검출하고 차량 내부를 주시하는 카메라와 운전자의 음성을 인식할 마이크를 기반으로 기본 음성인식과 동작인식이 융합된 인터페이스 기술을 제공한다. 이러한 요소 기술들은 운전자가 인지하지 못하더라도 운전자에게 현재의 주행상황을 인지하여 자동으로 알려줌으로써 교통사고 확률을 크게 낮출 수 있을 것이며, 또한 다양한 운전 중 기능 조작을 편리하게 지원함으로써 운전자의 전방 주시에 도움을 줄 수 있다. 본 논문에서 개발된 기술을 통해 테스트를 실시해 본 결과 표지판인식, 차선검출, 앞차와의 거리 검출 등의 인식률이 약 90% 이상이 되었다.

패션 속성기반 혼합현실 시각화 서비스 (Fashion attribute-based mixed reality visualization service)

  • 유용민;이경욱;김경선
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.2-5
    • /
    • 2022
  • 딥러닝의 등장과 ICT(Information and Communication Technology)의 급속한 발전으로 정치, 경제, 문화 등 사회의 다양한 분야에서 인공지능을 활용한 연구가 활발히 진행되고 있다. 딥러닝 기반 인공지능 기술은 자연어 처리, 영상 처리, 음성 처리, 추천 시스템 등 다양한 영역으로 세분화된다. 특히, 산업이 고도화됨에 따라 시장 동향 및 개인의 특성을 분석하여 소비자에게 추천하는 추천 시스템의 필요성이 점점 더 요구되고 있다. 이러한 기술 발전에 발맞추어, 본 논문에서는 딥러닝 기반 '언어처리지능' 과 '영상처리지능'의 기술개발을 통해 정형 또는 비정형 텍스트 및 이미지 빅데이터로부터 속성 정보를 추출 추출하고, 분류하여 패션시장의 트랜드나 신규소재 등을 분석하고 소비자의 취향 분석을 통하여 '시장-소비자' 인사이트를 발굴하여, 스타일 추천, 가상 피팅, 및 디자인지원 등이 가능한 인공지능 기반 '맞춤형 패션 어드바이저' 서비스 통합 시스템을 제안한다.

  • PDF

학습 횟수 조절 신경 회로망을 이용한 영상 신호의 벡터 양자화 (Vector Quantization of Image Signal using Larning Count Control Neural Networks)

  • 유대현;남기곤;윤태훈;김재창
    • 전자공학회논문지C
    • /
    • 제34C권1호
    • /
    • pp.42-50
    • /
    • 1997
  • Vector quantization has shown to be useful for compressing data related with a wide rnage of applications such as image processing, speech processing, and weather satellite. Neural networks of images this paper propses a efficient neural network learning algorithm, called learning count control algorithm based on the frquency sensitive learning algorithm. This algorithm can train a results more codewords can be assigned to the sensitive region of the human visual system and the quality of the reconstructed imate can be improved. We use a human visual systrem model that is a cascade of a nonlinear intensity mapping function and a modulation transfer function with a bandpass characteristic.

  • PDF

HMM(Hidden Markov Model) 기반의 견고한 실시간 립리딩을 위한 효율적인 VLSI 구조 설계 및 FPGA 구현을 이용한 검증 (Design of an Efficient VLSI Architecture and Verification using FPGA-implementation for HMM(Hidden Markov Model)-based Robust and Real-time Lip Reading)

  • 이지근;김명훈;이상설;정성태
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.159-167
    • /
    • 2006
  • 립리딩은 잡음이 있는 환경에서 음성 인식 시스템의 성능 향상을 위한 한 방법으로 제안되었다. 기존의 논문들이 소프트웨어 립리딩 방법을 제안하는 것에 반하여, 본 논문에서는 실시간 립리딩을 위한 하드웨어 설계를 제안한다. 실시간 처리와 구현의 용이성을 위하여 본 논문에서는 립리딩 시스템을 이미지 획득 모듈, 특징 벡터 추출 모듈, 인식 모듈의 세 모듈로 분할하였다. 이미지 획득 모듈에서는 CMOS 이미지 센서를 사용하여 입력 영상을 획득하게 하였고, 특징 벡터 추출 모듈에서는 병렬 블록매칭 알고리즘을 이용하여 입력영상으로부터 특징벡터를 추출하도록 하였고, 이를 FPGA로 코딩하여 시뮬레이션 하였다. 인식 모듈에서는 추출된 특징 벡터에 대하여 HMM 기반 인식 알고리즘을 적용하여 발성한 단어를 인식하도록 하였고, 이를 DSP에 코딩하여 시뮬레이션 하였다. 시뮬레이션 결과 실시간 립리딩 시스템이 하드웨어로 구현 가능함을 알 수 있었다.

  • PDF