• 제목/요약/키워드: 시각 음성인식

검색결과 129건 처리시간 0.037초

딥러닝과 교통정보 Open API를 이용한 시각장애인 버스 탑승 보조 시스템에서 딥러닝 알고리즘 성능 비교 (Comparison of Deep Learning Algorithm in Bus Boarding Assistance System for the Visually Impaired using Deep Learning and Traffic Information Open API)

  • 김태홍;여길수;정세준;유윤섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.388-390
    • /
    • 2021
  • 본 논문은 키패드, 도트매트릭스, 라이다센서, NFC 리더기를 부착한 임베디드 보드와 공공데이터포털 Open API 시스템과 딥러닝 알고리즘(YOLOv5)를 사용하여 시각장애인의 버스 탑승에 도움을 줄 수 있는 시스템을 소개한다. 이용자는 NFC 리더기 및 키패드를 통해 희망하는 버스번호를 입력한 뒤, Open API 실시간 데이터를 통해 해당 버스의 위치 및 도착예정시간 정보를 시스템에 입력해놓은 음성 출력을 통해 얻는다. 또한 도트매트릭스로 버스번호를 출력하여 기사와의 상호작용을 대기함과 동시에 딥러닝 알고리즘(YOLOv5)은 정차하는 버스 번호를 실시간 인식하고 거리센서로 버스와의 거리를 감지하여 정차유무정보를 확인, 전달하는 시스템을 제안한다.

  • PDF

이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템 (Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features)

  • 임정우;장윤나;손준영;이승윤;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

뉴스 비디오 시퀀스에서 텍스트 시작 프레임 검출 방법의 비교 (Comparison of Text Beginning Frame Detection Methods in News Video Sequences)

  • 이상희;안정일;조강현
    • 방송공학회논문지
    • /
    • 제21권3호
    • /
    • pp.307-318
    • /
    • 2016
  • Overlay texts are artificially superimposed on the broadcasting videos by human producers. These texts provide additional information to the audiovisual content. Especially, the overlay texts in news video contain concise and direct description of the content. Therefore, it is most reliable clue for constructing a news video indexing system. To make this indexing system in the TV news program, it is important to detect and recognize the texts. This paper proposes the identification of the overlay text beginning frame to help the detection and recognition of the overlay text in news videos. Since all frames in the video sequences do not contain the overlay texts, the overlay text extraction from every frame is unnecessary and time-wasting. Therefore, to focus on only the frame containing the overlay text can be enhanced the accuracy of the overlay text detection. The comparative experiments of the text beginning frame identification methods were carried out with respect to Korean television news videos. Then the appropriate processing method is proposed.

한국어 및 영어 이미지 캡션이 가능한 범용적 모델 및 목적에 맞는 텍스트를 생성해주는 기법 (A general-purpose model capable of image captioning in Korean and Englishand a method to generate text suitable for the purpose)

  • 조수현;오하영
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1111-1120
    • /
    • 2022
  • Image Captioning은 이미지를 보고 이미지를 언어로 설명하는 문제이다. 해당 문제는 이미지 처리와 자연어 처리 두 가지의 분야를 하나로 묵고 이해하고 하나로 묶어 해결할 수 있는 중요한 문제이다. 또한, 이미지를 자동으로 인식하고 텍스트로 설명함으로써 시각 장애인을 위해 이미지를 텍스트로 변환 후 음성으로 변환하여 주변 환경을 이해하는 데 도움을 줄 수 있으며, 이미지 검색, 미술치료, 스포츠 경기 해설, 실시간 교통 정보 해설 등 많은 곳에 적용할 수 있는 중요한 문제이다. 지금까지의 이미지 캡션 구 방식은 이미지를 인식하고 텍스트화시키는 데에만 집중하고 있다. 하지만 실질적인 사용을 하기 위해 현실의 다양한 환경이 고려되어야 하며 뿐만 아니라 사용하고자 하는 목적에 맞는 이미지 설명을 할 수 있어야 한다. 본 논문에서는 범용적으로 사용 가능한 한국어 및 영어 이미지 캡션 모델과 이미지 캡션 목적에 맞는 텍스트 생성 기법을 제한한다.

인공지능기술의 IoT 통합보안관제를 위한 데이터모델링 (Data Modeling for Cyber Security of IoT in Artificial Intelligence Technology)

  • 오영택;조인준
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.57-65
    • /
    • 2021
  • 산업 전 분야에 4차 산업혁명의 신기술인 IoT(Internet of Things), AI(Artificial Intelligence), Bigdata 등이 융합되어 새로운 가치를 창출하는 초연결 지능정보사회가 도래되고 있다. 모든 것이 네트워크에 연결되어 데이터가 폭발적으로 증가하고, 인공지능이 스스로 학습하여 지적 판단 기능까지도 가능하다. 특히 사물인터넷은 언제 어디서나 어느 것과도 연결될 수 있는 새로운 통신환경을 제공함에 따라 모든 것들이 연결되는 초 연결을 가능케 하고 있다. 인공지능 기술은 인간이 가진 지각, 학습, 추론, 자연어처리 등의 능력을 컴퓨터가 실행할 수 있도록 구현되고 있다. 인공지능은 기계학습, 딥러닝(Deep leearning), 자연어처리, 음성인식, 시각인식 등 첨단기술을 개발하는 방향으로 발전되고 있으며, 안전, 의료, 국방, 금융, 복지 등의 다양한 응용 분야에 특화된 소프트웨어와 머신러닝(Machine learning), 클라우드(Cloud) 기술을 포함하고 있다. 이를 통해 인간의 편의와 새로운 가치를 제공하기 위해 산업 전반의 다양한 분야에 활용된다. 하지만, 이와는 반대로 지능적이고 정교해진 사이버 위협들이 증가하고 신기술의 기술적 안전성 확보와 같은 잠재적 역기능들을 동반함에 따라 이에 대한 대응이 필요한 시점이다. 본 논문에서는 이러한 역기능을 해결하기 위한 하나의 방안으로 인공지능기술을 활용하여 IoT 통합보안관제 가능하도록 새로운 데이터모델링(Data modelling) 방안을 제안하였다.

지식의 온톨로지화를 위한 관리 시스템 아키텍처 (The Conference Management System Architecture for Ontological Knowledge)

  • 홍현우;고광산;김창수;정재길;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1115-1118
    • /
    • 2005
  • 인터넷 기술이 발전함에 따라 이를 이용한 온라인 회의 시스템이 개발되고 있다. 현재의 온라인 회의 시스템은 문자, 음성, 화상 등과 같은 멀티미디어 기술을 도입하여 기존의 오프라인 회의와 달리 공간의 제약에서 벗어날 수 있다는 장점이 있기 때문에 많은 기업과 조직에 도입되고 있다. 하지만 온라인 회의 시스템은 회의 시간이 길어질수록 발언 내용이 많아지고 회의 내용에 대한 일관된 인식이 떨어지기 쉽다는 단점이 있다. 이에 본 논문에서는 온톨로지(Ontology) 개념을 도입하여 회의 내용을 지식화 하고 이를 XML(Extensible Markup Language)로 구조화하여 요약 및 관리 할 수 있는 회의 관리 시스템 아키텍처를 제시였다. 또한 이렇게 제시된 아키텍처의 객관적인 검증과 체계적이고 시각화된 관리를 위해 지식기반 회의 관리 시스템을 설계 및 구현하였다.

  • PDF

콘텐츠 활용형 온라인 과학 수업 동영상 개발에 참여한 교사들의 경험과 인식, 개발된 수업 콘텐츠의 특징 분석 (Analysis of the Experiences and Perceptions of Teachers Participating in the Development of Content-Based Online Science Class Videos, and the Characteristics of the Developed Class Content)

  • 신정윤;박상희
    • 한국과학교육학회지
    • /
    • 제40권6호
    • /
    • pp.595-609
    • /
    • 2020
  • 이 연구에서는 코로나19 상황에서 온라인 과학 수업 콘텐츠 개발에 참여한 교사들의 경험과 온라인 과학 수업에 대한 인식, 그리고 교사들이 개발한 온라인 과학 수업 콘텐츠의 특징에 대해 분석하였다. 이를 위해 온라인 과학 수업 동영상을 직접 제작한 10명의 초등 교사를 대상으로 온라인 과학 수업 동영상의 제작 과정과 어려움, 온라인 과학 수업에 대한 인식에 대해 설문 조사 및 심층 면담하였으며, 연구 참여자들이 제작한 온라인 과학 수업 동영상을 분석하여 온라인 과학수업의 특징을 조사하였다. 그 결과 온라인 과학 수업 동영상은 교사가 수업 연구, 각본 작성, 수업 동영상 촬영 및 편집의 전 과정을 구상하고 수업 및 실험과정을 직접 촬영하는 형태로 제작되었거나 전자저작물이나 디지털교과서 등에 음성을 녹음하는 형태로 제작되었다. 연구 참여자들은 제작 시간 부족, 촬영과 편집의 어려움, 오개념 전달에 대한 우려, 기존 자료에 대한 저작권 해결 문제, 외부 공개에 대한 부담 등을 어려움으로 인식하였다. 온라인 과학 수업 동영상 콘텐츠를 제작한 경험이 있는 교사였지만 온라인 과학 수업의 장점에 관해 적극적으로 대답한 연구 참여자는 없었다. 다만 온라인 수업의 특징인 반복 학습의 가능, 수업 시간과 장소의 자유로움, 교사의 수업계획이나 통제의 용이, 시각적 매체 활용으로 수업에 대한 학생의 흥미 유발 등에서 면대면 수업보다 유리함이 있을 것으로 응답했다. 반면에 연구 참여자들은 온라인 과학 수업의 단점으로 학생들의 탐구기회가 줄어들고, 의사소통이나 상호작용이 부족해지는 것을 꼽았다. 특히 이러한 단점들은 온라인 과학 수업의 질 특히 탐구 수업을 어렵게 하는 데 큰 영향을 미칠 것으로 생각했다. 온라인 과학 수업이 면대면 수업을 완전히 대체할 수 없다는 부정적인 견해를 취하는 교사들도 있었지만 여러 교사가 콘텐츠 활용형 온라인 수업 방식을 보완하는 보조적 수업 활동이 제시된다면 온라인 과학 수업과 면대면 수업을 병행하는 방식은 가능할 것으로 인식하였다. 또한 온라인 과학 수업의 도입 단계나 정리 단계에서는 면대면 과학 수업의 과정과 유사하였지만, 탐구 단계와 개념 설명 단계에서는 면대면 과학 수업과 큰 차이를 보였다. 온라인 과학 수업에서는 학생들의 흥미 유발을 위한 여러 방법이 사용되기도 하였지만, 학생의 실험 참여를 유도하지 않는 시범 실험이나 실험결과를 획일적으로 정리하였고 교과서 본문 내용과 개념을 교사가 정리하고 설명함으로써 교사 주도 개념 설명식 수업의 형태를 띠었다.

플랫폼 분류 기준 고찰 : 감각의 입·출력 (Classification standard of Communication Tool)

  • 김효은
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.189-190
    • /
    • 2018
  • 정보콘텐츠는 문자, 이미지, 음성에 플로우로 나타나는 인간 체험 방식 및 컴퓨터와 인간 사이의 언어까지 들여다 볼 수 있는 개념과 구조를 요구한다. 빌렘 플루서의 독창적인 학문인 코무니콜로기는 인간 인식의 경계를 재고하게 하면서, 경계를 재구성하는 지평을 열어 준다. 이를 통해 인간 소통의 근본 요소인 감각의 입출력을 도출할 수 있었으며, 이는 소통 도구를 분류하고 재구성하는 기준이 된다. 인간을 기준으로 외부 자극을 받아들이는 경계는 감각으로 볼 수 있으며, 소통이 이루어지는 방향은 입출력으로 표현할 수 있다. 콘텐츠를 향유한다는 것은 인간 소통의 경계인 감각이 방향을 통해 작동하는 것으로 볼 수 있다. 감각의 입출력을 소통 도구에 적용해 보면, 책은 시각의 입력으로, 텔레비전은 시청각의 입력으로, 데스크탑은 시청각의 입력과 촉각(손가락)의 출력으로, 모바일은 신청각의 입력과 촉각(손가락, 다리)의 출력으로 볼 수 있다. 기존의 다양한 플랫폼과 콘텐츠, 아직 드러나지 않은 플랫폼도 일관된 기준을 통해 좌표를 정해 줄 수 있다. 이를 통해 공학에서 접근할 수 없는 콘텐츠 기획과 전망이 가능하다.

  • PDF

가상현실 웨어러블 기기의 구매 촉진을 위한 태도 자신감과 사용자 저항 태도: 가상현실 헤드기어를 중심으로 (Attitude Confidence and User Resistance for Purchasing Wearable Devices on Virtual Reality: Based on Virtual Reality Headgears)

  • 손봉진;박다슬;최재원
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.165-183
    • /
    • 2016
  • 스마트폰을 넘어 차세대 IT 비즈니스의 주목할 만한 후보군으로 가상현실이 이슈가 되고 있다. 가상현실은 컴퓨터와 VR헤드셋을 통해 구현한 입체적인 가상공간을 제공함으로써 사용자의 시각을 완전히 장악하고, 청각, 촉각 등 오감과의 상호작용 및 음성, 동작인식 등을 통해 가상공간을 마치 현실처럼 느끼게 한다는 점에서 향후 주목할 만한 산업 분야로 떠오르고 있다. 많은 글로벌 대기업들이 가상현실과 관련한 사업에 투자를 하고 있으나 소비자의 관점에서 가상현실 관련 제품군은 아직 쉽게 접하거나 구매하기 어려운 제품군으로 인식된다. 그렇기 때문에 소비자의 태도 변화가 큰 변화가 발생되고 있지 않으며 Acception & Diffusion 모델의 초기단계에 지나지 않아 구매로 연결되지 않는 실정이다. 본 연구는 기존 선행연구의 관점을 바탕으로 가상현실 헤드기어 제품들의 판매 촉진을 위한 사용자 관점에서의 사용자 저항을 매개 변수로 저항을 감소시키고 사용 및 구매의도에 영향을 주는 선행요인들을 도출하고자 하였으며 사용자가 가지고 있는 태도에 대한 자신감에 영향을 주어 행동 의도까지 변화시키는 현상에 대한 분석을 하고자 하였다. 본 연구의 결과는 태도 자신감에 대한 사용 용이성과 사용 혁신성의 영향력을 확인할 수 있었다. 마찬가지로 사용자 혁신저항에 영향력을 주는 변수로는 가격, 심미적 외관, 즐거움, 콘텐츠 및 화질 관련 변수들을 도출하였다. 결과적으로 본 연구는 태도 자신감의 가상현실 혁신 수용에 대한 영향력을 제시하고 가격 이외 변수인 콘텐츠의 양과 저항감의 관계성을 바탕으로 관련 변수들을 제시하였다. 특히 초기 시장인 가상현실 제품의 특성에 따라 브랜드에 대한 선점효과의 필요성과 콘텐츠의 부족함 등이 실무적으로 해결해야 할 과제로서 확인되었다.