• 제목/요약/키워드: voice image

검색결과 297건 처리시간 0.022초

건강장애 학생의 상호소통 및 교육을 위한 로봇 개발에 대한 연구 (A Study on Development of Robot for Mutual Communication and Education of Students with Health Impairments)

  • 류근재;강정배;김창걸;김경식;송병섭
    • 한국산업정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.15-24
    • /
    • 2014
  • 건강장애 학생이 특수교육 지원 대상자로 2005년 특수교육진흥법이 일부 개정되었고, 이후 교육적 약자로 분류되는 이들을 지원하기 위한 교육지원 시스템이 제안되었으며 현재는 정착이 되어 이들에게 무상으로 지원되고 있다. 법안이 개정된 초기에 대다수의 연구자들은 이들을 지원하기 위한 효과적인 교육 서비스의 형태에 관한 연구를 진행하였으며, 근래에는 이러한 연구를 바탕으로 지원되고 있는 서비스의 만족도와 문제점 도출에 관한 연구가 많이 진행되고 있는 실정이다. 하지만 이러한 사전 연구자들의 연구는 문제점 도출에 그칠 뿐 그 문제점을 보안하기 위한 근본적 대책을 제시하는데 있어 그 한계를 보이고 있다. 따라서, 본 논문에서는 사전 문헌의 고찰을 통해 건강장애의 의미를 파악하며, 현재 이들에게 지원되는 서비스의 형태와 각 서비스의 문제점을 파악하고자 한다. 아울러 파악된 문제점을 해결하기 위한 새로운 지원시스템을 제안하였으며, 제안된 시스템의 성능 테스트를 위하여 각 문항 당 Likert 5점 척도로 구성된 사용자 만족도 조사를 하였으며, 또한 대상자의 시스템 사용 중 시스템의 영상 및 음성전송의 품질에 대한 주관적 평가의 질을 높이기 위하여 이야기 비교하기와 손뼉치기와 같은 2가지의 과제를 실시하여 그 결과를 도출하였다. 그 결과 로봇시스템의 전반적 평가에 대해서는 각 문항의 평균점수가 4.31점으로 높게 나왔으며, 2가지의 과제를 통하여 영상과 음성의 전송에 문제가 없음을 알 수 있었다.

음성·영상 신호 처리 알고리즘 사례를 통해 본 젠더혁신의 필요성 (Gendered innovation for algorithm through case studies)

  • 이지연;이혜숙
    • 디지털융복합연구
    • /
    • 제16권12호
    • /
    • pp.459-466
    • /
    • 2018
  • 젠더혁신은 연구개발의 전 과정에서 남녀의 생물학적, 인지적, 사회적 특성 및 행동방식의 차이에 의한 성 젠더 요소를 고려하여 남녀 모두를 위한 보다 나은 연구개발과 지식을 창출하는 과정을 의미한다. 본 논문의 연구목적은 ICT산업, 자동차 산업, 빅데이터, 로봇 산업 등에 활용할 수 있는 영상 음성신호처리에서 문헌연구 및 기존 자료를 분석하고 사례 조사를 통하여 젠더혁신의 중요성을 고찰하는 것이다. 본 연구에서는 젠더 연구를 기반으로 영상 음성신호처리의 관련된 최신 국내외 문헌을 검색하고 총 8편의 논문을 선정한다. 그리고 젠더분석 측면에서, 연구대상, 연구 환경, 연구 설계로 구분하여 살펴본다. 연구결과로써, 노인음성 신호처리, 기계학습과 젠더, 기계번역 기술, 안면 젠더인식 기술의 음성 영상신호 처리 알고리즘 논문 사례 분석을 통하여 기존의 알고리즘에 젠더편향성이 있음을 밝히고 이들 알고리즘 개발에서 상황에 맞는 성 젠더 분석이 필요함을 보인다. 또한 알고리즘 개발에 다양한 성 젠더 요소를 반영하는 젠더혁신 방법과 정책을 제안한다. 추후 ICT에서의 젠더혁신은 남녀 모두의 요구를 반영한 제품과 서비스를 개발로 새로운 시장 창출에 기여할 수 있다.

초고속 후두내시경 영상을 이용한 평면 스캔 비디오카이모그래피 영상 생성 (Post-Processing of High-Speed Video-Laryngoscopic Images to Two-Dimensional Scanning Digital Kymographic Images)

  • 차원재;왕수건;장전엽;김근효;이연우
    • 대한후두음성언어의학회지
    • /
    • 제28권2호
    • /
    • pp.89-95
    • /
    • 2017
  • Background and Objectives : High-speed videolaryngoscopy (HSV) is the only technique that captures the true intra-cycle vibratory behavior of the vocal folds by capturing full images of the vocal folds. However, it has problems of no immediate feedback during examination, considerable waiting time for digital kymography (DKG), recording duration limited to a few seconds, and extreme demands for storage space. Herein, we demonstrate a new post-processing method that converts HSV images to two-dimensional digital kymography (2D-DKG) images, which adopts the algorithm of 2D videokymography (2D VKG). Materials and Methods : HSV system was used to capture images of vocal folds. HSV images were post-processed in Kay image-process software (KIPS), and conventional DKG images were retrieved. Custom-made post-processing system was used to convert HSV images to 2D-DKG images. The quantitative parameters of the post-processed 2D-DKG images was validated by comparing these parameters with those of the DKG images. Results : Serial HSV images for all phases of vocal fold vibratory movement are included. The images were converted by the scanning method using U-medical image-process software. Similar to conventional DKG, post-processed 2D DKG image from the HSV image can provide quantitative information on vocal fold mucosa vibration, including the various vibratory phases. Differences in amplitude symmetry index, phase symmetry index, open quotient, and close quotient between 2D-DKG and DKG were analyzed. There were no statistical differences between the quantitative parameters of vocal fold vibratory movement in 2D-DKG and DKG. Conclusion : The post-processing method of converting HSV images to 2D DKG images could provide clinical information and storage economy.

  • PDF

코로나 19에 따른 프로야구 무관중 시청품질요인의 중요도, 만족도 분석 (Analysis of the Importance and Satisfaction of Viewing Quality Factors among Non-Audience in Professional Baseball According to Corona 19)

  • 백승헌;김기탁
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권2호
    • /
    • pp.123-135
    • /
    • 2021
  • 본 연구의 자료처리는 '코로나 19와 프로야구', '코로나 19와 프로야구 무관중'과 관련된 키워드를 중심으로 텍스톰(textom)프로그램의 텍스트마이닝과 소셜네트워크 분석을 활용해 문제점 도출 및 시청품질의 변인을 설정하는데 활용하였다. 정량적 분석을 위해 시청품질에 관한 설문지를 구성하였으며, 270부의 설문응답자 중 250부의 설문을 최종연구에 사용하였다. 설문지의 타당도와 신뢰도를 확보하기 위한 도구로 탐색적 요인 분석과 신뢰도 분석을 실시하였으며, 타당도와 신뢰도가 확보된 설문을 바탕으로 IPA분석(중요도-만족도)을 실시하여 결과 및 전략을 제시하였다. IPA분석을 실시한 결과 1사분면에 영상과 관련된 요인(영상구성, 영상배색, 영상 선명도, 영상 확대 및 구도, 고음질 영상)이 나타났고 2사분면은 경기상황(응원 팀 경기수준, 응원 선수 경기수준, 스타선수 발굴, 라이벌 팀과의 경기)과 경기정보(경기일정 안내, 선수정보 확인, 팀 성적 및 선수성적, 경기정보), 상호작용(응원팀과의 공감대) 일부의 요인이 나타났으며, 3사분면은 해설자(야구관련 지식, 의사전달 능력, 발음과 목소리, 표준어 사용, 경기관련 정보 소개)와 상호작용(프런트와 실시간 소통, 시청자와의 공감대, 채팅 등의 정보교환)의 요인이 나타났다.

사람 뇌의 3차원 영상과 가상해부 풀그림 만들기 (Manufacture of 3-Dimensional Image and Virtual Dissection Program of the Human Brain)

  • 정민석;이제만;박승규;김민구
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1998년도 추계학술대회
    • /
    • pp.57-59
    • /
    • 1998
  • For medical students and doctors, knowledge of the three-dimensional (3D) structure of brain is very important in diagnosis and treatment of brain diseases. Two-dimensional (2D) tools (ex: anatomy book) or traditional 3D tools (ex: plastic model) are not sufficient to understand the complex structures of the brain. However, it is not always guaranteed to dissect the brain of cadaver when it is necessary. To overcome this problem, the virtual dissection programs of the brain have been developed. However, most programs include only 2D images that do not permit free dissection and free rotation. Many programs are made of radiographs that are not as realistic as sectioned cadaver because radiographs do not reveal true color and have limited resolution. It is also necessary to make the virtual dissection programs of each race and ethnic group. We attempted to make a virtual dissection program using a 3D image of the brain from a Korean cadaver. The purpose of this study is to present an educational tool for those interested in the anatomy of the brain. The procedures to make this program were as follows. A brain extracted from a 58-years old male Korean cadaver was embedded with gelatin solution, and serially sectioned into 1.4 mm-thickness using a meat slicer. 130 sectioned specimens were inputted to the computer using a scanner ($420\times456$ resolution, true color), and the 2D images were aligned on the alignment program composed using IDL language. Outlines of the brain components (cerebrum, cerebellum, brain stem, lentiform nucleus, caudate nucleus, thalamus, optic nerve, fornix, cerebral artery, and ventricle) were manually drawn from the 2D images on the CorelDRAW program. Multimedia data, including text and voice comments, were inputted to help the user to learn about the brain components. 3D images of the brain were reconstructed through the volume-based rendering of the 2D images. Using the 3D image of the brain as the main feature, virtual dissection program was composed using IDL language. Various dissection functions, such as dissecting 3D image of the brain at free angle to show its plane, presenting multimedia data of brain components, and rotating 3D image of the whole brain or selected brain components at free angle were established. This virtual dissection program is expected to become more advanced, and to be used widely through Internet or CD-title as an educational tool for medical students and doctors.

  • PDF

히치콕 <사이코>에 내재된 영화 사운드의 미학적 고찰 (Aesthetic Study of Film Sound Inherent in Hitchcock's )

  • 박병규
    • 한국콘텐츠학회논문지
    • /
    • 제14권6호
    • /
    • pp.26-33
    • /
    • 2014
  • 본고는 히치콕 영화 <사이코>에서 사운드의 의미작용에 대해 음성, 배경소리, 음악으로 나누어, 사운드 구성요소 모두를 영화미학적인 관점에서 다루고 있다. 음성은 보이스오버를 통해 정신적 이미지를 청각화하며, 주인 없는 음성은 육화하기 위해 삶과 죽음의 식별 불가능성을 갖기도 한다. 본고는 메츠가 주목한시각적 기법 외에 배경소리 또한 거시적 맥락 속에서 구두점-서사적 경계를 표시할 수 있음을 보였으며, 뇌리 속 비명소리를 상쇄시키며 샤워신을 매듭짓고 있는 물소리를 그 예로 들고 있다. 음악에서는 욕망과 억압이 상징되어 충돌의 불협화음을 만들고 있고, 때로 병존하는 두 화음들은 노먼-어머니의 이중성을 나타낸다. 또한, 음악은 정지된 시간 속에서 무음의 형태로 미이라화 되어 소멸하기도 한다. 이렇듯, <사이코>에 쓰인 사운드들의 공통된 영화적 의미작용은 이미지의 재생산이라 할 수 있다.

DSP상에서 실시간 처리 가능한 MPEG-4 Library에 관한 연구 (A Study for the MPEG-4 Library to operate in real-time on the DSP)

  • 홍성화;정석용
    • 한국융합학회논문지
    • /
    • 제2권1호
    • /
    • pp.7-13
    • /
    • 2011
  • 멀티미디어 시대의 정보는 영상을 중심으로 음향, 문자, 도형 등이 서로 결합되어 있다. 때문에 통신망이 발달하고 저장미디어의 용량이 늘어난다 하더라도 이러한 방대한 정보를 그대로 수용할 수는 없다. 이러한 의미에서 영상, 음향, 음성의 압축과 다중화를 위한 국제표준들인 H261, jPEG, ]BIG, MPEG-1, MPEG-2, MPEG-4, H263, G시리즈 등은 멀티미디어의 핵섬 기술들이다. 이러한 멀티미디어 서비스 시대의 기반을 조성하기 기반 기술의 첫걸음으로 실시간 MPEG-4 멀티미디어 서비스를 제공하기 위한 실시간 MPEG-4 전송 시스템을 개발하였다. 이 시스템은 향후 개발되어질 여러 시스템에 활용되어질 수 있는 기반 기술이 될 것이다. 화상회의, 빌딩 보안 시스템, 인터넷을 활용할 VOD 동영상 시스템 등에서 활용할 수 있게 될 것이다. 또한 테스트베드의 활용된 기술들인 임베디드 리녹스, MPEG-4 소프트웨어, 이미지 센싱 기술들은 또 다른 시스템 개발시 원천기술이 될 것이다.

탑-뷰 변환과 빔-레이 모델을 이용한 영상기반 보행 안내 시스템 (Vision-based Walking Guidance System Using Top-view Transform and Beam-ray Model)

  • 림청;한영준;한헌수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.93-102
    • /
    • 2011
  • 본 논문은 야외 환경에서 하나의 카메라를 이용한 시각 장애인을 위한 보행 안내 시스템을 제안한다. 기존의 스테레오 비전을 이용한 보행 지원 시스템과는 다르게 제안된 시스템은 사용자의 허리에 고정된 하나의 카메라를 이용하여 꼭 필요한 정보만을 얻는 것을 목표로 하는 시스템이다. 제안하는 시스템은 먼저 탑-뷰 영상을 생성하고, 생성된 탑-뷰 영상 내 지역적인 코너 극점을 검출한다. 검출된 극점에서 방사형의 히스토그램을 분석하여 장애물을 검출한다. 그리고 사용자 움직임은 사용자에 가까운 지역 안에서 옵티컬 플로우를 사용하여 추정한다. 이렇게 영상으로부터 추출된 정보들을 기반으로 음성 메시지 생성 모듈은 보행 지시 정보를 합성된 음성을 통해 시각 장애인에게 전달한다. 다양한실험 영상들을 사용하여 제안한 보행 안내 시스템이 일반 인도에서 유용한 안내 지시를 제공하는 것이 가능함을 보인다.

모바일 이미지 기반의 문자인식 시스템 (The Character Recognition System of Mobile Camera Based Image)

  • 박영현;이형진;백중환
    • 한국산학기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.1677-1684
    • /
    • 2010
  • 최근 모마일 폰의 발달과 스마트 폰의 보급으로 인해서 많은 콘텐츠들이 개발되어지고 있다. 특히, 모바일 휴대장치에 소형 카메라가 탑재되면서부터 카메라로부터 입력되어지는 영상 기반 콘텐츠 개발은 사람들의 흥미뿐만 아니라 활용 면에서도 중요한 부분을 차지하고 있다. 그중 문자인식 시스템은 시각 장애인 보행 보조 시스템, 로봇 자동 주행 시스템, 비디오 자동 검색 및 색인 시스템, 텍스트 자동 번역 시스템 등과 같은 활용영역에서 매우 광범위하게 쓰일 수 있다. 따라서 본 논문에서는 스마트 폰 카메라로 입력되는 자연 영상에 포함되어 있는 텍스트를 추출 및 인식하고 음성으로 출력해주는 시스템을 제안하였다. 텍스트 영역을 추출하기 위해 Adaboost 알고리즘을 이용하고 추출된 개별 텍스트 후보영역의 문자 인식에는 오류 역전파 신경망을 이용하였다.

GAN으로 합성한 음성의 충실도 향상 (Improving Fidelity of Synthesized Voices Generated by Using GANs)

  • 백문기;윤승원;이상백;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.9-18
    • /
    • 2021
  • 생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Fréchet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).