• Title/Summary/Keyword: 멀티모달

Search Result 268, Processing Time 0.029 seconds

A study on AR(Augmented Reality) game platform design using multimodal interaction (멀티모달 인터렉션을 이용한 증강현실 게임 플랫폼 설계에 관한 연구)

  • Kim, Chi-Jung;Hwang, Min-Cheol;Park, Gang-Ryeong;Kim, Jong-Hwa;Lee, Ui-Cheol;U, Jin-Cheol;Kim, Yong-U;Kim, Ji-Hye;Jeong, Yong-Mu
    • Proceedings of the Korean Society for Emotion and Sensibility Conference
    • /
    • 2009.11a
    • /
    • pp.87-90
    • /
    • 2009
  • 본 연구는 HMD(Head Mounted Display), 적외선 카메라, 웹 카메라, 데이터 글러브, 그리고 생리신호 측정 센서를 이용한 증강현실 게임 플랫폼 설계를 목적으로 하고 있다. HMD 는 사용자의 머리의 움직임을 파악하고, 사용자에게 가상 물체를 디스플레이화면에 제공한다. 적외선 카메라는 HMD 하단에 부착하여 사용자의 시선을 추적한다. 웹 카메라는 HMD 상단에 부착하여 전방 영상을 취득 후, 현실영상을 HMD 디스플레이를 통하여 사용자에게 제공한다. 데이터 글러브는 사용자의 손동작을 파악한다. 자율신경계반응은 GSR(Galvanic Skin Response), PPG(PhotoPlethysmoGraphy), 그리고 SKT(SKin Temperature) 센서로 측정한다. 측정된 피부전기반응, 맥파, 그리고 피부온도는 실시간 데이터분석을 통하여 집중 정도를 파악하게 된다. 사용자의 머리 움직임, 시선, 그리고 손동작은 직관적 인터랙션에 사용되고, 집중 정도는 직관적 인터랙션과 결합하여 사용자의 의도파악에 사용된다. 따라서, 본 연구는 멀티모달 인터랙션을 이용하여 직관적 인터랙션 구현과 집중력 분석을 통하여 사용자의 의도를 파악할 수 있는 새로운 증강현실 게임 플랫폼을 설계하였다.

  • PDF

Character Identification on Multiparty Dialogues using Multimodal Features (멀티모달 자질을 활용한 다중 화자 대화 속 인물 식별)

  • Han, Kijong;Choi, Seong-Ho;Shin, Giyeon;Zhang, Byoung-Tak;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.215-219
    • /
    • 2018
  • 다중 화자 대화 속 인물 식별이란 여러 등장인물이 나오는 대본에서 '그녀', '아버지' 등 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물을 나타내는지 파악하는 문제이다. 대본 자연어 데이터만을 입력으로 하는 대화 속 인물 식별 문제는 드라마 대본에 대해서 데이터가 구축 되었고 이를 기반으로 여러 연구가 진행되었다. 그러나, 사람도 다중 화자 대화의 문장만 보고는 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물인지 파악하기 어려운 경우가 있다. 이에 본 논문에서는 발화가 되는 시점의 영상 장면 정보를 추가적으로 활용하여 인물 식별의 성능을 높이는 방법을 제시한다. 또한 기존 대화 속 인물 식별 연구들은 미리 정의된 인물을 대상으로 분류하는 형태로 접근해왔다. 이는 학습에 사용되지 않았던 인물이 나오는 임의의 다른 드라마 대본이나 대화 등에 바로 적용될 수 없다. 이에 본 논문에서는 영상 정보는 활용하되, 한번 학습하면 임의의 대본에 적용될 수 있도록 사전 인물 정보를 사용하지 않는 상호참조해결 기반의 인물 식별 방법도 제시한다.

  • PDF

Design of Life-log System based on Multimodal Sensors in Smart Phone (스마트폰 멀티모달 센서 기반의 라이프로그 시스템 설계)

  • Nam, Yun Jin;Shin, Don Il;Shin, Dong Kyoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.192-194
    • /
    • 2016
  • 스마트폰 사용자 수가 늘어남으로써 스마트폰으로 개인에 맞는 서비스를 제공하는 것은 중요한 연구 주제가 되었고 사용자 개인의 데이터를 이용하여 기호나 취향에 맞는 상품 및 서비스 제공에 대한 개발이 활발히 이루어지고 있다. 개인에게 적합한 서비스를 제공하기 위해 데이터를 수집하는 것, 정보를 추출하는 것 및 상황 행위에 대한 특정을 하고 사용자에 대한 로그(log)를 축적하고 분석하는 작업이 가장 중요하다. 본 논문에서는 안드로이드 환경 기반의 멀티모달 센서 및 문자/통화/사진/음악 이용 로그를 활용하여 라이프로그를 저장하고 사용자의 취향을 예측할 수 있는 시스템을 제안한다. 스마트폰의 향상된 성능, 추가된 다양한 기능에 따라 생성되는 방대한 양의 데이터들을 수집하고 상황인지, 행위인지 모듈을 통하여 사용자의 상황과 행위를 특정 짓는다. 결과 또는 키워드 들을 데이터와 함께 태깅하고 에피소드 형식으로 레코드를 체계적이고 정확하게 저장한다. 이러한 시스템을 이용해 저장된 라이프로그 및 개인맞춤형 정보화 모델은 개인 취향에 최적화된 서비스/상품 제공 연구에 활용 될 수 있도록 시스템 구현을 진행할 예정이다.

Development of a multi-stimulation system to suppress proliferation of lung cancer cells (폐암 세포 증식 억제 멀티모달 시스템 개발)

  • Lee, Eonjin;Lee, Eunji;Kim, Minkyeong;Choe, Se-woon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.10a
    • /
    • pp.397-399
    • /
    • 2021
  • In this study, a basic study on the development of a multi-stimulation system was conducted to suppress lung cancer cell proliferation. Stimulation was applied to lung cancer cells using a photo-stimulating system and ultrasonic waves that generate a specific frequency, and the effect of inhibiting proliferation of cells was imaged and quantitatively evaluated. As a result of the experiment, when a single LED, single ultrasound stimulus were applied and ultrasound and LED stimuli were applied at the same time, meaningful results were shown in the proliferation rate of lung cancer cells.

  • PDF

Multi-Modal Scheme for Music Mood Classification (멀티 모달 음악 무드 분류 기법)

  • Choi, Hong-Gu;Jun, Sang-Hoon;Hwang, Een-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.259-262
    • /
    • 2011
  • 최근 들어 소리의 세기나 하모니, 템포, 리듬 등의 다양한 음악 신호 특성을 기반으로 한 음악 무드 분류에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 음악 무드 분류의 정확도를 높이기 위하여 음악 신호 특성과 더불어 노래 가사와 소셜 네트워크 상에서의 사용자 평가 등을 함께 고려하는 멀티 모달 음악 무드 분류 기법을 제안한다. 이를 위해, 우선 음악 신호 특성에 대해 퍼지 추론 기반의 음악 무드 추출 기법을 적용하여 다수의 가능한 음악 무드를 추출한다. 다음으로 음악 가사에 대해 TF-IDF 기법을 적용하여 대표 감정 키워드를 추출하고 학습시킨 가사 무드 분류기를 사용하여 가사 음악 무드를 추출한다. 마지막으로 소셜 네트워크 상에서의 사용자 태그 등 사용자 피드백을 통한 음악 무드를 추출한다. 특정 음악에 대해 이러한 다양한 경로를 통한 음악 무드를 교차 분석하여 최종적으로 음악 무드를 결정한다. 음악 분류를 기반한 자동 음악 추천을 수행하는 사용자 만족도 평가 실험을 통해서 제안하는 기법의 효율성을 검증한다.

Development of a Electronic Commerce System of Multi-Modal Information (다중모달을 이용한 전자상거래시스템 개발)

  • 장찬용;류갑상
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2001.10a
    • /
    • pp.729-732
    • /
    • 2001
  • Individual authentication system that take advantage of multimodal information is very efficient method that can take advantage of method of speech recognition, face recognition, electron signature etc. and protect important information from much dangers that exits on communication network whole as skill that construct security system. This paper deal product connected with hardware from internet space based on public key sign and electron signature description embodied system. Maintenance of public security is explaining that commercial transaction system implementation that is considered is possible as applying individual authentication.

  • PDF

Audio-Visual Integration based Multi-modal Speech Recognition System (오디오-비디오 정보 융합을 통한 멀티 모달 음성 인식 시스템)

  • Lee, Sahng-Woon;Lee, Yeon-Chul;Hong, Hun-Sop;Yun, Bo-Hyun;Han, Mun-Sung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.707-710
    • /
    • 2002
  • 본 논문은 오디오와 비디오 정보의 융합을 통한 멀티 모달 음성 인식 시스템을 제안한다. 음성 특징 정보와 영상 정보 특징의 융합을 통하여 잡음이 많은 환경에서 효율적으로 사람의 음성을 인식하는 시스템을 제안한다. 음성 특징 정보는 멜 필터 캡스트럼 계수(Mel Frequency Cepstrum Coefficients: MFCC)를 사용하며, 영상 특징 정보는 주성분 분석을 통해 얻어진 특징 벡터를 사용한다. 또한, 영상 정보 자체의 인식률 향상을 위해 피부 색깔 모델과 얼굴의 형태 정보를 이용하여 얼굴 영역을 찾은 후 강력한 입술 영역 추출 방법을 통해 입술 영역을 검출한다. 음성-영상 융합은 변형된 시간 지연 신경 회로망을 사용하여 초기 융합을 통해 이루어진다. 실험을 통해 음성과 영상의 정보 융합이 음성 정보만을 사용한 것 보다 대략 5%-20%의 성능 향상을 보여주고 있다.

  • PDF

A cough detection used multi modal learning (멀티 모달 학습을 이용한 기침 탐지)

  • Choi, Hyung-Tak;Back, Moon-Ki;Kang, Jae-Sik;Lee, Kyu-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.439-441
    • /
    • 2018
  • 딥 러닝의 높은 성능으로 여러 분야에 사용되며 기침 탐지에서도 수행된다. 이 때 기침과 유사한 재채기, 큰 소리는 단일 데이터만으로는 구분하기에 한계가 있다. 본 논문에서는 기존의 오디오 데이터와 오디오 데이터를 인코딩 한 스펙트로그램 이미지 데이터를 함께 학습하는 멀티 모달 딥 러닝을 적용하는 방법을 사용한다.

Scene Graph Generation with Graph Neural Network and Multimodal Context (그래프 신경망과 멀티 모달 맥락 정보를 이용한 장면 그래프 생성)

  • Jung, Ga-Young;Kim, In-cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.555-558
    • /
    • 2020
  • 본 논문에서는 입력 영상에 담긴 다양한 물체들과 그들 간의 관계를 효과적으로 탐지하여, 하나의 장면 그래프로 표현해내는 새로운 심층 신경망 모델을 제안한다. 제안 모델에서는 물체와 관계의 효과적인 탐지를 위해, 합성 곱 신경망 기반의 시각 맥락 특징들뿐만 아니라 언어 맥락 특징들을 포함하는 다양한 멀티 모달 맥락 정보들을 활용한다. 또한, 제안 모델에서는 관계를 맺는 두 물체 간의 상호 의존성이 그래프 노드 특징값들에 충분히 반영되도록, 그래프 신경망을 이용해 맥락 정보를 임베딩한다. 본 논문에서는 Visual Genome 벤치마크 데이터 집합을 이용한 비교 실험들을 통해, 제안 모델의 효과와 성능을 입증한다.

Korean-English Non-Autoregressive Neural Machine Translation using Word Alignment (단어 정렬을 이용한 한국어-영어 비자기회귀 신경망 기계 번역)

  • Jung, Young-Jun;Lee, Chang-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.629-632
    • /
    • 2021
  • 기계 번역(machine translation)은 자연 언어로 된 텍스트를 다른 언어로 자동 번역 하는 기술로, 최근에는 주로 신경망 기계 번역(Neural Machine Translation) 모델에 대한 연구가 진행되었다. 신경망 기계 번역은 일반적으로 자기회귀(autoregressive) 모델을 이용하며 기계 번역에서 좋은 성능을 보이지만, 병렬화할 수 없어 디코딩 속도가 느린 문제가 있다. 비자기회귀(non-autoregressive) 모델은 단어를 독립적으로 생성하며 병렬 계산이 가능해 자기회귀 모델에 비해 디코딩 속도가 상당히 빠른 장점이 있지만, 멀티모달리티(multimodality) 문제가 발생할 수 있다. 본 논문에서는 단어 정렬(word alignment)을 이용한 비자기회귀 신경망 기계 번역 모델을 제안하고, 제안한 모델을 한국어-영어 기계 번역에 적용하여 단어 정렬 정보가 어순이 다른 언어 간의 번역 성능 개선과 멀티모달리티 문제를 완화하는 데 도움이 됨을 보인다.

  • PDF