• 제목/요약/키워드: 모달리티

검색결과 70건 처리시간 0.025초

암묵 데이터를 활용한 인문학 인풋값과 다중 모달리티의 가중치 할당 방법에 관한 연구 (A Study on the Weight Allocation Method of Humanist Input Value and Multiplex Modality using Tacit Data)

  • 이원태;강장묵
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.157-163
    • /
    • 2014
  • 이용자의 감성은 그 어느 때보다 기업, 정부 그리고 개인 간의 소통에서 중요한 변수로 인식된다. 특히 수많은 연구에서 이용자의 감성을 파악하는 방법으로 음성 톤, 속도, 얼굴 표정, 몸의 이동 방향과 속도, 제스쳐 등이 사용된다. 다중 모달리티는 단일의 모달리티보다 정확도가 높은 반면 멀티 센싱에 따른 인식률 한계와 데이터 처리 부하 그리고 센싱된 값을 추론하는 우수한 알고리즘이 요구된다. 즉 다중 모달리티는 각 모달리티의 개념, 속성이 상이하여 인간의 감성값이라는 표준화된 값으로 전환하는데 오류가 발생할 수 있다. 이 문제를 해결하기 위해 다중 모발리티 중관계망 분석, 문맥 파악, 디지털 필터 등의 기술을 이용하여 이용자에게 우선 순위를 갖는 감성 표현 모달리티를 추출할 필요가 있다. 특정 상황에 우선 순위를 갖는 모달리티와 그 주변을 에워싼 다른 모발리티를 암묵 값으로 처리하면 감성 인식에 있어 컴퓨터 자원의 소비 대비 견고한 시스템을 구성할 수 있다. 본 연구 결과, 암묵 데이터를 활용하여 다중 모발리티 중 가중치를 어떻게 부여할지에 대하여 제안하였다.

모달리티 반영 뷰를 활용하는 대조 학습 기반의 멀티미디어 추천 시스템 (Multimedia Recommender System Based on Contrastive Learning with Modality-Reflective View)

  • 반소희;김태리;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.635-638
    • /
    • 2024
  • 최근, 대조 학습 기반의 멀티미디어 추천 시스템들이 활발하게 연구되고 있다. 이들은 아이템의 다양한 모달리티 피처들을 활용하여 사용자와 아이템에 대한 임베딩들(뷰들)을 생성하고, 이들을 통해 대조 학습을 진행한다. 학습한 뷰들을 추천에 활용함으로써, 이들은 기존 멀티미디어 추천 시스템들보다 상당히 향상된 추천 정확도를 획득했다. 그럼에도 불구하고, 우리는 기존 대조 학습 기반의 멀티미디어 추천 시스템들이 아이템의 뷰들을 생성하는 데에 아이템의 모달리티 피처들을 올바르게 반영하는 것의 중요성을 간과하며, 그 결과 추천 정확도 향상에 제약을 갖는다고 주장한다. 이는 아이템 임베딩에 아이템 자신의 모달리티 피처를 올바르게 반영하는 것이 추천 정확도에 향상에 도움이 된다는 기존 멀티미디어 추천 시스템의 발견에 기반한다. 따라서 본 논문에서 우리는 아이템의 모달리티 피처들을 올바르게 반영할 수 있는 뷰(구체적으로, 모달리티 반영 뷰)를 통해 대조 학습을 진행하는 새로운 멀티미디어 추천 시스템을 제안한다. 제안 방안은 두 가지 실세계 공개 데이터 집합들에 대해 최신 멀티미디어 추천 시스템보다 6.78%까지 향상된 추천 정확도를 보였다.

기억 회상 현상에 대한 순차적 멀티 모달리티 데이터의 영향 비교 (Comparison of Sequential Multi-Modality Data Effects on Memory Recall)

  • 윤웅창;;장병탁
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2010년도 춘계학술대회
    • /
    • pp.66-71
    • /
    • 2010
  • 본 논문에서는 멀티 모달리티가 인간의 기억 현상 중에서 특히 회상 현상에 도움이 될 것이 라는 아이디어를 인간 실험과 컴퓨터 시뮬레이션을 통해서 비교 확인한다. 우리는 순차적 멀티모달리티 정보가 기억회상 현상에 미치는 영향을 알아보기 위해서 확률 하이퍼그래프 메모리모델을 사용하여 컴퓨터 시뮬레이션을 수행하였으며, 시뮬레이션 결과를 동일한 데이터를 사용한 인간 실험 결과와 비교하였다. 본 실험에서는 TV 드라마의 비디오 데이터를 이용하여 이전시점의 사진과 문장 정보가 다음 시점의 문장 생성에 미치는 영향을 확인하였다. 본 실험의 목적은 이전 시점의 문장 정보와 문장/사진 정보를 활용하여 멀티 모달리티의 영향을 확인하는 것이며 다양한 시점의 정보를 활용하여 순차성이 회상에 갖는 영향을 확인하는 것이다. 이를 통해서 기억 회상 현상에 있어서 멀티 모달리티가 미치는 영향과 순차적 데이터가 미치는 영향을 보일 수 있었으며, 기계를 통해서 인간의 기억 회상 현상을 재현할 수 있는 시뮬레이션 모델을 구현 하는데 실마리를 제공하였다.

  • PDF

3 차원 오브젝트 직접조작을 위한 데이터 글러브 기반의 멀티모달 인터페이스 설계 (Design of dataglove based multimodal interface for 3D object manipulation in virtual environment)

  • 임미정;박범
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1011-1018
    • /
    • 2006
  • 멀티모달 인터페이스는 인간의 제스처, 시선, 손의 움직임, 행동의 패턴, 음성, 물리적인 위치 등 인간의 자연스러운 행동들에 대한 정보를 해석하고 부호화하는 인지기반 기술이다. 본 논문에서는 제스처와 음성, 터치를 이용한 3D 오브젝트 기반의 멀티모달 인터페이스를 설계, 구현한다. 서비스 도메인은 스마트 홈이며 사용자는 3D 오브젝트 직접조작을 통해 원격으로 가정의 오브젝트들을 모니터링하고 제어할 수 있다. 멀티모달 인터랙션 입출력 과정에서는 여러 개의 모달리티를 병렬적으로 인지하고 처리해야 하기 때문에 입출력 과정에서 각 모달리티의 조합과 부호화 방법, 입출력 형식 등이 문제시된다. 본 연구에서는 모달리티들의 특징과 인간의 인지구조 분석을 바탕으로 제스처, 음성, 터치 모달리티 간의 입력조합방식을 제시하고 멀티모달을 이용한 효율적인 3D Object 인터랙션 프로토타입을 설계한다.

  • PDF

랜덤 하이퍼그래프 모델을 이용한 순차적 멀티모달 데이터에서의 문장 생성 (Sentence generation on sequential multi-modal data using random hypergraph model)

  • 윤웅창;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.376-379
    • /
    • 2010
  • 인간의 학습과 기억현상에 있어서 멀티모달 데이터를 사용하는 것은 단순 모달리티 데이터를 사용하는 것에 비해서 향상된 효과를 보인다는 여러 연구 결과가 있어왔다. 이 논문에서는 인간의 순차적인 정보처리와 생성현상을 기계에서의 시뮬레이션을 통해서 기계학습에 있어서도 동일한 현상이 나타나는지에 대해서 알아보고자 하였다. 이를 위해서 가중치를 가진 랜덤 하이퍼그래프 모델을 통해서 순차적인 멀티모달 데이터의 상호작용을 하이퍼에지들의 조합으로 나타내는 것을 제안 하였다. 이러한 제안의 타당성을 알아보기 위해서 비디오 데이터를 이용한 문장생성을 시도하여 보았다. 이전 장면의 사진과 문장을 주고 다음 문장의 생성을 시도하였으며, 단순 암기학습이나 주어진 룰을 통하지 않고 의미 있는 실험 결과를 얻을 수 있었다. 단순 텍스트와 텍스트-이미지 쌍의 단서를 통한 실험을 통해서 멀티 모달리티가 단순 모달리티에 비해서 미치는 영향을 보였으며, 한 단계 이전의 멀티모달 단서와 두 단계 및 한 단계 이전의 멀티모달 단서를 통한 실험을 통해서 순차적 데이터의 단계별 단서의 차이에 따른 영향을 알아볼 수 있었다. 이를 통하여 멀티 모달리티가 시공간적으로 미치는 기계학습에 미치는 영향과 순차적 데이터의 시간적 누적에 따른 효과가 어떻게 나타날 수 있는지에 대한 실마리를 제공할 수 있었다고 생각된다.

  • PDF

햅틱 / 사운드 그리드를 이용한 3차원 가상 환경 내의 위치 정보 인식 향상 (Haptic and Sound Grid for Enhanced Positioning in 3-D Virtual Environment)

  • 김승찬;양태헌;권동수
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.447-454
    • /
    • 2007
  • 본 논문에서는 사용자의 가상환경 내의 위치 정보에 대한 감각을 향상시키는 방법론으로서 햅틱 피드백(haptic feedback)과 사운드 피드백(sound feedback)의 모달리티를 활용한 그리드(grid)를 제안한다. 제안된 그리드는 사용자의 3차원 공간 내의 움직임(explorative procedure)에 추가적인 비 시각적인(non-visual) 위치정보 피드백을 부여하는데 그 목적을 두고 있다. 햅틱 모달리티를 활용한 3차원 그리드는 SensAble사의 PHANTOM(R) Omni$^{TM}$ 를 활용하여 설계되었으며, 사운드 모달리티를 활용한 경우 저주파 배경음의 주파수 특성(frequency characteristics of sound source)을 사용자 손의 공간 좌표값에 근거하여 재생 시의 표본 추출 비율(sampling rate)를 연속적으로 바꾸는 방식으로 설계되었다. 이러한 공간 그리드는 두 모달리티 각각의 독립적인 제시 및 동시 제시/제거를 통해 평가되었으며, 동시 제시의 경우 두 모달리티간의 어긋남(cross-modal asynchrony)이 없도록 설계되어 사용자의 공간 작업 시 모달리티간의 조화 (manipulating congruency)를 확보할 수 있도록 하였다. 실험을 통해 얻어진 결과는 그것의 통계적 유의미성을 분석하기 위해 다원변량분석과 사후검증(Turkey. HSD)을 거쳐 해석이 되었다. 공간 내 특정 좌표 선택을 기준으로 하는 그리드의 사용자 평과 결과, 3차원 내의 움직임에 대해 햅틱 및 사운드 피드백의 비 시각적 피드백은 사용자의 공간 작업의 오차를 줄여 주고 있음이 확인되었다. 특히 시각적인 정보만으로 확인하기 어려운 Z축 상의 움직임은 그리드의 도움으로 그 오차정도가 50% 이상 줄어 드는 것으로 확인되었다(F=19.82, p<0.01). 이러한 시각적 정보를 보존하는 햅틱, 사운드 피드백 방식을 HCI의 중요한 요소인 사용성과 유용성과 연관시켜 MMHCI(multimodal human-computer interaction) 방법론으로의 적용 가능성을 검토해 본다.

  • PDF

W3C 기반 상호연동 가능한 멀티모달 커뮤니케이터 (W3C based Interoperable Multimodal Communicator)

  • 박대민;권대혁;최진혁;이인재;최해철
    • 방송공학회논문지
    • /
    • 제20권1호
    • /
    • pp.140-152
    • /
    • 2015
  • 최근 사용자와 컴퓨터간의 양방향 상호작용을 가능하게 하는 HCI(Human Computer Interaction) 연구를 위해 인간의 의사소통 체계와 유사한 인터페이스 기술들이 개발되고 있다. 이러한 인간과의 의사소통 과정에서 사용되는 커뮤니케이션 채널을 모달리티라고 부르며, 다양한 단말기 및 서비스 환경에 따라 최적의 사용자 인터페이스를 제공하기 위해서 두 개 이상의 모달리티를 활용하는 멀티모달 인터페이스가 활발히 연구되고 있다. 하지만, 멀티모달 인터페이스를 사용하기에는 각각의 모달리티가 갖는 정보 형식이 서로 상이하기 때문에 상호 연동이 어려우며 상호 보완적인 성능을 발휘하는데 한계가 있다. 이에 따라 본 논문은 W3C(World Wide Web Consortium)의 EMMA(Extensible Multimodal Annotation Markup language)와 MMI(Multimodal Interaction Framework)표준에 기반하여 복수의 모달리티를 상호연동할 수 있는 멀티모달 커뮤니케이터를 제안한다. 멀티모달 커뮤니케이터는 W3C 표준에 포함된 MC(Modality Component), IM(Interaction Manager), PC(Presentation Component)로 구성되며 국제 표준에 기반하여 설계하였기 때문에 다양한 모달리티의 수용 및 확장이 용이하다. 실험에서는 시선 추적과 동작 인식 모달리티를 이용하여 지도 탐색 시나리오에 멀티모달 커뮤니케이터를 적용한 사례를 제시한다.

스마트 기기를 활용한 온라인 토론학습에서 모달리티가 학습자의 상호작용경험에 미치는 영향 (Effects of Modality and Smart Device on Learner's Interaction Experience in Online Learning)

  • 박세영;신동희;김태양;신재은
    • 한국콘텐츠학회논문지
    • /
    • 제15권2호
    • /
    • pp.507-519
    • /
    • 2015
  • 본 연구에서는 스마트폰, 태블릿 PC를 활용한 스마트러닝 환경에서 기기의 유형 및 모달리티(modality)가 학습자의 주관적인 상호작용경험에 미치는 영향을 실험연구를 통해 검증하였다. 분석 결과, 모달리티는 사회적 실재감 및 학습자의 상호작용경험(상호작용경험 평가, 다른 학습자에 대한 태도)에 유의미하게 긍정적인 영향을 미치는 것으로 나타났다. 스마트 기기 유형의 경우 사회적 실재감 및 학습자의 상호작용경험에 직접적으로 미치는 영향은 없었으나, 모달리티가 사회적 실재감 및 학습자의 상호작용경험에 영향을 미칠 때 조절변인으로서 상호작용효과를 가지는 것으로 나타났다. 이러한 연구 결과는 다양한 기기를 활용한 스마트러닝 환경에서 사회적 실재감 및 학습자 간 상호작용을 증진시킬 수 있는 학습 환경의 설계 원리를 제시한다는 측면에서 시사점을 가진다.

표면거리 및 표면곡률 최적화 기반 다중모달리티 뇌영상 정합 (Multimodal Brain Image Registration based on Surface Distance and Surface Curvature Optimization)

  • 박지영;최유주;김민정;태우석;홍승봉;김명희
    • 정보처리학회논문지A
    • /
    • 제11A권5호
    • /
    • pp.391-400
    • /
    • 2004
  • 서로 다른 종류의 영상을 정확하게 연관시켜 복합적인 정보를 제공하는 다중모달리티 의료 영상정합기법 중 표면정보 기반 영상정합에서는 일반적으로 동일 대상에 대한 서로 다른 모달리티에서 추출된 표면 윤곽정보 사이의 거리를 최소화함으로써 매칭이 이루어진다. 그런데 동일대상에 대해 취득되는 서로 다른 두 모달리티는 관심 영역 상의 표면 특성이 서로 유사하다. 그러므로 다중모달리티 영상정합에서 표면거리와 함께 표면의 형태 특성을 고려하여 두 영상을 매칭하는 방법이 정합결과의 정확도를 향상시킬 수 있다. 본 연구에서는 동일 대상의 서로 다른 두 모달리티 뇌영상 간의 표면거리와 표면곡률을 최적화하는 정합기법을 제안한다. 영상정합은 참조영상과 테스트영상에 대한 표면정보 생성과 이 두 개의 표면정보를 최적화하는 단계로 구성된다. 표면정보 생성 단계에서는 두 모달리티로부터 관심영역의 윤곽선을 추출하고, 이 중 참조 볼륨의 윤곽선에 대해서는 표면거리맵과 표면곡률맵을 구성하게 된다. 최적화 단계에서는 표면거리맵과 표면곡률맵을 참조하는 최적화 평가함수(cost function)에 의해 두 객체의 표면거리 차이와 표면곡률 차이를 최소화하는 정합 변환 값이 결정되고, 이것이 테스트영상의 변환에 적용되어 결과적으로 두 영상이 정합 되게 된다. 제안된 최적화 평가함수는 표면거리 정보만을 사용하는 평가함수에 비해 보다 견고한 정합 정확도를 보였으며 또한 본 연구는 정합결과의 볼륨 가시화를 통해 효율적인 영상 분석 수단을 제공하고자 하였다.

하이퍼네트워크 모델을 이용한 비전-언어 크로스모달 연관정보 추출 (Extraction Analysis for Crossmodal Association Information using Hypernetwork Models)

  • 허민오;하정우;장병탁
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.278-284
    • /
    • 2009
  • 하나의 컨텐츠를 위해 동영상, 이미지, 소리, 문장과 같은 하나 이상의 모달리티로 전달하는 멀티모달 데이터가 증가하고 있다. 이러한 형태의 자료들은 잘 정의되지 않은 형태를 주로 가지기 때문에, 모달리티 간의 정보가 명백히 표현되지 못하는 경우가 많았다. 그래서, 본 연구에서 저자들은 자연계를 다루는 다큐멘터리 동영상 데이터를 이용하여 비전-언어 간의 상호 연관정보인 크로스모달 연관정보를 추출하고 분석하는 방법을 제시하였다. 이를 위해 정글, 바다, 우주의 세 가지 주제로 구성된 다큐멘터리로부터 이미지와 자막의 조합으로 이루어진 데이터를 모은 후, 그로부터 시각언어집합과 문장언어집합을 추출하였다. 분석을 통하여, 이 언어집합들간의 상호 크로스 모달 연관정보를 통해 생성된 다른 모달리티 데이터가 의미적으로 서로 관련이 있음을 확인할 수 있었다.

  • PDF