• 제목/요약/키워드: 멀티 뷰 학습

검색결과 6건 처리시간 0.025초

멀티 뷰 기법 리뷰: 이해와 응용 (Multi-view learning review: understanding methods and their application)

  • 배강일;이영섭;임창원
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.41-68
    • /
    • 2019
  • 멀티 뷰 기법은 데이터를 다양한 관점에서 보려는 접근 방법이며 데이터의 다양한 정보를 통합하여 사용하려는 시도이다. 최근 많은 연구가 진행되고 있는 멀티 뷰 기법에서는 단일 뷰 만을 이용하여 모형을 학습시켰을 때 보다 좋은 성과를 보인 경우가 많았다. 멀티 뷰 기법에서 딥 러닝 기법의 도입으로 이미지, 텍스트, 음성, 영상 등 다양한 분야에서 좋은 성과를 보였다. 본 연구에서는 멀티 뷰 기법이 인간 행동 인식, 의학, 정보 검색, 표정 인식 분야에서 직면한 여러 가지 문제들을 어떻게 해결하고 있는지 소개하였다. 또한 전통적인 멀티 뷰 기법들을 데이터 차원, 분류기 차원, 표현 간의 통합으로 분류하여 멀티 뷰 기법의 데이터 통합 원리를 리뷰 하였다. 마지막으로 딥 러닝 기법 중 가장 범용적으로 사용되고 있는 CNN, RNN, RBM, Autoencoder, GAN 등이 멀티 뷰 기법에 어떻게 응용되고 있는지를 살펴보았다. 이때 CNN, RNN 기반 학습 모형을 지도학습 기법으로, RBM, Autoencoder, GAN 기반 학습 모형을 비지도 학습 기법으로 분류하여 이 방법들이 대한 이해를 돕고자 하였다.

모달리티 반영 뷰를 활용하는 대조 학습 기반의 멀티미디어 추천 시스템 (Multimedia Recommender System Based on Contrastive Learning with Modality-Reflective View)

  • 반소희;김태리;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.635-638
    • /
    • 2024
  • 최근, 대조 학습 기반의 멀티미디어 추천 시스템들이 활발하게 연구되고 있다. 이들은 아이템의 다양한 모달리티 피처들을 활용하여 사용자와 아이템에 대한 임베딩들(뷰들)을 생성하고, 이들을 통해 대조 학습을 진행한다. 학습한 뷰들을 추천에 활용함으로써, 이들은 기존 멀티미디어 추천 시스템들보다 상당히 향상된 추천 정확도를 획득했다. 그럼에도 불구하고, 우리는 기존 대조 학습 기반의 멀티미디어 추천 시스템들이 아이템의 뷰들을 생성하는 데에 아이템의 모달리티 피처들을 올바르게 반영하는 것의 중요성을 간과하며, 그 결과 추천 정확도 향상에 제약을 갖는다고 주장한다. 이는 아이템 임베딩에 아이템 자신의 모달리티 피처를 올바르게 반영하는 것이 추천 정확도에 향상에 도움이 된다는 기존 멀티미디어 추천 시스템의 발견에 기반한다. 따라서 본 논문에서 우리는 아이템의 모달리티 피처들을 올바르게 반영할 수 있는 뷰(구체적으로, 모달리티 반영 뷰)를 통해 대조 학습을 진행하는 새로운 멀티미디어 추천 시스템을 제안한다. 제안 방안은 두 가지 실세계 공개 데이터 집합들에 대해 최신 멀티미디어 추천 시스템보다 6.78%까지 향상된 추천 정확도를 보였다.

영상처리를 이용한 PC 내부구조 학습 어플리케이션 설계 및 구현 (Design and Implementation of PC-Mechanic Education Application System Using Image Processing)

  • 김원진;김형욱;조성은;장수정;문일영
    • 한국실천공학교육학회논문지
    • /
    • 제3권2호
    • /
    • pp.93-99
    • /
    • 2011
  • 영상처리 기술을 이용한 PC정비사 자격증 취득을 돕기 위한 어플리케이션을 소개한다. 요즘 사람들은 컴퓨터의 마우스나, 키보드를 직접 이용하기 보다는 손의 제스쳐, 즉 흥미를 유발시켜 많은 사람들에게 이미지와 그래픽적인 부분을 추가시켜 소개한다. 요즘 화두가 되고 있는 멀티터치 테이블에 3D Maxs, C#을 이용해 각 부품의 Scale 및 Drag를 통해 카메라 뷰를 이동함으로써 효과적으로 자격증 취득을 돕는다. 또한 PC 정비사 국가 자격증에 출제되는 문제를 수록하고, 각 부품을 세부적으로 학습함으로써, 자격증 취득의 기틀을 마련한다. 이에, 본 논문에서는 멀티터치 테이블(MultiTouch-Table) 기반의 학습용 어플리케이션을 제안하고 그 성능을 시험하였다.

  • PDF

스마트러닝을 위한 ePub 기반 디지털교과서 통합 솔루션 설계 (Design of ePub-based Digital Textbooks Integrated Solution for Smart Learning)

  • 허성욱;강성인;김관형;최성욱;오암석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.873-875
    • /
    • 2013
  • 정보기술 발전에 따라 정보 활용 및 처리 역량이 상승하면서 교육 환경의 지능화, 네트워크화로 기술간, 서비스 간 융 복합을 통한 다양한 학습 내용 및 방법이 출현하였으며, 최근 e-러닝 산업에서 스마트기기 보급 확산과 상황 적응적이고 자기 주도적 학습에 대한 소비자의 니즈가 증가하면서 새로운 형태의 교육시스템인 스마트러닝이 부각되고 있다. 이러한 교육 패러다임의 변화에 따라 기존의 교육 콘텐츠를 스마트기기에 적용하기 위해서는 콘텐츠 및 솔루션 구조의 개선이 요구되며, 또한 서비스 제공의 측면에서 다양한 교육 콘텐츠 연동과 교육 서비스 융합을 위한 표준 플랫폼 적용이 필요하다. 이에 본 논문에서는 JVM 환경의 PC 인터페이스를 통해 ePub 표준의 교육용 멀티미디어 콘텐츠 제작기능과 기존 서책형 파일 포맷의 자료 정보를 응용하기 위한 정보변환 모듈, 스마트 기기용 ePub 전자책 뷰어를 포함하는 통합 솔루션 소프트웨어인 ePub Solution을 설계하였다.

  • PDF

스켈레톤 벡터 정보와 RNN 학습을 이용한 행동인식 알고리즘 (Using Skeleton Vector Information and RNN Learning Behavior Recognition Algorithm)

  • 김미경;차의영
    • 방송공학회논문지
    • /
    • 제23권5호
    • /
    • pp.598-605
    • /
    • 2018
  • 행동 인식은 데이터를 통해 인간의 행동을 인식하는 기술로서 비디오 감시 시스템을 통한 위험 행동과 같은 어플리케이션에 활용되어 질 수 있다. 기존의 행동 인식 알고리즘은 2차원 카메라를 통한 영상이나 다중모드 센서, 멀티 뷰와 같은 장비를 이용한 방법을 사용하거나 3D 장비를 이용하여 이루어져 왔다. 2차원 데이터를 사용한 경우 3차원 공간의 행위 인식에서는 가려짐과 같은 현상으로 낮은 인식율을 보였고 다른 방법은 복잡한 장비의 구성이나 고가의 추가적인 장비로 인한 어려움이 많았다. 본 논문은 RGB와 Depth 정보만을 이용하여 추가적인 장비 없이 CCTV 영상만으로 인간의 행동을 인식하는 방법을 제안한다. 먼저 RGB 영상에서 스켈레톤 추출 알고리즘을 적용하여 관절과 신체부위의 포인트를 추출한다. 이를 식을 적용하여 변위 벡터와 관계 벡터를 포함한 벡터로 변형한 후 RNN 모델을 통하여 연속된 벡터 데이터를 학습한다. 학습된 모델을 다양한 데이터 세트에 적용하여 행동 인식 정확도를 확인한 결과 2차원 정보만으로 3차원 정보를 이용한 기존의 알고리즘과 유사한 성능을 입증할 수 있었다.

효율적인 개방형 어휘 3차원 개체 분할을 위한 클래스-독립적인 3차원 마스크 제안과 2차원-3차원 시각적 특징 앙상블 (Class-Agnostic 3D Mask Proposal and 2D-3D Visual Feature Ensemble for Efficient Open-Vocabulary 3D Instance Segmentation)

  • 송성호;박경민;김인철
    • 정보처리학회 논문지
    • /
    • 제13권7호
    • /
    • pp.335-347
    • /
    • 2024
  • 개방형 어휘 3차원 포인트 클라우드 개체 분할은 3차원 장면 포인트 클라우드를 훈련단계에서 등장하였던 기본 클래스의 개체들뿐만 아니라 새로운 신규 클래스의 개체들로도 분할해야 하는 어려운 시각적 작업이다. 본 논문에서는 중요한 모델 설계 이슈별 기존 모델들의 한계점들을 극복하기 위해, 새로운 개방형 어휘 3차원 개체 분할 모델인 Open3DME를 제안한다. 첫째, 제안 모델은 클래스-독립적인 3차원 마스크의 품질을 향상시키기 위해, 새로운 트랜스포머 기반 3차원 포인트 클라우드 개체 분할 모델인 T3DIS[6]를 마스크 제안 모듈로 채용한다. 둘째, 제안 모델은 각 포인트 세그먼트별로 텍스트와 의미적으로 정렬된 시각적 특징을 얻기 위해, 사전 학습된 OpenScene 인코더와 CLIP 인코더를 적용하여 포인트 클라우드와 멀티-뷰 RGB 영상들로부터 각각 3차원 및 2차원 특징들을 추출한다. 마지막으로, 제안 모델은 개방형 어휘 레이블 할당 과정동안 각 포인트 클라우드 세그먼트별로 추출한 2차원 시각적 특징과 3차원 시각적 특징을 상호 보완적으로 함께 이용하기 위해, 특징 앙상블 기법을 적용한다. 본 논문에서는 ScanNet-V2 벤치마크 데이터 집합을 이용한 다양한 정량적, 정성적 실험들을 통해, 제안 모델의 성능 우수성을 입증한다.