• 제목/요약/키워드: learning with multiple representations

검색결과 25건 처리시간 0.026초

Multimodal Biometrics Recognition from Facial Video with Missing Modalities Using Deep Learning

  • Maity, Sayan;Abdel-Mottaleb, Mohamed;Asfour, Shihab S.
    • Journal of Information Processing Systems
    • /
    • 제16권1호
    • /
    • pp.6-29
    • /
    • 2020
  • Biometrics identification using multiple modalities has attracted the attention of many researchers as it produces more robust and trustworthy results than single modality biometrics. In this paper, we present a novel multimodal recognition system that trains a deep learning network to automatically learn features after extracting multiple biometric modalities from a single data source, i.e., facial video clips. Utilizing different modalities, i.e., left ear, left profile face, frontal face, right profile face, and right ear, present in the facial video clips, we train supervised denoising auto-encoders to automatically extract robust and non-redundant features. The automatically learned features are then used to train modality specific sparse classifiers to perform the multimodal recognition. Moreover, the proposed technique has proven robust when some of the above modalities were missing during the testing. The proposed system has three main components that are responsible for detection, which consists of modality specific detectors to automatically detect images of different modalities present in facial video clips; feature selection, which uses supervised denoising sparse auto-encoders network to capture discriminative representations that are robust to the illumination and pose variations; and classification, which consists of a set of modality specific sparse representation classifiers for unimodal recognition, followed by score level fusion of the recognition results of the available modalities. Experiments conducted on the constrained facial video dataset (WVU) and the unconstrained facial video dataset (HONDA/UCSD), resulted in a 99.17% and 97.14% Rank-1 recognition rates, respectively. The multimodal recognition accuracy demonstrates the superiority and robustness of the proposed approach irrespective of the illumination, non-planar movement, and pose variations present in the video clips even in the situation of missing modalities.

반복 반점화: 지각적 모호성이 물체 재인에 미치는 영향 (Repetition Antipriming: The Effects of Perceptual Ambiguity on Object Recognition)

  • 김구태;이도준
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.603-625
    • /
    • 2010
  • 물체의 신경 표상은 시각 피질 전반에 걸쳐 분산되어 있고 다른 물체의 신경 표상과 중첩된 형태로 유지된다. 따라서 특정 물체를 반복적으로 접하면 그 물체의 재인은 촉진되지만 다른 물체의 재인은 상대적으로 손상될 수 있다. 이러한 현상을 각각 반복 점화(priming)와 반점화(antipriming)라고 한다. 본 연구는 반복 반점화 즉, 반복된 물체 자체가 반점화 될 가능성을 검증하였다. 학습 단계에서 참가자들은 다양한 수준으로 화질이 손상된 물체 사진들의 재인 수준을 평정하였고 검사 단계에서는 정상적인 화질의 물체 사진을 보고 범주 판단 과제를 실시하였다. 그 결과, 실험 1과 2에서 모두 학습 단계에서 쉽게 재인되었던 물체는 검사 단계에서 더 효율적으로 처리되었지만(반복 점화), 반대로 학습 단계에서 지각적으로 모호했던 물체는 검사 단계에서 비효율적으로 처리되었다(반복 반점화). 이러한 결과는 지각적으로 모호한 물체를 경험할 때 세부특징에 관한 감각 표상과 다수의 물체 표상들 간의 연결이 강화되어 후속 재인 과정을 방해하기 때문인 것으로 추정된다.

  • PDF

중학교 2학년 서술형 평가 문항 반응에서 나타난 오류 분석 : 대수 영역을 중심으로 (Analyzing eighth grade students' errors in the constructed-response assessment: A case of algebra)

  • 김래영;이민희
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제23권3호
    • /
    • pp.389-406
    • /
    • 2013
  • 본 연구는 수학과 서술형 평가에서 나타난 중학교 2학년 학생들의 오류 유형을 문항별, 학습 수준별로 분석함으로써 효과적인 교수 학습 과정을 촉진하기 위한 기초자료를 제공하는 것을 목적으로 한다. 총 99명의 중학교 2학년 학생들의 문항 반응을 분석한 결과, 수학적 사고와 표현, 현실 맥락과 연결된 문항 혹은 수학 내용들이 연결된 문항 등에서 다양한 오류가 나타났으며 단일 오류뿐만 아니라 복합적인 오류 유형도 발견되었다. 학습 수준에 따라서도 상위 수준의 학생들은 복합적 오류 보다는 단일 오류가, 중하위 수준의 학생들은 복합적인 오류가 더 빈번히 나타났으며 오류 유형도 다양하였다. 이러한 결과는 문항의 유형별, 학습 수준별 학생들의 오류 패턴을 보여주는 것으로 향후 학생들의 오류를 수정하고 수학 학습을 촉진할 수 있는 서술형 평가 문항과 교수법 개발에 도움이 될 수 있을 것이다.

  • PDF

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

큰 수의 법칙 시뮬레이션에서 중학생의 안구 운동 분석 (An Analysis of Middle School Student's Eye Movements in the Law of Large Numbers Simulation Activity)

  • 최인용;조한혁
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제56권3호
    • /
    • pp.281-300
    • /
    • 2017
  • This study analyzed the difficulties of middle school students in computer simulation of the law of large numbers through eye movement analysis. Some students did not attend to the simulation results and could not make meaningful inferences. It is observed that students keep the existing concept even though they observe the simulation results which are inconsistent with the misconceptions they have. Since probabilistic intuition influence student's thinking very strongly, it is necessary to design a task that allows students to clearly recognize the difference between their erroneous intuitions and simulation results. In addition, we could confirm through eye movements analysis that students could not make meaningful observations and inferences if too much reasoning was needed even though the simulation included a rich context. It is necessary to use visual representations such as graphs to provide immediate feedback to students, to encourage students to attend to the results in a certain intentional way to discover the underlying mathematical structure rather than simply presenting experimental data. Some students focused their attention on the visually salient feature of the experimental results and have made incorrect conclusion. The simulation should be designed so that the patterns of the experimental results that the student must discover are not visually distorted and allow the students to perform a sufficient number of simulations. Based on the results of this study, we suggested that cumulative relative frequency graph showing multiple results at the same time, and the term 'generally tends to get closer' should be used in learning of the law of large numbers. In addition, it was confirmed that eye-tracking method is a useful tool for analyzing interaction in technology-based probabilistic learning.