• 제목/요약/키워드: Representation learning

검색결과 513건 처리시간 0.031초

발산제약 이동최소자승법 기반 벡터장을 생성하기 위한 효율적인 학습 표현 (Efficient Learning Representation for Vector Field Generation Based on Divergence-Constrained Moving Least Squares)

  • 장지원;이수빈;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.419-422
    • /
    • 2024
  • 본 논문에서는 다항식 보간법의 일종인 이동최소자승법(Moving least squares, MLS)을 네트워크로 학습하여, Divergence-constrained MLS 벡터장을 효율적으로 표현하는 방법을 제안한다. 벡터장을 구성하기 위해 MLS는 스칼라가 아닌 벡터 보간을 해야 하므로 행렬과 벡터의 크기가 더 커지며, 이는 계산량이 커짐을 나타낸다. 고차 보간(High-order interpolation)이 가능한 특징은 장점이 되지만, 계산량이 매우 크기 때문에 시뮬레이션에는 활용이 어렵다. Divergence-constrained MLS를 유체 시뮬레이션에 적용한 경우가 있지만, 실제로 슈퍼컴퓨터(Supercomputer)를 해야 장면 제작이 가능하므로 효용성이 떨어진다. 본 논문에서는 이러한 문제를 해결하기 위해 네트워크 학습을 통한 Divergence-constrained MLS 벡터장을 표현할 수 있는 결과를 보여준다.

  • PDF

K-SVD 기반 사전 훈련과 비음수 행렬 분해 기법을 이용한 중첩음향이벤트 검출 (Overlapping Sound Event Detection Using NMF with K-SVD Based Dictionary Learning)

  • 최현식;금민석;고한석
    • 한국음향학회지
    • /
    • 제34권3호
    • /
    • pp.234-239
    • /
    • 2015
  • 비음수 행렬 분해(Nonnegative Matrix Factorization, NMF) 기법은 사전행렬과 크기성분을 번갈아 가며 업데이트 하면서 구하는 방법이며 직관적 해석 및 구현의 용이성으로 인해 중첩음향이벤트 분리 및 검출방법으로 널리 활용되었다. 하지만 비음수 행렬 분해의 고유한 특성인 부분기반표현(part-based representation)으로 인해 하나의 음향 이벤트를 구성 하는 사전(dictionary)의 파편화 현상이 발생하고, 다른 음향이벤트와 중복되는 사전이 생성되어 결과적으로 분리, 검출 성능의 저하 문제가 발생한다. 본 논문에서는 사전 획득 단계의 부분기반표현에 의한 문제를 해소하기 위해 K-Singular Value Decomposition(K-SVD)을 사용하여 사전을 획득하고, 음향이벤트 검출 단계 에서는 기존 비음수 행렬 분해 기법을 이용하여 크기를 획득 한다. 제안하는 방식을 통해 비음수 행렬 분해 기반의 사전을 사용하는 경우보다 중첩음향이벤트 검출 성능이 개선되는 것을 확인하였다.

Facial Expression Recognition through Self-supervised Learning for Predicting Face Image Sequence

  • Yoon, Yeo-Chan;Kim, Soo Kyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권9호
    • /
    • pp.41-47
    • /
    • 2022
  • 본 논문에서는 자동표정인식을 위하여 얼굴 이미지 배열의 가운데 이미지를 예측하는 새롭고 간단한 자기주도학습 방법을 제안한다. 자동표정인식은 딥러닝 모델을 통해 높은 성능을 달성할 수 있으나 일반적으로 큰 비용과 시간이 투자된 대용량의 데이터 세트가 필요하고, 데이터 세트의 크기와 알고리즘의 성능이 비례한다. 제안하는 방법은 추가적인 데이터 세트 구축 없이 기존의 데이터 세트를 활용하여 자기주도학습을 통해 얼굴의 잠재적인 심층표현방법을 학습하고 학습된 파라미터를 전이시켜 자동표정인식의 성능을 향상한다. 제안한 방법은 CK+와 AFEW 8.0 두가지 데이터 세트에 대하여 높은 성능 향상을 보여주었고, 간단한 방법으로 큰 효과를 얻을 수 있음을 보여주었다.

의료 데이터의 자기지도학습 적용을 위한 pretext task 분석 (Pretext Task Analysis for Self-Supervised Learning Application of Medical Data)

  • 공희산;박재훈;김광수
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.38-40
    • /
    • 2021
  • 의료 데이터 분야는 레코드 수는 많지만 응답값이 없기 때문에 인공지능을 적극적으로 활용하지 못하고 있다. 이러한 문제점을 해결하기 위해 자기지도학습(Self-Supervised learning)을 의료 분야에 적용하는 연구가 등장하고 있다. 자기지도학습은 model이 레이블링이 없는 데이터의 semantic 표현을 이해할 수 있도록 pretext task와 supervision을 학습한다. 그러나, 자기지도학습의 성능은 pretext task로 학습한 표현에 의존하므로 데이터의 특성에 적합한 pretext task를 정의할 필요가 있다. 따라서 본 논문에서는 의학 데이터 중 활용도가 높은 x-ray 이미지에 적용할 수 있는 pretext task를 실험적으로 탐색하고 그 결과를 분석한다.

  • PDF

물질의 입자적 성질에 대한 다중 표상 학습에서 외적 표상들 간의 연계와 통합을 촉진시키는 방안으로서의 그리기와 쓰기 (Drawing and Writing as Methods to Assist Students in Connecting and Integrating External Representations in Learning the Particulate Nature of Matter with Multiple Representations)

  • 강훈식;김보경;노태희
    • 한국과학교육학회지
    • /
    • 제25권4호
    • /
    • pp.533-540
    • /
    • 2005
  • 이 연구에서는 물질의 입자적 성질이 강조되는 화학 개념 학습에서 학생들에게 제공되는 다양한 외적 표상들 간의 연계와 통합을 촉진시키는 방법으로서의 그리기와 쓰기의 효과에 대해 알아보았다. 남녀공학 중학교 1학년 224명을 통제 집단, 그리기 집단, 쓰기 집단으로 배치한 후,'보일의 법칙'과 '샤를의 법칙'에 대하여 2차시 동안 수업을 하였다. 세 집단 모두 거시적인 현상을 실험을 통해 관찰하게 한 후, 통제 집단 에서는 시각적 정보와 언어적 정보를 동시에 제공하여 학습하게 하였고, 그리기 집단에서는 제공된 언어적 정보에 대한 정신 모형을 그림으로 그리게 한 후, 이를 시각적 정보와 비교하게 하였으며, 쓰기 집단에서는 시각적 정보에 대한 정신 모형을 글로 쓰게 한 후, 이를 언어적 정보와 비교하게 하였다. 이원 공변량 분석 결과, 쓰기 집단의 개념 이해도 점수가 통제 집단보다 유의미하게 높았으며, 그리기 집단은 통제 집단보다 통계적으로 높은 경향성을 보였다. 개념 이해도 점수에서 수업 처치와 공간 시각화 능력 사이의 상호 작용 효과는 없었다. 학생들의 수업 인식 검사 결과에서는 대부분의 학생들이 쓰기와 그리기 활동을 통해 개념 이해가 잘 되었다고 응답하였으며, 일부 학생들은 쓰기와 그리기가 재미있었다고 응답하기도 하였다. 이에 대한 교육학적 함의를 논의하였다.

5~6세 아동의 철자표상이 말소리분절 과제 수행에 미치는 영향 (Effects of the Orthographic Representation on Speech Sound Segmentation in Children Aged 5-6 Years)

  • 맹현수;하지완
    • 디지털융복합연구
    • /
    • 제14권6호
    • /
    • pp.499-511
    • /
    • 2016
  • 음운인식은 구어의 기본 단위인 말소리를 지각하고 조작하는 능력으로, 이것은 이후 문자습득에 영향을 주는 것으로 알려져 있다. 그러나 몇몇 연구에서는 문자의 기본 단위인 철자에 대한 지식이 반대로 음운인식에 영향을 준다고 주장한다. 본 연구에서는 5, 6세 아동을 대상으로 철자표상 과제와 말소리분절 과제를 실시한 후, 두 과제 수행력 간 상관관계, 철자표상 상위집단과 하위집단 간 말소리분절 과제의 정반응 점수, 그리고 오류유형을 비교 분석하였다. 그 결과 철자표상 과제와 말소리분절 과제 수행력은 자소-음소 일치 단어에서는 양의 상관, 불일치 단어에서는 음의 상관을 보였다. 자소-음소 일치 단어의 경우 두 집단 간 말소리분절 수행력에 차이가 없었지만, 자소-음소 불일치 단어의 경우 하위집단이 상위집단보다 말소리분절 수행력이 유의하게 좋았다. 두 집단 모두에서 가장 많이 나타난 오류는 철자화 오류였고, 이러한 경향은 상위집단에서 두드러졌다. 본 연구는 철자를 배우기 시작한 직후부터는 아동들이 말소리분절 과제 수행에 철자지식을 활용하고 있음을 시사한다.

인지언어 및 메타정의의 관점에서 수학 영재아의 문제해결 프로토콜 분석 (Analysis of Problem-Solving Protocol of Mathematical Gifted Children from Cognitive Linguistic and Meta-affect Viewpoint)

  • 도주원;백석윤
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제22권4호
    • /
    • pp.223-237
    • /
    • 2019
  • 수학적 과정에서 나타나는 언어 구문론적 표현 체계와 정의적 표현 체계 사이에는 긴밀한 상호 작용이 이루어진다. 한편, 수학적 개념 체계도 본질적으로 은유적이므로 언어적 표현을 통해 나타나는 수학적 개념 구조에 대한 분석은 수학 학습에 작용하는 인지 정의적 장애 요인의 근원을 밝히는데 도움이 될 수 있다. 이에 본 연구에서는 수학 영재아의 문제해결 프로토콜을 인지언어와 메타정의의 관점에서 분석하여 텍스트 및 은유의 기능적 특성과 메타정의의 기능적 특성 사이의 관계성을 파악하였다. 그 결과 문제해결의 성공 여부에 따라 수학 영재아의 인지적, 정의적 특성이 반영된 행위의 양상이 서로 다르게 나타났다. 성공적이지 못한 문제해결의 경우에는 성공적인 경우에 비해 내부 표현 체계로서의 은유를 활용하는 행위가 상대적으로 빈번하게 나타났다. 또한 은유의 인지언어학적 측면이 문제해결에 중요하게 작용하면서 동시에 은유라는 외적 표현에는 메타정의적 속성이 긴밀하게 관련되어 나타났다.

가려진 얼굴의 인식 (Recognition of Occluded Face)

  • 강현철
    • 한국정보통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.682-689
    • /
    • 2019
  • 부분 기반 영상 표현(part-based image representation)에서는 영상의 부분적인 모습을 기저 벡터로 표현하고 기저 벡터의 선형 조합으로 영상을 분해하며, 이 때 기저 벡터의 계수가 곧 물체의 부분적인 특징을 의미하게 된다. 본 논문에는 부분 기반 영상 표현 기법인 비음수 행렬 분해(non-negative matrix factorization, NMF)를 이용하여 얼굴 영상을 표현하고 신경망 기법을 적용하여 가려진 얼굴을 인식하는 얼굴 인식을 제안한다. 표준 비음수 행렬 분해, 투영 경사 비음수 행렬 분해, 직교 비음수 행렬 분해를 이용하여 얼굴 영상을 표현하였고, 각 기법의 성능을 비교하였다. 인식기로는 학습벡터양자화 신경망을 사용하였으며, 인식기에서의 거리 척도로는 유클리디언 거리를 사용하였다. 실험 결과, 전통적인 얼굴 인식 방법에 비하여 제안한 기법이 가려진 얼굴 인식에 보다 강인함을 보인다.

Representative Batch Normalization for Scene Text Recognition

  • Sun, Yajie;Cao, Xiaoling;Sun, Yingying
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권7호
    • /
    • pp.2390-2406
    • /
    • 2022
  • Scene text recognition has important application value and attracted the interest of plenty of researchers. At present, many methods have achieved good results, but most of the existing approaches attempt to improve the performance of scene text recognition from the image level. They have a good effect on reading regular scene texts. However, there are still many obstacles to recognizing text on low-quality images such as curved, occlusion, and blur. This exacerbates the difficulty of feature extraction because the image quality is uneven. In addition, the results of model testing are highly dependent on training data, so there is still room for improvement in scene text recognition methods. In this work, we present a natural scene text recognizer to improve the recognition performance from the feature level, which contains feature representation and feature enhancement. In terms of feature representation, we propose an efficient feature extractor combined with Representative Batch Normalization and ResNet. It reduces the dependence of the model on training data and improves the feature representation ability of different instances. In terms of feature enhancement, we use a feature enhancement network to expand the receptive field of feature maps, so that feature maps contain rich feature information. Enhanced feature representation capability helps to improve the recognition performance of the model. We conducted experiments on 7 benchmarks, which shows that this method is highly competitive in recognizing both regular and irregular texts. The method achieved top1 recognition accuracy on four benchmarks of IC03, IC13, IC15, and SVTP.

멀티 뷰 기법 리뷰: 이해와 응용 (Multi-view learning review: understanding methods and their application)

  • 배강일;이영섭;임창원
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.41-68
    • /
    • 2019
  • 멀티 뷰 기법은 데이터를 다양한 관점에서 보려는 접근 방법이며 데이터의 다양한 정보를 통합하여 사용하려는 시도이다. 최근 많은 연구가 진행되고 있는 멀티 뷰 기법에서는 단일 뷰 만을 이용하여 모형을 학습시켰을 때 보다 좋은 성과를 보인 경우가 많았다. 멀티 뷰 기법에서 딥 러닝 기법의 도입으로 이미지, 텍스트, 음성, 영상 등 다양한 분야에서 좋은 성과를 보였다. 본 연구에서는 멀티 뷰 기법이 인간 행동 인식, 의학, 정보 검색, 표정 인식 분야에서 직면한 여러 가지 문제들을 어떻게 해결하고 있는지 소개하였다. 또한 전통적인 멀티 뷰 기법들을 데이터 차원, 분류기 차원, 표현 간의 통합으로 분류하여 멀티 뷰 기법의 데이터 통합 원리를 리뷰 하였다. 마지막으로 딥 러닝 기법 중 가장 범용적으로 사용되고 있는 CNN, RNN, RBM, Autoencoder, GAN 등이 멀티 뷰 기법에 어떻게 응용되고 있는지를 살펴보았다. 이때 CNN, RNN 기반 학습 모형을 지도학습 기법으로, RBM, Autoencoder, GAN 기반 학습 모형을 비지도 학습 기법으로 분류하여 이 방법들이 대한 이해를 돕고자 하였다.