• 제목/요약/키워드: representation learning

검색결과 509건 처리시간 0.023초

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

3D Object Generation and Renderer System based on VAE ResNet-GAN

  • Min-Su Yu;Tae-Won Jung;GyoungHyun Kim;Soonchul Kwon;Kye-Dong Jung
    • International journal of advanced smart convergence
    • /
    • 제12권4호
    • /
    • pp.142-146
    • /
    • 2023
  • We present a method for generating 3D structures and rendering objects by combining VAE (Variational Autoencoder) and GAN (Generative Adversarial Network). This approach focuses on generating and rendering 3D models with improved quality using residual learning as the learning method for the encoder. We deep stack the encoder layers to accurately reflect the features of the image and apply residual blocks to solve the problems of deep layers to improve the encoder performance. This solves the problems of gradient vanishing and exploding, which are problems when constructing a deep neural network, and creates a 3D model of improved quality. To accurately extract image features, we construct deep layers of the encoder model and apply the residual function to learning to model with more detailed information. The generated model has more detailed voxels for more accurate representation, is rendered by adding materials and lighting, and is finally converted into a mesh model. 3D models have excellent visual quality and accuracy, making them useful in various fields such as virtual reality, game development, and metaverse.

모바일 교육 시스템을 위한 효율적인 영상 검색 구축 (Effective Image Retrieval for the M-Learning System)

  • 한은정;박안진;정기철
    • 한국멀티미디어학회논문지
    • /
    • 제9권5호
    • /
    • pp.658-670
    • /
    • 2006
  • 교육 매개체의 디지털화를 위해 정보 통신망과 기술을 본격적으로 교육에 도입함으로써 교육의 패러다임이 e-learning(electronics learning)으로 이동하고 있다. 그러나 e-learning 콘텐츠는 컴퓨터가 있는 장소에서만 제공받을 수 있기 때문에, 언제 어디서나 사용자가 원할 때 교육받기 힘든 단점이 있으며, 기존 오프라인 콘텐츠를 e-learning 콘텐츠로 재구성하기 위해 많은 비용과 시간이 소요된다. 본 논문에서는 정적인 2차원 시각 정보만을 제공하는 기존 오프라인 콘텐츠의 그림 영상에 모바일 기기를 이용하여 동적인 인터랙션과 다양한 멀티미디어 정보를 융합할 수 있는 교육용 모바일 콘텐츠 (education mobile contents: EMC) 시스템을 제안한다. 제안된 영어 교육 콘텐츠는 기존 오프라인 콘텐츠의 그림 영상을 저해상도 카메라가 장착된 모바일 기기로 인식하기 위해 모양 기반의 영상 검색 방법을 이용하며, 수행속도와 크기와 기울기 변화에 강건한 시작점 일치를 통한 차분 체인코드 (differential chain code)를 사용한 DTW(dynamic time warping)를 이용한다. EMC는 모바일 기기를 이용하여 장소에 상관없이 오프라인 콘텐츠에 적합한 온라인 콘텐츠를 빠르고 정확하게 제공할 수 있다.

  • PDF

Representation of Texts into String Vectors for Text Categorization

  • Jo, Tae-Ho
    • Journal of Computing Science and Engineering
    • /
    • 제4권2호
    • /
    • pp.110-127
    • /
    • 2010
  • In this study, we propose a method for encoding documents into string vectors, instead of numerical vectors. A traditional approach to text categorization usually requires encoding documents into numerical vectors. The usual method of encoding documents therefore causes two main problems: huge dimensionality and sparse distribution. In this study, we modify or create machine learning-based approaches to text categorization, where string vectors are received as input vectors, instead of numerical vectors. As a result, we can improve text categorization performance by avoiding these two problems.

영상 분류를 위한 준지도 학습 기법의 분류와 동작 원리의 이해

  • 채문주;박재현;조성인
    • 방송과미디어
    • /
    • 제27권2호
    • /
    • pp.10-18
    • /
    • 2022
  • 본 고에서는 준지도 학습의 개념과 목표 그리고 대표 기법들의 동작 원리에 대해서 알아본다. 구체적으로, 영상 분류를 위한 준지도 학습 기법을 크게 label propagation 기반 기법과 representation learning 기반 기법으로 나누고, 이 두 가지 기법들의 특성을 분석하고, 대표 기법들의 동작 원리에 대해서 설명한다. 또한, 영상 분류 문제에서 위 두 가지 접근법들의 대표 기법들의 성능을 평가한다.

그래프 신경망 기반 가변 자동 인코더로 분자 생성에 관한 연구 (A study on Generating Molecules with Variational Auto-encoders based on Graph Neural Networks)

  • 에드워드 카야디;송미화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.380-382
    • /
    • 2022
  • Extracting informative representation of molecules using graph neural networks(GNNs) is crucial in AI-driven drug discovery. Recently, the graph research community has been trying to replicate the success of self supervised in natural language processing, with several successes claimed. However, we find the benefit brought by self-supervised learning on applying varitional auto-encoders can be potentially effective on molecular data.

자기 지도 학습 기반의 언어 모델을 활용한 다출처 정보 통합 프레임워크 (Multi-source information integration framework using self-supervised learning-based language model)

  • 김한민;이정빈;박규동;손미애
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.141-150
    • /
    • 2021
  • 인공지능(Artificial Intelligence) 기술을 활용하여 인공지능 기반의 전쟁 (AI-enabled warfare)가 미래전의 핵심이 될 것으로 예상한다. 자연어 처리 기술은 이러한 AI 기술의 핵심 기술로 지휘관 및 참모들이 자연어로 작성된 보고서, 정보 및 첩보를 일일이 열어확인하는 부담을 줄이는데 획기적으로 기여할 수 있다. 본 논문에서는 지휘관 및 참모의 정보 처리 부담을 줄이고 신속한 지휘결심을 지원하기 위해 언어 모델 기반의 다출처 정보 통합 (Language model-based Multi-source Information Integration, LAMII) 프레임워크를 제안한다. 제안된 LAMII 프레임워크는 자기지도 학습법을 활용한 언어 모델에 기반한 표현학습과 오토인코더를 활용한 문서 통합의 핵심 단계로 구성되어 있다. 첫 번째 단계에서는, 자기지도 학습 기법을 활용하여 구조적으로 이질적인 두 문장간의 유사 관계를 식별할 수 있는 표현학습을 수행한다. 두 번째 단계에서는, 앞서 학습된 모델을 활용하여 다출처로부터 비슷한 내용 혹은 토픽을 함양하는 문서들을 발견하고 이들을 통합한다. 이 때, 중복되는 문장을 제거하기 위해 오토인코더를 활용하여 문장의 중복성을 측정한다. 본 논문의 우수성을 입증하기 위해, 우리는 언어모델들과 이의 성능을 평가할 때 활용되는 대표적인 벤치마크 셋들을 함께 활용하여 이질적인 문장간의 유사 관계를 예측의 비교 실험하였다. 실험 결과, 제안된 LAMII 프레임워크가 다른 언어 모델에 비하여 이질적인 문장 구조간의 유사 관계를 효과적으로 예측할 수 있음을 입증하였다.

무리수 개념의 오류 찾기 활동에서 학생 인식과 교사의 발문 전략 (Students' cognition and a teacher's questioning strategies in the error-finding activity of the concept of irrational numbers)

  • 나윤성;최송희;김동중
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제62권1호
    • /
    • pp.35-55
    • /
    • 2023
  • 본 연구는 무리수 개념의 수학 오류 찾기 활동에서 학생의 인식뿐 아니라, 오류 활용에 관한 학생의 학습 태도와 수학적 담론 수준의 변화를 초래하는 교사의 발문 전략을 살펴보는 데 목적이 있다. 이를 위해 133명의 중학교 학생을 대상으로 오류 찾기 개인별 활동, 모둠 활동과 추가 면담을 수행하여, 학생의 인식과 학생의 학습 태도와 수학적 담론 수준의 변화를 위한 교사의 발문 전략을 분석하였다. 연구 결과, 학생들의 인식은 무리수의 기호 표상과 소수 표상에 집중하며 수직선 위의 무리수의 존재성은 인식하지만 도형을 활용한 수직선 표현에는 어려움을 겪는 경향이 있었다. 또한 학생의 학습 태도와 수학적 담론 수준의 변화를 촉진하기 위해 교사의 유도적-탐구적 발문 전략의 중요성을 관찰할 수 있었다. 본 연구는 수학 교수·학습에서 오류의 활용 방법을 구체화하고, 수학 오류 찾기에서 교사의 발문 전략을 정교화하였다는 점에서 가치가 있다.

효율적 고차 신경회로망을 이용한 비선형 함수 근사에 대한 연구 (Nonlinear Function Approximation Using Efficient Higher-order Feedforward Neural Networks)

  • 신요안
    • 한국통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.251-268
    • /
    • 1996
  • In this paper, a higher-order feedforward neural network called ridge polynomial network (RPN) which shows good approximation capability for nonlnear continuous functions defined on compact subsets in multi-dimensional Euclidean spaces, is presented. This network provides more efficient and regular structure as compared to ordinary higher-order feedforward networks based on Gabor-Kolmogrov polynomial expansions, while maintating their fast learning property. the ridge polynomial network is a generalization of the pi-sigma network (PSN) and uses a specialform of ridge polynomials. It is shown that any multivariate polynomial can be exactly represented in this form, and thus realized by a RPN. The approximation capability of the RPNs for arbitrary continuous functions is shown by this representation theorem and the classical weierstrass polynomial approximation theorem. The RPN provides a natural mechanism for incremental function approximation based on learning algorithm of the PSN. Simulation results on several applications such as multivariate function approximation and pattern classification assert nonlinear approximation capability of the RPN.

  • PDF

Computational Thinking based Mathematical Program for Free Semester System

  • Lee, Ji Yoon;Cho, Han Hyuk
    • 한국수학교육학회지시리즈D:수학교육연구
    • /
    • 제18권4호
    • /
    • pp.273-288
    • /
    • 2014
  • In recent years, coding education has been globally emphasized and the Free Semester System will be executed to the public schools in Korea from 2016. With the introduction of the Free Semester System and the rising demand of Computational Thinking (CT) capacity, this research aims to design 'learning environment' in which learners can design and construct mathematical objects through computers and print them out through 3D printers. Furthermore, it will design learning mathematics by constructing the figurate number patterns from 'soma cubes' in the playing context and connecting those to algebraic and combinatorial patterns, which will allow students to experience mathematical connectivity. It is expected that the activities of designing figurate number patterns suggested in this research will not only strengthen CT capacity in relation to mathematical thinking but also serve as a meaningful program for the Free Semester System in terms of career experience as 3D printers can be widely used.