• Title/Summary/Keyword: 학습데이터 구성기법

Search Result 284, Processing Time 0.03 seconds

CNN Architecture for Accurately and Efficiently Learning a 3D Triangular Mesh (3차원 삼각형 메쉬를 정확하고 효율적으로 학습하기 위한 CNN 아키텍처)

  • Hong Eun Na;Jong-Hyun Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.369-372
    • /
    • 2023
  • 본 논문에서는 삼각형 구조로 구성된 3차원 메쉬(Mesh)에서 합성곱 신경망(Convolution Neural Network, CNN)을 응용하여 정확도가 높은 새로운 학습 표현 기법을 제시한다. 우리는 메쉬를 구성하고 있는 폴리곤의 edge와 face의 로컬 특징을 기반으로 학습을 진행한다. 일반적으로 딥러닝은 인공신경망을 수많은 계층 형태로 연결한 기법을 말하며, 주요 처리 대상은 1, 2차원 데이터 형태인 오디오 파일과 이미지였다. 인공지능에 대한 연구가 지속되면서 3차원 딥러닝이 도입되었지만, 기존의 학습과는 달리 3차원 딥러닝은 데이터의 확보가 쉽지 않다. 혼합현실과 메타버스 시장의 확대로 인해 3차원 모델링 시장이 증가하고, 기술의 발전으로 데이터를 획득할 수 있는 방법이 생겼지만, 3차원 데이터를 직접적으로 학습에 이용하는 방식으로 적용하는 것은 쉽지 않다. 그렇게 때문에 본 논문에서는 산업 현장에서 이용되는 데이터인 메쉬 구조를 폴리곤의 최소 단위인 삼각형 형태로 구성하여 학습 데이터를 구성해 기존의 방법보다 정확도가 높은 학습 기법을 제안한다.

  • PDF

Local Feature Map Using Triangle Area and Variation for Efficient Learning of 3D Mesh (3차원 메쉬의 효율적인 학습을 위한 삼각형의 면적과 변화를 이용한 로컬 특징맵)

  • Na, Hong Eun;Kim, Jong-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.573-576
    • /
    • 2022
  • 본 논문에서는 삼각형 구조로 구성된 3차원 메쉬(Mesh)에서 합성곱 신경망(Convolutional Neural Network, CNN)의 정확도를 개선시킬 수 있는 새로운 학습 표현 기법을 제시한다. 우리는 메쉬를 구성하고 있는 삼각형의 넓이와 그 로컬 특징을 기반으로 학습을 진행한다. 일반적으로 딥러닝은 인공신경망을 수많은 계층 형태로 연결한 기법을 말하며, 주요 처리 대상은 오디오 파일과 이미지이었다. 인공지능에 대한 연구가 지속되면서 3차원 딥러닝이 도입되었지만, 기존의 학습과는 달리 3차원 학습은 데이터의 확보가 쉽지 않다. 혼합현실과 메타버스 시장으로 인해 3차원 모델링 시장이 증가가 하면서 기술의 발전으로 데이터를 획득할 수 있는 방법이 생겼지만, 3차원 데이터를 직접적으로 학습 표현하는 방식으로 적용하는 것은 쉽지 않다. 그렇기 때문에 본 논문에서는 산업 현장에서 사용되는 데이터인 삼각형 메쉬 구조를 바탕으로 기존 방법보다 정확도가 높은 학습 기법을 제안한다.

  • PDF

A Method of Grouping Features from Big Data based on Semantic Hierarchy for Accuracy Enhancement (빅데이터 환경에서 학습 정확도 향상을 위한 의미 계층 기반 속성 집단화 기법)

  • Lee, Keonsun;Lee, Keonsoo;Kang, Byeong-G
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.892-894
    • /
    • 2019
  • 빅데이터 기반의 기계학습은 대규모 데이터를 이용하여, 숨겨진 패턴을 찾아내는 학습과정과, 그렇게 찾아낸 패턴을 이용하여 새로운 데이터를 해석하는 추론과정으로 이루어진다. 이 과정을 통해 학습된 패턴은 데이터를 구성하는 속성들과 긴밀한 연관성을 갖고 있다. 학습에 사용된 데이터의 원 데이터를 구성하는 각각의 속성과 추론 결과가 동일한 계층 관계를 갖고 있다면, 모든 속성을 동일하게 처리할 수 있지만, 그렇지 않은 경우, 속성들 사이의 계층 정보를 고려하는 것이, 추론 결과의 정확도를 높일 수 있다. 이에 본 연구에서는 속성들 사이의 계층 관계를 고려한 추론 기법을 제안하고, 사례연구를 통해 제안 방법을 실제 상황에 적용하는 방법을 제시한다.

Two-Stage Contrastive Learning for Representation Learning of Korean Review Opinion (두 단계 대조 학습 기반 한국어 리뷰 의견 표현벡터 학습)

  • Jisu Seo;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.262-267
    • /
    • 2022
  • 이커머스 리뷰와 같은 특정 도메인의 경우, 텍스트 표현벡터 학습을 위한 양질의 오픈 학습 데이터를 구하기 어렵다. 또한 사람이 수동으로 검수하며 학습데이터를 만드는 경우, 많은 시간과 비용을 소모하게 된다. 따라서 본 논문에서는 수동으로 검수된 데이터없이 양질의 텍스트 표현벡터를 만들 수 있도록 두 단계의 대조 학습 시스템을 제안한다. 이 두 단계 대조 학습 시스템은 레이블링 된 학습데이터가 필요하지 않은 자기지도 학습 단계와 리뷰의 특성을 고려한 자동 레이블링 기반의 지도 학습 단계로 구성된다. 또한 노이즈에 강한 오류함수와 한국어에 유효한 데이터 증강 기법을 적용한다. 그 결과 스피어먼 상관 계수 기반의 성능 평가를 통해, 베이스 모델과 비교하여 성능을 14.03 향상하였다.

  • PDF

Optimization of Data Augmentation Techniques in Neural Machine Translation (신경망 기계번역에서 최적화된 데이터 증강기법 고찰)

  • Park, Chanjun;Kim, Kuekyeng;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.258-261
    • /
    • 2019
  • 딥러닝을 이용한 Sequence to Sequence 모델의 등장과 Multi head Attention을 이용한 Transformer의 등장으로 기계번역에 많은 발전이 있었다. Transformer와 같은 성능이 좋은 모델들은 대량의 병렬 코퍼스를 가지고 학습을 진행하였는데 대량의 병렬 코퍼스를 구축하는 것은 시간과 비용이 많이 드는 작업이다. 이러한 단점을 극복하기 위하여 합성 코퍼스를 만드는 기법들이 연구되고 있으며 대표적으로 Back Translation 기법이 존재한다. Back Translation을 이용할 시 단일 언어 데이터를 가상 병렬 데이터로 변환하여 학습데이터의 양을 증가 시킨다. 즉 말뭉치 확장기법의 일종이다. 본 논문은 Back Translation 뿐만 아니라 Copied Translation 방식을 통한 다양한 실험을 통하여 데이터 증강기법이 기계번역 성능에 미치는 영향에 대해서 살펴본다. 실험결과 Back Translation과 Copied Translation과 같은 데이터 증강기법이 기계번역 성능향상에 도움을 줌을 확인 할 수 있었으며 Batch를 구성할 때 상대적 가중치를 두는 것이 성능향상에 도움이 됨을 알 수 있었다.

  • PDF

Feature Subset Selection in the Induction Algorithm using Sensitivity Analysis of Neural Networks (신경망의 민감도 분석을 이용한 귀납적 학습기법의 변수 부분집합 선정)

  • 강부식;박상찬
    • Journal of Intelligence and Information Systems
    • /
    • v.7 no.2
    • /
    • pp.51-63
    • /
    • 2001
  • In supervised machine learning, an induction algorithm, which is able to extract rules from data with learning capability, provides a useful tool for data mining. Practical induction algorithms are known to degrade in prediction accuracy and generate complex rules unnecessarily when trained on data containing superfluous features. Thus it needs feature subset selection for better performance of them. In feature subset selection on the induction algorithm, wrapper method is repeatedly run it on the dataset using various feature subsets. But it is impractical to search the whole space exhaustively unless the features are small. This study proposes a heuristic method that uses sensitivity analysis of neural networks to the wrapper method for generating rules with higher possible accuracy. First it gives priority to all features using sensitivity analysis of neural networks. And it uses the wrapper method that searches the ordered feature space. In experiments to three datasets, we show that the suggested method is capable of selecting a feature subset that improves the performance of the induction algorithm within certain iteration.

  • PDF

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

A Query Processing Method for Hierarchical Structured e-Learning System (계층적으로 구조화된 이러닝 시스템을 위한 질의 처리 기법)

  • Kim, Youn-Hee;Kim, Jee-Hyun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.16 no.3
    • /
    • pp.189-201
    • /
    • 2011
  • In this paper, we design an ontology which provides interoperability by integrating typical metadata specifications and defines concepts and semantic relations between concepts that are used to describe metadata for learning objects in university courses. And we organize a hierarchical structured e-Learning system for efficient retrieval of learning objects on many local storages that use different specifications to describe metadata and propose a query processing method based on inferences. The proposed e-Learning system can provide more accurate and satisfactory retrieval service by using the designed ontology because both learning objects that be directly connected to user queries and deduced learning objects that be semantically connected to them are retrieved.

Salient Video Frames Sampling Method Using the Mean of Deep Features for Efficient Model Training (효율적인 모델 학습을 위한 심층 특징의 평균값을 활용한 의미 있는 비디오 프레임 추출 기법)

  • Yoon, Hyeok;Kim, Young-Gi;Han, Ji-Hyeong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2021.06a
    • /
    • pp.318-321
    • /
    • 2021
  • 최근 정보통신의 발달과 함께 인터넷에 접속하는 사용자 수와 그에 따른 비디오 데이터의 전송량이 늘어나는 추세이다. 이렇게 늘어나는 많은 비디오 데이터를 관리하고 분석하기 위해서 최근에는 딥 러닝 기법을 많이 활용하게 된다. 일반적으로 비디오 데이터에 딥 러닝 모델을 학습할 때 컴퓨터 자원의 한계로 인해 전체 비디오 프레임에서 균등한 간격 또는 무작위로 프레임을 선택하는 방법을 많이 사용한다. 하지만 학습에 사용되는 비디오 데이터는 항상 시간 축에 따라 같은 문맥을 담고 있는 Trimmed 비디오라고 가정할 수가 없다. 만약 같지 않은 문맥을 지닌 Untrimmed 비디오에서 균등한 간격 또는 무작위로 프레임을 선택해서 사용하게 된다면 비디오의 범주와 관련이 없는 프레임이 샘플링 될 가능성이 있기 때문에 모델의 학습 및 최적화에 전혀 도움이 되지 않는다. 이를 해결하기 위해 우리는 각 비디오 프레임에서 심층 특징을 추출하여 평균값을 계산하고 이와 각 추출된 심층특징들과 코사인 유사도를 계산해서 얻은 유사도 점수를 바탕으로 Untrimmed 비디오에서 의미 있는 비디오 프레임을 추출하는 기법을 제안한다. 그리고 Untrimmed 비디오로 구성된 데이터셋으로 유명한 ActivityNet 데이터셋에 대해서 대표적인 2가지 프레임 샘플링 방식(균등한 간격, 무작위)과 비교하여 우리가 제안하는 기법이 Untrimmed 비디오에서 효과적으로 비디오의 범주에 해당하는 의미 있는 프레임 추출이 가능함을 보일 것이다. 우리가 실험에 사용한 코드는 https://github.com/titania7777/VideoFrameSampler에서 확인할 수 있다.

  • PDF

Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation (병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역)

  • Park, Chanjun;kim, Gyeongmin;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF