• Title/Summary/Keyword: 학습 데이터

Search Result 6,392, Processing Time 0.036 seconds

비디오 화질 자동 측정 기술 개발을 위한 데이터 셋 구축 방법 (Data Set Design Method for developing Automatic Video Quality Measurement Technology)

  • 정세윤;이대열;정연수;김태화;조승현;김휘용
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.223-224
    • /
    • 2018
  • 기계학습 기반 비디오 화질 자동 측정 기술은 주관적 화질 평가를 대체하기 위한 기술로, 비디오를 입력 신호로 화질 평가 결과를 출력 신호로 하는 기계학습 모델을 통해서 개발하는 기술이다. 학습에 필요한 비디오 데이터 셋은 입력 신호인 비디오 시퀀스와 입력의 출력신호로 학습할 주관적 화질 평가 결과로 구성된다. 이때 데이터 셋의 일부는 기계학습 기반 비디오 화질 자동 측정 기술 개발 과정에서 학습에 사용하고, 남은 일부는 개발 기술의 성능 평가에 사용한다. 일반적으로 기계학습 기반 기술의 성능은 학습 데이터의 양과 질에 비례한다. 그러나, 기계학습 기반 비디오 화질 자동 측정 기술 개발에 필요한 데이터 셋은 주관적 화질 평가 결과를 포함해야 하므로, 데이터 양을 늘리는 것은 쉬운 문제가 아니다. 이에 본 논문에서는 압축 비디오에 대한 화질 자동 측정 기술 개발을 위해 필요한 데이터 셋을 양과 질적 측면에서 효율적으로 구축하는 방법을 제안한다. 양적 측면에서 효율성을 높이기 위해 부호화 복잡도와 평가 난이도 기반으로 시퀀스를 선정 방법을, 질적 측면에서 효율성을 높이기 위해 쌍 비교(Pairwise Comparison)기반의 주관적 화질 평가 방법을 제안한다.

  • PDF

인자 점수를 이용한 이상치 데이터의 군집화 (Outlier Data Clustering using Factor Score)

  • 전성해;임민택;오경환
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

멀티미디어 학습객체를 위한 메타데이터 관리 시스템의 설계 (A Design of Metadata Management System for Multimedia Learning Objects)

  • 박문화;김봉화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.826-828
    • /
    • 2005
  • E-learning의 학습 컨텐츠는 점차 멀티미디어화 되고, 시스템 환경은 유비쿼터스 네트워크를 기반으로 고도화될(T-learning 및 U-learning) 것으로 예측된다. 학습자가 요구하는 멀티미디어 학습객체를 유비쿼터스 네트워크 환경에서 쉽게 찾아 학습자에게 효율적으로 전달하기 위해서는 메타데이터 관리 시스템의 도움이 필요하다. 이를 위해서는 멀티미디어 학습객체의 특성을 정확하게 기술하는 메타데이터 모델이 필요하고 효율적인 메타데이터 관리 시스템의 개발이 필요하다. 본 논문에서는 멀티미디어 학습객체를 위한 새로운 메타데이터 모델을 제안하고, 효율적인 메타데이터 관리를 위한 새로운 시스템을 설계하였다.

  • PDF

3차원 삼각형 메쉬를 정확하고 효율적으로 학습하기 위한 CNN 아키텍처 (CNN Architecture for Accurately and Efficiently Learning a 3D Triangular Mesh)

  • 나홍은;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.369-372
    • /
    • 2023
  • 본 논문에서는 삼각형 구조로 구성된 3차원 메쉬(Mesh)에서 합성곱 신경망(Convolution Neural Network, CNN)을 응용하여 정확도가 높은 새로운 학습 표현 기법을 제시한다. 우리는 메쉬를 구성하고 있는 폴리곤의 edge와 face의 로컬 특징을 기반으로 학습을 진행한다. 일반적으로 딥러닝은 인공신경망을 수많은 계층 형태로 연결한 기법을 말하며, 주요 처리 대상은 1, 2차원 데이터 형태인 오디오 파일과 이미지였다. 인공지능에 대한 연구가 지속되면서 3차원 딥러닝이 도입되었지만, 기존의 학습과는 달리 3차원 딥러닝은 데이터의 확보가 쉽지 않다. 혼합현실과 메타버스 시장의 확대로 인해 3차원 모델링 시장이 증가하고, 기술의 발전으로 데이터를 획득할 수 있는 방법이 생겼지만, 3차원 데이터를 직접적으로 학습에 이용하는 방식으로 적용하는 것은 쉽지 않다. 그렇게 때문에 본 논문에서는 산업 현장에서 이용되는 데이터인 메쉬 구조를 폴리곤의 최소 단위인 삼각형 형태로 구성하여 학습 데이터를 구성해 기존의 방법보다 정확도가 높은 학습 기법을 제안한다.

  • PDF

언어 번역 모델을 통한 한국어 지시 학습 데이터 세트 구축 (Korean Instruction Tuning Dataset)

  • 임영서;추현창;김산;장진예;정민영;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.591-595
    • /
    • 2023
  • 최근 지시 학습을 통해 미세 조정한 자연어 처리 모델들이 큰 성능 향상을 보이고 있다. 하지만 한국어로 학습된 자연어 처리 모델에 대해 지시 학습을 진행할 수 있는 데이터 세트는 공개되어 있지 않아 관련 연구에 큰 어려움을 겪고 있다. 본 논문에서는 T5 기반 한국어 자연어 처리 모델인 Long KE-T5로 영어 데이터 세트를 번역하여 한국어 지시 학습 데이터 세트를 구축한다. 또한 구축한 데이터 세트로 한국어로 사전 학습된 Long KE-T5 모델을 미세 조정한 후 성능을 확인한다.

  • PDF

CycleGAN을 활용한 항공영상 학습 데이터 셋 보완 기법에 관한 연구 (A Study on the Complementary Method of Aerial Image Learning Dataset Using Cycle Generative Adversarial Network)

  • 최형욱;이승현;김형훈;서용철
    • 한국측량학회지
    • /
    • 제38권6호
    • /
    • pp.499-509
    • /
    • 2020
  • 본 연구에서는 최근 영상판독 분야에서 활발히 연구되고, 활용성이 발전하고 있는 인공지능 기반 객체분류 학습 데이터 구축에 관한 내용을 다룬다. 영상판독분야에서 인공지능을 활용하여 정확도 높은 객체를 인식, 추출하기 위해서는 알고리즘에 적용할 많은 양의 학습데이터가 필수적으로 요구된다. 하지만, 현재 공동활용 가능한 데이터 셋이 부족할 뿐만 아니라 데이터 생성을 위해서는 많은 시간과 인력 및 고비용을 필요로 하는 것이 현실이다. 따라서 본 연구에서는 소량의 초기 항공영상 학습데이터를 GAN (Generative Adversarial Network) 기반의 생성기 신경망을 활용하여 오버샘플 영상 학습데이터를 구축하고, 품질을 평가함으로써 추가적 학습 데이터 셋으로 활용하기 위한 실험을 진행하였다. GAN을 이용하여 오버샘플 학습데이터를 생성하는 기법은 딥러닝 성능에 매우 중요한 영향을 미치는 학습데이터의 양을 획기적으로 보완할 수 있으므로 초기 데이터가 부족한 경우에 효과적으로 활용될 수 있을 것으로 기대한다.

연합학습 환경에서 클라이언트 선택의 최적화 기법

  • 박민정;손영진;채상미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.722-723
    • /
    • 2023
  • 연합학습은 중앙 서버에서 데이터를 수집하는 방식이 아닌 로컬 디바이스 또는 클라이언트에서 학습을 진행하고 중앙 서버로 모델 업데이트만 전송하는 분산 학습 기법으로 데이터 보안 및 개인정보보호를 강화하는 동시에 효율적인 분산 학습을 수행할 수 있다. 그러나, 연합학습 대부분의 시나리오는 클라이언트의 서로 다른 분포 형태인 non-IID 데이터를 대상으로 학습함에 따라 중앙집중식 모델에 비하여 낮은 성능을 보이게 된다. 이에 본 연구에서는 연합학습 모델의 성능을 개선하기 위하여 non-IID 의 환경에서 참여 후보자 중에서 적합한 클라이언트 선택의 최적화 기법을 분석한다.

홀로그램 데이터에 따른 딥 러닝 기반 홀로그램 워터마킹의 성능 분석 (Performance analysis of deep learning based hologram watermarking according to hologram data)

  • 이주원;이재은;서영호;김동욱
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.647-649
    • /
    • 2020
  • 본 논문에서는 홀로그램 영상 콘텐츠의 지적재산권 보호를 위하여 워터마킹을 딥 러닝을 기반으로 하는 네트워크로 수행한다고 가정하고, 이 네트워크를 학습시킬 때 학습 데이터 세트를 어떻게 구성하는 것이 워터마킹 네트워크에 가장 효율적인지에 대해, JPEG Pleno에서 표준 데이터 세트로 제공하고 있는 홀로그램들을 사용하여 분석한다. 이 홀로그램들의 표준편차에 따라 학습 데이터세트의 구성을 달리하여 동일한 워터마킹 네트워크에 학습시킨 후 학습에 사용되지 않은 시험 데이터세트를 시험하여 나온 결과의 비가시성과 워터마크, 데이터의 추출률을 비교함으로써 학습 데이터세트 구축 방식에 대해 분석한다.

  • PDF

회전한 상표 이미지의 진위 결정을 위한 기계 학습 데이터 확장 방법 (Machine Learning Data Extension Way for Confirming Genuine of Trademark Image which is Rotated)

  • 구본근
    • Journal of Platform Technology
    • /
    • 제8권1호
    • /
    • pp.16-23
    • /
    • 2020
  • 상표권 보호를 위한 상표 이미지의 진위 결정에 심층 신경망인 합성곱 신경망을 이용할 수 있다. 이를 위해, 상표로 등록되어 있는 한 장의 상표 이미지를 반복적으로 학습하는 것은 기계학습의 성능을 감소시키는 원인이 된다. 따라서, 이러한 응용에서 학습 데이터는 다양한 방법으로 생성된다. 하지만 대상 이미지가 회전되어 있으면 원본이라 하더라도 인식하지 못하거나 위조 상표로 분류되기도 한다. 본 논문에서는 회전한 상표 이미지의 진위 결정을 위한 기계학습 데이터의 확장 방법을 제안한다. 본 논문에서 제안하는 학습 데이터 확장 방법은 기울어진 이미지를 생성하고 이를 학습 데이터로 사용하는 것이다. 본 논문에서 제안하는 학습 데이터 확장 방법의 유효성 검증을 위해 대학의 로고를 대상으로 학습 데이터를 생성하였으며, 이를 활용하여 합성곱 신경망을 학습시킨 후 검증용 데이터를 이용하여 정확도를 평가하였다. 정확도 평가 결과에 따르면 본 논문에서 제안한 방법으로 생성한 학습 데이터를 활용하면 회전한 상표를 대상으로 한 진위 여부 결정에 합성곱 신경망을 활용할 수 있다.

  • PDF

SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 (SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP )

  • 김재민;나요한;김강민;이상락;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF