• 제목/요약/키워드: Encoder Model

검색결과 356건 처리시간 0.022초

딥러닝을 이용한 3차원 사람모델형상 변형 (3D Human Shape Deformation using Deep Learning)

  • 김대희;황본우;이승욱;곽수영
    • 한국산업정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.19-27
    • /
    • 2020
  • 최근 가상현실 및 증강 현실 기술을 이용한 다양한 응용분야가 각광받으면서 빠르고 정확한 3차원 모델 생성이 요구되고 있다. 본 논문에서는 옷을 입은 3차원 사람 모델을 포인트 클라우드의 형상으로 변형하는 온-사이트 학습 (On-site learning) 기반 형상 변형 방법을 제안한다. 제안하는 알고리즘은 사전 학습과 온-사이트 학습 두 개의 파트로 구성되어 있으며, 각각의 학습은 인코더 네트워크, 템플릿 변형 네트워크, 디코더 네트워크로 구성된다. 딥러닝 네트워크 학습은 3차원 포인트 클라우드와 템플릿 정점 사이의 챔퍼 거리 (Chamfer distance)를 주요 손실 함수로 사용하는 비지도 학습을 적용한다. 입력된 포인트 클라우드 형태의 데이터에 대해 온-사이트 학습을 진행함으로써 추론의 결과물에 대한 높은 정확도를 얻을 수 있으며 이를 실험을 통해 제시한다.

HTML 태그 깊이 임베딩: 웹 문서 기계 독해 성능 개선을 위한 BERT 모델의 입력 임베딩 기법 (HTML Tag Depth Embedding: An Input Embedding Method of the BERT Model for Improving Web Document Reading Comprehension Performance)

  • 목진왕;장현재;이현섭
    • 사물인터넷융복합논문지
    • /
    • 제8권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 최근 종단 장치(Edge Device)의 수가 증가함에 따라 빅데이터가 생성되었고 특히 정제되지 않은 HTML 문서가 증가하고 있다. 따라서 자연어 처리 모델을 이용해 HTML 문서 내에서 중요한 정보를 찾아내는 기계 독해(Machine Reading Comprehension) 기술이 중요해지고 있다. 본 논문에서는 기계 독해의 여러 연구에서 준수한 성능을 보이는 BERT(Bidirectional Encoder Representations from Transformers) 모델이 HTML 문서 구조의 깊이를 효과적으 로 학습할 수 있는 HTDE(HTML Tag Depth Embedding Method)를 제안하였다. HTDE는 BERT의 각 입력 토큰에 대하여 HTML 문서로부터 태그 스택을 생성하고 깊이 정보를 추출한다. 그리고 BERT의 입력 임베딩에 토큰의 깊이를 입력으로하는 HTML 임베딩을 더한다. 이 방법은 문서 구조를 토큰 단위로 표현하여 주변 토큰과의 관계를 식별할 수 있기 때문에 HTML 문서에 대한 BERT의 정확도를 향상시키는 효과가 있다. 마지막으로 실험을 통해 BERT의 기존 임베딩 기법에 비해 HTML 구조에 대한 모델 예측 정확도가 향상됨을 증명하였다.

F_MixBERT: Sentiment Analysis Model using Focal Loss for Imbalanced E-commerce Reviews

  • Fengqian Pang;Xi Chen;Letong Li;Xin Xu;Zhiqiang Xing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권2호
    • /
    • pp.263-283
    • /
    • 2024
  • Users' comments after online shopping are critical to product reputation and business improvement. These comments, sometimes known as e-commerce reviews, influence other customers' purchasing decisions. To confront large amounts of e-commerce reviews, automatic analysis based on machine learning and deep learning draws more and more attention. A core task therein is sentiment analysis. However, the e-commerce reviews exhibit the following characteristics: (1) inconsistency between comment content and the star rating; (2) a large number of unlabeled data, i.e., comments without a star rating, and (3) the data imbalance caused by the sparse negative comments. This paper employs Bidirectional Encoder Representation from Transformers (BERT), one of the best natural language processing models, as the base model. According to the above data characteristics, we propose the F_MixBERT framework, to more effectively use inconsistently low-quality and unlabeled data and resolve the problem of data imbalance. In the framework, the proposed MixBERT incorporates the MixMatch approach into BERT's high-dimensional vectors to train the unlabeled and low-quality data with generated pseudo labels. Meanwhile, data imbalance is resolved by Focal loss, which penalizes the contribution of large-scale data and easily-identifiable data to total loss. Comparative experiments demonstrate that the proposed framework outperforms BERT and MixBERT for sentiment analysis of e-commerce comments.

시계열 예측을 위한 스타일 기반 트랜스포머 (Style-Based Transformer for Time Series Forecasting)

  • 김동건;김광수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권12호
    • /
    • pp.579-586
    • /
    • 2021
  • 시계열 예측은 과거 시점의 정보를 토대로 미래 시점의 정보를 예측하는 것을 말한다. 향후 시점의 정보를 정확하게 예측하는 것은 다양한 분야 전략 수립, 정책 결정 등을 위해 활용되기 때문에 매우 중요하다. 최근에는 트랜스포머 모델이 시계열 예측 모델로서 주로 연구되고 있다. 그러나 기존의 트랜스포머의 모델은 예측 순차를 출력할 때 출력 결과를 다시 입력하는 자가회귀 구조로 되어 있다는 한계점이 있다. 이 한계점은 멀리 떨어진 시점을 예측할 때 정확도가 떨어진다는 문제점을 초래한다. 본 논문에서는 이러한 문제점을 개선하고 더 정확한 시계열 예측을 위해 스타일 변환 기법에 착안한 순차 디코딩 모델을 제안한다. 제안하는 모델은 트랜스포머-인코더에서 과거 정보의 특성을 추출하고, 이를 스타일-기반 디코더에 반영하여 예측 시계열을 생성하는 구조로 되어 있다. 이 구조는 자가회귀 방식의 기존의 트랜스포머의 디코더 구조와 다르게, 예측 순차를 한꺼번에 출력하기 때문에 더 먼 시점의 정보를 좀 더 정확히 예측할 수 있다는 장점이 있다. 서로 다른 데이터 특성을 가지는 다양한 시계열 데이터셋으로 예측 실험을 진행한 결과, 본 논문에서 제시한 모델이 기존의 다른 시계열 예측 모델보다 예측 정확도가 우수하다는 것을 보인다.

S-JND 모델을 사용한 주관적인 율 제어 알고리즘 기반의 HEVC 부호화 방법 (A Perceptual Rate Control Algorithm with S-JND Model for HEVC Encoder)

  • 김재련;안용조;임웅;심동규
    • 방송공학회논문지
    • /
    • 제21권6호
    • /
    • pp.929-943
    • /
    • 2016
  • 본 논문에서는 인지 화질을 고려하기 위해 S-JND 모델 기반의 율 제어 알고리즘을 제안한다. 제안하는 율 제어 알고리즘은 인간이 가지는 시각 시스템의 특징을 반영하기 위하여 시각적 민감도와 시각적 관심도를 동시에 반영할 수 있도록 제작된 S-JND (Saliency-Just Noticeable Difference) 모델을 사용한다. 율 제어 알고리즘을 통해 비트를 분배하는 과정에서 픽쳐 내에 존재하는 각 CTU (Coding Tree Unit)가 가지는 S-JND threshold를 구한다. 각 CTU의 threshold는 적응적으로 적절한 비트를 분배하는데 사용되고, 따라서 제안하는 비트 분배 모델은 인지 화질을 향상 시킬 수 있다. 제안하는 방법의 성능 검증을 위해서 제안하는 방법을 HM 16.9에 구현하였으며, CTC (Common Test Condition) RA (Random Access), Low-delay B와 Low-delay P의 경우에 Class B와 Class C 영상들에 대해 실험 하였다. 실험 결과, 제안하는 방법은 기존 율 제어 알고리즘 대비 평균 2.3%의 비트율이 감소했고 BD-PSNR은 약 0.07dB 향상이 있었으며 비트 정확도 또한 0.06% 정도 증가하였다. DSCQS (Double Stimulus Continuous Quality Scale) 방법으로 측정한 결과, 제안하는 방법은 기존 방법 대비 0.03 MOS (Mean Opinion Score) 향상을 보였다.

HEVC 실시간 소프트웨어 인코더에서 GOP 병렬 부호화를 지원하는 R-lambda 모델 기반의 율 제어 방법 (R-lambda Model based Rate Control for GOP Parallel Coding in A Real-Time HEVC Software Encoder)

  • 김대은;장용준;김문철;임웅;김휘용;석진욱
    • 방송공학회논문지
    • /
    • 제22권2호
    • /
    • pp.193-206
    • /
    • 2017
  • 본 논문에서는 4K UHD 입력 영상을 실시간으로 부호화하기 위해 GOP 단위 또는 IDR 주기 단위의 병렬 부호화 구조를 지원하는 $R-{\lambda}$ 모델 기반의 율 제어 방법을 제안한다. 제안하는 $R-{\lambda}$ 모델 기반의 율 제어 방법에서는 순차적 프레임 부호화가 아닌 병렬 부호화를 위한 슬라이스 레벨 비트 분배(bit allocation) 방법을 제안한다. GOP 단위 또는 IDR 주기 단위의 병렬 부호화에서 율 제어기를 작동시키는 경우, 계층적 B구조에서 최하위 프레임 계층을 제외한 동일 계층에 속한 프레임 간에는 상호간에는 부호화 수행 이후 각 소모된 비트양에 대한 정보를 공유 할 수 없기 때문에 기존의 비트량 분배 방식으로는 비트 예산(bit budget) 관리가 불가능하다. 이를 해결하기 위해 본 논문에서는, 기존의 $R-{\lambda}$ 모델 기반 율 제어 방법인 프레임 부호화 순서에 따라 각 프레임별로 목표 비트량 분배하던 방식으로부터, GOP 별로 비트량을 할당한 후, 각 GOP 내의 계층적 B 구조에서 계층이 깊어지는 방향으로 순차적으로 비트 예산을 갱신하여 비트량을 분배하는 방식으로 율 배분 방식을 개선하였다. 뿐만 아니라, 입력 영상의 전처리 과정을 통해 획득된 영상의 복잡도 정보를 고려하여 비트를 분배하여 영상의 주관적인 화질을 향상시켰다. 실험을 통해 제안 방법이 병렬 구조의 HEVC 부호화기에서 잘 작동함을 확인 할 수 있었고, 전처리 결과를 활용하여 율 제어기의 성능을 향상 시킬 수 있음을 확인하였다.

다종 위성자료와 인공지능 기법을 이용한 한반도 주변 해역의 고해상도 해수면온도 자료 생산 (Generation of Daily High-resolution Sea Surface Temperature for the Seas around the Korean Peninsula Using Multi-satellite Data and Artificial Intelligence)

  • 정시훈;추민기;임정호;조동진
    • 대한원격탐사학회지
    • /
    • 제38권5_2호
    • /
    • pp.707-723
    • /
    • 2022
  • 위성기반 해수면온도는 광역 모니터링이 가능한 장점이 있지만, 다양한 환경적 그리고 기계적 이유로 인한 시공간적 자료공백이 발생한다. 자료공백으로 인한 활용성의 한계가 있으므로, 공백이 없는 자료 생산이 필수적이다. 따라서 본 연구에서는 한반도 주변 해역에 대해 극궤도와 정지궤도 위성에서 생산되는 해수면온도 자료를 두 단계의 기계학습을 통해 융합하여 4 km의 공간해상도를 가지는 일별 해수면온도 합성장을 만들었다. 첫번째 복원 단계에서는 Data INterpolate Convolutional AutoEncoder (DINCAE) 모델을 이용하여 다종 위성기반 해수면온도 자료를 합성하여 복원하였고, 두번째 보정 단계에서는 복원된 해수면온도 자료를 현장관측자료에 맞춰 Light Gradient Boosting Machine (LGBM) 모델로 학습시켜 최종적인 일별 해수면온도 합성장을 만들었다. 개발된 모델의 검증을 위해 복원 단계에서 무작위 50일의 자료 중 일부분을 제거하여 복원한 뒤 제거된 영역에 대해 검증하였으며, 보정 단계에서는 Leave One Year Out Cross Validation (LOYOCV) 기법을 이용하여 현장자료와의 정확도를 검증하였다. DINCAE 모델의 해수면온도 복원 결과는 상당히 높은 정확도(R2=0.98, bias=0.27℃, RMSE=0.97℃, MAE=0.73℃)를 보였다. 두번째 단계의 LGBM 보정 모델의 정확도 개선은 표층 뜰개 부이와 계류형 부이 현장자료와의 비교에서 모두 상당한 향상(RMSE=∆0.21-0.29℃, rRMSE=∆0.91-1.65%, MAE=∆0.17-0.24℃)을 보여주었다. 특히, 모든 현장 자료를 이용한 보정 모델의 표층 뜰개 부이와의 정확도는 동일한 현장 자료가 동화된 기존 해수면온도 합성장보다 나은 정확도를 보였다. 또한 LGBM 보정 모델은 랜덤포레스트(random forest)를 사용한 선행연구에서 보고된 과적합의 문제를 상당부분 해결하였다. 보정된 해수면온도는 기존의 초고해상도 해수면온도 합성장들과 유사한 수준으로 수온 전선과 와동 등의 중규모 해양현상을 뚜렷하게 모의하였다. 본 연구는 다종위성 자료와 기계학습 기법을 사용해 시공간적 공백 없는 고해상도 해수면온도 합성장 제작 방법을 제시하였다는 점에서 가치가 있다.

2차원 비트율-왜곡 모델을 이용한 매크로블록 단위 비트율 제어 (A Macroblock-Layer Rate Control for H.264/AVC Using Quadratic Rate-Distortion Model)

  • 손남례;이귀상;임창훈
    • 한국통신학회논문지
    • /
    • 제32권9C호
    • /
    • pp.849-860
    • /
    • 2007
  • H.264/AVC부호화 방식이 압축성능이 뛰어나더라도 가변길이부호화방식을 따르기 때문에 동영상을 부호화할 때 발생하는 데이터량은 시간의 흐름에 따라 큰 폭으로 변할 수 밖에 없다. 따라서 부호화된 비디오 비트스트림을 고정된 저대역폭의 네트워크를 통해 실시간으로 전송하고자 할 경우에는 부호기로부터 출력되는 비트율을 반드시 제어할 필요가 있다. 기존의 비트율 제어 알고리즘은 각 프레임당 목표 비트를 결정하는 2차원 비트율-왜곡 모델을 채택하고 있다. 본 논문에서는 전송율이 고정된 비디오 채널에서 H.264/AVC 부호화 기법으로 압축된 동영상을 전송할 때 움직임이 많은 영상의 비트율을 보다 효율적으로 제어하는 알고리즘을 제시한다. 제안된 비트율 제어 알고리즘은 2차원 비트율-왜곡 모델식을 이용하여 이전 프레임의 매크로블록과 현재 프레임의 매크로블록간에 움직임 변화량을 예측함으로써 매크로블록 단위로 비트율을 제어한다. 움직임이 많고 장면전환이 빈번한 동영상 샘플을 대상으로 비교 실험한 결과, 비트율 제어의 경우 기존의 알고리즘은 채널전송 환경에 부적합하게 비트율을 초과하지만, 새롭게 제안한 알고리즘은 채널전송에 적합하게 부호화됨을 확인할 수 있었다. 화질 또한 제안한 방법이 기존의 비트율 제어 방법보다 평균적으로 $0.4{\sim}0.9\;dB$로 높게 나타남을 확인하였다.

무인 차량의 자율 주행을 위한 2차원 레이저 거리 센서와 카메라를 이용한 입방형 격자 기반의 3차원 지형형상 복원 (3D Terrain Reconstruction Using 2D Laser Range Finder and Camera Based on Cubic Grid for UGV Navigation)

  • 정지훈;안광호;강정원;김우현;정명진
    • 전자공학회논문지SC
    • /
    • 제45권6호
    • /
    • pp.26-34
    • /
    • 2008
  • 차량의 접근 가능한 구역에 대한 판단과 경로 계획은 무인 차량의 자율 주행에 있어서 필수적이다 차량의 접근 가능한 구역과 경로계획을 위한 정보는 3차원 지형형상을 분석하여 얻을 수 있다. 이 논문에서는 카메라의 색 정보와 2차원 레이저 거리센서(2D LRF)를 융합하여 모바일 로봇의 휠 인코더를 통해 복원한 3차원 지형형상과, GPS/IMU 정보와 2차원 레이저 거리 센서로 복원한 3차원 지형형상을 적은 데이터로 표현하는 방법을 제시하였다. 카메라의 색 정보와 2차원 레이저 거리센서의 융합을 위해 카메라의 좌표계와 LRF의 좌표계 사이의 기하학적인 관계를 격자무의 평면을 이용하여 구하였다. 카메라와 2차원 레이저 거리센서의 융합을 통한 3차원 지형형상 복원은 모바일 로봇을 이용하여 실내에서 실험하였고, GPS/IMU 정보와 2차원 레이저 거리센서를 통한 3차원 지형형상 복원은 차량을 이용하여 실외에서 실험하였다. 이런 시스템에서 복원한 3차원 지형형상은 점군 기반으로 되어있고, 이는 매우 많은 양의 정보를 필요로 한다. 정보의 양을 줄이기 위해 점군 기반을 대신하여 입방형 격자 기반의 지형형상으로 복원하였다.

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.