• Title/Summary/Keyword: 트랜스포머 네트워크

Search Result 26, Processing Time 0.024 seconds

Research on Transformer-Based Approaches for MBTI Classification Using Social Network Service Data (트랜스포머 기반 MBTI 성격 유형 분류 연구 : 소셜 네트워크 서비스 데이터를 중심으로)

  • Jae-Joon Jung;Heui-Seok Lim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.07a
    • /
    • pp.529-532
    • /
    • 2023
  • 본 논문은 소셜 네트워크 이용자의 텍스트 데이터를 대상으로, 트랜스포머 계열의 언어모델을 전이학습해 이용자의 MBTI 성격 유형을 분류한 국내 첫 연구이다. Kaggle MBTI Dataset을 대상으로 RoBERTa Distill, DeBERTa-V3 등의 사전 학습모델로 전이학습을 해, MBTI E/I, N/S, T/F, J/P 네 유형에 대한 분류의 평균 정확도는 87.9181, 평균 F-1 Score는 87.58를 도출했다. 해외 연구의 State-of-the-art보다 네 유형에 대한 F1-Score 표준편차를 50.1% 낮춰, 유형별 더 고른 분류 성과를 보였다. 또, Twitter, Reddit과 같은 글로벌 소셜 네트워크 서비스의 텍스트 데이터를 추가로 분류, 트랜스포머 기반의 MBTI 분류 방법론을 확장했다.

  • PDF

Transformer and Spatial Pyramid Pooling based YOLO network for Object Detection (객체 검출을 위한 트랜스포머와 공간 피라미드 풀링 기반의 YOLO 네트워크)

  • Kwon, Oh-Jun;Jeong, Je-Chang
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.113-116
    • /
    • 2021
  • 일반적으로 딥러닝 기반의 객체 검출(Object Detection)기법은 합성곱 신경망(Convolutional Neural Network, CNN)을 통해 입력된 영상의 특징(Feature)을 추출하여 이를 통해 객체 검출을 수행한다. 최근 자연어 처리 분야에서 획기적인 성능을 보인 트랜스포머(Transformer)가 영상 분류, 객체 검출과 같은 컴퓨터 비전 작업을 수행하는데 있어 경쟁력이 있음이 드러나고 있다. 본 논문에서는 YOLOv4-CSP의 CSP 블록을 개선한 one-stage 방식의 객체 검출 네트워크를 제안한다. 개선된 CSP 블록은 트랜스포머(Transformer)의 멀티 헤드 어텐션(Multi-Head Attention)과 CSP 형태의 공간 피라미드 풀링(Spatial Pyramid Pooling, SPP) 연산을 기반으로 네트워크의 Backbone과 Neck에서의 feature 학습을 돕는다. 본 실험은 MSCOCO test-dev2017 데이터 셋으로 평가하였으며 제안하는 네트워크는 YOLOv4-CSP의 경량화 모델인 YOLOv4s-mish에 대하여 평균 정밀도(Average Precision, AP)기준 2.7% 향상된 검출 정확도를 보인다.

  • PDF

An Efficient Matrix Multiplier Available in Multi-Head Attention and Feed-Forward Network of Transformer Algorithms (트랜스포머 알고리즘의 멀티 헤드 어텐션과 피드포워드 네트워크에서 활용 가능한 효율적인 행렬 곱셈기)

  • Seok-Woo Chang;Dong-Sun Kim
    • Journal of IKEEE
    • /
    • v.28 no.1
    • /
    • pp.53-64
    • /
    • 2024
  • With the advancement of NLP(Natural Language Processing) models, conversational AI such as ChatGPT is becoming increasingly popular. To enhance processing speed and reduce power consumption, it is important to implement the Transformer algorithm, which forms the basis of the latest natural language processing models, in hardware. In particular, the multi-head attention and feed-forward network, which analyze the relationships between different words in a sentence through matrix multiplication, are the most computationally intensive core algorithms in the Transformer. In this paper, we propose a new variable systolic array based on the number of input words to enhance matrix multiplication speed. Quantization maintains Transformer accuracy, boosting memory efficiency and speed. For evaluation purposes, this paper verifies the clock cycles required in multi-head attention and feed-forward network and compares the performance with other multipliers.

Design of LLC Resonant Converters using Transformer Cantilever Model (트랜스포머 Cantilever 모델을 이용한 LLC 공진형 컨버터 설계)

  • Kim, Min-Jung;Ryu, Seung-Hee;Kim, Dong-Hee;Lee, Byoung-Kuk
    • Proceedings of the KIPE Conference
    • /
    • 2013.07a
    • /
    • pp.297-298
    • /
    • 2013
  • 본 논문에서는 LLC 공진형 컨버터의 트랜스포머를 Cantilever 모델로 등가화하여 공진 네트워크를 설계하기 위한 과정을 제시한다. 트랜스포머의 결합계수를 고려하여 누설 인덕턴스와 자화인덕턴스의 크기를 계산한다. 그 결과로 얻어진 파라미터를 이용하여 기본파 분석 (First Harmonic Approximation, FHA)을 통해 LLC 공진형 컨버터의 전압 이득관계를 분석한다. 제시한 설계방법을 적용하여 500W급 LLC 공진형 컨버터를 제작 구현함으로써 설계과정의 타당성을 검증한다.

  • PDF

Enhanced Video Frame Interpolation Transformer based on Optical Flow Guidance (광학 흐름 안내 기반의 향상된 비디오 프레임 보간 트랜스포머)

  • Huh, Jingang;Jeong, Jinwoo;Kim, Sungjei;Yoon, Kihwan;Kwon, Yonghoon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.214-216
    • /
    • 2022
  • 비디오 프레임 보간 기술은 시간 해상도를 증가시키는 기술로 최근 Convolutional Neural Network(이하 CNN) 기반의 다양한 연구가 진행되고 있다. 하지만 일부 시각에서는 CNN 기반의 연구가 동일한 커널을 모든 화소에 적용하는 것과 객체의 움직임을 예측하기 위해 장기간의 데이터를 활용하는 것에 한계점이 있다고 주장한다. 이에 따라 장기간의 데이터 활용에 특화된 트랜스포머 기반의 비디오 프레임 보간 기술이 제안되었다. 본 논문에서는 트랜스포머 기반의 기존 연구에서 합성 네트워크의 성능을 향상시키기 위해 광학 흐름 안내 기반의 새로운 학습 방법을 제안한다 실험 결과를 통해 평균 PSNR 0.09dB와 SSIM 0.0031 성능 향상을 확인한다.

  • PDF

Sign language translation using video captioning and sign language recognition using action recognition (비디오 캡셔닝을 적용한 수어 번역 및 행동 인식을 적용한 수어 인식)

  • Gi-Duk Kim;Geun-Hoo Lee
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2024.01a
    • /
    • pp.317-319
    • /
    • 2024
  • 본 논문에서는 비디오 캡셔닝 알고리즘을 적용한 수어 번역 및 행동 인식 알고리즘을 적용한 수어 인식 알고리즘을 제안한다. 본 논문에 사용된 비디오 캡셔닝 알고리즘으로 40개의 연속된 입력 데이터 프레임을 CNN 네트워크를 통해 임베딩 하고 트랜스포머의 입력으로 하여 문장을 출력하였다. 행동 인식 알고리즘은 랜덤 샘플링을 하여 한 영상에 40개의 인덱스에서 40개의 연속된 데이터에 CNN 네트워크를 통해 임베딩하고 GRU, 트랜스포머를 결합한 RNN 모델을 통해 인식 결과를 출력하였다. 수어 번역에서 BLEU-4의 경우 7.85, CIDEr는 53.12를 얻었고 수어 인식으로 96.26%의 인식 정확도를 얻었다.

  • PDF

Kidney Tumor Segmentation Using a Hybrid CNN-Transformer Network for Partial Nephrectomy Planning (부분 신장 절제술 계획을 위한 하이브리드 CNN-트랜스포머 네트워크를 활용한 신장 종양 분할)

  • Goun Kim;Jinseo An;Yubeen Lee;Helen Hong
    • Journal of the Korea Computer Graphics Society
    • /
    • v.30 no.4
    • /
    • pp.11-18
    • /
    • 2024
  • In partial nephrectomy for kidney cancer treatment, accurate segmentation of the kidney tumor is crucial for surgical planning, as it provides essential information on the precise size and location of the tumor. However, it is challenging due to the tumor's similar intensity to surrounding organs and the variability in its location and size across patients. In this study, we propose a hybrid network that integrates a convolutional neural network and a transformer to capture both local and global features, aiming to improve the segmentation performance of kidney tumors. We validated our method through comparative experiments with UNETR++, outperforming it with a Dice Similarity Coefficient (DSC) of 78.54% and a precision of 85.0 7%. Moreover, in the analysis by tumor size, our method demonstrated improvements by reducing over-segmentation and outlier cases observed in UNETR++.

Cross-Domain Recommendation based on K-Means Clustering and Transformer (K-means 클러스터링과 트랜스포머 기반의 교차 도메인 추천)

  • Tae-Hoon Kim;Young-Gon Kim;Jeong-Min Park
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.23 no.5
    • /
    • pp.1-8
    • /
    • 2023
  • Cross-domain recommendation is a method that shares related user information data and item data in different domains. It is mainly used in online shopping malls with many users or multimedia service contents, such as YouTube or Netflix. Through K-means clustering, embeddings are created by performing clustering based on user data and ratings. After learning the result through a transformer network, user satisfaction is predicted. Then, items suitable for the user are recommended using a transformer-based recommendation model. Through this study, it was shown through experiments that recommendations can predict cold-start problems at a lesser time cost and increase user satisfaction.

Performance Comparison of Transformer-based Intrusion Detection Model According to the Change of Character Encoding (문자 인코딩 방식의 변화에 따른 트랜스포머 기반 침입탐지 모델의 탐지성능 비교)

  • Kwan-Jae Kim;Soo-Jin Lee
    • Convergence Security Journal
    • /
    • v.24 no.3
    • /
    • pp.41-49
    • /
    • 2024
  • A tokenizer, which is a key component of the Transformer model, lacks the ability to effectively comprehend numerical data. Therefore, to develop a Transformer-based intrusion detection model that can operate within a real-world network environment by training packet payloads as sentences, it is necessary to convert the hexadecimal packet payloads into a character-based format. In this study, we applied three character encoding methods to convert packet payloads into numeric or character format and analyzed how detection performance changes when training them on transformer architecture. The experimental dataset was generated by extracting packet payloads from PCAP files included in the UNSW-NB15 dataset, and the RoBERTa was used as the training model. The experimental results demonstrate that the ISO-8859-1 encoding scheme achieves the highest performance in both binary and multi-class classification. In addition, when the number of tokens is set to 512 and the maximum number of epochs is set to 15, the multi-class classification accuracy is improved to 88.77%.

Design of Multi Input LLC Resonant Converters with Shared Transformer (트랜스포머를 공유하는 다입력 LLC 공진형 컨버터설계)

  • Kim, Min-Jung;Ryu, Seung-Hee;Kim, Dong-Hee;Lee, Byoung-Kuk
    • Proceedings of the KIPE Conference
    • /
    • 2015.07a
    • /
    • pp.413-414
    • /
    • 2015
  • 본 논문에서는 트랜스포머를 공유하는 다입력 LLC 공진형 컨버터를 설계하기 위한 과정을 제시한다. 전원 종류에 따라 다입력 전원을 배터리 충전기에 사용되는 LLC 공진형 컨버터의 공진 네트워크를 설계한다. 시스템 효율을 증가시키기 위해 비대칭 듀티 제어법을 적용하였으며, 2.2kW/600W급 배터리 충전기를 제작 구현함으로써 설계과정의 타당성을 검증한다.

  • PDF