• Title/Summary/Keyword: 임베딩 기법

Search Result 134, Processing Time 0.029 seconds

A Comparative Study on the Performance of Korean Sentence Embedding (Word2Vec, GloVe 및 RoBERTa 등의 모델을 활용한 한국어 문장 임베딩 성능 비교 연구)

  • Seok, Juree;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.444-449
    • /
    • 2021
  • 자연어처리에서 임베딩이란 사람의 언어를 컴퓨터가 이해할 수 있는 벡터로 변환한 것으로 자연어처리의 필수 요소 중 하나이다. 본 논문에서는 단어 기반 임베딩인 Word2Vec, GloVe, fastText와 문장 기반 임베딩 기법인 BERT와 M-USE, RoBERTa를 사용하여 한국어 문장 임베딩을 만들어 NSMC, KorNLI, KorSTS 세 가지 태스크에 대한 성능을 확인해보았다. 그 결과 태스크에 따라서 적합한 한국어 문장 임베딩 기법이 달라지며, 태스크에 따라서는 BERT의 평균 임베딩보다 GloVe의 평균 임베딩과 같은 단어 기반의 임베딩이 좋은 성능을 보일 수 있음을 확인할 수 있었다.

  • PDF

Reversible Data Embedding Algorithm Using the Locality of Image and the Adjacent Pixel Difference Sequence (영상의 지역성과 인접 픽셀 차분 시퀀스를 이용하는 가역 데이터 임베딩 기법)

  • Jung, Soo-Mok
    • The Journal of Korea Institute of Information, Electronics, and Communication Technology
    • /
    • v.9 no.6
    • /
    • pp.573-577
    • /
    • 2016
  • In this paper, reversible data embedding scheme was proposed using the locality of image and the adjacent pixel difference sequence. Generally, locality exists in natural image. The proposed scheme increases the amount of embedding data and enables data embedding at various levels by applying a technique of predicting adjacent pixel values using image locality to an existing technique APD(Adjacent Pixel Difference). The experimental results show that the proposed scheme is very useful for reversible data embedding.

Improving Embedding Model for Triple Knowledge Graph Using Neighborliness Vector (인접성 벡터를 이용한 트리플 지식 그래프의 임베딩 모델 개선)

  • Cho, Sae-rom;Kim, Han-joon
    • The Journal of Society for e-Business Studies
    • /
    • v.26 no.3
    • /
    • pp.67-80
    • /
    • 2021
  • The node embedding technique for learning graph representation plays an important role in obtaining good quality results in graph mining. Until now, representative node embedding techniques have been studied for homogeneous graphs, and thus it is difficult to learn knowledge graphs with unique meanings for each edge. To resolve this problem, the conventional Triple2Vec technique builds an embedding model by learning a triple graph having a node pair and an edge of the knowledge graph as one node. However, the Triple2 Vec embedding model has limitations in improving performance because it calculates the relationship between triple nodes as a simple measure. Therefore, this paper proposes a feature extraction technique based on a graph convolutional neural network to improve the Triple2Vec embedding model. The proposed method extracts the neighborliness vector of the triple graph and learns the relationship between neighboring nodes for each node in the triple graph. We proves that the embedding model applying the proposed method is superior to the existing Triple2Vec model through category classification experiments using DBLP, DBpedia, and IMDB datasets.

A Design of HTML Tag Stack and HTML Embedding Method to Improve Web Document Question Answering Performance of BERT (BERT 의 웹 문서 질의 응답 성능 향상을 위한 HTML 태그 스택 및 HTML 임베딩 기법 설계)

  • Mok, Jin-Wang;Lee, Hyun-Seob
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.583-585
    • /
    • 2022
  • 최근 기술의 발전으로 인해 자연어 처리 모델의 성능이 증가하고 있다. 그에 따라 평문 지문이 아닌 KorQuAD 2.0 과 같은 웹 문서를 지문으로 하는 기계 독해 과제를 해결하려는 연구가 증가하고 있다. 최근 기계 독해 과제의 대부분의 모델은 트랜스포머를 기반으로 하는 추세를 보인다. 그 중 대표적인 모델인 BERT 는 문자열의 순서에 대한 정보를 임베딩 과정에서 전달받는다. 한편 웹 문서는 태그 구조가 존재하므로 문서를 이해하는데 위치 정보 외에도 태그 정보도 유용하게 사용될 수 있다. 그러나 BERT 의 기존 임베딩은 웹 문서의 태그 정보를 추가적으로 모델에 전달하지 않는다는 문제가 있었다. 본 논문에서는 BERT 에 웹 문서 태그 정보를 효과적으로 전달할 수 있는 HTML 임베딩 기법 및 이를 위한 전처리 기법으로 HTML 태그 스택을 소개한다. HTML 태그 스택은 HTML 태그의 정보들을 추출할 수 있고 HTML 임베딩 기법은 이 정보들을 BERT 의 임베딩 과정에 입력으로 추가함으로써 웹 문서 질의 응답 과제의 성능 향상을 기대할 수 있다.

Performance Comparison of Word Embeddings for Sentiment Classification (감성 분류를 위한 워드 임베딩 성능 비교)

  • Yoon, Hye-Jin;Koo, Jahwan;Kim, Ung-Mo
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.760-763
    • /
    • 2021
  • 텍스트를 자연어 처리를 위한 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 수치화하는 방법 중 단어를 벡터로 표현하여 나타내는 워드 임베딩은 컴퓨터가 인간의 언어를 이해하고 분석 가능한 언어 모델의 필수 요소가 되었다. Word2vec 등 다양한 워드 임베딩 기법이 제안되었고 자연어를 처리할 때에 감성 분류는 중요한 요소이지만 다양한 임베딩 기법에 따른 감성 분류 모델에 대한 성능 비교 연구는 여전히 부족한 실정이다. 본 논문에서는 Emotion-stimulus 데이터를 활용하여 7가지의 감성과 2가지의 감성을 5가지의 임베딩 기법과 3종류의 분류 모델로 감성 분류 학습을 진행하였다. 감성 분류를 위해 Logistic Regression, Decision Tree, Random Forest 모델 등과 같은 보편적으로 많이 사용하는 머신러닝 분류 모델을 사용하였으며, 각각의 결과를 훈련 정확도와 테스트 정확도로 비교하였다. 실험 결과, 7가지 감성 분류 및 2가지 감성 분류 모두 사전훈련된 Word2vec가 대체적으로 우수한 정확도 성능을 보였다.

Research Paper Classification Scheme based on Word Embedding (워드 임베딩 기반 연구 논문 분류 기법)

  • Dipto, Biswas;Gil, Joon-Min
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.494-497
    • /
    • 2021
  • 텍스트 분류(text classification)는 원시 텍스트 데이터로부터 정보를 추출할 수 있는 기술에 기반하여 많은 양의 텍스트 데이터를 관심 영역으로 분류하는 것으로 최근에 각광을 받고 있다. 본 논문에서는 워드 임베딩(word embedding) 기법을 이용하여 특정 분야의 연구 논문을 분류하고 추천하는 기법을 제안한다. 워드 임베딩으로 CBOW(Continuous Bag-of-Word)와 Sg(Skip-gram)를 연구 논문의 분류에 적용하고 기존 방식인 TF-IDF(Term Frequency-Inverse Document Frequency)와 성능을 비교 분석한다. 성능 평가 결과는 워드 임베딩에 기반한 연구 논문 분류 기법이 TF-IDF에 기반한 연구 논문 분류 기법보다 좋은 성능을 가진다는 것을 나타낸다.

New Ring Embedding and its Application into Fault-tolerant Embedding in (n,k)-star Graphs ((n,k)-스타 그래프에서의 새로운 링 임베딩 및 결함허용 임베딩으로의 응용)

  • Chang, Jung-Hwan;Chwa, Kyung-Yong
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.3
    • /
    • pp.313-323
    • /
    • 2000
  • In this paper, we consider ring embedding problem on (n,k)-star graphs. We first present a new ring embedding strategy and also prove the superiority in expandability by showing its application into the fault-tolerant ring embedding problem with edge faults. This result can be applied to the multicating applications that use the underlying cycle properties on the multi-computer system.

  • PDF

SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques (워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링)

  • Lee, Hyun Young;Kang, Seung Shik
    • Smart Media Journal
    • /
    • v.7 no.4
    • /
    • pp.24-29
    • /
    • 2018
  • Text analysis technique for natural language processing in deep learning represents words in vector form through word embedding. In this paper, we propose a method of constructing a document vector and classifying it into spam and normal text message, using word embedding and deep learning method. Automatic spacing applied in the preprocessing process ensures that words with similar context are adjacently represented in vector space. Additionally, the intentional word formation errors with non-alphabetic or extraordinary characters are designed to avoid being blocked by spam message filter. Two embedding algorithms, CBOW and skip grams, are used to produce the sentence vector and the performance and the accuracy of deep learning based spam filter model are measured by comparing to those of SVM Light.

Super Resolution Technique Through Improved Neighbor Embedding (개선된 네이버 임베딩에 의한 초해상도 기법)

  • Eum, Kyoung-Bae
    • Journal of Digital Contents Society
    • /
    • v.15 no.6
    • /
    • pp.737-743
    • /
    • 2014
  • For single image super resolution (SR), interpolation based and example based algorithms are extensively used. The interpolation algorithms have the strength of theoretical simplicity. However, those algorithms are tending to produce high resolution images with jagged edges, because they are not able to use more priori information. Example based algorithms have been studied in the past few years. For example based SR, the nearest neighbor based algorithms are extensively considered. Among them, neighbor embedding (NE) has been inspired by manifold learning method, particularly locally linear embedding. However, the sizes of local training sets are always too small. So, NE algorithm is weak in the performance of the visuality and quantitative measure by the poor generalization of nearest neighbor estimation. An improved NE algorithm with Support Vector Regression (SVR) was proposed to solve this problem. Given a low resolution image, the pixel values in its high resolution version are estimated by the improved NE. Comparing with bicubic and NE, the improvements of 1.25 dB and 2.33 dB are achieved in PSNR. Experimental results show that proposed method is quantitatively and visually more effective than prior works using bicubic interpolation and NE.

An Efficient Reversible Data Hiding Algorithm (효율적인 가역 데이터 은닉 기법)

  • Jung, Soo-Mok
    • Journal of Service Research and Studies
    • /
    • v.6 no.1
    • /
    • pp.71-81
    • /
    • 2016
  • An efficient reversible data hiding algorithm was proposed in this paper. The original image can be recovered from the stego-image without distortion during the embedded data are extracted from the stego-image. The embedding data are greater than that of the previous algorithm and the PSNR value of the stego-image is guaranteed to be greater than 48dB. The performance of the proposed algorithm was proved by experimental results.