• Title/Summary/Keyword: 토큰화

Search Result 91, Processing Time 0.026 seconds

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

  • Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece (Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구)

  • Park, Jinwoo;Min, Jae-Ok;Sim, Woo-Chul;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

Korean Part-Of-Speech Tagging by using Head-Tail Tokenization (Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅)

  • Suh, Hyun-Jae;Kim, Jung-Min;Kang, Seung-Shik
    • Smart Media Journal
    • /
    • v.11 no.5
    • /
    • pp.17-25
    • /
    • 2022
  • Korean part-of-speech taggers decompose a compound morpheme into unit morphemes and attach part-of-speech tags. So, here is a disadvantage that part-of-speech for morphemes are over-classified in detail and complex word types are generated depending on the purpose of the taggers. When using the part-of-speech tagger for keyword extraction in deep learning based language processing, it is not required to decompose compound particles and verb-endings. In this study, the part-of-speech tagging problem is simplified by using a Head-Tail tokenization technique that divides only two types of tokens, a lexical morpheme part and a grammatical morpheme part that the problem of excessively decomposed morpheme was solved. Part-of-speech tagging was attempted with a statistical technique and a deep learning model on the Head-Tail tokenized corpus, and the accuracy of each model was evaluated. Part-of-speech tagging was implemented by TnT tagger, a statistical-based part-of-speech tagger, and Bi-LSTM tagger, a deep learning-based part-of-speech tagger. TnT tagger and Bi-LSTM tagger were trained on the Head-Tail tokenized corpus to measure the part-of-speech tagging accuracy. As a result, it showed that the Bi-LSTM tagger performs part-of-speech tagging with a high accuracy of 99.52% compared to 97.00% for the TnT tagger.

The Tokenization of Space and Cash Out without Debt: Focus on Security Token Offerings Using Blockchain Technology (공간의 토큰화와 빚 없이 현금 뽑기: 블록체인 기술을 활용한 증권형 토큰 발행을 중심으로)

  • Lee, Hoobin;Hong, Dasom
    • Journal of the Economic Geographical Society of Korea
    • /
    • v.24 no.1
    • /
    • pp.76-101
    • /
    • 2021
  • This paper analyzes two cases of space tokenization, Meridio and QuantmRE, to explore the potential of tokenization as a new means of space financialization. Space tokenization is based on blockchain technology and security token offering (STO). Although some financial geographers noted the possible impact of blockchain technology on space financialization, it has not been examined in depth. Therefore, this paper demonstrates space tokenization cases in detail. Meridio and QuantmRE suggest financial structures that convert space into tokens based on fractional ownership transactions. QuantmRE, specifically, allows a homeowner to secure cash without either debt or ownership relinquishment through sales of tokenized home equity. As this method takes a form of sale transaction rather than a loan, it enables financial institutions to circumvent strengthened regulation on loans after the 2008 global financial crisis. Moreover, even "house poor" households, who own houses but lack cash due to excessive loans, can cash out from their properties through QuantmRE. As such, space tokenization enables financial institutions to overcome constrained conditions after the global financial crisis, thereby reproducing space financialization. Space tokenization also has the potential to geographically expand space financialization through stimulating investment in the depressed housing market.

Scalable Ordered Broadcast Protocol in the Distributed System (분산 시스템에서 확장성 있는 순서화 방송통신 프로토콜)

  • Han, In;Hong, Young-Sik
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.29 no.3
    • /
    • pp.125-133
    • /
    • 2002
  • In this paper, we present an efficient broadcast protocol, called Btoken, that ensures total ordering of messages and atomicity of delivery in the large scaled distributed systems. Unlike the existing token-passing based protocol, Btoken does not circulate a token around the ring, instead, it uses three kinds of control messages for token transmission. The token has a sequence number field for broadcasting message, and the only site having the token can broadcast a message. When a site wishes to broadcast, It must send a message to the token site requesting the token. The token site sends a message with the token to the requester When the requester receives the token, it becomes the current token site and broadcasts a new message after setting sequence number derived from a field of the token into its message. Upon reception of it, any operating member is informed the position of the token site and will send token requesting message to the new token site. However, the other site may request the token to the old token site prior to receiving the broadcast message from the new token site. To resolve this problem, Btoken uses a message which is sent to the current token site by the old token site notifying who is the next token requester. Results of our simulation of the protocol show that Btoken is more efficient in the large scaled distributed system compared to existing broadcast protocols.

Towards Korean-Centric Token-free Pretrained Language Model (한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구)

  • Jong-Hun Shin;Jeong Heo;Ji-Hee Ryu;Ki-Young Lee;Young-Ae Seo;Jin Seong;Soo-Jong Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.711-715
    • /
    • 2023
  • 본 연구는 대부분의 언어 모델이 사용하고 있는 서브워드 토큰화 과정을 거치지 않고, 바이트 단위의 인코딩을 그대로 다룰 수 있는 토큰-프리 사전학습 언어모델에 대한 것이다. 토큰-프리 언어모델은 명시적인 미등록어 토큰이 존재하지 않고, 전 처리 과정이 단순하며 다양한 언어 및 표현 체계에 대응할 수 있는 장점이 있다. 하지만 관련 연구가 미흡, 서브워드 모델에 대비해 학습이 어렵고 낮은 성능이 보고되어 왔다. 본 연구에서는 한국어를 중심으로 토큰-프리 언어 이해-생성 모델을 사전 학습 후, 서브워드 기반 모델과 비교하여 가능성을 살펴본다. 또한, 토큰 프리 언어모델에서 지적되는 과도한 연산량을 감소시킬 수 있는 그래디언트 기반 서브워드 토크나이저를 적용, 처리 속도를 학습 2.7배, 추론 1.46배 개선하였다.

  • PDF

Decentralized Token Exchange System based on Smart Contract (스마트 컨트랙트를 이용한 분산형 토큰 교환 시스템)

  • Lee, Jeon-Je;Cho, Man-Jae;Cho, Seokheon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.97-100
    • /
    • 2019
  • 사용자가 보유하고 있는 토큰은 기존 중앙화된 암호 화폐 거래소를 통해 교환 할 수 있다. 그러나 암호 화폐 거래소를 이용한 토큰 교환은 높은 수수료, 암호 화폐 거래소 해킹 가능성, 해당 거래소 내 등록된 암호 화폐에 대해서만 교환이 가능하다는 문제점이 존재한다. 이더리움 플랫폼에 배포된 스마트 컨트랙트는 블록체인 기반으로 다양한 형태의 계약을 조건이 만족할 시 자동으로 이행한다. 본 연구는 스마트 컨트랙트를 이용하여 기존의 중앙화된 암호 화폐 거래소 기반 토큰 교환 문제점을 해결하면서 이더리움 지갑 내 토큰을 사용자가 원하는 ERC-20 토큰으로 자동 교환해 주는 분산형 토큰 교환 시스템을 제안한다.

Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization (부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석)

  • Cho, Dan Bi;Lee, Hyun Young;Jung, Won Sup;Kang, Seung Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.1
    • /
    • pp.1-8
    • /
    • 2021
  • In the political field of news articles, there are polarized and biased characteristics such as conservative and liberal, which is called political bias. We constructed keyword-based dataset to classify bias of news articles. Most embedding researches represent a sentence with sequence of morphemes. In our work, we expect that the number of unknown tokens will be reduced if the sentences are constituted by subwords that are segmented by the language model. We propose a document embedding model with subword tokenization and apply this model to SVM and feedforward neural network structure to classify the political bias. As a result of comparing the performance of the document embedding model with morphological analysis, the document embedding model with subwords showed the highest accuracy at 78.22%. It was confirmed that the number of unknown tokens was reduced by subword tokenization. Using the best performance embedding model in our bias classification task, we extract the keywords based on politicians. The bias of keywords was verified by the average similarity with the vector of politicians from each political tendency.

Stateless Randomized Token Authentication for Performance Improvement of OAuth 2.0 MAC Token Authentication (OAuth 2.0 MAC 토큰인증의 효율성 개선을 위한 무상태 난수화토큰인증)

  • Lee, Byoungcheon
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.28 no.6
    • /
    • pp.1343-1354
    • /
    • 2018
  • OAuth 2.0 bearer token and JWT(JSON web token), current standard technologies for authentication and authorization, use the approach of sending fixed token repeatedly to server for authentication that they are subject to eavesdropping attack, thus they should be used in secure communication environment such as HTTPS. In OAuth 2.0 MAC token which was devised as an authentication scheme that can be used in non-secure communication environment, server issues shared secret key to authenticated client and the client uses it to compute MAC to prove the authenticity of request, but in this case server has to store and use the shared secret key to verify user's request. Therefore, it's hard to provide stateless authentication service. In this paper we present a randomized token authentication scheme which can provide stateless MAC token authentication without storing shared secret key in server side. To remove the use of HTTPS, we utilize secure communication using server certificate and simple signature-based login using client certificate together with the proposed randomized token authentication to achieve the fully stateless authentication service and we provide an implementation example.

End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding (복사 방법론과 입력 추가 구조를 이용한 End-to-End 한국어 문서요약)

  • Choi, Kyoung-Ho;Lee, Changki
    • Journal of KIISE
    • /
    • v.44 no.5
    • /
    • pp.503-509
    • /
    • 2017
  • In this paper, the copy mechanism and input feeding are applied to recurrent neural network(RNN)-search model in a Korean-document summarization in an end-to-end manner. In addition, the performances of the document summarizations are compared according to the model and the tokenization format; accordingly, the syllable-unit, morpheme-unit, and hybrid-unit tokenization formats are compared. For the experiments, Internet newspaper articles were collected to construct a Korean-document summary data set (train set: 30291 documents; development set: 3786 documents; test set: 3705 documents). When the format was tokenized as the morpheme-unit, the models with the input feeding and the copy mechanism showed the highest performances of ROUGE-1 35.92, ROUGE-2 15.37, and ROUGE-L 29.45.