• 제목/요약/키워드: 토큰화

검색결과 92건 처리시간 0.02초

한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구 (Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension)

  • 이강욱;이해준;김재원;윤희원;유원호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.

공간의 토큰화와 빚 없이 현금 뽑기: 블록체인 기술을 활용한 증권형 토큰 발행을 중심으로 (The Tokenization of Space and Cash Out without Debt: Focus on Security Token Offerings Using Blockchain Technology)

  • 이후빈;홍다솜
    • 한국경제지리학회지
    • /
    • 제24권1호
    • /
    • pp.76-101
    • /
    • 2021
  • 본 연구는 공간 금융화의 방식으로써 토큰화의 가능성을 탐구하기 위해 Meridio와 Quantm RE의 사례를 분석한다. 공간의 토큰화는 블록체인 기술과 증권형 토큰 공개(STO)에 기초한다. Meridio와 Quantm RE는 구분소유권 거래를 바탕으로 공간을 토큰으로 만드는 금융모형을 제시하는데, 특히 QuantmRE는 주택소유자가 부채 없이 주택지분 거래를 통해 현금을 확보할 수 있게 한다. 이와 같은 방식은 대출이 아닌 매매의 형태를 취함으로써 금융기관이 대출에 대한 규제를 우회하고, 더 이상 부채를 늘릴 수 없는 하우스푸어가 주택으로부터 현금을 얻을 수 있게 해준다. 따라서 공간의 토큰화는 2008년 금융위기 이후에도 여전히 공간의 금융화를 재생산하는 대안이 될 수 있다. 그리고 하우스푸어에 대한 추가적 투자는 불황 주택시장의 저소득층 주거지역을 다시 투자지역으로 부상시켜서 금융화의 지리적 확장을 실현할 수 있다.

분산 시스템에서 확장성 있는 순서화 방송통신 프로토콜 (Scalable Ordered Broadcast Protocol in the Distributed System)

  • 한인;홍영식
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제29권3호
    • /
    • pp.125-133
    • /
    • 2002
  • 본 논문은 대규모 분산시스템에서 전체 순서화를 유지하는 방송통신 프로토콜을 제안한다. 기존의 토큰기반 방송통신 프로토콜과는 달리 제안된 프로토콜에서 토큰은 방송도메인을 구성하는 링을 묵시적으로 회전하지는 않는다. 대신에 토큰 전송을 위한 세 개의 메시지를 사용한다. 토큰은 방송메시지를 위한 순서번호 정보를 갖고 있으며, 오직 토큰을 소유한 노드만이 방송메시지를 전송할 수 있다. 방송메시지를 전송하려 하는 노드는 토큰을 소유한 토큰노드로 토큰요청메시지를 보내고, 토큰노드는 요청한 노드에게 토큰을 전송한다. 토큰을 요청한 노드가 토큰을 소유하게 되면 토큰의 순서정보를 이용하여 방송메시지를 전송한다. 이 메시지를 수신한 모든 노드는 토큰노드가 변경되었음을 인식하게 되고, 새로운 토큰노드로 토큰을 요청하게 된다. 그러나, 새로운 토큰 노드로부터 방송메시지를 수신하기 전에 과거의 토큰노드로 토큰요청메시지를 전송하는 노드가 존재할 수 있다. 이 문제를 해결하기 위해 제안된 프로토콜은 과거 토큰노드가 새로운 토큰노드에게 다음 토큰요청노드를 알리는 메시지를 사용한다. 시뮬레이션 결과를 통해 기존의 방송통신 프로토콜보다 제안된 프로토콜이 대규모 분산시스템에서 더욱 효율적이라는 것을 알 수 있다.

한국어 중심의 토큰-프리 언어 이해-생성 모델 사전학습 연구 (Towards Korean-Centric Token-free Pretrained Language Model)

  • 신종훈;허정;류지희;이기영;서영애;성진;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.711-715
    • /
    • 2023
  • 본 연구는 대부분의 언어 모델이 사용하고 있는 서브워드 토큰화 과정을 거치지 않고, 바이트 단위의 인코딩을 그대로 다룰 수 있는 토큰-프리 사전학습 언어모델에 대한 것이다. 토큰-프리 언어모델은 명시적인 미등록어 토큰이 존재하지 않고, 전 처리 과정이 단순하며 다양한 언어 및 표현 체계에 대응할 수 있는 장점이 있다. 하지만 관련 연구가 미흡, 서브워드 모델에 대비해 학습이 어렵고 낮은 성능이 보고되어 왔다. 본 연구에서는 한국어를 중심으로 토큰-프리 언어 이해-생성 모델을 사전 학습 후, 서브워드 기반 모델과 비교하여 가능성을 살펴본다. 또한, 토큰 프리 언어모델에서 지적되는 과도한 연산량을 감소시킬 수 있는 그래디언트 기반 서브워드 토크나이저를 적용, 처리 속도를 학습 2.7배, 추론 1.46배 개선하였다.

  • PDF

스마트 컨트랙트를 이용한 분산형 토큰 교환 시스템 (Decentralized Token Exchange System based on Smart Contract)

  • 이전제;조만재;조석헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.97-100
    • /
    • 2019
  • 사용자가 보유하고 있는 토큰은 기존 중앙화된 암호 화폐 거래소를 통해 교환 할 수 있다. 그러나 암호 화폐 거래소를 이용한 토큰 교환은 높은 수수료, 암호 화폐 거래소 해킹 가능성, 해당 거래소 내 등록된 암호 화폐에 대해서만 교환이 가능하다는 문제점이 존재한다. 이더리움 플랫폼에 배포된 스마트 컨트랙트는 블록체인 기반으로 다양한 형태의 계약을 조건이 만족할 시 자동으로 이행한다. 본 연구는 스마트 컨트랙트를 이용하여 기존의 중앙화된 암호 화폐 거래소 기반 토큰 교환 문제점을 해결하면서 이더리움 지갑 내 토큰을 사용자가 원하는 ERC-20 토큰으로 자동 교환해 주는 분산형 토큰 교환 시스템을 제안한다.

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

OAuth 2.0 MAC 토큰인증의 효율성 개선을 위한 무상태 난수화토큰인증 (Stateless Randomized Token Authentication for Performance Improvement of OAuth 2.0 MAC Token Authentication)

  • 이병천
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1343-1354
    • /
    • 2018
  • 표준 인증유지기술로 널리 사용되고 있는 OAuth 2.0 Bearer 토큰, JWT(JSON Web Token) 기술은 고정된 토큰을 반복 전송하는 방식을 이용하고 있어서 네트워크 공격자에 의한 도청공격에 취약하기 때문에 HTTPS 보안통신 환경에서 사용해야 한다는 제약이 있다. 평문통신 환경에서도 사용할 수 있는 인증유지기술로 제안된 OAuth 2.0 MAC 토큰 기술은 서버가 인증된 클라이언트에게 공유된 비밀키를 발급하고 인증요청시 이를 이용하여 MAC 값을 계산하여 제시하는 방식을 사용하는데 서버는 사용자별 공유비밀키를 관리해야 하므로 무상태(stateless) 인증을 제공할 수 없다는 단점이 있다. 이 논문에서는 서버측에서 사용자별 공유비밀키를 관리하지 않고도 무상태 MAC 토큰 인증을 수행할 수 있도록 개선된 난수화 토큰인증 프로토콜을 제시한다. 전체 인증과정에서 HTTPS를 사용할 필요가 없도록 하기 위하여 서버인증서를 이용한 초기인증보안, 인증서토큰을 이용한 전자서명 간편로그인 등의 기술을 난수화 토큰인증 기술과 결합하여 적용함으로써 완전한 무상태형 인증서비스를 제공할 수 있도록 설계하였으며 그 구현 사례를 제시한다.

복사 방법론과 입력 추가 구조를 이용한 End-to-End 한국어 문서요약 (End-to-end Korean Document Summarization using Copy Mechanism and Input-feeding)

  • 최경호;이창기
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.503-509
    • /
    • 2017
  • 본 논문에서는 copy mechanism과 input feeding 추가한 RNN search 모델을 end-to-end 방식으로 한국어 문서요약에 적용하였다. 또한 시스템의 입출력으로 사용하는 데이터를 음절단위, 형태소단위, hybrid 단위의 토큰화 형식으로 처리하여 수행한 각각의 성능을 구하여, 모델과 토큰화 형식에 따른 문서요약 성능을 비교한다. 인터넷 신문기사를 수집하여 구축한 한국어 문서요약 데이터 셋(train set 30291 문서, development set 3786 문서, test set 3705문서)으로 실험한 결과, 형태소 단위로 토큰화 하였을 때 우수한 성능을 확인하였으며, GRU search에 input feeding과 copy mechanism을 추가한 모델이 ROUGE-1 35.92, ROUGE-2 15.37, ROUGE-L 29.45로 가장 높은 성능을 보였다.