• Title/Summary/Keyword: 토큰화 처리

Search Result 43, Processing Time 0.028 seconds

Korean End-to-End Coreference Resolution with BERT for Long Document (긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결)

  • Jo, Kyeongbin;Jung, Youngjun;Lee, Changki;Ryu, Jihee;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

Total Ordering Algorithm over Reliable Multicast Protocol using Token Passing Mechanism (멀티캐스트 프로토콜상에서 토큰 전달 방법을 이용한 전체 순서화 알고리즘)

  • Won, Yu-Jae;Yu, Gwan-Jong
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.8
    • /
    • pp.2158-2170
    • /
    • 1999
  • It has been required more reliable communication on processes and improvement of system performance as distributed systems using multicast protocol became widespread. In distributed environment maintaining data consistency through asynchronous execution of processes and coordinating the activities of them would occurs. This paper proposes a total ordering algorithm, TORMP, in order to resolve these problems. TORMP takes advantage of multicast protocol and uses an effective token passing method. It reduces a process delaying time before transmitting its message by multicasting a token simultaneously to every process that initiates the request of the message. Moreover, the processes receiving the token start multicasting the message at the same time, which causes to cut down the overall transmission dely. In case that one process sends a message, TORMP hardly uses the procedure of controlling for ordering. It gives fairly the right of sending messages to all processes in a group with utilizing vector clock. In TORMP, unlike other algorithms, the number of packets generated during ordering process does not depend on the number of processes.

  • PDF

Research on improving the security vulnerabilities of the easy payment system using tokens on mobile devices (모바일 기기에서 토큰을 이용한 간편 결제 시스템의 보안 취약점 개선을 위한 연구)

  • Jung-Min Oh;Young-Tea Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.145-146
    • /
    • 2023
  • 최근 결제 시스템은 인간 친화적이며 다양한 디지털 기술들의 발전으로 간편화되고 있다. 특히 핀테크의 일종인 간편 결제 시스템은 효율성과 간편성을 강조하면서 금융 시장에서 크게 화두 되는 시스템이다. 그러나 효율성과 간편성에 집중하다 보니 보안성이 낮아지는 단점을 가지고 있다. 특히, 간편 결제 시스템의 핵심인 토큰 시스템의 취약점은 가장 큰 문제를 발생할 수 있다. 이에 대응하기 위해, 이 논문에서는 기존 결제 시스템 방식에 비대칭 암호화 방식을 추가하여 간편 결제 시스템의 보안성을 높여 토큰 취약점 대응 시스템을 제안한다.

Design of Sequential System Controller Using Incidence Matrix (접속 행렬을 이용한 순차 시스템 제어기 설계)

  • 전호익;류창근;우광준
    • Journal of the Korean Institute of Illuminating and Electrical Installation Engineers
    • /
    • v.12 no.1
    • /
    • pp.85-92
    • /
    • 1998
  • In this paper, we design a sequential system controller, which is capable of processing parallel sequence, on the basis of analysis of control specification described by Petri Net with incidence matrix. The sequential system controller consists of input conditioning unit and petri net control unit which is composed of the token control unit and firing unit. The firing unit determines the firing condition of the transfer signal on the basis of the token status of token control unit. By the proposed scheme, we can easily develop and implement the sequential system controller of automated warehousing system, automated transportation system, elevator system, and so on, as it is possible to modify control specification by changing simply the content of incidence matrix ROM and to expand easily functional capacity as the result of modular design.design.

  • PDF

A Scheme of Improving Propagation Attack Protection and Generating Convergence Security Token using Moire (무아레를 이용한 융합 보안토큰생성과 전파공격 보호 기법)

  • Lee, Su-Yeon;Lee, Keun-Ho
    • Journal of the Korea Convergence Society
    • /
    • v.10 no.2
    • /
    • pp.7-11
    • /
    • 2019
  • Due to diversification and popularization of devices that use rapid transmission, there are many security issues related to radio waves. As the disturbance and interference of the radio wave can cause a direct inconvenience to a life, it is a very important issue. In this paper, as a means to prevent radio disturbance and interference, the projected image of the reference grid and the deformed grid is obtained by measuring the projected $moir{\acute{e}}$ using the white light source, projecting grid and the light source, and a $moir{\acute{e}}$ pattern is generated with an image processing algorithm by applying a phase diagram algorithm, and generated $moir{\acute{e}}$ pattern phase diagram creates a three-dimensional shape. By making an encrypted token using this measured face shape, the transmission of the information through token ring is determined in order to transmit the horizontal transmission having the dynamic security characteristics which includes authentication strength and caller information, etc. And by confirming the uniqueness of the token and by sending and receiving the horizontal transmission using java serialization and deserialization function, a problem solving method is suggested.

IoT Multi-Phase Authentication System Using Token Based Blockchain (블록체인 기반의 토큰을 이용한 IoT 다단계 인증 시스템)

  • Park, Hwan;Kim, Mi-sun;Seo, Jae-hyun
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.8 no.6
    • /
    • pp.139-150
    • /
    • 2019
  • IoT(Internet of Things) security is becoming increasingly important because IoT potentially has a variety of security threats, including limited hardware specifications and physical attacks. This paper is a study on the certification technology suitable for the lightened IoT environment, and we propose a system in which many gateways share authentication information and issue authentication tokens for mutual authentication using blockchain. The IoT node can be issued an authentication token from one gateway to continuously perform authentication with a gateway in the block-chain network using an existing issued token without performing re-authentication from another gateway participating in the block-chain network. Since we do not perform re-authentication for other devices in a blockchain network with only one authentication, we proposed multi phase authentication consisting of device authentication and message authentication in order to enhance the authentication function. By sharing the authentication information on the blockchain network, it is possible to guarantee the integrity and reliability of the authentication token.

A Study on the Perception of Disaster and Crisis Using SNS(Twitter) (SNS(트위터)를 활용한 재난 및 위기상황 인식에 관한 연구)

  • Choi, YeonHo;Hyun, SangYeop;Shin, Younsoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.483-486
    • /
    • 2021
  • 재난 및 위기상황이 발생하면 해당 상황을 신속하고 정확하게 파악해야 많은 사람들을 구조할 수 있다. 본 논문은 SNS에서 재난 및 위기 상황을 정확하게 인식하는 연구를 진행한다. 텍스트 정규화, 워드 토큰화, 단어 임베딩 과정을 통해 전처리를 진행하고 키워드와 여러 특징들을 뽑아 SVM classifier를 사용하여 분류 작업을 실시한다. 실험결과 재난과 연관이 있는 경우에 해시태그의 빈도수, URL 빈도수, 두 키워드간의 거리가 다른 특징들의 조합보다 더 좋은 결과를 나타내었다.

Swear Word Detection through Convolutional Neural Network (딥러닝 기반 욕설 탐지)

  • Kim, Yumin;Gang, Hyobin;Han, Suhyeun;Jeong, Hieyong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.685-686
    • /
    • 2021
  • 개인의 소셜미디어 활동이 활발해지면서 익명성을 악용하여 타인에게 욕설을 주저없이 해버리는 사용자가 늘고 있다. 본 연구는 욕설이 난무하는 채팅창에서 욕설 데이터를 크롤링하여 데이터셋을 구축하여 컨볼루션 네트워크로 학습시켰을 때 욕설을 탐지하고, 전체 문장에서 그 탐지한 욕설의 위치를 파악하여 블러링 처리를 할 수 있는지를 확인하는 것을 목적으로 한다. 전처리 작업으로 한글과 공백을 제외하고 형태소 단위로 토큰화한 후 불용어를 제거해서 패딩처리를 하였다. 학습 모델로는 1차원 컨볼루션을 사용하여 수집한 데이터의 80%를 훈련에 사용하고 나머지 20%를 테스트에 사용하였다. 키워드를 이용한 단순 분류 모델과 비교하였을 때, 본 연구에서 이용한 모델이 약 14% 정확도가 향상된 것을 확인할 수 있었다. 테스트에서 전체 문장에서 욕설이 포함되었을 때 욕설과 그 위치 정보를 잘 획득하는 것도 확인할 수 있었다.

Korean Head-Tail POS-Tagger by using Transformer (Transformer를 이용한 한국어 Head-Tail 품사 태거)

  • Kim, Jung-Min;Suh, Hyun-Jae;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.544-547
    • /
    • 2021
  • 한국어의 품사 태깅 문제는 입력 어절의 형태소 분석 후보들로부터 통계적으로 적절한 품사 태그를 가지는 후보들을 찾는 방식으로 해결하여 왔다. 어절을 형태소 단위로 분리하고 품사를 부착하는 기존의 방식은 품사태그 정보를 딥러닝 feature로 사용할 때 문장의 의미를 이해하는데 복잡도를 증가시키는 요인이 된다. 본 연구에서는 품사 태깅 문제를 단순화 하여 한 어절을 Head와 Tail이라는 두 가지 유형의 형태소 토큰으로 분리하여 Head와 Tail에 대해 품사를 부착한다. Head-Tail 품사 태깅 방법을 Sequence-to-Sequence 문제로 정의하여 Transformer를 이용한 Head-Tail 품사 태거를 설계하고 구현하였다. 학습데이터로는 KCC150 말뭉치의 품사 태깅 말뭉치 중에서 788만 문장을 사용하고, 실험 데이터로는 10만 문장을 사용하였다. 실험 결과로 토큰 정확도는 99.75%, 태그 정확도는 99.39%, 토큰-태그 정확도는 99.31%로 나타났다.

  • PDF

Efficient Subword Segmentation for Korean Language Classification (한국어 분류를 위한 효율적인 서브 워드 분절)

  • Hyunjin Seo;Jeongjae Nam;Minseok Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.535-540
    • /
    • 2022
  • Out of Vocabulary(OOV) 문제는 인공신경망 기계번역(Neural Machine Translation, NMT)에서 빈번히 제기되어 왔다. 이를 해결하기 위해, 기존에는 단어를 효율적인 압축할 수 있는 Byte Pair Encoding(BPE)[1]이 대표적으로 이용되었다. 하지만 BPE는 빈도수를 기반으로 토큰화가 진행되는 결정론적 특성을 취하고 있기에, 다양한 문장에 관한 일반화된 분절 능력을 함양하기 어렵다. 이를 극복하기 위해 최근 서브 워드를 정규화하는 방법(Subword Regularization)이 제안되었다. 서브 워드 정규화는 동일한 단어 안에서 발생할 수 있는 다양한 분절 경우의 수를 고려하도록 설계되어 다수의 실험에서 우수한 성능을 보였다. 그러나 분류 작업, 특히 한국어를 대상으로 한 분류에 있어서 서브 워드 정규화를 적용한 사례는 아직까지 확인된 바가 없다. 이를 위해 본 논문에서는 서브 워드 정규화를 대표하는 두 가지 방법인 유니그램 기반 서브 워드 정규화[2]와 BPE-Dropout[3]을 이용해 한국어 분류 문제에 대한 서브 워드 정규화의 효과성을 제안한다. NMT 뿐만 아니라 분류 문제 역시 단어의 구성성 및 그 의미를 파악하는 것은 각 문장이 속하는 클래스를 결정하는데 유의미한 기여를 한다. 더불어 서브 워드 정규화는 한국어의 문장 구성 요소에 관해 폭넓은 인지능력을 함양할 수 있다. 해당 방법은 본고에서 진행한 한국어 분류 과제 실험에서 기존 BPE 대비 최대 4.7% 높은 성능을 거두었다.

  • PDF