• Title/Summary/Keyword: 토큰

Search Result 482, Processing Time 0.022 seconds

Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition (문법성 품질 예측에 기반한 음성 인식 오류 교정)

  • Mintaek Seo;Seung-Hoon Na;Minsoo Na;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF

Valid Conversation Recognition for Restoring Entity Ellipsis in Chat Bot (대화 시스템의 개체 생략 복원을 위한 유효 발화문 인식)

  • So, Chan Ho;Wang, Ji Hyun;Lee, Chunghee;Lee, Yeonsoo;Kang, Jaewoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.54-59
    • /
    • 2019
  • 본 논문은 대화 시스템인 챗봇의 성능 향상을 위한 생략 복원 기술의 정확률을 올리기 위한 유효 발화문 인식 모델을 제안한다. 생략 복원 기술은 챗봇 사용자의 현재 발화문의 생략된 정보를 이전 발화문으로부터 복원하는 기술이다. 유효 발화문 인식 모델은 현재 발화문의 생략된 정보를 보유한 이전 발화문을 인식하는 역할을 수행한다. 유효 발화문 인식 모델은 BERT 기반 이진 분류 모델이며, 사용된 BERT 모델은 한국어 문서를 기반으로 새로 학습된 한국어 사전 학습 BERT 모델이다. 사용자의 현재 발화문과 이전 발화문들의 토큰 임베딩을 한국어 BERT를 통해 얻고, CNN 모델을 이용하여 각 토큰의 지역적인 정보를 추출해서 발화문 쌍의 표현 정보를 구해 해당 이전 발화문에 생략된 개체값이 있는지를 판단한다. 제안한 모델의 효과를 검증하기 위해 유효 발화문 인식 모델에서 유효하다고 판단한 이전 발화문만을 생략 복원 모델에 적용한 결과, 생략 복원 모델의 정확률이 약 5% 정도 상승한 것을 확인하였다.

  • PDF

NFT Tokenization of Real Estate and Divisible FT Trading with Asset Portfolio Management (부동산 소유권 NFT 와 분할 판매 및 거래 시스템 설계)

  • Kim, Young-Gun;Kim, Seong-Whan;Song, Hyo Jung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.258-260
    • /
    • 2022
  • 대체 불가능 토큰 (NFT, non-fungible token)은 고유하고 더 이상 분할할 수 없는 특성을 가지고 있다. NFT 는 디지털 콘텐츠에 대한 소유권을 증명해 주지만 현재 1) 소유권 증명 이상의 유틸리티가 명확하지 않고, 2) 토큰이지만 유동성이 거의 없으며, 3) 가격이 예측 불가능하다. 특히, 부동산의 경우 가격이 매우 높은 특징으로 인하여 투자 진입장벽이 매우 높다. NFT 분할을 하면 유동성의 증가, 그리고 접근성 증가에 따른 커뮤니티 볼륨의 증가를 기대해 볼 수 있다. 이러한 특성을 활용하여 기존에 투자하기 어려웠던 부동산을 다양한 기술을 활용하여 쉽게 투자를 할 수 있게 된다. 또한, Black Litterman 모델을 활용하여 보다 여러 종류의 NFT 들에 대한 최적 포트폴리오를 구성할 수 있는 알고리즘을 설계하고 구현하였다.

Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning (비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법)

  • Myeongsoo Han;Yoo Hyun Jeong;Dong-Kyu Chae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.618-620
    • /
    • 2023
  • 최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

Prompt Tuning For Korean Aspect-Based Sentiment Analysis (프롬프트 튜닝기법을 적용한 한국어 속성기반 감정분석)

  • Bong-Su Kim;Hyun-Kyu Jeon;Seung-Ho Choi;Ji-Yoon Kim;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.50-55
    • /
    • 2023
  • 속성 기반 감정 분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성 기반 감정 분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정 표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류 하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성 기반 감정 분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr)에 공개되어 있다.

  • PDF

Long-KE-T5: Korean-English Language model for Long Sequences (Long-KE-T5: 긴 맥락 파악이 가능한 한국어-영어 언어 모델 구축)

  • San Kim;Jinyea Jang;Minyoung Jeung;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.168-170
    • /
    • 2023
  • 이 논문에서는 7,400만개의 한국어, 영어 문서를 활용하여 최대 4,096개의 토큰을 입력으로하고 최대 1,024개의 토큰을 생성할 수 있도록 학습한 언어모델인 Long-KE-T5를 소개한다. Long-KE-T5는 문서에서 대표성이 높은 문장을 생성하도록 학습되었으며, 학습에 사용한 문서의 길이가 길기 때문에 긴 문맥이 필요한 태스크에 활용할 수 있다. Long-KE-T5는 다양한 한국어 벤치마크에서 높은 성능을 보였으며, 사전학습 모델링 방법이 텍스트 요약과 유사하기 때문에 문서 요약 태스크에서 기존 모델 대비 높은 성능을 보였다.

  • PDF

ETRI신기술-데이터 파일 보호기술

  • Electronics and Telecommunications Research Institute
    • Electronics and Telecommunications Trends
    • /
    • v.14 no.5 s.59
    • /
    • pp.149-150
    • /
    • 1999
  • PCMCIA 형태의 보안토큰을 이용한 정보보호 시스템, 컴퓨터, 통신, 인터넷 등 다양한 정보통신 시스템에 적용하여 보안 서비스를 제공, 범용 보안 API를 제공한다.

  • PDF

Transfer Dictionary for A Token Based Transfer Driven Korean-Japanese Machine Translation (토큰기반 변환중심 한일 기계번역을 위한 변환사전)

  • Yang Seungweon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.3
    • /
    • pp.64-70
    • /
    • 2004
  • Korean and Japanese have same structure of sentences because they belong to same family of languages. So, The transfer driven machine translation is most efficient to translate each other. This paper introduce a method which creates a transfer dictionary for Token Based Transfer Driven Koran-Japanese Machine Translation(TB-TDMT). If the transfer dictionaries are created well, we get rid of useless effort for traditional parsing by performing shallow parsing. The semi-parser makes the dependency tree which has minimum information needed output generating module. We constructed the transfer dictionaries by using the corpus obtained from ETRI spoken language database. Our system was tested with 900 utterances which are collected from travel planning domain. The success-ratio of our system is $92\%$ on restricted testing environment and $81\%$ on unrestricted testing environment.

  • PDF

A Token Based Clustering Algorithm Considering Uniform Density Cluster in Wireless Sensor Networks (무선 센서 네트워크에서 균등한 클러스터 밀도를 고려한 토큰 기반의 클러스터링 알고리즘)

  • Lee, Hyun-Seok;Heo, Jeong-Seok
    • The KIPS Transactions:PartC
    • /
    • v.17C no.3
    • /
    • pp.291-298
    • /
    • 2010
  • In wireless sensor networks, energy is the most important consideration because the lifetime of the sensor node is limited by battery. The clustering is the one of methods used to manage network energy consumption efficiently and LEACH(Low-Energy Adaptive Clustering Hierarchy) is one of the most famous clustering algorithms. LEACH utilizes randomized rotation of cluster-head to evenly distribute the energy load among the sensor nodes in the network. The random selection method of cluster-head does not guarantee the number of cluster-heads produced in each round to be equal to expected optimal value. And, the cluster head in a high-density cluster has an overload condition. In this paper, we proposed both a token based cluster-head selection algorithm for guarantee the number of cluster-heads and a cluster selection algorithm for uniform-density cluster. Through simulation, it is shown that the proposed algorithm improve the network lifetime about 9.3% better than LEACH.