• 제목/요약/키워드: 토큰

검색결과 482건 처리시간 0.027초

문법성 품질 예측에 기반한 음성 인식 오류 교정 (Grammatical Quality Estimation for Error Correction in Automatic Speech Recognition)

  • 서민택;나승훈;나민수;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.608-612
    • /
    • 2022
  • 딥러닝의 발전 이후, 다양한 분야에서는 딥러닝을 이용해 이전에 어려웠던 작업들을 해결하여 사용자에게 편의성을 제공하고 있다. 하지만 아직 딥러닝을 통해 이상적인 서비스를 제공하는 데는 어려움이 있다. 특히, 음성 인식 작업에서 음성 양식에서 이용 방안에 대하여 다양성을 제공해주는 음성을 텍스트로 전환하는 Speech-To-Text(STT)은 문장 결과가 이상치에 달하지 못해 오류가 나타나게 된다. 본 논문에서는 STT 결과 보정을 문법 교정으로 치환하여 종단에서 올바른 토큰들을 조합하여 성능 향상을 하기 위해 각 토큰 별 품질 평가를 진행하는 모델을 한국어에서 적용하고 성능의 향상을 확인한다.

  • PDF

대화 시스템의 개체 생략 복원을 위한 유효 발화문 인식 (Valid Conversation Recognition for Restoring Entity Ellipsis in Chat Bot)

  • 소찬호;왕지현;이충희;이연수;강재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2019
  • 본 논문은 대화 시스템인 챗봇의 성능 향상을 위한 생략 복원 기술의 정확률을 올리기 위한 유효 발화문 인식 모델을 제안한다. 생략 복원 기술은 챗봇 사용자의 현재 발화문의 생략된 정보를 이전 발화문으로부터 복원하는 기술이다. 유효 발화문 인식 모델은 현재 발화문의 생략된 정보를 보유한 이전 발화문을 인식하는 역할을 수행한다. 유효 발화문 인식 모델은 BERT 기반 이진 분류 모델이며, 사용된 BERT 모델은 한국어 문서를 기반으로 새로 학습된 한국어 사전 학습 BERT 모델이다. 사용자의 현재 발화문과 이전 발화문들의 토큰 임베딩을 한국어 BERT를 통해 얻고, CNN 모델을 이용하여 각 토큰의 지역적인 정보를 추출해서 발화문 쌍의 표현 정보를 구해 해당 이전 발화문에 생략된 개체값이 있는지를 판단한다. 제안한 모델의 효과를 검증하기 위해 유효 발화문 인식 모델에서 유효하다고 판단한 이전 발화문만을 생략 복원 모델에 적용한 결과, 생략 복원 모델의 정확률이 약 5% 정도 상승한 것을 확인하였다.

  • PDF

부동산 소유권 NFT 와 분할 판매 및 거래 시스템 설계 (NFT Tokenization of Real Estate and Divisible FT Trading with Asset Portfolio Management)

  • 김영근;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.258-260
    • /
    • 2022
  • 대체 불가능 토큰 (NFT, non-fungible token)은 고유하고 더 이상 분할할 수 없는 특성을 가지고 있다. NFT 는 디지털 콘텐츠에 대한 소유권을 증명해 주지만 현재 1) 소유권 증명 이상의 유틸리티가 명확하지 않고, 2) 토큰이지만 유동성이 거의 없으며, 3) 가격이 예측 불가능하다. 특히, 부동산의 경우 가격이 매우 높은 특징으로 인하여 투자 진입장벽이 매우 높다. NFT 분할을 하면 유동성의 증가, 그리고 접근성 증가에 따른 커뮤니티 볼륨의 증가를 기대해 볼 수 있다. 이러한 특성을 활용하여 기존에 투자하기 어려웠던 부동산을 다양한 기술을 활용하여 쉽게 투자를 할 수 있게 된다. 또한, Black Litterman 모델을 활용하여 보다 여러 종류의 NFT 들에 대한 최적 포트폴리오를 구성할 수 있는 알고리즘을 설계하고 구현하였다.

비지도 대조 학습에서 삼중항 손실 함수 도입을 위한 토큰 컷오프 기반 데이터 증강 기법 (Data Augmentation Strategy based on Token Cut-off for Using Triplet Loss in Unsupervised Contrastive Learning)

  • 한명수 ;정유현 ;채동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.618-620
    • /
    • 2023
  • 최근 자연어처리 분야에서 의미론적 유사성을 반영하기 위한 대조 학습 (contrastive learning) 관련 연구가 활발히 이뤄지고 있다. 이러한 대조 학습의 핵심은 의미론적으로 가까워져야 하는 쌍과 멀어져야 하는 쌍을 잘 구축하는 것이지만, 기존의 손실 함수는 문장의 상대적인 유사성을 풍부하게 반영하는데 한계가 있다. 이를 해결하기 위해, 이전 연구에서는 삼중 항 손실 함수 (triplet loss)를 도입하였으며, 본 논문에서는 이러한 삼중 항을 구성하기 위해 대조 학습에서의 효과적인 토큰 컷오프(cutoff) 데이터 증강 기법을 제안한다. BERT, RoBERTa 등 널리 활용되는 언어 모델을 이용한 실험을 통해 제안하는 방법의 우수한 성능을 보인다.

프롬프트 튜닝기법을 적용한 한국어 속성기반 감정분석 (Prompt Tuning For Korean Aspect-Based Sentiment Analysis)

  • 김봉수;전현규;최승호;김지윤;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-55
    • /
    • 2023
  • 속성 기반 감정 분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성 기반 감정 분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정 표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류 하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성 기반 감정 분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr)에 공개되어 있다.

  • PDF

Long-KE-T5: 긴 맥락 파악이 가능한 한국어-영어 언어 모델 구축 (Long-KE-T5: Korean-English Language model for Long Sequences)

  • 김산;장진예;정민영;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.168-170
    • /
    • 2023
  • 이 논문에서는 7,400만개의 한국어, 영어 문서를 활용하여 최대 4,096개의 토큰을 입력으로하고 최대 1,024개의 토큰을 생성할 수 있도록 학습한 언어모델인 Long-KE-T5를 소개한다. Long-KE-T5는 문서에서 대표성이 높은 문장을 생성하도록 학습되었으며, 학습에 사용한 문서의 길이가 길기 때문에 긴 문맥이 필요한 태스크에 활용할 수 있다. Long-KE-T5는 다양한 한국어 벤치마크에서 높은 성능을 보였으며, 사전학습 모델링 방법이 텍스트 요약과 유사하기 때문에 문서 요약 태스크에서 기존 모델 대비 높은 성능을 보였다.

  • PDF

ETRI신기술-데이터 파일 보호기술

  • 한국전자통신연구원
    • 전자통신동향분석
    • /
    • 제14권5호통권59호
    • /
    • pp.149-150
    • /
    • 1999
  • PCMCIA 형태의 보안토큰을 이용한 정보보호 시스템, 컴퓨터, 통신, 인터넷 등 다양한 정보통신 시스템에 적용하여 보안 서비스를 제공, 범용 보안 API를 제공한다.

  • PDF

토큰기반 변환중심 한일 기계번역을 위한 변환사전 (Transfer Dictionary for A Token Based Transfer Driven Korean-Japanese Machine Translation)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제9권3호
    • /
    • pp.64-70
    • /
    • 2004
  • 한국어와 일본어는 동일한 어족에 속하며 비슷한 문장구조를 가지고 있어 변환중심 기계번역 방법이 효율적이다. 본 논문에서는 토큰 단위의 변환중심 한일 기계번역 시스템을 위한 변환 사전을 생성하는 방법에 관하여 기술하였다. 변환 사전이 잘 구성되면 구문분석 단계에서는 대역어를 선정하기에 적합한 정도까지의 의존트리를 생성하는 간이 파싱 만을 함으로써 필요 없는 노력을 경감시킬 수 있다. 게다가 구문해석 시에 최종의 결과 트리를 만들지 않아도 되므로 문어체 문장은 물론 입력 형태가 비정형적인 대화체 문장에서 더욱 큰 효과를 볼 수 있다. 본 논문의 변환 사전은 한국전자통신 연구원이 수집한 음성 데이터베이스로부터 추출한 말뭉치를 사용해 구성하였다. 구현한 시스템은 여행 계획영역에서 수집된 900여 발화 안의 문장을 대상으로 시험하였는데 제한된 환경에서 $92\%$, 아무런 제약이 없는 환경에서는 $81\%$의 성공률을 보였다.

  • PDF

무선 센서 네트워크에서 균등한 클러스터 밀도를 고려한 토큰 기반의 클러스터링 알고리즘 (A Token Based Clustering Algorithm Considering Uniform Density Cluster in Wireless Sensor Networks)

  • 이현석;허정석
    • 정보처리학회논문지C
    • /
    • 제17C권3호
    • /
    • pp.291-298
    • /
    • 2010
  • 무선 센서 네트워크에서 센서노드의 수명은 배터리에 의해 제한되므로 에너지는 가장 중요한 고려사항이다. 클러스터링은 네트워크의 에너지 소비를 효율적으로 관리하는데 사용되는 방법 중 하나이며, LEACH는 대표적인 클러스터링 알고리즘이다. LEACH는 센서 노드들의 에너지 소비를 공평하게 분산시키기 위해 에너지 소모적 기능을 하는 클러스터 헤드를 매 라운드마다 무작위로 순환시키는 방법을 사용하고 있다. 클러스터 헤드의 무작위 선정은 매 라운드 최적의 클러스터 헤드 수를 보장해주지 못한다. 그리고 밀도가 높은 클러스터에 위치한 클러스터 헤드는 과부하 상태가 된다. 본 논문에서는 클러스터 헤드의 수를 보장하기 위한 토큰 기반의 클러스터 헤드 선정 알고리즘과 균등한 밀도의 클러스터 형성을 위한 클러스터 선택 알고리즘을 제안한다. 시뮬레이션을 통하여 제안하는 알고리즘이 LEACH 보다 네트워크 수명이 9.3%정도 연장됨을 보여주었다.