• Title/Summary/Keyword: 언어레이블

Search Result 61, Processing Time 0.02 seconds

Multi-decoder Model Reflecting Candidate Label Information (후보 레이블 정보를 반영한 멀티 디코더 모델)

  • Park, Won-Jae;Choi, Gi-Hyeon;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.307-310
    • /
    • 2021
  • 지도 학습을 하기 위해선 레이블이 부착된 데이터셋이 필요하다. 크라우드소싱 서비스를 통해 데이터셋을 구축하는데 다수의 주석자(Annotator)가 관여한다. 다수의 주석자가 레이블을 할당하고 과반수인 레이블을 최종 정답으로 결정한다. 이 과정에서 최종 정답과 다른 후보 레이블의 정보가 누락된다. 이를 완화하고 목표 작업에 대한 성능을 높이기 위해 후보 레이블에 대한 정보를 반영하는 멀티 디코더 모델을 제안한다. KLUE-TC, SNLI, MNLI 데이터셋으로 정량적 성능 평가를 수행하였으며 실험한 데이터셋 모두 일괄적인 성능 향상을 보였다.

  • PDF

Korean Natural Language Inference with Natural Langauge Explanations (Natural Language Explanations 에 기반한 한국어 자연어 추론)

  • Jun-Ho Yoon;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.170-175
    • /
    • 2022
  • 일반적으로 대규모 언어 모델들은 다량의 데이터를 오랜시간 사전학습하면서 레이블을 예측하기 위한 성능을 높여왔다. 최근 언어 모델의 레이블 예측에 대한 정확도가 높아지면서, 언어 모델이 왜 해당 결정을 내렸는지 이해하기 위한 신뢰도 높은 Natural Language Explanation(NLE) 을 생성하는 것이 시간이 지남에 따라 주요 요소로 자리잡고 있다. 본 논문에서는 높은 레이블 정확도를 유지하면서 동시에 언어 모델의 예측에 대한 신뢰도 높은 explanation 을 생성하는 참신한 자연어 추론 시스템을 제시한 Natural-language Inference over Label-specific Explanations(NILE)[1] 을 소개하고 한국어 데이터셋을 이용해 NILE 과 NLE 를 활용하지 않는 일반적인 자연어 추론 태스크의 성능을 비교한다.

  • PDF

Multi-label Open Intent Classification using Known Intent Information (의도 정보를 활용한 다중 레이블 오픈 의도 분류)

  • Nahyeon Park;Seongmin Cho;Hyun-Je Song
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.479-484
    • /
    • 2023
  • 다중 레이블 오픈 의도 분류란 다중 의도 분류와 오픈 의도 분류가 합쳐져 오픈 도메인을 가정하고 진행하는 다중 의도 분류 문제이다. 발화 속에는 여러 의도들이 존재한다. 이때 사전에 정의된 의도 여부만을 판별하는 것이 아니라 사전에 정의되어 있는 의도에 대해서만이라도 어떤 의도인지 분류할 수 있어야 한다. 본 논문에서는 발화 속 의도 정보를 활용하여 다중 레이블 오픈 의도를 분류하는 모델을 제안한다. 먼저, 문장의 의도 개수를 예측한다. 그리고 다중 레이블 의도 분류기를 통해 다중 레이블 의도 분류를 진행하여 의도 정보를 획득한다. 획득한 의도 정보 속 다중 의도 개수와 전체 의도 개수를 비교하여 전체 의도 개수가 더 많다면 오픈 의도가 존재한다고 판단한다. 실험 결과 제안한 방법은 MixATIS의 75% 의도에서 정확도 94.49, F1 97.44, MixSNIPS에서는 정확도 86.92, F1 92.96의 성능을 보여준다.

  • PDF

Labeling Dependency Structures using CRFs (CRFs를 이용한 의존구조 구문 레이블링)

  • Jeong, Seokwon;Choi, Maengsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.137-138
    • /
    • 2013
  • 본 논문에서는 의존구조 분석 결과로부터 구문 레이블을 생성하는 방법을 제안한다. 제안 시스템은 의존 구조 분석 결과의 의존소-지배소 쌍에 대해 자질을 생성하고, 문장 단위로 CRFs를 이용하여 구문 레이블을 부착한다. 실험을 통해 90.8%의 정확도를 보였고, 구문 레이블이 없는 의존구조 시스템의 후처리로 사용 가능하다.

  • PDF

Fine-grained Named Entity Recognition using Hierarchical Label Embedding (계층적 레이블 임베딩을 이용한 세부 분류 개체명 인식)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.251-256
    • /
    • 2021
  • 개체명 인식은 정보 추출의 하위 작업으로, 문서에서 개체명에 해당하는 단어를 찾아 알맞은 개체명을 분류하는 자연어처리 기술이다. 질의 응답, 관계 추출 등과 같은 자연어처리 작업에 대한 관심이 높아짐에 따라 세부 분류 개체명 인식에 대한 수요가 증가했다. 그러나 기존 개체명 인식 성능에 비해 세부 분류 개체명 인식의 성능이 낮다. 이러한 성능 차이의 원인은 세부 분류 개체명 데이터가 불균형하기 때문이다. 본 논문에서는 이러한 데이터 불균형 문제를 해결하기 위해 대분류 개체명 정보를 활용하여 세부 분류 개체명 인식을 수행하는 방법과 대분류 개체명 인식의 오류 전파를 완화하기 위한 2단계 학습 방법을 제안한다. 또한 레이블 주의집중 네트워크 기반의 구조에서 레이블의 공통 요소를 공유하여 세부 분류 개체명 인식에 효과적인 레이블 임베딩 구성 방법을 제안한다.

  • PDF

Development of Continuous Spoken Digit Recognition System using Statistical Model (통계적 모델에 의한 연속 숫자음의 인식 기술개발)

  • Lee, G.S.;Ann, T.O.;Kim, S.H.
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.154-158
    • /
    • 1989
  • 본 연구는 통제적 모델에 의한 연속 숫자음의 인식에 관한 것으로 4 연속 숫자음을 인식 대상으로하여 실험한다. 시스템은 크게 음향 음성 처리부 및 어휘 해석부 두 부분으로 나뉜다. 음향 음성 처리부에서는 입력 음성으로부터 특정 벡터인 12차의 LPC cepstrum 계수를 구하여, 프레임 레이블링과 소음소 레이블링 (phone labelling)을 한다. 프레임 레이블링인 베이스 분류법을 이용하였으며, 소음소 레이블링은 프레임 레이블과 사후확률 (posteriori probability)로 부터 이루어 졌다. 어휘 해석부분에서는 소음소 단위를 입력으로 받아 음운규칙을 통해 작성된 소음소 망을 거쳐 연속 숫자음 출력을 얻도록 했다. 본실험은 화자 3 명이 발음한 35 개의 4 연속 숫자음을 인식 대상으로 하였으며, 4 연속 숫자음을 평가단위로 80%의 인식율을 얻었고, 각 숫자음의 음절을 단위로 95%의 인식율을 얻어 제시한 알고리즘의 유효성을 입증하였다.

  • PDF

Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction (정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론)

  • Myunghoon Kang;Jungseob Lee;Seungjun Lee;Hyeonseok Moon;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.485-490
    • /
    • 2022
  • 데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.

  • PDF

Language Identification of Character-level in Document Image (문서영상의 낱자 단위 언어 구분)

  • 권세광;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.613-615
    • /
    • 2003
  • 본 논문은 문서 구조분석을 통해 얻어진 텍스트 영상에 대해 낱자 단위 분할 과정과 분할된 낱자에 대한 언어 구분 방법을 제안한다. 먼저 8방향 연결 요소를 이용한 레이블링을 수행하고 각 레이블의 거리관계와 한글 종모음의 특징을 이용하여 낱자 분리를 수행한다. 분리가 이루어진 낱자의 언어 구분은 각 낱자에 존재하는 concavity 특징을 이용하여 한글과 영어로 구분하게 된다. Concavity 특징을 찾기 위해 낱자를 이루는 흑화소 중 수직런을 이루는 흑화소 중 일부와 세리프 성분을 제거하며 그 방법을 기술한다. concavity 특징은 분리기를 통해 한글과 영어 두 가지로 분리되며, 분류기는 신경망을 이용한다. 제안된 방법은 20개의 텍스트 영상에 총 7923개의 낱자를 대상으로 실험하였으며, 낱자 분리는 97.20%의 정확도를 보였으며 분리된 낱자에 대한 언어 구분은 92.70%의 정확도를 얻을 수 있었다.

  • PDF

Labeled Statistical Korean Dependency Parsing with Global and Local Information (전역 및 지역 정보를 이용한 SVM 기반 한국어 문장 구조 및 격 레이블 분석)

  • Lim, Soojong;Lee, Changki;Jang, Myung-Gil;Ra, DongRyul
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.207-212
    • /
    • 2009
  • 한국어 문장의 구조 및 격 레이블 분석을 위해서 SVM 모델을 이용하여 얻어진 전역 및 지역 정보 통계 모델에 기반한 방법을 제안한다. 제안하는 방법은 후방 beam search 알고리즘을 이용하여 부분 구문 분석을 하는 과정에서 지역 의존 정보를 사용하였고 이렇게 구성된 문장의 후보 구조에 대해서는 전역 정보 모델를 사용하여 최적의 문장 구조 및 격 레이블을 분석하였다. 제안하는 방법은 지역이나 전역 중 한 개의 모델만을 사용할 때 발생할 수 있는 오류를 최소화하였다. 지식 DB 사업의 한국어 의존 구문 분석 말뭉치를 이용하여 실험한 결과 전역 정보나 지역 정보만을 사용한 결과보다 각각 1.2%, 3.3% 높은 79.1%의 문장 구조 및 격 레이블 분석 정확률을 나타냈고 전역 정보만을 사용할 때보다 약 76배 이상의 빠른 속도 향상을 보였다. 향후 연구로는 지배소 단위, 구 묶음 단위 등으로 통계 정보를 세분화하여 좀더 높은 성능 향상을 기대한다.

  • PDF

Multi-source based Question Answering System (다중소스 기반 질의 응답 시스템)

  • Park, Seonyeong;Kwon, Soonchoul;Choi, Junhwi;Yu, Hwanjo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.209-212
    • /
    • 2015
  • 본 논문에서는 지식베이스와 다중 소스 레이블 문서를 동시에 활용한 다중소스 기반 오픈 도메인 질의 응답 시스템에 대해 소개한다. 제안하는 질의 응답 시스템은 자연어처리를 기반으로 한 질의 분석 모듈, SPARQL (Simple protocol and RDF Query Language) query 생성 및 검색 부분, 다중 소스 레이블 문서 검색 부분으로 이루어져 있다. 정확도가 높은 지식베이스 기반의 질의 응답 시스템으로 정답을 우선 탐색한다. 지식베이스 기반 질의 응답 시스템으로 정답을 찾는 데 실패하거나, SPARQL query 생성에 실패하면, 다중 소스가 레이블된 문서 검색을 통해 정답을 찾는다. 제안하는 질의 응답 시스템은 지식베이스만 사용한 질의 응답 시스템보다 높은 성능을 보인다.

  • PDF