• Title/Summary/Keyword: 영어처리

Search Result 471, Processing Time 0.028 seconds

Improving Clustered Sense Labels for Word Sense Disambiguation (단어 의미 모호성 해소를 위한 군집화된 의미 어휘의 품질 향상)

  • Jeongyeon Park;Hyeong Jin Shin;Jae Sung Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.268-271
    • /
    • 2022
  • 단어 의미 모호성 해소는 동형이의어의 의미를 문맥에 맞게 결정하는 일이다. 최근 연구에서는 희소 데이터 처리를 위해 시소러스를 사용해 의미 어휘를 압축하고 사용하는 방법이 좋은 성능을 보였다[1]. 본 연구에서는 시소러스 없이 군집화 알고리즘으로 의미 어휘를 압축하는 방법의 성능 향상을 위해 두 가지 방법을 제안한다. 첫째, 의미적으로 유사한 의미 어휘 집합인 범주(category) 정보를 군집화를 위한 초기 군집 생성에 사용한다. 둘째, 다양하고 많은 문맥 정보를 학습해 만들어진 품질 좋은 벡터를 군집화에 사용한다. 영어데이터인 SemCor 데이터를 학습하고 Senseval, Semeval 5개 데이터로 평가한 결과, 제안한 방법의 평균 성능이 기존 연구보다 1.5%p 높은 F1 70.6%를 달성했다.

  • PDF

BERT-based Data Augmentation Techniques for Korean Coreference Resolution (한국어 상호참조해결을 위한 BERT 기반 데이터 증강 기법)

  • Kim, Kihun;Lee, Changki;Ryu, Jihee;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.249-253
    • /
    • 2020
  • 상호참조해결은 문서 내에 등장하는 모든 멘션 중에서 같은 의미를 갖는 대상(개체)들을 하나의 집합으로 묶어주는 자연어처리 태스크이다. 한국어 상호참조해결의 학습 데이터는 영어권에 비해 적은 양이다. 데이터 증강 기법은 부족한 학습 데이터를 증강하여 기계학습 기반 모델의 성능을 향상시킬 수 있는 방법 중 하나이며, 주로 규칙 기반 데이터 증강 기법이 연구되고 있다. 그러나 규칙 기반으로 데이터를 증강하게 될 경우 규칙 조건을 만족하지 못했을 때 데이터 증강이 힘들다는 문제점과 임의로 단어를 변경 혹은 삭제하는 과정에서 문맥에 영향을 주는 문제점이 발생할 수 있다. 따라서 본 논문에서는 BERT의 MLM(Masked Language Model)을 이용하여 기존 규칙기반 데이터 증강 기법의 문제점을 해결하고 한국어 상호참조해결 데이터를 증강하는 방법을 소개한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터에서 CoNLL F1 1.39% (TEST) 성능 향상을 보였다.

  • PDF

Korean Co-reference Resolution using BERT with Surfaceform (표층형을 이용한 BERT 기반 한국어 상호참조해결)

  • Heo, Cheolhun;Kim, Kuntae;Choi, Key-sun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.67-70
    • /
    • 2019
  • 상호참조해결은 자연언어 문서 내에서 같은 개체를 나타내는 언급들을 연결하는 문제다. 대명사, 지시 관형사, 축약어, 동음이의어와 같은 언급들의 상호참조를 해결함으로써, 다양한 자연언어 처리 문제의 성능 향상에 기여할 수 있다. 본 논문에서는 현재 영어권 상호참조해결에서 좋은 성능을 내고 있는 BERT 기반 상호참조해결 모델에 한국어 데이터 셋를 적용시키고 표층형을 이용한 규칙을 추가했다. 본 논문의 모델과 기존의 모델들을 실험하여 성능을 비교하였다. 기존의 연구들과는 다르게 적은 특질로 정밀도 73.59%, 재현율 71.1%, CoNLL F1-score 72.31%의 성능을 보였다. 모델들의 결과를 분석하여 BERT 기반의 모델이 다양한 특질을 사용한 기존 딥러닝 모델에 비해 문맥적 요소를 잘 파악하는 것을 확인했다.

  • PDF

KoRIBES : A Study on the Problems of RIBES in Automatic Evaluation English-Korean Patent Machine Translation (특허 기계 번역에 대한 RIBES 한국어 자동평가 문제에 대한 고찰)

  • Jang, Hyeon-Jin;Jang, Moon-Seok;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.543-547
    • /
    • 2020
  • 자연어 처리에서 기계번역은 가장 많이 사용되고 빠르게 발전하고 있다. 기계번역에 있어서 사람의 평가가 가장 정확하고 중요하지만 많은 시간과 비용이 발생된다. 이에 기계번역을 자동 평가하는 방법들이 많이 제안되어 사용되고 있지만, 한국어 특성을 잘 반영한 자동평가 방법은 연구되지 않고 있다. BLEU와 같은 자동평가 방법을 많이 사용하고 있지만 언어의 특성 차이로 인해 원하는 평가결과를 얻지 못하는 경우가 발생하며, 특히 특허나 논문과 같은 기술문서의 번역에서는 더 많이 발생한다. 이에 본 논문에서는 단어의 정밀도와 어순이 평가에 영향이 있는 RIBES를 가지고 특허 기계 번역에서 영어→한국어로 기계 번역된 결과물의 자동평가에 대해 사람의 평가와 유사한 결과를 얻기 위해 tokenization 과정에서 복합 형태소 분리를 통한 평가방법을 제안하고자 한다.

  • PDF

Kochat: Korean Goal-oriented Chatbot Framework (Kochat: 한국어 목적지향 챗봇 프레임워크)

  • Ko, Hyunwoong;Park, Kyubyong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.596-599
    • /
    • 2021
  • 목적지향 챗봇은 일상생활의 많은 부분을 자동화하기 위해 우리의 삶에 널리 보급되고 있다. 그러나 목적지향 챗봇은 보통 많은 모듈이 연결된 파이프라인의 형태로 구현되기 때문에 기계학습 초보자 혹은 비전문가가 직접 구현하기에는 어려운 편이다. 때문에 모든 모듈을 직접 구현하기보다는 유료 챗봇 빌더나 오픈소스 프레임워크를 통해 구현된다. 현재 영어는 몇 가지 오픈소스가 존재하지만 한국어는 관련 오픈소스가 전무한 상황이다. 본 논문에서는 이러한 문제를 해결하기 위해 한국어 전용 오픈소스 목적지향 챗봇 프레임워크인 Kochat 을 제안한다. 사용자는 Kochat 을 이용하여 약 20~30 줄의 코드만으로 손쉽게 자신만의 목적지향 챗봇을 학습 및 배포할 수 있다. 모든 소스코드와 문서는 https://github.com/hyunwoongko/kochat에서 확인할 수 있으며, 추가로 논문의 말미에 후속 연구에 대해서도 논의한다.

KULLM: Learning to Construct Korean Instruction-following Large Language Models (구름(KULLM): 한국어 지시어에 특화된 거대 언어 모델)

  • Seungjun Lee;Taemin Lee;Jeongwoo Lee;Yoonna Jang;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.196-202
    • /
    • 2023
  • Large Language Models (LLM)의 출현은 자연어 처리 분야의 연구 패러다임을 전환시켰다. LLM의 핵심적인 성능향상은 지시어 튜닝(instruction-tuning) 기법의 결과로 알려져 있다. 그러나, 현재 대부분의 연구가 영어 중심으로 진행되고 있어, 다양한 언어에 대한 접근이 필요하다. 본 연구는 한국어 지시어(instruction-following) 모델의 개발 및 최적화 방법을 제시한다. 본 연구에서는 한국어 지시어 데이터셋을 활용하여 LLM 모델을 튜닝하며, 다양한 데이터셋 조합의 효과에 대한 성능 분석을 수행한다. 최종 결과로 개발된 한국어 지시어 모델을 오픈소스로 제공하여 한국어 LLM 연구의 발전에 기여하고자 한다.

  • PDF

Synonyms/Antonyms-Based Data Augmentation For Training TOEIC Problems Solving Model (토익 문제 풀이 모델 학습을 위한 유의어/반의어 기반 데이터 증강 기법)

  • Jeongwoo Lee;Aiyanyo Imatitikua Danielle;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.333-335
    • /
    • 2023
  • 최근 글을 이해하고 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재한다. 기계 독해와 관련하여 다양한 데이터셋이 공개되어 있지만, 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 많이 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋도 거의 존재하지 않으며, 이를 위한 연구 또한 활발히 진행되고 있지 않다. 이에 본 연구에서는 현재와 같이 데이터가 부족한 상황에서 기계 독해 모델의 성능을 향상시키기 위한 데이터 증강 기법을 제안하고자 한다. 제안하는 방법은 WordNet을 이용하여 유의어 및 반의어를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 것이며, 실험을 통해 해당 방법의 유의미함을 확인하였다. 우리는 본 연구를 통해 토익에 대한 데이터 부족 문제를 해소하고, 사람 수준의 우수한 성능을 얻을 수 있도록 한다.

  • PDF

Design and Implementation of Korean Programming Language KoBASIC (한글 프로그래밍 언어 코베이직의 설계 및 구현)

  • Seok-Won Lee;Dongsu Song;Gyun Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.64-65
    • /
    • 2023
  • 이 논문은 한글 프로그래밍 언어 KoBASIC의 설계 및 구현에 관해 기술한다. 현대 사회에서 프로그래밍은 핵심 기술로 자리 잡았으며, 프로그래밍 언어는 이를 실현하기 위한 도구이다. 그러나 대다수의 프로그래밍 언어는 영어로 구성되어 있어, 한글을 주로 사용하는 사용자들에게는 접근이 어려움을 겪고 있다. 이에 본 연구는 한글 사용자들도 쉽게 접근하고 이해할 수 있는 프로그래밍 환경을 제공하기 위한 목적으로, 전통적인 교육용 프로그래밍 언어인 BASIC을 기반으로 한글 프로그래밍 언어 KoBASIC을 새롭게 제안한다.

Development of Korean Sign Language Translator for Speech and Hearing Impaired (언어·청각장애인을 위한 한국 수어 번역기 개발)

  • Su-Beom Jo;Dong-Kyu Lee;Young-Chan Jo;Dongmahn Seo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.575-576
    • /
    • 2023
  • 한국 수어는 소리로 말을 배울 수 없어서 사용하는 '보이는 언어'이고 한국수화언어를 줄인 말이다. 한국어나 영어와 같이 독립된 언어로 한국어와는 문법 체계가 다른 대한민국 농인의 고유한 언어이다. 하지만, 한국 사회에서는 수어를 일상어로 사용하는 농인이 수어만으로 다른 사람과 대화하거나 서비스 등을 이용하기에는 쉽지 않은 구조이다. 이에 본 논문에서는 택시라는 상황을 가정해 택시 안에서 학습된 모델이 농인의 수어를 인식하고 택시 기사에게 해당 의미를 전달하는 시스템을 제안한다. 제안 시스템을 통해 택시 기사는 농인(수어사용자)에게 응답할 수 있다. 본 논문에서는 한국수어 번역기 웹서비스를 설계 및 구현하여 실제 환경에서의 활용 가능성을 검증한다.

Generative AI based Emotion Analysis of Consumer Reviews Using the Emotion Wheel (생성 AI 기반 감정 수레바퀴 모델을 활용한 사용자 리뷰 감정 분석)

  • Yu Rim Park;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1204-1205
    • /
    • 2023
  • 본 논문은 소비자의 리뷰 데이터를 기반으로 한 새로운 감성 분석 방법을 제안한다. 긍정, 부정, 중립으로 분류하는 전통적 감성 분석방법은 텍스트에 나타난 감정의 섬세한 차이를 파악하기 어렵다. 이에 본 연구에서는 GPT 모델을 사용하여 텍스트에서 사용자의 감정을 8 가지의 카테고리로 세분화한다. 부정적 정서를 가진 리뷰에서 분노, 혐오, 실망과 같은 구체적인 감정들을 직관적으로 파악할 수 있었고, 감정의 강도까지 파악할 수 있었다. 제안된 방법을 통해 기업은 고객의 요구 사항을 정확하게 인지할 수 있으며, 고객 맞춤형 서비스 개선에 기여할 수 있다는 점이 기대된다.