• Title/Summary/Keyword: 엑소브레인

Search Result 9, Processing Time 0.023 seconds

Korean Dependency Guidelines for Dependency Parsing and Exo-Brain Language Analysis Corpus (의존 구문분석을 위한 한국어 의존관계 가이드라인 및 엑소브레인 언어분석 말뭉치)

  • Lim, Joon-Ho;Bae, Yongjin;Kim, Hyunki;Kim, Yunjeong;Lee, Kyu-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.234-239
    • /
    • 2015
  • 2000년대 중반 세종 구구조 구문분석 말뭉치가 배포된 이후 의존 구문분석이 구문분석 연구의 주요 흐름으로 자리 잡으면서 많은 연구자들이 구구조 구문분석 말뭉치를 개별적으로 의존구조로 변환하여 구문분석 연구를 수행하였다. 하지만 한국어 문장의 의존구조 표현에 대한 논의가 부족하여 서로 다른 의존구조로 변환 후 구문분석을 연구함으로써 연구 효율성이 저하되는 문제가 발생하였다 본 연구에서는 이와 같은 문제에 접근하기 위하여 한국어 문장에 대한 의존관계 가이드라인을 제안한다. 그리고 제안하는 가이드라인을 기반으로 구축한 엑소브레인 언어분석 말뭉치(725 문장)에 대해 소개한다.

  • PDF

Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment (기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가)

  • Lim, Joon-Ho;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

Korean Zero Anaphora Resolution Guidelines (한국어 생략어복원 가이드라인)

  • Ryu, Jihee;Lim, Joon-Ho;Lim, Soojong;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

Korean Zero Anaphora Resolution Guidelines (한국어 생략어복원 가이드라인)

  • Ryu, Jihee;Lim, Joon-Ho;Lim, Soojong;Kim, Hyunki
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.213-219
    • /
    • 2017
  • 말과 글에서 유추가 가능한 정보에 대해서는 사람들이 일반적으로 생략해서 표현하는 경우를 볼 수 있다. 사람들은 생략된 정보를 문맥적으로 유추하여 이해하는 것이 어렵지 않지만, 컴퓨터의 경우 생략된 정보를 고려하지 못해 주어진 정보를 완전하게 이해하지 못하는 문제를 낳게 된다. 우리는 이러한 문제를 생략어복원을 통해 해결할 수 있다고 여기면서 본 논문을 통해 한국어 생략어복원에 대해 정의하고 기술 개발에 필요한 말뭉치 구축 시의 생략어복원 대상 및 태깅 사례를 포함하는 가이드라인을 제안한다. 또한 본 가이드라인에 의한 말뭉치 구축 및 기술 개발을 통해서 엑소브레인과 같은 한국어 질의응답 시스템의 품질 향상에 기여하는 것이 본 연구의 궁극적인 목적이다.

  • PDF

A Study on Automatic Classification of Record Text Using Machine Learning (기계학습을 이용한 기록 텍스트 자동분류 사례 연구)

  • Kim, Hae Chan Sol;An, Dae Jin;Yim, Jin Hee;Rieh, Hae-Young
    • Journal of the Korean Society for information Management
    • /
    • v.34 no.4
    • /
    • pp.321-344
    • /
    • 2017
  • Research on automatic classification of records and documents has been conducted for a long time. Recently, artificial intelligence technology has been developed to combine machine learning and deep learning. In this study, we first looked at the process of automatic classification of documents and learning method of artificial intelligence. We also discussed the necessity of applying artificial intelligence technology to records management using various cases of machine learning, especially supervised methods. And we conducted a test to automatically classify the public records of the Seoul metropolitan government into BRM using ETRI's Exobrain, based on supervised machine learning method. Through this, we have drawn up issues to be considered in each step in records management agencies to automatically classify the records into various classification schemes.

A Study on the Possibility of Utilizing Artificial Intelligence for National Crisis Management: Focusing on the Management of Artificial Intelligence and R&D Cases (국가위기관리를 위한 인공지능 활용 가능성에 관한 고찰: 인공지능 운용과 연구개발 사례를 중심으로)

  • Choi, Won-sang
    • Journal of Digital Convergence
    • /
    • v.19 no.3
    • /
    • pp.81-88
    • /
    • 2021
  • Modern society is exposed to various types of crises. In particular, since the September 11 attacks, each country has been increasingly responsible for managing non-military crises. Therefore, the purpose of this study is to consider ways to utilize artificial intelligence(AI) for national crisis management in the era of the fourth industrial revolution. To this end, we analyzed the effectiveness of artificial intelligence(AI) operated and under research and development(R&D) to support human decision-making and examined the possibility of using artificial intelligence(AI) to national crisis management. As a result of the study, artificial intelligence(AI) provides objective judgment of the data-based situation and optimal countermeasures to policymakers, enabling them to make decisions in urgent crisis situations, indicating that it is efficient to use artificial intelligence(AI) for national crisis. These findings suggest the possibility of using artificial intelligence(AI) to respond quickly and efficiently to the national crisis.

A Study on Building Knowledge Base for Intelligent Battlefield Awareness Service

  • Jo, Se-Hyeon;Kim, Hack-Jun;Jin, So-Yeon;Lee, Woo-Sin
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.4
    • /
    • pp.11-17
    • /
    • 2020
  • In this paper, we propose a method to build a knowledge base based on natural language processing for intelligent battlefield awareness service. The current command and control system manages and utilizes the collected battlefield information and tactical data at a basic level such as registration, storage, and sharing, and information fusion and situation analysis by an analyst is performed. This is an analyst's temporal constraints and cognitive limitations, and generally only one interpretation is drawn, and biased thinking can be reflected. Therefore, it is essential to aware the battlefield situation of the command and control system and to establish the intellignet decision support system. To do this, it is necessary to build a knowledge base specialized in the command and control system and develop intelligent battlefield awareness services based on it. In this paper, among the entity names suggested in the exobrain corpus, which is the private data, the top 250 types of meaningful names were applied and the weapon system entity type was additionally identified to properly represent battlefield information. Based on this, we proposed a way to build a battlefield-aware knowledge base through mention extraction, cross-reference resolution, and relationship extraction.