• 제목/요약/키워드: 독해

검색결과 2,474건 처리시간 0.024초

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

현장포커스 - '포토키나 2010' 9월21~26일까지 독일 쾰른 국제박람회장에서 개최 - 라인메쎄(주), 독일 포토키나 2010 설명회 개최

  • 박지연
    • 광학세계
    • /
    • 통권128호
    • /
    • pp.34-35
    • /
    • 2010
  • 오는 9월 21일부터 26일까지 독일 쾰른 국제박람회장에서 열리는 ‘2010 독일 쾰른 국제 사진 및 영상기자재전(Photokina 2010)'에 대한 설명회가 지난 4월 15일 서울 밀레니움 힐튼호텔 앰버룸에서 열렸다. 독일 쾰른 박람회사 부사장과 독일 광학기기협회 대표가 직접 방한하여 최근 사전 및 이미징 시장의 동향과 2010 포토키나에 대한 상세한 소재의 시간을 가져 전시 참가사 및 관심 있는 업체들에게 유익한 시간이 되었다.

  • PDF

정답 분리 인코더와 복사 메커니즘을 이용한 한국어 질문 생성 (Using Answer-Separated Encoder And Copying Mechanism)

  • 김건영;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.419-423
    • /
    • 2019
  • 질문과 그에 대한 근거가 있는 문서를 읽고 정답을 예측하는 기계 독해 연구가 최근 활발하게 연구되고 있다. 기계 독해 문제를 위해 주로 사용되는 방법은 다층의 신경망으로 구성된 딥러닝 모델로 좋은 성능을 위해서는 양질의 대용량 학습 데이터가 필요하다. 그러나 질과 양을 동시에 만족하는 학습 데이터를 구축하는 작업에는 많은 경제적 비용이 소모된다. 이러한 문제를 해결하기 위해, 본 논문에서는 정답 분리 인코더와 복사 메커니즘을 이용한 단답 기반 한국어 질문 자동 생성 모델을 제안한다.

  • PDF

기계독해 기반 질의응답 챗봇 (Machine Reading Comprehension based Question Answering Chatbot)

  • 이현구;김진태;최맹식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.35-39
    • /
    • 2018
  • 챗봇은 사람과 기계가 자연어로 된 대화를 주고받는 시스템이다. 최근 대화형 인공지능 비서 시스템이 상용화되면서 일반적인 대화와 질의응답을 함께 처리해야할 필요성이 늘어나고 있다. 본 논문에서는 기계독해 기반 질의응답과 Transformer 기반 자연어 생성 모델을 함께 사용하여 하나의 모델에서 일반적인 대화와 질의응답을 함께 하는 기계독해 기반 질의응답 챗봇을 제안한다. 제안 모델은 기계독해 모델에 일반대화를 판단하는 옵션을 추가하여 기계독해를 하면서 자체적으로 문장을 분류하고, 기계독해 결과를 통해 자연어로 된 문장을 생성한다. 실험 결과 일반적인 대화 문장과 질의를 높은 성능으로 구별하면서 기계독해의 성능은 유지하였고 자연어 생성에서도 분류에 맞는 응답을 생성하였다.

  • PDF

토익 문제 풀이 모델 학습을 위한 유의어/반의어 기반 데이터 증강 기법 (Synonyms/Antonyms-Based Data Augmentation For Training TOEIC Problems Solving Model)

  • 이정우;;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.333-335
    • /
    • 2023
  • 최근 글을 이해하고 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재한다. 기계 독해와 관련하여 다양한 데이터셋이 공개되어 있지만, 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 많이 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋도 거의 존재하지 않으며, 이를 위한 연구 또한 활발히 진행되고 있지 않다. 이에 본 연구에서는 현재와 같이 데이터가 부족한 상황에서 기계 독해 모델의 성능을 향상시키기 위한 데이터 증강 기법을 제안하고자 한다. 제안하는 방법은 WordNet을 이용하여 유의어 및 반의어를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 것이며, 실험을 통해 해당 방법의 유의미함을 확인하였다. 우리는 본 연구를 통해 토익에 대한 데이터 부족 문제를 해소하고, 사람 수준의 우수한 성능을 얻을 수 있도록 한다.

  • PDF

시장조사 - 독일인쇄산업 시장조사 보고서<7>

  • 대한인쇄문화협회
    • 프린팅코리아
    • /
    • 제13권11호
    • /
    • pp.96-101
    • /
    • 2014
  • 대한인쇄문화협회는 최근 문화체육관광부의 지원을 받아 '독일 인쇄산업 시장 조사 보고서'를 발간했다. 이 보고서에는 독일 시장의 특성과 동향, 독일 인쇄산업 현황, 주요업체 현황이 자세히 게재돼 있다. '독일 인쇄산업 시장 조사 보고서'를 연재한다.

  • PDF

시장조사 - 독일 인쇄산업 시장조사 보고서<3>

  • 대한인쇄문화협회
    • 프린팅코리아
    • /
    • 제13권7호
    • /
    • pp.108-111
    • /
    • 2014
  • 대한인쇄문화협회는 최근 문화체육관광부의 지원을 받아 '독일 인쇄산업 시장 조사 보고서'를 발간했다. 이 보고서에는 독일 시장의 특성과 동향, 독일인쇄산업 현황, 주요업체 현황이 자세히 게재돼 있다. '독일 인쇄산업 시장 조사 보고서'를 연재한다.

  • PDF

시장조사 - 독일 인쇄산업 시장조사 보고서<2>

  • 대한인쇄문화협회
    • 프린팅코리아
    • /
    • 제13권6호
    • /
    • pp.94-99
    • /
    • 2014
  • 대한인쇄문화협회는 최근 문화체육관광부의 지원을 받아 '독일 인쇄산업 시장 조사 보고서'를 발간했다. 이 보고서에는 독일 시장의 특성과 동향, 독일인쇄산업 현황, 주요업체 현황이 자세히 게재돼 있다. '독일 인쇄산업 시장 조사 보고서'를 연재한다.

  • PDF

시장조사 - 독일 인쇄산업 시장조사 보고서<8>

  • 대한인쇄문화협회
    • 프린팅코리아
    • /
    • 제13권12호
    • /
    • pp.106-111
    • /
    • 2014
  • 대한인쇄문화협회는 최근 문화체육관광부의 지원을 받아 '독일 인쇄산업 시장 조사 보고서'를 발간했다 이 보고서에는 독일 시장의 특성과 동향, 독일인쇄산업 현황, 주요업체 현황이 자세히 게재돼 있다. '독일 인쇄산업 시장 조사 보고서'를 연재한다.

  • PDF

The land of white wine, GERMAN

  • 최원영
    • 주택과사람들
    • /
    • 통권192호
    • /
    • pp.40-41
    • /
    • 2006
  • 최근 독일 월드컵에 대한 이목이 집중되면서 독일 와인에 대한 관심도 함께 높아졌다. 사실 우리나라에서는 독일 와인이 다소 생소하겠지만 '리즐링' 품종으로 알려진 화이트 와인의 강국이 바로 독일이다. 와인 애호가들을 사로잡기에 충분한 독일 와인으로의 달콤한 초대

  • PDF