• 제목/요약/키워드: 자연어 처리 연구

검색결과 644건 처리시간 0.051초

기계 독해 기술을 이용한 한국어 대명사 참조해결 (Korean Coreference Resolution using Machine Reading Comprehension)

  • 이동헌;김기훈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.151-154
    • /
    • 2020
  • 대명사 참조해결은 문서 내에 등장하는 대명사와 이에 대응되는 선행사를 찾는 자연어처리 태스크이다. 기계 독해는 문단과 질문을 입력 받아 질문에 해당하는 알맞은 정답을 문단 내에서 찾아내는 태스크이며, 최근에는 주로 BERT 기반의 모델이 가장 좋은 성능을 보이고 있다. 이러한 BERT 기반 모델의 성공에 따라, 최근 여러 연구에서 자연어처리 태스크를 기계 독해 문제로 변환하여 해결하는 연구들이 진행되고 있다. 본 논문에서는 최근 여러 자연어처리에서 뛰어난 성능을 보이고 있는 BERT 기반 기계 독해 모델을 이용하여 한국어 대명사 참조해결 연구를 진행하였다. 사전 학습 된 기계 독해 모델을 사용하여 한국어 대명사 참조해결 데이터로 fine-tuning하여 실험한 결과, 개발셋에서 EM 78.51%, F1 84.79%의 성능을 보였고, 평가셋에서 EM 70.78%, F1 80.19%의 성능을 보였다.

  • PDF

디지털 도서관 환경에서의 정보 검색을 위한 자연어 문서 및 질의 처리기에 관한 연구 (A Study on Natural Language Document and Query Processor for Information Retrieval in Digital Library)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권12호
    • /
    • pp.1601-1608
    • /
    • 2001
  • 디지털 도서관은 자연어 문서와 멀티미디어 자료에 대한 정보 검색 엔진을 필요로 하는 가장 중요한 데이터베이스 시스템이다. 이 논문은 자연어 처리 기법의 정보 검색 엔진과 브라우저에 대한 설계와 실험 결과를 소개한다. 자연어 문서에 대한 정보 검색 과정은 어휘 분석, 구문 분석, 스테밍, 주제어 색인 등의 계산학적 처리를 포함한다. 많은 이미지와 이미지의 제목, 그리고 자연어로 기술된 설명 문서를 포함하는 실험적인 데이터베이스 ‘Earth and Space Science’를 통해서 자연어 문서 분석에 기반하는 정보 검색 기능을 실험하였다. 또한 디지털 도서관 환경에서의 멀티미디어 정보 검색 내용 기반의 이미지 검색 엔진과 병행하는 정보 검색 시스템으로서의 가능성을 보여준다.

  • PDF

복사 메커니즘과 강화 학습을 적용한 BERT 기반의 문서 요약 모델 (BERT-based Document Summarization model using Copying-Mechanism and Reinforcement Learning)

  • 황현선;이창기;고우영;윤한준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-171
    • /
    • 2020
  • 문서 요약은 길이가 긴 원본 문서에서 의미를 유지한 채 짧은 문서나 문장을 얻어내는 작업을 의미한다. 딥러닝을 이용한 자연어처리 기술들이 연구됨에 따라 end-to-end 방식의 자연어 생성 모델인 sequence-to-sequence 모델을 문서 요약 생성에 적용하는 방법들이 연구되었다. 본 논문에서는 여러 자연어처리 분야에서 높은 성능을 보이고 있는 BERT 모델을 이용한 자연어 생성 모델에 복사 메커니즘과 강화 학습을 추가한 문서 요약 모델을 제안한다. 복사 메커니즘은 입력 문장의 단어들을 출력 문장에 복사하는 기술로 학습데이터에서 학습되기 힘든 고유 명사 등의 단어들에 대한 성능을 높이는 방법이다. 강화 학습은 정답 단어의 확률을 높이기 위해 학습하는 지도 학습 방법과는 달리 연속적인 단어 생성으로 얻어진 전체 문장의 보상 점수를 높이는 방향으로 학습하여 생성되는 단어 자체보다는 최종 생성된 문장이 더 중요한 자연어 생성 문제에 효과적일 수 있다. 실험결과 기존의 BERT 생성 모델 보다 복사 메커니즘과 강화 학습을 적용한 모델의 Rouge score가 더 높음을 확인 하였다.

  • PDF

자연어 문장을 이용한 자동 프로그래밍 시스템의 명세서에 관한 연구 (A Study on the Specification of an Automatic Programming System using Natural Language Sentence)

  • 김태용;황인환;이정현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.479-482
    • /
    • 1994
  • 자동 프로그램이란 인간이 프로그램 언어를 습득하는데 드는 노력과 시간을 감소시키고 프로그램하는 과정의 일부나 전부를 컴퓨터가 대신하도록 하여 프로그램 환경을 개선하고 유지, 보수의 비용을 줄이는데 그 목적이 있으며, 자동 프로그램 4대 구성 요소중 프로그램 명세서를 초고급언어나 예제에 의한 방법 또는 트레이스(Trace)로 기술하는 것이 일반적이다. 그러나 이 방법은 전문가가 아니면 이해하기 어렵고, 불량이 많은 작성하기 어려운 문제점이 있다. 본 논문에서는 이런 단점을 개선하기 위해서 일반 사용자가 접하기 쉽고, 이해하기 용이한 자연어 문장으로 명세서를 작성한다. 그러나 자연어에는 많은 애매성이 존재하는데 이것을 방지하기 위해 사용자에게 미리 자연어 프로그램 틀을 제시한다. 자연어 문장으로 작성된 명세서는 형태소 분석과 구문 분석에 의해 처리되며, 구문 분석시 복합문과 내포문은 단문으로 분리한 다음, 동사를 중심으로한 격 프레임(case frame)를 만들며, 이것을 바탕으로 중간언어를 생성하는 방법을 제안한다.

  • PDF

자연어 질의 처리 기반 지능형 정보검색 (Natural Language Query Processing Based Intelligent Information Retrieval)

  • 이은옥;이연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (상)
    • /
    • pp.505-508
    • /
    • 2003
  • 웹 문서의 홍수 속에서 사용자의 요구에 맞는 문서만을 검색해 주는 정보 검색 시스템이 요구되고 있다. 자연어 질의를 이용한 정보검색 방법은 초보자도 사용이 쉽고 사용자의 의도를 파악하기가 쉬어 지능형 정보검색에 적합하다. 따라서 현재는 자연어 질의로부터 사용자의 의도를 파악하기 위한 다양한 연구가 진행되고 있다. 본 논문에서는 구조화된 자연어 질의에서 한국어의 문맥 구조를 기반으로 하여 사용자의 의도를 파악하고 이를 이용하여 정보검색 질의를 생성하는 방법을 제안한다. 이렇게 생성된 질의어를 이용해서 메타정보검색을 하면 보다 정확하고 사용자의 의도에 맞는 문서만이 검색되었다.

  • PDF

R&D 전주기 지원을 위한 시나리오 설계 및 프로토타입 개발 (Scenario Design and Prototype Development to Support R&D Process)

  • 정한민;장연진;최기현;김학수;박정훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제67차 동계학술대회논문집 31권1호
    • /
    • pp.131-132
    • /
    • 2023
  • 본 연구는 R&D 전주기 지원을 위해 과제 기획 및 수행과 연구성과 창출 시나리오를 통합 설계하고, 연구자 관점에서의 실효성과 유용성을 검증하기 위해 프로토타입으로 구현하는 것을 목표로 한다. 기존 연구가 R&D 전주기를 몇 가지 활동으로 세분화하고 모형화하였지만, 개념적 설계에만 초점을 맞추고 있다는 한계를 극복하고자, 본 연구에서는 산업계 및 학계 전문가와 협력하여 R&D 경험을 시나리오에 반영하고 이를 프로토타입으로 실증하였다.

  • PDF

한글 토크나이징 라이브러리 모듈 분석 (Analysis of the Korean Tokenizing Library Module)

  • 이재경;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.78-80
    • /
    • 2021
  • 현재 자연어 처리(NLP)에 대한 연구는 급속히 발전하고 있다. 자연어 처리는 인간이 일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 기술로 음성인식, 맞춤법 검사, 텍스트 분류 등 여러 분야에 사용하고 있다. 현재 가장 많이 사용되는 자연어처리 라이브러리는 영어를 기준으로 한 NLTK로 한글처리에 단점을 가지고 있다. 따라서 본 논문에서는 한글 토크나이징(Tokenizing) 라이브러리인 KonLPy와 Soynlp를 소개 후 형태소 분석 및 처리 기법을 분석하고, KonLPy의 단점을 보완한 Soynlp와의 모듈을 비교·분석하여 향후 의료분야에 적합한 자연어 처리 모델로 활용하고자 한다.

  • PDF

질의문 유형 분석을 통한 서답형 자동 채점 시스템 (Automatic Grading System for Subjective Questions Through Analyzing Question Type)

  • 강원석
    • 한국콘텐츠학회논문지
    • /
    • 제11권2호
    • /
    • pp.13-21
    • /
    • 2011
  • 서답형 자동평가는 자연어 처리의 어려움이 있어 그 시스템의 개발이 쉽지 않다. 본 연구는 자연어처리 기술을 접목한 서답형 자동채점 시스템을 설계, 구현한다. 이 시스템은 일반화된 채점 시스템이 지니는 성능 저하의 문제를 해결하기 위해 문제유형을 정의하고 각 유형에 맞는 처리를 하여 성능을 향상하였다. 이 시스템의 성능을 실험하기 위하여 교사 채점과 기존의 용어중심의 채점 시스템, 교사채점과 제안한 채점 시스템의 상관계수를 분석하였다. 실험결과, 기존의 용어 중심의 채점 시스템보다 향상된 결과를 얻었다. 앞으로 문제 유형을 확대 정의하고 각 유형에 맞는 자연어 처리 기법을 개선할 필요가 있다.

포인터 생성 네트워크를 이용한 패러프레이즈 생성 (Generation Paraphrase using Pointer Generation Network)

  • 박다솔;김영길;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.535-539
    • /
    • 2020
  • 다양한 발화를 모델링하는 요구는 자연어 처리 분야에서 꾸준히 있었으며 단어, 구 또는 문장과 동등한 의미 콘텐츠를 자동으로 식별하고 생성하는 것은 자연어 처리의 중요한 부분이다. 본 논문에서는 포인터 생성 네트워크(Pointer Generate Nework)를 이용하여 패러프레이즈 생성 모델을 제안한다. 제안한 모델의 성능을 측정하기 위해 사람이 직접 구축한 유사 문장 코퍼스를 이용하였으며, 토큰 단위의 BLEU-4 0.250, ROUGE_L 0.455, CIDEr 2.190의 성능을 보였다. 하지만 입력 문장과 동일한 문장을 출력하는 문제점이 존재하여 빔서치(beam search)를 적용하여 입력 문장과 비교하여 생성 문장을 선택하는 방식을 적용하였다. 입력 문장과 동일한 문장을 제외한 문장으로 평가를 진행했으며, 토큰 단위의 BLEU-4 0.234, ROUGE_L 0.459, CIDEr 2.041의 성능을 보였으나, 패러프레이즈 생성 데이터 양이 크게 증가하였다. 본 연구는 문장 간의 의미적으로 동일한 정보를 정확하게 추출할 수 있게 됨으로써 정보 추출, 온톨로지 생성에 도움이 될 것이다. 또한 이러한 기법이 챗봇에서 사용자의 의도 탐지 및 MRC와 같은 자연어 처리의 여러 분야에 유용한 자원으로 사용될 것이다.

  • PDF

자연어 처리 수화 3D 학습 시스템 개발 (Development of 3D sign language learning system for processing natural language)

  • 김재현
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2011년도 춘계 종합학술대회 논문집
    • /
    • pp.229-230
    • /
    • 2011
  • 이 연구는 청각장애자 및 건청인들을 위한 수화교육 시스템으로 주어진 환경 내에서 청각 장애자 및 건청인들에게 3D 시각적인 정보를 활용해 교육하는 시스템에 대한 연구이다. 실생활에서 사용하는 수화 동작은 3D DB화하여, 입력되는 한글 텍스트에 대응해 3D 캐릭터가 수화 동작을 리얼하게 구현하는 것을 목적으로, 수화 교육이 필요한 장소나 사람들에게 유용하게 활용할 수 있도록 한다. 생활단어를 추가하여 대부분의 생활용어를 적절히 표현할 수 있도록 하고, 자연스러운 수화단어 구현을 위한 모션 편집 및 블랜딩 기법을 적용하며, 자연어처리 알고리즘을 활용하여 한글문장에도 대응할 수 있도록 개발하기 위하여 수화 애니메이션 기술, 한글 입력 문장에 따른 3D 수화 구문 변화 자연어 처리 알고리즘, 실시간 3D 랜더링 기술 등을 근간으로 한 시스템을 개발하고자 한다.

  • PDF