• 제목/요약/키워드: 자연어 처리 연구

검색결과 636건 처리시간 0.031초

TabQA : 표 양식의 데이터에 대한 질의응답 모델 (TabQA : Question Answering Model for Table Data)

  • 박소윤;임승영;김명지;이주열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.263-269
    • /
    • 2018
  • 본 논문에서는 실생활에서 쓰이는 다양한 구조를 갖는 문서에 대해서도 자연어 질의응답이 가능한 모델을 만들고자, 그 첫걸음으로 표에 대해 자연어 질의응답이 가능한 End-to-End 인공신경망 모델 TabQA를 제안한다. TabQA는 기존 연구들과는 달리 표의 형식에 구애받지 않고 여러 가지 형태의 표를 처리할 수 있으며, 다양한 정보의 인코딩으로 풍부해진 셀의 feature를 통해, 표의 row와 column 객체를 직관적이고도 효과적으로 추상화한다. 우리는 본 연구의 결과를 검증하기 위해 다채로운 어휘를 가지는 표 데이터에 대한 질의응답 쌍을 자체적으로 생성하였으며, 이에 대해 단일 모델 EM 스코어 96.0%에 이르는 결과를 얻었다. 이로써 우리는 추후 더 넓은 범위의 양식이 있는 데이터에 대해서도 자연어로 질의응답 할 수 있는 가능성을 확인하였다.

  • PDF

CNN과 LSTM 및 GRU 기반 연구 논문 분류 시스템의 설계 및 구현 (Research Paper Classification Scheme based on CNN with LSTM and GRU)

  • 비스와스 딥또;강지훈;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.612-614
    • /
    • 2022
  • 최근 딥러닝 기술은 자연어처리에서 기본적이고 필수적인 기법으로 자연어처리에 필요한 복잡한 비선형 관계를 모델링할 수 있다. 본 논문에서는 LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit) 딥러닝 기술을 연구 논문 분류에 적용하며, CNN(Convolutional Neural Network)에 LSTM과 GRU을 각각 결합하여 특정 분야의 연구 논문을 분류하고 연구 논문을 추천하는 기법을 제안한다. 워드 임베딩과 딥러닝 기법을 연구 논문 분류에 적용하여 관심이 있는 단어와 단어 주변의 단어들 사이의 유사성과 성능을 비교 분석한다.

단어 표현에 기반한 연관 바이오마커 발굴 (Biomarker Detection of Specific Disease using Word Embedding)

  • 윤영신;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

KommonGen: 한국어 생성 모델의 상식 추론 평가 데이터셋 (KommonGen: A Dataset for Korean Generative Commonsense Reasoning Evaluation)

  • 서재형;박찬준;문현석;어수경;강명훈;이승훈;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2021
  • 최근 한국어에 대한 자연어 처리 연구는 딥러닝 기반의 자연어 이해 모델을 중심으로 각 모델의 성능에 대한 비교 분석과 평가가 활발하게 이루어지고 있다. 그러나 한국어 생성 모델에 대해서도 자연어 이해 영역의 하위 과제(e.g. 감정 분류, 문장 유사도 측정 등)에 대한 수행 능력만을 정량적으로 평가하여, 생성 모델의 한국어 문장 구성 능력이나 상식 추론 과정을 충분히 평가하지 못하고 있다. 또한 대부분의 생성 모델은 여전히 간단하고 일반적인 상식에 부합하는 자연스러운 문장을 생성하는 것에도 큰 어려움을 겪고 있기에 이를 해결하기 위한 개선 연구가 필요한 상황이다. 따라서 본 논문은 이러한 문제를 해결하기 위해 한국어 생성 모델이 일반 상식 추론 능력을 바탕으로 문장을 생성하도록 KommonGen 데이터셋을 제안한다. 그리고 KommonGen을 통해 한국어 생성 모델의 성능을 정량적으로 비교 분석할 수 있도록 평가 기준을 구성하고, 한국어 기반 자연어 생성 모델의 개선 방향을 제시하고자 한다.

  • PDF

자연어처리를 이용한 시소러스 자동생성 (Automatic construction of thesaurus using natural language processing)

  • 남영준;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1994년도 제1회 학술대회 논문집
    • /
    • pp.89-92
    • /
    • 1994
  • 시소러스를 구축하기 위해서는 해당분야의 심도깊은 이해와 지식이 필요하다. 특히, 디스크립터의 선정과 디스크립터의 관계설정은 시소러스 개발자의 주관적인 판단에 따라 이루어지게 된다. 그러나 디스크립터의 선정은 자동색인분야의 연구로서 어느 정도 객관화가 가능하지만, 디스크립터개념간의 관계설정은 개발자의 주관에 전적으로 의존하게 된다. 본 논문은 자연어처리방법과 문헌내 용어출현빈도를 근거로 기계를 이용한 디스크립터간의 관계 설정방안을 제시하고 그 가능성을 조사하였다.

  • PDF

필수적/수의적 논항 구분의 문제점과 해결책 (The Problems of Distinguishing Optional Arguments form Obligatory Ones and Their Solution)

  • 양단희
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.285-291
    • /
    • 2000
  • 필수적/수의적 논항의 이분법적 구분과 이에 따라 정문/비문을 논하는 것이 언어학과 자연어처리학에서 정설로 인정되어 왔다. 그러나 본 연구에서는 논항의 생략 현상과 왜 이러한 생략이 발생하는지에 대해 인지적인 관점에서 살펴봄으로써 기존의 이분적 개념들이 구문분석에 적합치 않음을 지적하였다. 그리고 이러한 문제점을 해결하기 위해 원형이론(prototype theory)을 도입하여 '필수적 논항도'와 '확률적 격구조'란 개념을 제안하였다. 이러한 개념들이 자연어처리의 구문분석에 효율적으로 적용될 수 있을 것으로 기대된다.

  • PDF

자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구 (A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction)

  • 윤성희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2004년도 추계학술대회
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축 (Semi-Supervised Data Augmentation Method for Korean Fact Verification Using Generative Language Models)

  • 정재환;전동현;김선훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-111
    • /
    • 2021
  • 한국어 사실 확인 과제는 학습 자료의 부재로 인해 연구에 어려움을 겪고 있다. 본 논문은 수작업으로 구성된 학습 자료를 토대로 자연어 생성 모델을 이용하여 한국어 사실 확인 자료를 구축하는 방법을 제안한다. 본 연구는 임의의 근거를 기반으로 하는 주장을 생성하는 방법 (E2C)과 임의의 주장을 기반으로 근거를 생성하는 방법 (C2E)을 모두 실험해보았다. 이때 기존 학습 자료에 위 두 학습 자료를 각각 추가하여 학습한 사실 확인 분류기가 기존의 학습 자료나 영문 사실 확인 자료 FEVER를 국문으로 기계 번역한 학습 자료를 토대로 구성된 분류기보다 평가 자료에 대해 높은 성능을 기록하였다. 또한, C2E 방법의 경우 수작업으로 구성된 자료 없이 기존의 자연어 추론 과제 자료와 HyperCLOVA Few Shot 예제만으로도 높은 성능을 기록하여, 비지도 학습 방식으로 사실 확인 자료를 구축할 수 있는 가능성 역시 확인하였다.

  • PDF

자연어 이해 모델의 성능 향상을 위한 교차 게이트 메커니즘 방법 (Cross Gated Mechanism to Improve Natural Language Understanding)

  • 김성주;김원우;설용수;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-169
    • /
    • 2019
  • 자연어 이해 모델은 대화 시스템의 핵심적인 구성 요소로서 자연어 문장에 대해 그 의도와 정보를 파악하여 의도(intent)와 슬롯(slot)의 형태로 분석하는 모델이다. 최근 연구에서 의도와 슬롯의 추정을 단일 합동 모델(joint model)을 이용하여 합동 학습(joint training)을 하는 연구들이 진행되고 있다. 합동 모델을 이용한 합동 학습은 의도와 슬롯의 추정 정보가 모델 내에서 암시적으로 교류 되도록 하여 의도와 슬롯 추정 성능이 향상된다. 본 논문에서는 기존 합동 모델이 암시적으로 추정 정보를 교류하는 데서 더 나아가 모델 내의 의도와 슬롯 추정 정보를 명시적으로 교류하도록 모델링하여 의도와 슬롯 추정 성능을 높일 수 있는 교차 게이트 메커니즘(Cross Gated Mechanism)을 제안한다.

  • PDF

자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안 (A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing)

  • 송치호
    • 한국기록관리학회지
    • /
    • 제24권2호
    • /
    • pp.65-88
    • /
    • 2024
  • 본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다. 디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다. 그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.