• Title/Summary/Keyword: 자연어 처리 연구

Search Result 644, Processing Time 0.04 seconds

TabQA : Question Answering Model for Table Data (TabQA : 표 양식의 데이터에 대한 질의응답 모델)

  • Park, Soyoon;Lim, Seungyoung;Kim, Myungji;Lee, Jooyoul
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.263-269
    • /
    • 2018
  • 본 논문에서는 실생활에서 쓰이는 다양한 구조를 갖는 문서에 대해서도 자연어 질의응답이 가능한 모델을 만들고자, 그 첫걸음으로 표에 대해 자연어 질의응답이 가능한 End-to-End 인공신경망 모델 TabQA를 제안한다. TabQA는 기존 연구들과는 달리 표의 형식에 구애받지 않고 여러 가지 형태의 표를 처리할 수 있으며, 다양한 정보의 인코딩으로 풍부해진 셀의 feature를 통해, 표의 row와 column 객체를 직관적이고도 효과적으로 추상화한다. 우리는 본 연구의 결과를 검증하기 위해 다채로운 어휘를 가지는 표 데이터에 대한 질의응답 쌍을 자체적으로 생성하였으며, 이에 대해 단일 모델 EM 스코어 96.0%에 이르는 결과를 얻었다. 이로써 우리는 추후 더 넓은 범위의 양식이 있는 데이터에 대해서도 자연어로 질의응답 할 수 있는 가능성을 확인하였다.

  • PDF

Research Paper Classification Scheme based on CNN with LSTM and GRU (CNN과 LSTM 및 GRU 기반 연구 논문 분류 시스템의 설계 및 구현)

  • Dipto, Biswas;Kang, Jihun;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.612-614
    • /
    • 2022
  • 최근 딥러닝 기술은 자연어처리에서 기본적이고 필수적인 기법으로 자연어처리에 필요한 복잡한 비선형 관계를 모델링할 수 있다. 본 논문에서는 LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit) 딥러닝 기술을 연구 논문 분류에 적용하며, CNN(Convolutional Neural Network)에 LSTM과 GRU을 각각 결합하여 특정 분야의 연구 논문을 분류하고 연구 논문을 추천하는 기법을 제안한다. 워드 임베딩과 딥러닝 기법을 연구 논문 분류에 적용하여 관심이 있는 단어와 단어 주변의 단어들 사이의 유사성과 성능을 비교 분석한다.

Biomarker Detection of Specific Disease using Word Embedding (단어 표현에 기반한 연관 바이오마커 발굴)

  • Youn, Young-Shin;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

KommonGen: A Dataset for Korean Generative Commonsense Reasoning Evaluation (KommonGen: 한국어 생성 모델의 상식 추론 평가 데이터셋)

  • Seo, Jaehyung;Park, Chanjun;Moon, Hyeonseok;Eo, Sugyeong;Kang, Myunghoon;Lee, Seounghoon;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.55-60
    • /
    • 2021
  • 최근 한국어에 대한 자연어 처리 연구는 딥러닝 기반의 자연어 이해 모델을 중심으로 각 모델의 성능에 대한 비교 분석과 평가가 활발하게 이루어지고 있다. 그러나 한국어 생성 모델에 대해서도 자연어 이해 영역의 하위 과제(e.g. 감정 분류, 문장 유사도 측정 등)에 대한 수행 능력만을 정량적으로 평가하여, 생성 모델의 한국어 문장 구성 능력이나 상식 추론 과정을 충분히 평가하지 못하고 있다. 또한 대부분의 생성 모델은 여전히 간단하고 일반적인 상식에 부합하는 자연스러운 문장을 생성하는 것에도 큰 어려움을 겪고 있기에 이를 해결하기 위한 개선 연구가 필요한 상황이다. 따라서 본 논문은 이러한 문제를 해결하기 위해 한국어 생성 모델이 일반 상식 추론 능력을 바탕으로 문장을 생성하도록 KommonGen 데이터셋을 제안한다. 그리고 KommonGen을 통해 한국어 생성 모델의 성능을 정량적으로 비교 분석할 수 있도록 평가 기준을 구성하고, 한국어 기반 자연어 생성 모델의 개선 방향을 제시하고자 한다.

  • PDF

Automatic construction of thesaurus using natural language processing (자연어처리를 이용한 시소러스 자동생성)

  • 남영준;이두영
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1994.12a
    • /
    • pp.89-92
    • /
    • 1994
  • 시소러스를 구축하기 위해서는 해당분야의 심도깊은 이해와 지식이 필요하다. 특히, 디스크립터의 선정과 디스크립터의 관계설정은 시소러스 개발자의 주관적인 판단에 따라 이루어지게 된다. 그러나 디스크립터의 선정은 자동색인분야의 연구로서 어느 정도 객관화가 가능하지만, 디스크립터개념간의 관계설정은 개발자의 주관에 전적으로 의존하게 된다. 본 논문은 자연어처리방법과 문헌내 용어출현빈도를 근거로 기계를 이용한 디스크립터간의 관계 설정방안을 제시하고 그 가능성을 조사하였다.

  • PDF

The Problems of Distinguishing Optional Arguments form Obligatory Ones and Their Solution (필수적/수의적 논항 구분의 문제점과 해결책)

  • 양단희
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.285-291
    • /
    • 2000
  • 필수적/수의적 논항의 이분법적 구분과 이에 따라 정문/비문을 논하는 것이 언어학과 자연어처리학에서 정설로 인정되어 왔다. 그러나 본 연구에서는 논항의 생략 현상과 왜 이러한 생략이 발생하는지에 대해 인지적인 관점에서 살펴봄으로써 기존의 이분적 개념들이 구문분석에 적합치 않음을 지적하였다. 그리고 이러한 문제점을 해결하기 위해 원형이론(prototype theory)을 도입하여 '필수적 논항도'와 '확률적 격구조'란 개념을 제안하였다. 이러한 개념들이 자연어처리의 구문분석에 효율적으로 적용될 수 있을 것으로 기대된다.

  • PDF

A Study on Word Semantic Categories for Natural Language Question Type Classification and Answer Extraction (자연어 질의 유형판별과 응답 추출을 위한 어휘 의미체계에 관한 연구)

  • Yoon Sung-Hee
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.11a
    • /
    • pp.141-144
    • /
    • 2004
  • 질의응답 시스템이 정보검색 시스템과 다른 중요한 점은 질의 처리 과정이며, 자연어 질의 문장에서 사용자의 질의 의도를 파악하여 질의 유형을 분류하는 것이다. 본 논문에서는 질의 주-형을 분류하기 위해 복잡한 분류 규칙이나 대용량의 사전 정보를 이용하지 않고 질의 문장에서 의문사에 해당하는 어휘들을 추출하고 주변에 나타나는 명사들의 의미 정보를 이용하여 세부적인 정답 유형을 결정할 수 있는 질의 유형 분류 방법을 제안한다. 의문사가 생략된 경우의 처리 방법과 동의어 정보와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

Semi-Supervised Data Augmentation Method for Korean Fact Verification Using Generative Language Models (자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축)

  • Jeong, Jae-Hwan;Jeon, Dong-Hyeon;Kim, Seon-Hun;Gang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.105-111
    • /
    • 2021
  • 한국어 사실 확인 과제는 학습 자료의 부재로 인해 연구에 어려움을 겪고 있다. 본 논문은 수작업으로 구성된 학습 자료를 토대로 자연어 생성 모델을 이용하여 한국어 사실 확인 자료를 구축하는 방법을 제안한다. 본 연구는 임의의 근거를 기반으로 하는 주장을 생성하는 방법 (E2C)과 임의의 주장을 기반으로 근거를 생성하는 방법 (C2E)을 모두 실험해보았다. 이때 기존 학습 자료에 위 두 학습 자료를 각각 추가하여 학습한 사실 확인 분류기가 기존의 학습 자료나 영문 사실 확인 자료 FEVER를 국문으로 기계 번역한 학습 자료를 토대로 구성된 분류기보다 평가 자료에 대해 높은 성능을 기록하였다. 또한, C2E 방법의 경우 수작업으로 구성된 자료 없이 기존의 자연어 추론 과제 자료와 HyperCLOVA Few Shot 예제만으로도 높은 성능을 기록하여, 비지도 학습 방식으로 사실 확인 자료를 구축할 수 있는 가능성 역시 확인하였다.

  • PDF

Cross Gated Mechanism to Improve Natural Language Understanding (자연어 이해 모델의 성능 향상을 위한 교차 게이트 메커니즘 방법)

  • Kim, Sung-Ju;Kim, Won-Woo;Seol, Yong-Soo;Kang, In-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.165-169
    • /
    • 2019
  • 자연어 이해 모델은 대화 시스템의 핵심적인 구성 요소로서 자연어 문장에 대해 그 의도와 정보를 파악하여 의도(intent)와 슬롯(slot)의 형태로 분석하는 모델이다. 최근 연구에서 의도와 슬롯의 추정을 단일 합동 모델(joint model)을 이용하여 합동 학습(joint training)을 하는 연구들이 진행되고 있다. 합동 모델을 이용한 합동 학습은 의도와 슬롯의 추정 정보가 모델 내에서 암시적으로 교류 되도록 하여 의도와 슬롯 추정 성능이 향상된다. 본 논문에서는 기존 합동 모델이 암시적으로 추정 정보를 교류하는 데서 더 나아가 모델 내의 의도와 슬롯 추정 정보를 명시적으로 교류하도록 모델링하여 의도와 슬롯 추정 성능을 높일 수 있는 교차 게이트 메커니즘(Cross Gated Mechanism)을 제안한다.

  • PDF

A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing (자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안)

  • Chiho Song
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.24 no.2
    • /
    • pp.65-88
    • /
    • 2024
  • This pilot study explores a method of extracting metadata values and descriptions from records using named entity recognition (NER), a technique in natural language processing (NLP), a subfield of artificial intelligence. The study focuses on handwritten records from the Guro Industrial Complex, produced during the 1960s and 1970s, comprising approximately 1,200 pages and 80,000 words. After the preprocessing process of the records, which included digitization, the study employed a publicly available language API based on Google's Bidirectional Encoder Representations from Transformers (BERT) language model to recognize entity names within the text. As a result, 173 names of people and 314 of organizations and institutions were extracted from the Guro Industrial Complex's past records. These extracted entities are expected to serve as direct search terms for accessing the contents of the records. Furthermore, the study identified challenges that arose when applying the theoretical methodology of NLP to real-world records consisting of semistructured text. It also presents potential solutions and implications to consider when addressing these issues.