• 제목/요약/키워드: 자연어 처리 연구

검색결과 640건 처리시간 0.028초

한국어 ELECTRA 모델을 이용한 자연어처리 다운스트림 태스크 (Korean ELECTRA for Natural Language Processing Downstream Tasks)

  • 황태선;김정욱;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-260
    • /
    • 2020
  • 사전 학습을 기반으로 하는 BERT계열의 모델들이 다양한 언어 및 자연어 처리 태스크들에서 뛰어난 성능을 보이고 있지만, masked language model의 경우 입력 문장의 15%만 마스킹을 함으로써 학습 효율이 떨어지고 미세 조정 시 마스킹 토큰이 등장하지 않는 불일치 문제도 존재한다. 이러한 문제를 효과적으로 해결한 ELECTRA는 영어 벤치마크에서 기존의 언어모델들 보다 뛰어난 성능을 보여주었지만 한국어에 대한 관련 연구는 부족한 실정이다. 본 연구에서는 ELECTRA를 한국어 코퍼스에 대해 학습시키고, 다양한 한국어 자연어 이해 태스크들에 대해 실험을 진행한다. 실험을 통해 ELECTRA의 모델 크기별 성능 평가를 진행하였고, 여러 한국어 태스크들에 대해서 평가함으로써 ELECTRA 모델이 기존의 언어 모델들보다 좋은 성능을 보인다는 것을 입증하였다.

  • PDF

Predicate Logic Form을 이용한 자연어 텍스트로부터의 감정인식 (Emotion Recognition from Natural Language Text Using Predicate Logic Form)

  • 설용수;김동주;김한우;박정기
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.411-412
    • /
    • 2010
  • 전통적으로 자연어 텍스트로부터의 감정인식 연구는 감정 키워드에 기반한다. 그러나 감정 키워드만을 이용하면 자연어 문장이 원래 갖고 있는 통사정보나 의미정보는 잃어버리게 된다. 이를 극복하기 위해 본 논문에서는 자연어 텍스트를 Predicate Logic 형태로 변환하여 감정 정보처리의 기반데이터로 사용한다. Predicate Logic형태로 변환하기 위해서 의존 문법 구문분석기를 사용하였다. 이렇게 생성된 Predicate 데이터 중 감정 정보를 갖고 있는 Predicate만을 찾아내는데 이를 위해 Emotional Predicate Dictionary를 구축하였고 이 사전에는 하나의 Predicate마다 미리 정의된 개념 클래스로 사상 시킬 수 있는 정보를 갖고 있다. 개념 클래스는 감정정보를 갖고 있는지, 어떤 감정인지, 어떤 상황에서 발생하는 감정인지에 대한 정보를 나타낸다. 자연어 텍스트가 Predicate으로 변환되고 다시 개념 클래스로 사상되고 나면 KBANN으로 구현된 Lazarus의 감정 생성 규칙에 적용시켜 최종적으로 인식된 감정을 판단한다. 실험을 통해 구현된 시스템이 인간이 인식한 감정과 약 70%이상 유사한 인식 결과를 나타냄을 보인다.

  • PDF

자연어를 이용한 사용자 접속에 관한 연구

  • 이동애;장덕성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.149-155
    • /
    • 1990
  • MS-DOS 명령을 대신하는 자연어 인터페이스를 연구하였다. 자연어로 입력되는 한국어 문장을 형태소분석, 구문분석, 의미분석, 개념분석을 통해 대응되는 일련의 MS-DOS 명령을 생성한다. 형태소 분석에서는 Tabular Parsing법을 사용하였고, 구문분석에서는 문법적인 수식-피수식 관계를 확대하여 의미상의 수식-피수식 관계를 설정하고 이에 따라 문장을 몇개의 단위로 나눈다. 의미분석에서는 동사와 이들 단위들간의 관계와 단위를 구성하는 어절들간의 관계를 격관계로 설정하여, 개념망(semantic network)으로 문장의 의미를 표현한다. 이 개념망으로부터 MS-DOS 명령을 생성한다.

  • PDF

한국어 문서 분류를 위한 신경망 구조 탐색 (Neural Architecture Search for Korean Text Classification)

  • 지병규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-130
    • /
    • 2023
  • 최근 심층 신경망을 활용한 한국어 자연어 처리에 대한 관심이 높아지고 있지만, 한국어 자연어 처리에 적합한 신경망 구조 탐색에 대한 연구는 이뤄지지 않았다. 본 논문에서는 문서 분류 정확도를 보상으로 하는 강화 학습 알고리즘을 이용하여 장단기 기억 신경망으로 한국어 문서 분류에 적합한 심층 신경망 구조를 탐색하였으며, 탐색을 위해 사전 학습한 한국어 임베딩 성능과 탐색한 신경망 구조를 분석하였다. 탐색을 통해 찾아낸 신경망 구조는 기존 한국어 자연어 처리 모델에 대해 4 가지 한국어 문서 분류 과제로 비교하였을 때 일반적으로 성능이 우수하고 모델의 크기가 작아 효율적이었다.

  • PDF

언어 번역 모델을 통한 한국어 지시 학습 데이터 세트 구축 (Korean Instruction Tuning Dataset)

  • 임영서;추현창;김산;장진예;정민영;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.591-595
    • /
    • 2023
  • 최근 지시 학습을 통해 미세 조정한 자연어 처리 모델들이 큰 성능 향상을 보이고 있다. 하지만 한국어로 학습된 자연어 처리 모델에 대해 지시 학습을 진행할 수 있는 데이터 세트는 공개되어 있지 않아 관련 연구에 큰 어려움을 겪고 있다. 본 논문에서는 T5 기반 한국어 자연어 처리 모델인 Long KE-T5로 영어 데이터 세트를 번역하여 한국어 지시 학습 데이터 세트를 구축한다. 또한 구축한 데이터 세트로 한국어로 사전 학습된 Long KE-T5 모델을 미세 조정한 후 성능을 확인한다.

  • PDF

순환신경망(RNN)을 통한 자연어 감성 분석 (Natural language sensitivity analysis using RNN)

  • 허태성;전세현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.473-474
    • /
    • 2023
  • 본 논문에서는 딥러닝 기법 중 하나인 순환신경망(RNN)을 활용하여 자연어를 처리할 수 있는 모델 개발에 대하여 연구를 진행하였다. 다양한 주제에 대한 사용자들의 의견을 확보할 수 있는 유튜브 플랫픔을 활용하여 데이터를 확보하였으며, 감성 분류를 진행하는 만큼 학습 데이터셋으로는 네이버 영화 리뷰 데이터셋을 활용하였다. 사용자는 직접 데이터 파일을 삽입하거나 혹은 유튜브 댓글과 같이 데이터를 외부에서 확보하여 감성을 분석할 수 있으며, 자연어 속 등장하는 단어의 빈도수를 종합하여 해당 데이터들 속 키워드는 무엇인지를 분석할 수 있도록 하였다. 나아가 종합 데이터 분석 관리 플랫폼을 제작하기 위하여 해당 데이터를 데이터베이스에 저장하고GUI 프로그램을 통하여 접근 및 관리가 가능하도록 하였다.

  • PDF

목적 지향 대화 시스템을 위한 문맥 기반의 제어 가능한 자연어 생성 모델 (Context-aware and controllable natural language generation model for task-oriented dialogue systems )

  • 함진아;김재원;양동일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.71-76
    • /
    • 2022
  • 목적 지향 대화 시스템은 사용자가 원하는 목적을 달성하기 위해 사용하는 시스템으로 일상 대화와 다르게 시스템이 정보를 명확히 전달하는 것이 중요하다. 따라서 최근 연구에서 목적 지향 대화 시스템을 위한 자연어 생성 모델은 정해진 대화 정책에 따라 알맞은 응답을 생성할 수 있도록 의도와 슬롯 정보를 담은 대화 행위(Dialog Act)를 활용한다. 하지만 대화 행위는 생성하는 문장을 탁월하게 제어하는 반면에 대화의 흐름과 상황에 맞게 다양한 문장을 생성하기 어렵다는 문제점을 가지고 있다. 이러한 문제점을 해소하고자 본 논문에서는 목적에 부합하는 내용을 명확하게 자연어로 생성하기 위해 대화 행위를 사용하면서 동시에 일상 대화 생성 모델과 같이 문맥을 고려하여 대화 흐름에 어울리는 자연스러운 문장을 생성할 수 있는 문맥 기반의 제어 가능한 자연어 생성 모델을 제안한다. 실험에서는 KoGPT2 사전 학습 모델과 한국어 대화 데이터셋을 사용하였으며 실험을 통해 대화 행위 기반의 자연어 생성 모델과 본 연구에서 제안한 문맥 기반의 제어 가능한 자연어 생성 모델을 비교하였다. 결과적으로 대화 행위를 단독으로 학습한 모델보다 일정 문맥을 함께 학습한 모델이 유의미한 BLEU 점수 향상을 보인다는 점을 확인하였다.

  • PDF

생물학 문헌으로부터 단백질 상호작용 정보 추출을 위한 자연어 처리 기법 (Full Parsing Approach to Extracting Protein-to-Protein Interactions from the Biological Literature)

  • 노정호;차재혁;최용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.256-258
    • /
    • 2004
  • 단백질 상호작용에 대한 연구는 생명현상의 전반적인 원리를 규명하는데 필수적이다. 생물학 문헌 데이터베이스로부터 단백질 상호작용 정보를 찾는 것은 많은 시간과 노력이 필요하기 때문에 컴퓨터로 자동화시키는 방법이 요구된다. 문헌으로부터 단백질 상호작용 정보를 추출하는 작업은 단순 문자열 비교를 통한 정보검색으로는 한계가 있으므로 자연어 처리 기법을 적용해 문장의 문법 구조, 품사 정보 등을 이용하면 더 정확한 추출이 가능하다. 본 논문에서는 자연어 처리를 이용하여 문장을 트리로 표현한 뒤 가지치기, 병합 등을 통해 추상화된 트리를 패턴과 매칭하는 방법을 제안한다. 그리고 실제 데이터를 이용한 실험 결과를 통해 기존 방법에 비해 더 높아진 정확도를 확인하였다.

  • PDF

유사구조 및 유사의미 문장 생성 방법 (Semantic and Syntax Paraphrase Text Generation)

  • 서혜인;정상근;정지수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.162-166
    • /
    • 2020
  • 자연어 이해는 대화 인터페이스나 정보 추출 등에 활용되는 핵심 기술 중 하나이다. 최근 딥러닝을 활용한 데이터 기반 자연어 이해 연구가 많이 이루어지고 있으며, 이러한 연구에 있어서 데이터 확장은 매우 중요한 역할을 하게 된다. 본 연구는 자연어 이해영역에서의 말뭉치 혹은 데이터 확장에 있어서, 입력으로 주어진 문장과 문법구조 및 의미가 유사한 문장을 생성하는 새로운 방법을 제시한다. 이를 위해, 우리는 GPT를 이용하여 대량의 문장을 생성하고, 문장과 문장 사이의 문법구조 및 의미 거리 계산법을 제시하여, 이를 이용해 가장 유사하지만 새로운 문장을 생성하는 방법을 취한다. 한국어 말뭉치 Weather와 영어 말뭉치 Atis, Snips, M2M-Movie M2M-Reservation을 이용하여 제안방법이 효과적임을 확인하였다.

  • PDF

자연어 처리 기법을 활용한 충돌사고 원인 제공 비율 예측 모델 개발 (Collision Cause-Providing Ratio Prediction Model Using Natural Language Processing Analytics)

  • 윤익현;박혜인;이창희
    • 해양환경안전학회지
    • /
    • 제30권1호
    • /
    • pp.82-88
    • /
    • 2024
  • 현대 해양 산업은 기술적 발전을 통해 신속한 발전을 이루고 있다. 이러한 발전을 주도하는 주요 기술 중 하나는 데이터 처리 기술이며, 이 중 자연어 처리 기법은 사람의 언어를 기계가 이해하고 처리할 수 있도록 하는 기술이다. 본 연구는 자연어 처리 기법을 통해 해양안전심판원의 재결서를 분석하여 이미 재결이 이루어진 선박 충돌사고의 원인 제공 비율을 학습한 후, 새로운 재결서를 입력하면 원인 제공 비율을 예측하는 모델을 개발하고자 하였다. 이 모델은 사고 당시 적용되는 항법과 원인 제공 비율에 영향을 주는 핵심 키워드의 가중치를 이용하여 사고의 원인 제공 비율을 계산하는 방식으로 구성하였다. 이 연구는 이러한 방식을 통해 제작한 모델의 정확도를 분석하고, 모델의 실무 적용 가능성을 검토함과 동시에 충돌사고 재발 방지 및 해양사고 당사자들의 분쟁 해결에 기여할 것으로 기대한다.