• 제목/요약/키워드: 자연어 처리 연구

검색결과 640건 처리시간 0.028초

한국어 자연어 요구문서에서 구문 구조 기반의 조응어 처리 시스템 (Anaphora Resolution System for Natural Language Requirements Document in Korean based on Syntactic Structure)

  • 박기선;안동언;이용석
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.255-262
    • /
    • 2010
  • 시스템 개발에 있어서 요구문서(requirements document)를 생성하고 정형 명세를 작성하는 것은 요구 분석 전문가와 명세 전문가에 의해 수행되고 있다. 만약 요구문서 생성과 정형 명세 작성 과정을 자동화 한다면 시스템 개발 비용 및 기간을 단축할 수 있고, 또한 전문가 사이의 잘못된 이해로 인한 오류를 줄일 수 있다. 대명사는 인칭대명사와 지시대명사로 분류될 수 있다. 일반적으로 요구문서의 특성상 인칭대명사는 사용되지 않기 때문에 본 논문은 지시대명사의 지시어 결정에 초점을 두고 있다. 지시대명사를 포함하는 요구문서에서 자연어처리 기법을 통해 정형화된 요구사항을 자동으로 추출하기 위해서는 대명사의 지시어 결정이 매우 중요하다. 본 연구의 최종 목표는 자연어 처리 기법을 통하여 자연어 요구문서로부터 시스템 개발에 필요한 정형 명세를 자동으로 생성하는데 있다. 이를 위해 본 논문은 선행연구를 기반으로 한국어로 기술된 자연어 요구문서에서 대명사에 대한 지시어를 결정하는 조응어 해소(anaphora resolution) 시스템을 제안한다. 본 시스템의 개발을 위해 조응어 해소를 위한 경험 규칙을 정의하고, 이를 통해 10개의 요구문서에 대해 실험한 결과 평균 재현율 92.45%, 정확률 69.68%의 성능을 보였다.

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

과학기술데이터를 위한 자연어처리 기술 동향 (Natural Language Processing Trends For Science & Technology Data)

  • 정현지;장광선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.666-669
    • /
    • 2021
  • 연구수행과정에서 발생하는 논문, 특허, 연구보고서 등의 과학기술데이터는 다양한 과학기술지식을 포함한다. 연구자들의 효과적인 연구를 지원하기 위해서는 과학기술데이터 분석을 통한 지식 발견이 필수적이다. 과학기술데이터는 일반 텍스트와는 다르게 다수의 전문용어를 포함하고 있으며, 고유의 양식이 정해져 있고, 텍스트 길이가 대체로 길다는 특징이 있다. 본 고에서는 이러한 과학기술데이터만의 고유한 특징을 반영한 인공지능 기반 자연어처리 기술들을 소개함으로써 과학기술데이터 분석에 대한 이해를 돕고자 한다.

BERT을 이용한 한국어 문장의 스타일 변화 (Controlled Korean Style Transfer using BERT)

  • 이주성;오연택;변현진;민경구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.395-399
    • /
    • 2019
  • 생성 모델은 최근 단순히 기존 데이터를 증강 시키는 것이 아니라 원하는 속성을 가지도록 스타일을 변화시키는 연구가 활발히 진행되고 있다. 스타일 변화 연구에서 필요한 병렬 데이터 세트는 구축하는데 많은 비용이 들기 때문에 비병렬 데이터를 이용하는 연구가 주를 이루고 있다. 이러한 방법론으로 이미지 분야에서 대표적으로 cycleGAN[1]이 있으며 최근 자연어 처리 분야에서도 많은 연구가 진행되고 있다. 많은 논문들이 사용하는 데이터도메인은 긍정 문장과 부정 문장 사이를 변화시키는 것이다. 본 연구에서는 한국어 영화리뷰 데이터 세트인 NSMC[2]를 이용한 감성 변화를 하는 문장생성에 대한 연구로 자연어 처리에서 좋은 성능을 보여주는 BERT[8]를 생성모델에 이용하였다.

  • PDF

확률적 차트 파싱에 기반 한 한국어 의존 구조 분석기 (Korean Dependency Structure Analyzer based on Probabilistic Chart Parsing)

  • 은지현;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-111
    • /
    • 2005
  • 정형적인 프로그래밍 언어에서는 언어를 기계적으로 해석하기 위해 입력의 구조적인 형태를 구축하는 파싱이 필수적인 과정으로 여겨진다. 기계에 기반 해서 개발된 프로그래밍 언어와 달리, 인간의 자유로운 의사소통을 위해 형성된 자연어는 특유의 다양성으로 인해 어휘, 구문, 의미 분석이 매우 어렵다. 반대로 자연어 구조 분석이 성공적으로 이루어지면 응용 시스템의 성능 향상에 상당한 기여를 할 것이라고 여겨지고, 이로 인해 끊임없이 자연어 처리, 특히 구문 분석에 많은 연구가 이루어지고 있다. 본 논문에서는 파싱에 사용되는 문법 전체를 말뭉치로부터 자동 구축하여 영역별 이식성 및 문법의 효율성을 도모했다. 또한 확률적 차트 파싱 기법과 immediate-head 파싱 모델을 적용하여 기존 파싱 시스템의 성능 향상을 시도했다. 세종 말뭉치를 이용한 파서의 성능은 각각 LP/LR 78.98%/79.55%로 나타났다.

  • PDF

자연어를 기반으로 한 WYSIWYG WML 편집기의 설계 및 구현 (Design and Implementation of a WYSIWYG WML Editor based on Natural Language)

  • 한상진;한판암
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (중)
    • /
    • pp.1599-1602
    • /
    • 2002
  • IMT-2000의 상용화와 함께 무선 단말 장치와 PDA의 사용 용도가 단순히 상대방과의 통화 기능에 국한되지 않고 고속 데이터 통신이나, 멀티미디어의 대용량의 자료를 송수신하는 형태로 변화되고 있다. 이러한 변화에 따라 시공적인 제약없이 사용 가능한 무선 인터네 연구가 WAP(Wireless Application Protocol) Forum을 중심으로 활발하게 진행되고 있다[1]. 무선 인터넷 환경을 구현하기 위해서 WML(Wireless Markup Language)를 사용하여 제작한다. 본 논문에서는 사용자가 보다 편하고 빠르게 WML을 작성할 수 있도록 하기 위해서 복잡한 명령어 구조나, 태그를 몰라도 자연어의 사용만으로 WML 문서를 쉽게 저작 할 수 있는 편집기를 구현한다. 이 편집기는 Nokia 에릭슨에서 지원하는 에뮬레이터를 사용하지 않고 자체에 내장되어 있는 에뮬레이터를 통해서 직접 눈으로 확인하면서 작업할 수 있어 문서 저작의 생산성을 향상시킬 수 있는 자연어 사용을 기반으로 하는 WYSIWYG WML Editor이다.

  • PDF

SaJuTeller: 조건부 생성 모델을 기반으로 한 인공지능 사주 풀이 모델 (SaJuTeller: Conditional Generation Deep-Learning based Fortune Telling Model)

  • 문현석;이정섭;서재형;어수경;박찬준;김우현;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.277-283
    • /
    • 2022
  • 사주 풀이란 주어진 사주에 대해서 그에 맞는 해석 글을 생성해주는 작업을 의미한다. 전통적으로 사주 풀이는 온전한 사람의 영역으로 인식되어왔으나, 우리는 본 연구를 통해 사주 풀이 영역도 인공지능으로 대체할 수 있을 것이라는 가능성을 탐구한다. 본 연구에서 우리는 최근 연구되고 있는 자연어 생성분야의 연구들에서 영감을 받아, 사주 유형과 사주 풀이 내에 포함할 명사 키워드를 기반으로 풀이글을 생성하는 인공지능 모델 SaJuTeller를 설계한다. 특히 이전 문맥을 고려하여 풀이글을 생성하는 모델과 단순 사주 유형 및 명사 키워드를 기반으로 풀이글을 생성하는 두가지 모델을 제안하며, 이들 각각의 성능을 분석함으로써 각 모델의 구체적인 활용 방안을 제안한다. 본 연구는 우리가 아는 한 최초의 인공지능 기반 사주풀이 연구이며, 우리는 이를 통해 사주풀이에 요구되는 전문인력의 노력을 경감시킴과 동시에, 다양한 표현을 가진 사주 풀이 글을 생성할 수 있음을 제안한다.

  • PDF

단어 표현에 기반한 연관 바이오마커 발굴 (Biomarker Detection of Specific Disease using Word Embedding)

  • 윤영신;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

국내외 특허데이터 분석을 통한 자연어처리의 의미분석 관련 기술동향 분석에 대한 연구 (A Study On Technical Trend Analysis Related to Semantic Analysis of NLP Through Domestic/Foreign Patent Data)

  • 현영근;한정현;채우리;이기현;이주연
    • 디지털융복합연구
    • /
    • 제18권1호
    • /
    • pp.137-146
    • /
    • 2020
  • 자연어처리 기술은 사람이 말하는 언어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만드는 것을 의미한다. 이것이 중요한 이유는 인공지능의 기본인 인간과 디바이스 간 커뮤니케이션을 위한 핵심기술이기 때문이다. 본 논문에서는 자연어처리, 특히 의미분석과 관련된 기술동향을 확인하기 위해 미국과 한국의 특허정보에 대해 분석하였으며, 본 연구를 통해 향후 자연어처리 관련 연구에 의미있는 정보제공을 그 목적으로 한다. 결론적으로, 국내 특허 수는 미국 대비 7.9% 수준이며, 주요 Keyword의 상이한 빈도는 기술적 방향성에 국가별로 차이가 있음을 확인하였다. 또한 상향 또는 하향 성향의 Keyword가 한국 대비 미국이 2배로 나타나 시대적 흐름을 상대적으로 더 반영한 것으로 분석되었다. 향후 연구에서는 실질적인 기술예측을 위해 상향 성향의 Keyword가 특허에서 어떻게 기술되고 있는지 구체적으로 분석하고자 한다.

패턴정보에 의한 OQL 질의 처리 기법 (A Study on OQL Query Processing Techniques by Pattern Information)

  • 김효진;이준상
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 추계산학기술 심포지엄 및 학술대회 발표논문집
    • /
    • pp.224-229
    • /
    • 2001
  • 컴퓨터나 데이터베이스에 대한 지식이 없는 사용자들도 데이터베이스에 저장되어 있는 정보를 쉽게 얻을 수 있도록 도와줄 수 있도록 하는 것이 데이터베이스 시스템을 위한 자연어 인터페이스이다. 이 논문은 이 자연어 인터페이스를 고려한 차세대 데이타베이스, 객체 지향 데이타베이스를 바탕으로 질의어 처리를 OQL(Object Query Language)명령문으로 구축 기법을 연구하고자 한다. 여기서 질의어 처리는 한국어 인터페이스를 바탕으로 하며, 질의를 패턴별로 분해, 프레임 변환, 객체 지향 데이타베이스를 위한 OQL 명령문으로 구축한다. 질의의 효과적인 변환을 위해 프레임 기반 질의 분해 기법을 제안하였으며, 이 기법은 분해된 질의구 별로 변환과정을 수행하여, 질의 처리의 성능을 향상시킨다. 질의 프레임을 생성하기 위해 변환규칙을 사용하여 규칙 베이스를 구축하는 기법을 연구하였다.