• 제목/요약/키워드: 자연어 분석

검색결과 556건 처리시간 0.024초

자연어 이해 모델의 성능 향상을 위한 교차 게이트 메커니즘 방법 (Cross Gated Mechanism to Improve Natural Language Understanding)

  • 김성주;김원우;설용수;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.165-169
    • /
    • 2019
  • 자연어 이해 모델은 대화 시스템의 핵심적인 구성 요소로서 자연어 문장에 대해 그 의도와 정보를 파악하여 의도(intent)와 슬롯(slot)의 형태로 분석하는 모델이다. 최근 연구에서 의도와 슬롯의 추정을 단일 합동 모델(joint model)을 이용하여 합동 학습(joint training)을 하는 연구들이 진행되고 있다. 합동 모델을 이용한 합동 학습은 의도와 슬롯의 추정 정보가 모델 내에서 암시적으로 교류 되도록 하여 의도와 슬롯 추정 성능이 향상된다. 본 논문에서는 기존 합동 모델이 암시적으로 추정 정보를 교류하는 데서 더 나아가 모델 내의 의도와 슬롯 추정 정보를 명시적으로 교류하도록 모델링하여 의도와 슬롯 추정 성능을 높일 수 있는 교차 게이트 메커니즘(Cross Gated Mechanism)을 제안한다.

  • PDF

분석 CRM 실무자의 자연어 질의 처리를 위한 기업 데이터베이스 구성요소 인덱싱 방법론 (A PageRank based Data Indexing Method for Designing Natural Language Interface to CRM Databases)

  • 박성혁;황경서;이동원
    • CRM연구
    • /
    • 제2권2호
    • /
    • pp.53-70
    • /
    • 2009
  • 분석 CRM 영역에서는 고객 데이터 분석을 통하여 고객 행동과 관련된 통찰력을 얻는 것이 중요하다. 이러한 분석 과정에서, 사용자 스스로 기업 데이터베이스에서 대용량 고객 이력 데이터를 조회하고 추출하기 위해서는 SQL 을 사용하여 자유롭게 질의구문을 작성할 수 있어야 한다. 그런데 일반 사용자들이 이러한 업무를 수행하고자 할 때, 기업 데이터베이스 구성 요소에 대한 전문적인 지식이 부족하기 때문에 정보 탐색에 있어서 어려움을 겪는다. 이를 해결하기 위한 방안으로 본 연구에서는 사용자가 제공하는 자연어 수준의 질의를 분석하고, 데이터베이스를 구성하는 값을 중심으로 올바른 질의 결과를 제공하기 위한 데이터베이스 구성요소 인덱싱 방법론을 제안한다. 구체적으로 기업 데이터베이스를 구성하는 세 가지 요소인 관계, 속성, 값에 대한 정보를 읽어 들여 요약 정보에 대한 인덱스를 구성한 다음 사용자의 자연어 질의에서 분석된 의미 단위 별로 데이터베이스 요약 정보와 연결해주는 TableRank 기법을 소개한다. 실험용 데이터베이스를 대상으로 테스트를 수행한 결과, 사용자의 자연어 질의 결과가 데이터베이스를 구성하는 값 정보와 연결되는 것이 관찰되었다. 논문의 후반부에서는 자연어 질의를 자동적으로 처리하기 위한 선행 모듈 개발의 시사점을 정리하고, 향후 기업 데이터베이스 자동 검색 시스템으로 발전하기 위한 방안에 대해서도 설명한다.

  • PDF

서술어 온톨로지를 이용한 자연어 문장으로부터의 온톨로지 자동 생성 (Automatic Ontology Generation from Natural Language Sentences Using Predicate Ontology)

  • 민영근;이복주
    • 한국멀티미디어학회논문지
    • /
    • 제13권9호
    • /
    • pp.1263-1271
    • /
    • 2010
  • 시맨틱 웹 구현의 중요한 수단인 온톨로지는 검색, 추론, 지식표현 등 다양한 분야에서 사용되고 있다. 그러나 잘 구성된 온톨로지를 개발하는 것은 시간적, 물질적으로 많은 자원이 소모된다. 이러한 문제를 극복하기 위해 온톨로지를 자동으로 구축하는 시도가 있었다. 본 연구에서는 자연어 문장으로부터 직접 온톨로지를 자동적으로 생성하기 위해 형태소와 문장의 구조를 분석하고 자연어 문장의 서술어를 찾아 해당 온톨로지 서술어로 변환되게 하기 위하여 '서술어 온톨로지(predicate ontology)'를 두어서 분석된 자연어 문장의 서술어가 적절한 온톨로지 서술어로 변환될 수 있도록 한다. 인간 온톨로지 구축가와 제안한 방법을 비교한 실험 결과 정확도에서 나은 결과를 보였다.

질의문 유형 분석을 통한 서답형 자동 채점 시스템 (Automatic Grading System for Subjective Questions Through Analyzing Question Type)

  • 강원석
    • 한국콘텐츠학회논문지
    • /
    • 제11권2호
    • /
    • pp.13-21
    • /
    • 2011
  • 서답형 자동평가는 자연어 처리의 어려움이 있어 그 시스템의 개발이 쉽지 않다. 본 연구는 자연어처리 기술을 접목한 서답형 자동채점 시스템을 설계, 구현한다. 이 시스템은 일반화된 채점 시스템이 지니는 성능 저하의 문제를 해결하기 위해 문제유형을 정의하고 각 유형에 맞는 처리를 하여 성능을 향상하였다. 이 시스템의 성능을 실험하기 위하여 교사 채점과 기존의 용어중심의 채점 시스템, 교사채점과 제안한 채점 시스템의 상관계수를 분석하였다. 실험결과, 기존의 용어 중심의 채점 시스템보다 향상된 결과를 얻었다. 앞으로 문제 유형을 확대 정의하고 각 유형에 맞는 자연어 처리 기법을 개선할 필요가 있다.

KommonGen: 한국어 생성 모델의 상식 추론 평가 데이터셋 (KommonGen: A Dataset for Korean Generative Commonsense Reasoning Evaluation)

  • 서재형;박찬준;문현석;어수경;강명훈;이승훈;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2021
  • 최근 한국어에 대한 자연어 처리 연구는 딥러닝 기반의 자연어 이해 모델을 중심으로 각 모델의 성능에 대한 비교 분석과 평가가 활발하게 이루어지고 있다. 그러나 한국어 생성 모델에 대해서도 자연어 이해 영역의 하위 과제(e.g. 감정 분류, 문장 유사도 측정 등)에 대한 수행 능력만을 정량적으로 평가하여, 생성 모델의 한국어 문장 구성 능력이나 상식 추론 과정을 충분히 평가하지 못하고 있다. 또한 대부분의 생성 모델은 여전히 간단하고 일반적인 상식에 부합하는 자연스러운 문장을 생성하는 것에도 큰 어려움을 겪고 있기에 이를 해결하기 위한 개선 연구가 필요한 상황이다. 따라서 본 논문은 이러한 문제를 해결하기 위해 한국어 생성 모델이 일반 상식 추론 능력을 바탕으로 문장을 생성하도록 KommonGen 데이터셋을 제안한다. 그리고 KommonGen을 통해 한국어 생성 모델의 성능을 정량적으로 비교 분석할 수 있도록 평가 기준을 구성하고, 한국어 기반 자연어 생성 모델의 개선 방향을 제시하고자 한다.

  • PDF

구문의미분석를 이용한 유사문서 판별기 (Discriminator of Similar Documents Using Syntactic and Semantic Analysis)

  • 강원석;황도삼
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.40-51
    • /
    • 2014
  • 문서 저작권에 대한 관심과 중요성이 높아짐에 따라 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 이와 같은 이유로 많은 연구가 이루어지고 있으나 자연어 처리기술의 한계가 있어 문서의 심층적 표절 검출에 어려움이 있다. 본 논문은 자연어 분석의 기술을 적용한 유사문서 판별기를 설계, 구현한다. 이 시스템은 형태소 분석의 기술과 함께 구문의미 분석의 기술, 저빈도 및 관용표현 가중치을 이용하여 유사문서를 판별한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 기존 시스템, 그리고 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미 분석을 활용한 시스템의 개선점을 발견할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

영한 기계번역의 자연어 생성 연구 (A Study on the Natural Language Generation by Machine Translation)

  • 홍성룡
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권1호
    • /
    • pp.89-94
    • /
    • 2005
  • 기계번역에서 자연어 생성의 목적은 입력언어의 어구 분석을 이용하여 그 문장의 의미를 변환해주는 목적 언어를 생성하는 것이다. 그것은 언어적 구조 낱말 전사. 대화체 언어, 어휘적 정보 등을 포함해야 한다. 본 연구에서는 대화체 자동 기계번역 시스템 구현계획의 일부인 음성, 음운 분야에서 담당하게 될 음성인식과 음성합성 알고리듬을 확립하기 위한 한국어 특질에 대한 기초조사를 하고자 한다. 또한 기계번역의 단계를 분석하여 형태소 분석 단계와 구문 분석 단계, 의미 분석 단계로 구분한다. 형태소 분석은 입력 문장을 받아 분리된 형태소를 사전 내에서 검색하여·품사 정보를 얻고 이웃하는 단어와의 접속 관계가 문법적으로 올바르게 되었는지를 점검한다. 본 연구의 결과가 대화체 기계번역 시스템 구현계획의 종합적 입장에서는 단순한 기초조사일 수 있지만, 한국어의 교육 및 기계번역 이해의 측면에서는 그 자체로 가치를 지닌다고 할 수 있겠다. 따라서 교육적 측면에서의 직접적 활용을 여러 측면에서 고려할 수 있을 것이다.

  • PDF

자연어 처리 과정을 이용한 웹기반 한문 주관식 채점 시스템 (The Web Based Grading System of Subjective Test in Chinese Writing Using Natural Language Processing)

  • 배화식;정순호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.813-816
    • /
    • 2005
  • 본 논문에서는 한문 문장의 기본구조를 자연어 처리과정을 이용하여 채점하는 시스템을 구현하고자 하였다. 기존의 주관식 채점시스템은 단답형이 대부분이며, 서술형은 문장에서 키워드를 추출하여 유사도를 비교한 후 채점하는 방식으로 키워드 추출 시 명사류만 대상으로 하여 다른 품사들은 누락되며, 또한 문장의 구조를 간과하는 문제점이 있다. 본 시스템은 자연어 처리과정을 이용한 것으로 어휘분석과 구문분석을 통해 문장구조를 확인하고, 문장성분별로 해당 단어를 정확하게 사용하였는가를 검사하여 채점함으로써 기존의 문제점을 개선한다.

  • PDF

필수적/수의적 논항 구분의 문제점과 해결책 (The Problems of Distinguishing Optional Arguments form Obligatory Ones and Their Solution)

  • 양단희
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.285-291
    • /
    • 2000
  • 필수적/수의적 논항의 이분법적 구분과 이에 따라 정문/비문을 논하는 것이 언어학과 자연어처리학에서 정설로 인정되어 왔다. 그러나 본 연구에서는 논항의 생략 현상과 왜 이러한 생략이 발생하는지에 대해 인지적인 관점에서 살펴봄으로써 기존의 이분적 개념들이 구문분석에 적합치 않음을 지적하였다. 그리고 이러한 문제점을 해결하기 위해 원형이론(prototype theory)을 도입하여 '필수적 논항도'와 '확률적 격구조'란 개념을 제안하였다. 이러한 개념들이 자연어처리의 구문분석에 효율적으로 적용될 수 있을 것으로 기대된다.

  • PDF

지역적 양방향 분석을 이용한 견고한 자연어 파싱 기법 (A Robust Natural Language Parsing Method Using Local Bi-directional Analysis)

  • 박성완;나동열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.176-178
    • /
    • 2000
  • 자연어 파싱에 많이 사용되는 Earley 파싱 알고리즘은 입력문장에 에러(error)가 있으면 즉시 종료되기 때문에 견고한(robust) 파싱을 구현하기 어렵다. 본 논문에서 우리는 Earley 파싱 알고리즘을 보다 견고한 파싱 기법으로 만드는 방법을 제안한다. Earley 파싱을 하다가 멈추면 파싱 모드를 지역적 양방향 분석으로 전환시킨다. 에러 위치 다음에 나타나는 단어를 아일랜드(island)로 정한다. 아일랜드를 지역적으로 양방향으로 확장시켜 에어 위치까지 도달하게 한 다음 에러의 종류를 파악하고 이를 복구하는 기법을 사용함으로써 견고성을 얻을 수 있다.

  • PDF