• 제목/요약/키워드: 의미역 처리

검색결과 145건 처리시간 0.025초

세종전자사전을 이용한 한국어 부사격의 의미역 결정 (Semantic Role Assignment for Korean Adverbial Case Using Sejong Electronic Dictionary)

  • 신명철;이용훈;김미영;정유진;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.120-126
    • /
    • 2005
  • 세종전자사전의 용언사전과 체언사전에 기재된 용언의 격틀과 명사의 의미부류는 문장의 의미분석을 위한 핵심적인 언어자원이다. 본 논문에서는 용언사전을 전산처리가 용이한 격틀사전으로 변형한 다음 이를 이용한 의미역 결정 시스템을 구축하였고 기계학습 방법에 기반한 의미역 결정 시스템과 혼합하여 한국어에 있어 '에, 로'를 격표지로 하는 부사격에 대한 의미역 결정 방법에 대해 다루고 있다.

  • PDF

ExoBrain을 위한 한국어 의미역 가이드라인 및 말뭉치 구축 (Korean Proposition Bank Guidelines for ExoBrain)

  • 임수종;권민정;김준수;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.250-254
    • /
    • 2015
  • 본 논문은 한국어 의미역을 정의하고, 기계학습에 기반하여 한국어 의미역 인식 기술을 개발할 때 필요한 학습 말뭉치를 구축할 때 지켜야할 가이드라인을 제시하고자 한다. 한국어 의미역 정의는 전세계적으로 널리 쓰이고 있는 Proposition Bank를 따르면서, 한국어의 특성을 반영하였다. 또한 정의된 의미역 및 태깅 가이드라인에 따라 반자동 태깅 툴을 이용하여 말뭉치를 구축하였다.

  • PDF

의미역 태깅의 제문제 (Consideration of Semantic Role Tagging)

  • 김윤정;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-80
    • /
    • 2015
  • 본고는 기존 연구에서 상정한 의미역에 기반하여 의미역 태깅 작업 중 실제 문장에 의미역을 태깅하는 데 나타난 문제점들에 대해 재고해보았다. 의미역을 태깅하는 데에 격틀 사전을 이용한 반자동의미역태깅프로그램의 정상적인 구동을 위한 사전의 재정비와 실제 문장에서는 드러나지만 사전에서는 나타나지 않는 문형 정보를 상세히 검토해야 함을 알게 되었다. 이를 해결하기 위해 격틀사전의 기본 사전이 표준국어대사전의 통사정보 제시를 문제삼아 이를 해결하기 위한 방안을 모색하고, 실제 문장에서 격교체에 의해 나타나고 있는 논항정보교체에 대처하기 위한 방안을 마련하고자 한다.

  • PDF

베이지안 모형 기반 한국어 의미역 유도 (Bayesian Model based Korean Semantic Role Induction)

  • 원유성;이우철;김형준;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-116
    • /
    • 2016
  • 의미역은 자연어 문장의 서술어와 관련된 논항의 역할을 설명하는 것으로, 주어진 서술어에 대한 논항 인식(Argument Identification) 및 분류(Argument Labeling)의 과정을 거쳐 의미역 결정(Semantic Role Labeling)이 이루어진다. 이를 위해서는 격틀 사전을 이용한 방법이나 말뭉치를 이용한 지도 학습(Supervised Learning) 방법이 주를 이루고 있다. 이때, 격틀 사전 또는 의미역 주석 정보가 부착된 말뭉치를 구축하는 것은 필수적이지만, 이러한 노력을 최소화하기 위해 본 논문에서는 비모수적 베이지안 모델(Nonparametric Bayesian Model)을 기반으로 서술어에 가능한 의미역을 추론하는 비지도 학습(Unsupervised Learning)을 수행한다.

  • PDF

Highway BiLSTM-CRFs 모델을 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling with Highway BiLSTM-CRFs)

  • 배장성;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.159-162
    • /
    • 2017
  • Long Short-Term Memory Recurrent Neural Network(LSTM RNN)는 순차 데이터 모델링에 적합한 딥러닝 모델이다. Bidirectional LSTM RNN(BiLSTM RNN)은 RNN의 그래디언트 소멸 문제(vanishing gradient problem)를 해결한 LSTM RNN을 입력 데이터의 양 방향에 적용시킨 것으로 입력 열의 모든 정보를 볼 수 있는 장점이 있어 자연어처리를 비롯한 다양한 분야에서 많이 사용되고 있다. Highway Network는 비선형 변환을 거치지 않은 입력 정보를 히든레이어에서 직접 사용할 수 있게 LSTM 유닛에 게이트를 추가한 딥러닝 모델이다. 본 논문에서는 Highway Network를 한국어 의미역 결정에 적용하여 기존 연구 보다 더 높은 성능을 얻을 수 있음을 보인다.

  • PDF

한국어 의미 표지 부착 말뭉치 구축을 위한 자동 술어-논항 분석기 개발 (A Development of the Automatic Predicate-Argument Analyzer for Construction of Semantically Tagged Korean Corpus)

  • 조정현;정현기;김유섭
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.43-52
    • /
    • 2012
  • 의미 역 결정 (Semantic Role Labeling)은 문장의 각 요소들의 의미 관계를 파악하는 연구 분야로써 어휘 중의성 해소와 더불어 자연언어처리에서의 의미 분석에서 매우 중요한 위치를 차지하고 있다. 그러나 한국어의 경우에는 의미 역 결정에 필요한 언어 자원이 구축되지 못하여 연구의 진행이 매우 미진한 상황이다. 본 논문에서는 의미 역 결정에 필요한 언어 자원 중에서 가장 널리 사용되고 있는 PropBank의 한국어 버전의 구축을 위한 시작 단계로써 자동 술어-논항 분석기를 개발하였다. 자동 술어-논항 분석기는 크게 의미 어휘 사전과 자동 술어-논항 추출기로 구성된다. 의미 어휘 사전은 한국어 동사의 격틀 정보를 구축한 사전이며 자동 술어-논항 추출기는 구문 표지 부착된 말뭉치로부터 특정 술어와 관련있는 논항의 의미 부류를 결정하는 모듈이다. 본 논문에서 개발된 자동 술어-논항 분석기는 향후 한국어 PropBank의 구축을 용이하게 할 것이며, 궁극적으로는 한국어 의미 역 결정에 큰 역할을 할 것이다.

한국어 전산처리에서 규칙과 확률을 이용한 구문관계에 따른 의미역 결정 (Determination of Thematic Roles according to Syntactic Relations Using Rules and Statistical Models in Korean Language Processing)

  • 강신재;박정혜
    • 한국산업정보학회논문지
    • /
    • 제8권1호
    • /
    • pp.33-42
    • /
    • 2003
  • 본 논문은 한국어정보처리 과정에서 규칙과 확률을 이용하여 구문 관계를 의미역으로 사상시키는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 혼합 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 적용률이 향상되는 효과를 가져올 수 있었다.

  • PDF

Input-feeding RNN Search 모델과 CopyNet을 이용한 한국어 의미역 결정 (Korean Semantic Role Labeling using Input-feeding RNN Search Model with CopyNet)

  • 배장성;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.300-304
    • /
    • 2016
  • 본 논문에서는 한국어 의미역 결정을 순차열 분류 문제(Sequence Labeling Problem)가 아닌 순차열 변환 문제(Sequence-to-Sequence Learning)로 접근하였고, 구문 분석 단계와 자질 설계가 필요 없는 End-to-end 방식으로 연구를 진행하였다. 음절 단위의 RNN Search 모델을 사용하여 음절 단위로 입력된 문장을 의미역이 달린 어절들로 변환하였다. 또한 순차열 변환 문제의 성능을 높이기 위해 연구된 인풋-피딩(Input-feeding) 기술과 카피넷(CopyNet) 기술을 한국어 의미역 결정에 적용하였다. 실험 결과, Korean PropBank 데이터에서 79.42%의 레이블 단위 f1-score, 71.58%의 어절 단위 f1-score를 보였다.

  • PDF

도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구 (A Study of Semantic Role Labeling using Domain Adaptation Technique for Question)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

의미 정보를 이용한 한국어 의미역 인식 연구 (A Study of Korean Semantic Role Labeling using Word Sense)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF