• Title/Summary/Keyword: 한국어 관계 추출

검색결과 234건 처리시간 0.022초

한국어 개념사전의 구축에 관한 연구 (A Study on the Construction of a Korean Concept Dictionary)

  • 김수정;김태수
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.239-242
    • /
    • 1998
  • 개념 정보를 제공하는 어휘 데이터베이스로 WordNet, CYC, EDR등이 출현하였다. 본 연구는 WordNet의 개념 기술 방식에 따라 한국어 개념 사전을 구축하기 위한 것이다 우선 개념을 분류할 적절한 분류 체계를 설정하고, 연세 말뭉치에서 빈도수가 높은 상위 300개 명사를 추출하여 사전의 뜻풀이에 나타난 명사와 연관관계로 표시된 명사를 함께 제시함으로써 개념을 표현하였다. 이러한 한국어 개념 사전은 의미모호성을 해소하는데 기여할 수 있을 것이다.

  • PDF

X-바 이론을 변형한 자질기반의 한국어 구구조 문법 (Feature-based Korean Phrase Structure Grammar adjusting X-bar Theory)

  • 박소영;황영숙;정후중;곽용재;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.222-229
    • /
    • 1998
  • 본 논문에서는 X-바 이론을 한국어에 적용하여 서로 다른 범주들간의 구조적 일반성을 파악하고, 한국어에 가능한 규칙만을 허용하여 불가능한 규칙을 배제시킬 수 있는 틀을 제시하고자 한다. 한국어가 비중심어간 어순이 자유롭고 기능어가 발달했다는 점을 고려하여, 중심어와 보충어 관계 중심의 기존 X-바 이론을 통사적 파생과 의미적 파생, 수식 및 하위범주의 관계를 중심으로 변형한다. 또한, 한국어의 빈번한 생략현상과 부분 자유 어순에 효과적으로 대응할 수 있도록 이진결합 중심의 CNF(Chomsky Normal Form)를 따른다. 제안하는 자질기반의 한국어 구구조 문법은 직관적이고 간단하면서도 대부분의 문장을 처리할 수 있을 만큼 표현력이 뛰어나다는 장점이 있다. 신문기사에서 454문장을 추출하여 실험한 결과, 약 97%의 문장에 대해 올바른 구문 분석 결과를 생성할 수 있음을 보였다.

  • PDF

학습 데이터 확장을 통한 딥러닝 기반 인과관계 추출 모델 (Deep Learning Based Causal Relation Extraction with Expansion of Training Data)

  • 이승욱;유홍연;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-66
    • /
    • 2018
  • 인과관계 추출이란 어떠한 문장에서 인과관계가 존재하는지, 인과관계가 존재한다면 원인과 결과의 위치까지 분석하는 것을 말한다. 하지만 인과관계 관련 연구는 그 수가 적기 때문에 말뭉치의 수 또한 적으며, 기존의 말뭉치가 존재하더라도 인과관계의 특성상 새로운 도메인에 적용할 때마다 데이터를 다시 구축해야 하는 문제가 있다. 따라서 본 논문에서는 도메인 특화에 따른 데이터 구축비용 문제를 최소화하면서 새로운 도메인에서 인과관계 모델을 잘 구축할 수 있는 통계 기반 모델을 이용한 인과관계 데이터 확장 방법과 도메인에 특화되지 않은 일반적인 언어자질과 인과관계에 특화된 자질을 심층 학습 기반 모델에 적용함으로써 성능 향상을 보인다.

  • PDF

관계 추출에서 사전학습 언어모델의 방향성 예측 분석 (Directional Predictive Analysis of Pre-trained Language Models in Relation Extraction)

  • 허윤아;오동석;강명훈;손수현;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.482-485
    • /
    • 2021
  • 최근 지식 그래프를 확장하기 위해 많은 연구가 진행되고 있다. 지식 그래프를 확장하기 위해서는 relation을 기준으로 entity의 방향성을 고려하는 것이 매우 중요하다. 지식 그래프를 확장하기 위한 대표적인 연구인 관계 추출은 문장과 2개의 entity가 주어졌을 때 relation을 예측한다. 최근 사전학습 언어모델을 적용하여 관계 추출에서 높은 성능을 보이고 있지만, entity에 대한 방향성을 고려하여 relation을 예측하는지 알 수 없다. 본 논문에서는 관계 추출에서 entity의 방향성을 고려하여 relation을 예측하는지 실험하기 위해 문장 수준의 Adversarial Attack과 단어 수준의 Sequence Labeling을 적용하였다. 또한 관계 추출에서 문장에 대한 이해를 높이기 위해 BERT모델을 적용하여 실험을 진행하였다. 실험 결과 관계 추출에서 entity에 대한 방향성을 고려하지 않음을 확인하였다.

  • PDF

관계추출 모델 학습을 위한 반자동 패턴 마이닝 (Semiautomatic Pattern Mining for Training a Relation Extraction Model)

  • 최규현;남상하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-262
    • /
    • 2016
  • 본 논문은 비구조적인 자연어 문장으로부터 두 개체 사이의 관계를 표현하는 구조적인 트리플을 밝히는 관계추출에 관한 연구를 기술한다. 사람이 직접 언어적 분석을 통해 트리플이 표현되는 형식을 입력하여 관계를 추출하는 규칙 기반 접근법에 비해 기계가 데이터로부터 표현 형식을 학습하는 기계학습 기반 접근법은 더 다양한 표현 형식을 확보할 수 있다. 기계학습을 이용하려면 모델을 훈련하기 위한 학습 데이터가 필요한데 학습 데이터가 수집되는 방식에 따라 지도 학습, 원격지도 학습 등으로 구분할 수 있다. 지도 학습은 사람이 학습 데이터를 만들어야하므로 사람의 노력이 많이 필요한 단점이 있지만 양질의 데이터를 사용하는 만큼 고성능의 관계추출 모델을 만들기 용이하다. 원격지도 학습은 사람의 노력을 필요로 하지 않고 학습 데이터를 만들 수 있지만 데이터의 질이 떨어지는 만큼 높은 관계추출 모델의 성능을 기대하기 어렵다. 본 연구는 기계학습을 통해 관계추출 모델을 훈련하는데 있어 지도 학습과 원격지도 학습이 가지는 단점을 서로 보완하여 타협점을 제시하는 학습 방법을 제안한다.

  • PDF

상호참조 정보와 대화 그래프를 활용한 대화 관계추출 모델 (Dialogue Relation Extraction using Dialogue Graph)

  • 임정우;손준영;김진성;허윤아;서재형;장윤나;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.385-390
    • /
    • 2022
  • 관계추출은 문서 혹은 문장에서 자동으로 엔티티들간의 관계를 추출하는 기술로, 비정형 데이터를 정형데이터로 변환하기에 자연어 처리 중에서도 중요한 분야중 하나이다. 그 중에서도 대화 관계추출은 기존의 문장 단위의 관계추출과는 다르게 긴 길이에 비해 적은 정보의 양, 빈번하게 등장하는 지시대명사 등의 특징을 가지고 있어 주어와 목적어 사이의 관계를 예측하기에 어려움이 있었다. 본 연구에서는 이러한 어려움을 극복하기 위해 대화의 특성을 고려한 대화 그래프를 구축하고 이를 이용한 모델을 제안한다. 제안하는 모델은 상호참조 정보와 문맥정보를 더 반영한 그래프를 통해 산발적으로 퍼져있는 정보를 효율적으로 수집하고, 지시대명사로 인해 어려워진 중요 발화 파악 능력을 증진시켰다. 또한 이를 실험적으로 보이기 위하여 대화 관계추출 데이터셋에 실험해본 결과, 기존 베이스라인 보다 약 10 % 이상의 높은 F1점수를 달성하였다.

  • PDF

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

영한 기계변역에서의 전치사구 처리를 위한 격의미 체계와 의미속성 집합 (A Semantic Case Scheme and a Feature Set for Processing Prepositional Phrases in English-to-Korean Machine Translation)

  • 강원석;서정연;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.177-180
    • /
    • 1994
  • 영한 기계변역에서의 전치사구 처리는 자연어 처리의 중요한 연구과제 중 하나이다. 특히 전치사구의 격의미는 그에 대한 한국어 표현에 중요한 실마리가 된다. 본 논문은 영어의 전치사구에 대한 한국어 표현을 선택하기 위한 격의미 체계를 정의하고 그 격의미 체계를 실험한다. 이 격의미 체계는 전치사구에 대한 한국어의 격의미를 분별함으로 보다 좋은 한국어 격조사를 선택하게 해준다. 본 논문에서는 각 격의미의 구분을 위한 의미속성 집합도 정의한다. 이 의미속성 집합은 WordNet의 시소러스에서 제공한 상하위 관계와 변환표를 근거로 자동적으로 추출된다. 의미속성 집합의 자동획득은 격의미 체계의 표현과 기계변역의 성능 평가에 일반성을 부여한다. 격의미 체계와 의미속성 집합의 자동 획득은 영한 기계변역은 물론 한국어 생성과 자연어 처리에 중요한 기여를 할 것으로 보인다.

  • PDF

ACE 관계 추출과 특징화 과정에서 성능 향상을 위한 새로운 방법(1) (A New Method for Improving Performance in ACE Relation Detect ion and Characterization)

  • 김경덕;김석환;이근배;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 2005
  • 텍스트 기반 문서의 급증으로 인해 정보 추출 기술이 더욱 중요해지고 있다 특히 최근에 활발한 연구가 진행되고 있는 개체 간 관계 추출 기술은 정보검색과 질의응답 등 많은 분야에 걸쳐 활용될 수 있는 기술이다 본 논문은 기존의 자질 기반 관계 추출 시스템의 재현율을 향상시키기 위해 WHISK 알고리즘을 도입한 시스템에 관한 것이다. WHISK 알고리즘은 문장으로부터 관계에 참여하는 개체 쌍을 추출하는 규칙을 자동으로 학습한다. 그리고 시스템은 최대 엔트로피 모델을 이용하여 WHISK에 의해 추출된 개체 쌍에 적합한 관계 유형을 파악해 낸다. 본 논문은 시스템에 사용된 WHISK 알고리즘과 최대 엔트로피 모델에 대해서 알아보고, 실제로 WHISK 알고리즘을 도입하여 관계를 가지는 개체 쌍을 추출하여 문제를 해결했을 때 어느 정도의 성능 향상이 있는지 알아본다.

  • PDF

적합성 검증을 통한 관계 추출 성능 향상 (Improving Relation Extraction Performance using Relevance Verification)

  • 원유성;김지성;남상하;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.90-95
    • /
    • 2015
  • 기계적 학습을 위해서는 일반적으로 많은 양의 수동 주석데이터(Manually Labeled Data)가 요구된다. 원격지도(Distant Supervision)는 현실적으로 부족한 주석데이터(Labeled Data)를 대신해 자동적으로 주석데이터를 수집하여 학습하는 접근 방식으로 관계 추출(Relation Extracion) 문제에 널리 활용되고 있다. 이때 필연적으로 많은 노이즈(Noise)가 발생되는데, 적합성 검증(Relevance Verification)을 통해 수집된 학습데이터를 정제함으로써 노이즈로 인한 변동성을 줄이고 결과적으로 향상된 성능을 보여주는 관계 추출 방법을 제시한다.

  • PDF