• 제목/요약/키워드: 관계 추출

검색결과 4,389건 처리시간 0.036초

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

용어를 공유하는 패턴 쌍을 이용한 의미 관계 추출 (Semantic Relation Extraction using Pattern Pairs Sharing a Term)

  • 김세종;이용훈;이종혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.221-225
    • /
    • 2009
  • 대용량 코퍼스를 사용하여 온톨로지를 구축하는 것은 해당 코퍼스에서 등장하는 용어들과 이들 간의 의미관계를 보다 자동화된 방법으로 추출하는 것으로부터 시작한다. 이때 주로 사용하는 방법이 용어들 사이에서 나타나는 문자열을 일종의 패턴으로 취급하여 특정 패턴과 함께 나타나는 용어들을 해당 패턴에 할당된 의미 관계로 설정하는 방법이다. 하지만 기존의 패턴 기반 의미 관계 추출 방법은 한 문장만을 대상으로 패턴을 추출 및 적용하기 때문에 서로 떨어진 용어에 대한 의미 관계를 추출할 수 없다는 단점을 가지고 있다. 본 논문은 이러한 한계점에 착안하여, 의미 관계를 대표하는 각각의 용어를 하나씩 포함하고 기타 용어를 공유하고 있는 서로 떨어진 패턴 쌍을 추출하여 확장된 패턴을 생성하고 이를 의미 관계 추출에 적용하였다. 본 방법론은 is-${\alpha}$ 관계의 경우 기존 방법론 보다 7.5% 향상된 83.75%의 정확률을, part-of 관계의 경우에는 5% 향상된 동일한 83.75%의 정확률을 보였으며 상대적 재현율을 통해 실제 재현율의 향상 가능성도 함께 제시하였다.

확률적 교차 연산을 이용한 보편적 관계 추출 (General Relation Extraction Using Probabilistic Crossover)

  • 이제승;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.371-380
    • /
    • 2023
  • 관계 추출은 텍스트로부터 개체(named entity) 사이의 관계를 추출하는 과정이다. 전통적으로 관계 추출 방법은 주어와 목적어가 미리 정해진 상태에서 관계만 추출한다. 그러나 종단형 관계 추출에서는 개체 쌍마다 주어와 목적어의 위치를 고려하여 가능한 모든 관계를 추출해야 하므로 이 방법은 시간과 자원을 비효율적으로 사용한다. 본 논문에서는 이러한 문제를 완화하기 위해 문장에서 주어와 목적어의 위치에 따른 방향을 설정하고, 정해진 방향에 따라 관계를 추출하는 방법을 제안한다. 제안하는 방법은 기존의 관계 추출 데이터를 활용하여 문장에서 주어가 목적어를 가리키는 방향을 나타내는 방향 표지를 새롭게 생성하고, 개체 위치 토큰과 개체 유형 정보를 문장에 추가하는 작업을 통해 사전학습 언어모델 (KLUE-RoBERTa-base, RoBERTa-base)을 이용하여 방향을 예측한다. 그리고 확률적 교차 연산을 통해 주어와 목적어 개체의 표상을 생성한다. 이후 이러한 개체의 표상을 활용하여 관계를 추출한다. 실험 결과를 통해, 제안 모델이 하나로 통합된 라벨을 예측하는 것보다 3 ~ 4%p 정도 더 우수한 성능을 보여주었다. 또한, 제안 모델을 이용해 한국어 데이터와 영어 데이터를 학습할 때, 데이터 수와 언어적 차이로 인해 한국어보다 영어에서 1.7%p 정도 더 높은 성능을 보여주었고, 최상의 성능을 내는 매개변수의 값이 다르게 나타나는 부분도 관찰할 수 있었다. 제안 모델은 방향에 따른 경우의 수를 제외함으로써 종단형 관계 추출에서 자원의 낭비를 줄일 수 있다.

구문 분석 결과를 이용한 한국어 무제한 정보추출 (A Syntax-Based Hybrid System for Korean Open Information Extraction)

  • 김병수;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-45
    • /
    • 2015
  • 무제한 정보추출은 주로 영어를 대상으로 연구가 진행 되었지만, 최근에는 영어가 아닌 다른 언어에 대한 적용이 시도되고 있다. 본 논문에서는 관계 어휘의 유형을 동사형과 명사형 2가지로 정의하고, 각 유형별로 구문 분석 결과 기반의 서로 다른 방법론을 적용하는 한국어 대상 무제한 정보추출 시스템을 소개한다. 동사형 관계 어휘에 대해서는 의존 관계 기반의 추출 규칙을 적용하고, 명사형 관계 어휘에 대해서는 대량의 말뭉치로부터 자동으로 학습한 의존 관계 구조 기반의 추출 패턴을 적용한다. 임의의 100개 문장에 대해서 수행한 결과는 산출된 전체 트리플에 대해 0.8이상의 정밀도를 보임으로써 본 논문에서 제안하는 방법의 효용성을 증명하였다.

  • PDF

관계망 데이터 특성을 이용한 모바일 인맥 네트워크의 시각화에 관한 연구 (A study on the Human Network Visualization on Mobile Phone for Characteristics of Relational Data)

  • 정겨운;이경원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 2부
    • /
    • pp.424-431
    • /
    • 2007
  • 본 연구는 관계망 시각화에 이용되는 데이터의 특성을 분석하고 그에 맞는 시각화 요소를 추출하여 시각화하는 것에 관한 연구이다. 사회 관계망 시각화는 점과 선을 기초 요소로 하여 점은 사회적 요소(actor), 선은 관계(relation)를 의미한다, 점과 선은 시각화에 사용되는 데이터의 특성에 따라 다양한 형태를 갖게 된다. 이 논문에서는 관계망 시각화에 사용되는 데이터의 특성을 데이터의 형태, 관계, 상태에 따라 분류하고, 각각의 특성에 맞는 관계망 시각화의 형태를 추출하고, 그에 따른 시각화 요소를 추출하였다. 이를 바탕으로 모바일 커뮤니케이션을 통해 형성되는 인맥 네트워크를 시각화함으로써, 인맥 네트워크 구성원 간의 친밀도를 효과적으로 파악할 수 있는 방법에 대해 제시하였다. 또한, 시각화의 결과를 이용하여 휴대전화로 인맥 네트워크를 유지, 관리하기 위한 서비스를 제안하였다. 이러한 연구는 데이터의 특성에 맞는 시각화의 요소를 추출하고, 데이터의 형태, 관계, 상태를 직관적으로 제공함으로써 사용자로 하여금 자신의 인맥 네트워크 구성원들의 친밀도와 관계 형태, 상태를 파악하여 자신의 인맥을 유지, 관리하고 보수할 수 있도록 한다.

  • PDF

Predicate-Argument Structure 기반의 어휘적 패턴을 이용한 관계 추출 (Relation Extraction using Lexical Patterns based on Predicate-Argument Structure)

  • 정창후;전홍우;최윤수;최성필
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.748-750
    • /
    • 2010
  • 문서 내에 존재하는 개체들 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있는데, 본 논문에서는 문장 내에 존재하는 각 단어의 predicate-argument 관계를 분석하여 자질로 활용하는 PAS 패턴 기반 관계 추출 시스템을 제안한다. 관계 종류별로 구축된 PAS 패턴 집합을 활용하여 관계 식별기를 개발하였고, 실험을 통하여 개발된 관계 식별기의 성능을 측정하였다. 실험 결과 개체 간의 유의미한 관계를 표현해주는 PAS 패턴이 관계 추출 작업에 유용한 정보임을 알 수 있었다.

XML 저장 및 검색 시스템에서의 XML 문서 추출 서브시스템의 설계 및 구현 (Design and Implementation of XML Publishing Subsystem in the XML Storage and Retrieval System)

  • 곽민성;홍석진;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.109-111
    • /
    • 2003
  • 관계형 데이타베이스에 저장되어 있는 데이타를 XML 문서로 추출하기 위해서는 데이블에 저장된 데이타를 XML 문서 형식에 맞는 계층적인 관계를 가지도록 구조화하는 과정이 필요하다. 본 논문에서는 관계형 데이타베이스를 사용하는 XML 저장 및 검색 시스템인 eXDM(embedded XML Database Management System)의 내부에서 구현한 XML 문서 추출 서브시스템에 대하여 기술한다. 이 시스템은 XML 문서에 대한 질의(XQuery)의 RETURN 절과 SORTBY 절을 분석하여, 관계형 데이타베이스에 저장되어 있는 데이타를 구조화하여 계층적인 구조를 가지는 XML 문서 형태로 추출한다.

  • PDF

형용사구에서의 관계추출 개선을 위한 의존구문트리의 최소공동조상 (LCA) 변경 (Altering LCA of dependency parse trees for improving relation extraction from adjective clauses)

  • 이대석;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.552-556
    • /
    • 2018
  • 본 논문에서는 텍스트에서 개체(entity) 간 관계(relation) 추출 문제에서 의존구문트리를 이용하여 자질을 추출할 때 형용사구 내에 관계가 나타나는 경우의 성능을 향상시키는 방법을 제안한다. 일률적으로 의존구문트리의 최소공동조상(LCA: Least Common Ancestor)을 이용하는 일반적인 방법보다 형용사구가 나타날 때는 형용사구의 술어를 대신 이용하는 것이 더 좋은 자질이 된다는 것을 제안하고 로지스틱 회귀분석, SVM(linear), SVM(exponential kernel)을 이용한 실험들을 통해 그 효과를 확인하였다. 이는 트리커널을 이용한 것과 같이 의존구문트리의 최소공동조상이 주요한 역할을 하는 관계추출 모델들의 성능을 높일 수 있음을 보여 준다. 수행한 실험 과정을 통해 관계추출 데이터 셋에서 형용사구 내 관계를 포함하는 문장이 전체에서 차지하는 비율이 낮을 경우 생길 수 있는 문제를 추가적으로 얻을 수 있었다.

  • PDF

생성형 언어모델을 이용한 관계추출 (Relation Extraction using Generative Language Models)

  • 허정;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.707-710
    • /
    • 2023
  • 관계추출은 문장 내 두 개체 간의 의미적 관계를 추론하는 자연어분석 태스크이다. 딥러닝의 발전과 더불어 관계추출은 BERT 계열의 이해형 언어모델을 이용하였다. 그러나, ChatGPT의 혁신적인 등장과 함께, GPT계열의 생성형 언어모델에 대한 연구가 활발해졌다. 본 논문에서는 소규모의 생성형 언어모델(Kebyt5)을 이용하여 관계추출 성능개선을 위한 프롬프트 구성 및 생각의 사슬(CoT) 학습 방법을 제안한다. 실험결과 Kebyt5-large 모델에서 CoT 학습을 수행하였을 경우, Klue-RoBERTa-base 모델보다 3.05%의 성능개선이 있었다.

  • PDF