• Title/Summary/Keyword: Entity-relation

Search Result 103, Processing Time 0.027 seconds

관계 추출에서 사전학습 언어모델의 방향성 예측 분석 (Directional Predictive Analysis of Pre-trained Language Models in Relation Extraction)

  • 허윤아;오동석;강명훈;손수현;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.482-485
    • /
    • 2021
  • 최근 지식 그래프를 확장하기 위해 많은 연구가 진행되고 있다. 지식 그래프를 확장하기 위해서는 relation을 기준으로 entity의 방향성을 고려하는 것이 매우 중요하다. 지식 그래프를 확장하기 위한 대표적인 연구인 관계 추출은 문장과 2개의 entity가 주어졌을 때 relation을 예측한다. 최근 사전학습 언어모델을 적용하여 관계 추출에서 높은 성능을 보이고 있지만, entity에 대한 방향성을 고려하여 relation을 예측하는지 알 수 없다. 본 논문에서는 관계 추출에서 entity의 방향성을 고려하여 relation을 예측하는지 실험하기 위해 문장 수준의 Adversarial Attack과 단어 수준의 Sequence Labeling을 적용하였다. 또한 관계 추출에서 문장에 대한 이해를 높이기 위해 BERT모델을 적용하여 실험을 진행하였다. 실험 결과 관계 추출에서 entity에 대한 방향성을 고려하지 않음을 확인하였다.

  • PDF

Relation Extraction Using Convolution Tree Kernel Expanded with Entity Features

  • Qian, Longhua;Zhou, Guodong;Zhu, Qiaomin;Qian, Peide
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.415-421
    • /
    • 2007
  • This paper proposes a convolution tree kernel-based approach for relation extraction where the parse tree is expanded with entity features such as entity type, subtype, and mention level etc. Our study indicates that not only can our method effectively capture both syntactic structure and entity information of relation instances, but also can avoid the difficulty with tuning the parameters in composite kernels. We also demonstrate that predicate verb information can be used to further improve the performance, though its enhancement is limited. Evaluation on the ACE2004 benchmark corpus shows that our system slightly outperforms both the previous best-reported feature-based and kernel-based systems.

  • PDF

Acquisition of Named-Entity-Related Relations for Searching

  • Nguyen, Tri-Thanh;Shimazu, Akira
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.349-357
    • /
    • 2007
  • Named entities (NEs) are important in many Natural Language Processing (NLP) applications, and discovering NE-related relations in texts may be beneficial for these applications. This paper proposes a method to extract the ISA relation between a "named entity" and its category, and an IS-RELATED-TO relation between the category and its related object. Based on the pattern extraction algorithm "Person Category Extraction" (PCE), we extend it for solving our problem. Our experiments on Wall Street Journal (WSJ) corpus show promising results. We also demonstrate a possible application of these relations by utilizing them for semantic search.

  • PDF

데이터 모델을 위한 엔터티 도출 절차에 관한 연구 (A Study on Elicitation Procedures of the Entity for Data Model)

  • 김도유;여정모
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권7호
    • /
    • pp.479-486
    • /
    • 2013
  • 정보 시스템의 골격이라고도 할 수 있는 데이터 모델은 프로세스 모델과 함께 정보 시스템에 있어서 중요한 두개의 축을 이룬다. 데이터 모델의 핵심요소로는 엔터티, 속성, 관계가 있으며, 이 중에서도 엔터티는 데이터 모델에서 가장 근본적인 요소로서, 엔터티를 명확하게 도출하지 못한다면 데이터 모델 전체가 모호해지게 된다. 본 연구에서는 엔터티 도출에 대해서만 다루었다. 기존의 엔터티를 도출하는 방법은 설계자의 경험과 업무지식에 많이 의존되고 명확한 절차가 제시되지 않아, 초보자나 미숙련자가 접근하기에는 많은 어려움이 있다. 이를 해결하는데 도움이 될 수 있도록 본 연구에서는 선행연구의 제안 절차를 통해 미리 도출된 대상업무에서 체계적인 절차로 엔터티를 도출할 수 있는 업무기반 엔터티 도출 절차를 제안한다. 그리고 데이터 모델링에 경험이 없는 학부생들을 대상으로 가상업무에 대하여 제안 절차를 적용하도록 하였고, 기존 방법과 제안 절차의 비교가 불가능하다는 점을 감안하여 학생들이 도출한 엔터티와 모범 답안 간의 유사도 검사로 제안 절차를 검증하였다. 그 결과, 모범 답안에 상당히 근접하게 엔터티를 도출한 것을 확인하였다. 따라서 본 연구에서 제안한 절차가 데이터 모델링에 경험이 없는 초보자가 익숙하지 않은 업무에 적용하더라도 모범 답안에 근접하게 엔터티를 도출할 수 있음이 확인되었다. 엔터티를 제외한 데이터 모델의 핵심요소인 속성과 관계의 도출에 대한 연구는 차후로 미룬다.

Minimally Supervised Relation Identification from Wikipedia Articles

  • Oh, Heung-Seon;Jung, Yuchul
    • Journal of Information Science Theory and Practice
    • /
    • 제6권4호
    • /
    • pp.28-38
    • /
    • 2018
  • Wikipedia is composed of millions of articles, each of which explains a particular entity with various languages in the real world. Since the articles are contributed and edited by a large population of diverse experts with no specific authority, Wikipedia can be seen as a naturally occurring body of human knowledge. In this paper, we propose a method to automatically identify key entities and relations in Wikipedia articles, which can be used for automatic ontology construction. Compared to previous approaches to entity and relation extraction and/or identification from text, our goal is to capture naturally occurring entities and relations from Wikipedia while minimizing artificiality often introduced at the stages of constructing training and testing data. The titles of the articles and anchored phrases in their text are regarded as entities, and their types are automatically classified with minimal training. We attempt to automatically detect and identify possible relations among the entities based on clustering without training data, as opposed to the relation extraction approach that focuses on improvement of accuracy in selecting one of the several target relations for a given pair of entities. While the relation extraction approach with supervised learning requires a significant amount of annotation efforts for a predefined set of relations, our approach attempts to discover relations as they occur naturally. Unlike other unsupervised relation identification work where evaluation of automatically identified relations is done with the correct relations determined a priori by human judges, we attempted to evaluate appropriateness of the naturally occurring clusters of relations involving person-artifact and person-organization entities and their relation names.

구직자 코드확장 규칙을 적용한 레이블 친숙성 연구 (A Study of Label Intimacy Applied by Applicant's Code-Expansion Rule)

  • 양승해;정은희;이병관
    • 한국정보전자통신기술학회논문지
    • /
    • 제3권1호
    • /
    • pp.57-62
    • /
    • 2010
  • 본 논문에서는 취업정보를 원활하게 접할 수 있는 환경을 제공하기 위한 구직 구인 정보를 구축하기 위하여 2가지를 제시하였다. 첫째, 취업사이트를 구축하기 위해 실 사례를 대상으로 데이터베이스 코드 확장 기준, 카테고리화 기준, 그리고 ERD (Entity Relation Diagram)를 설계하였다. 둘째, 친숙성이 강한 레이블 규칙을 위한 소수 레이블링 기준을 정의하였다. 따라서, 데이터베이스를 설계 및 구축하는데 있어 일정한 규칙을 체계적으로 적용함으로써 데이터베이스 구축 운영시 일관성과 효율성을 높이고 응용프로그램 개발 및 운영의 편의를 제공할 수 있으며 제안한 코드 확장 규칙 정의는 국내외 구인 구직 정보제공 기관에 표준화가 가능하다.

  • PDF

생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구 (A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts)

  • 강슬기;최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.227-248
    • /
    • 2017
  • 본 논문에서는 급격히 증가하는 생의학 분야 비정형 텍스트에서 핵심적 내용을 추출할 수 있는 기계학습 기반 정보 추출시스템을 구축하기 위한 언어자원 수집 및 통합적 구조화 방안을 제안한다. 제안된 방법은 정보 추출 시스템을 크게 개체명 인식과 개체명 간 관계 추출 시스템으로 구분하고, 각각의 시스템에 적합한 학습데이터를 구성하기 위해 생의학 분야 개체명 사전과 학습 집합을 수집한다. 그리고 수집된 해당 자원들의 특성을 분석하여 개체 구별을 위해 필수적으로 포함시켜야 할 항목들을 도출하고 이를 통해 시스템 학습과정에서 사용될 학습 데이터를 구성하기 위한 항목을 선정한다. 이와 같이 선정된 학습데이터의 구성 내용에 따라 수집된 자원들을 가공하여 학습 데이터를 구축한다. 본 연구에서는 생의학 분야의 하위 분야인 유전자, 단백질, 질병, 약물 4개 분야에 대한 개체명 사전과 학습 집합을 수집하여 각각을 학습 데이터로 구축하였으며, 개체명 사전을 통해 구축된 개체명 인식용 학습 데이터를 대상으로 개체명 수용 범위를 측정하기 위한 검증 과정을 수행하였다.

심층 신경망을 활용한 진료 기록 문헌에서의 종단형 개체명 및 관계 추출 비교 연구 - 파이프라인 모델과 결합 모델을 중심으로 - (A Comparative Research on End-to-End Clinical Entity and Relation Extraction using Deep Neural Networks: Pipeline vs. Joint Models)

  • 최성필
    • 한국문헌정보학회지
    • /
    • 제57권1호
    • /
    • pp.93-114
    • /
    • 2023
  • 정보추출은 문헌 내에 존재하는 개체명을 인식함과 동시에 이들 간의 의미적 관계까지도 식별하여 최종적으로 문헌 내에 포함된 의미적 트리플을 자동으로 추출하여 활용할 수 있으므로 문헌에 대한 심층적인 분석과 이해에 많은 도움을 줄 수 있다. 그러나 지금까지 대부분의 정보추출에 대한 연구는 개체명 인식과 관계추출이 개별 연구로 각각 분리되어 진행되었으며, 그 결과 입력 문헌에 대한 정보추출의 최종 출력인 의미적 트리플 추출 성능에 대한 객관적이고 정확한 평가가 제대로 이루어지지 않았다. 이에 본 논문에서는 진료 기록 문헌에 나타나는 개체명과 그들 간의 관계를 트리플 형태로 직접 추출할 수 있는 종단형 정보추출의 2가지 모델인 파이프라인 및 결합형 모델을 구축하는 구체적인 방법론을 제시하고 성능 비교 실험을 진행하였다. 우선 파이프라인 모델은 양방향 GRU-CRFs를 활용한 개체명 인식 모듈과 다중 인코딩 기반 관계추출 모듈로 구현되었고, 결합형 모델을 위해서는 다중 헤드 레이블링 기반의 양방향 GRU-CRFs이 적용되었다. 두 가지 시스템을 바탕으로 진료기록 문헌 내의 개체명과 관계를 모두 태깅하여 구축된 i2b2/VA 2010 데이터셋을 활용한 비교 실험에서 파이프라인 모델의 성능이 5.5%(F-measure) 더 높게 나타났다. 추가적으로, 대규모 신경망 언어모델과 수작업으로 구축된 자질 정보를 활용한 최고 수준의 기존 시스템과의 비교 실험을 통해, 본 논문에서 구현한 종단형 모델의 객관적인 성능 수준을 파악할 수 있었다.

이질의 분산 데이타베이스에서 객체 통합을 위한 검증 모델 (Verification Model for Object Integration in Heterogeneous Distributed Database)

  • 김용원
    • 한국정보처리학회논문지
    • /
    • 제2권1호
    • /
    • pp.12-22
    • /
    • 1995
  • 분산된 지역 데이타베이스의 스키마 통합시 중심 개념은 엔티티 통합을 의미하며 이때 엔티티의 시멘틱은 여러 요소에 영향을 받는다. 따라서 분산된 데이타베이스 환경에서의 스키마 통합은 통합되어야 하는 각 지역의 스키마의 엔티티 타입간의 도메 인 관계의 정의로부터 시작된다할 수 있다. 이렇게 설계자에 의해 정의되는 각 엔티티 간의 도메인 관계는 스키마 통합 시스템의 신뢰도의 확보와 검증을 위한 작업이 반드 시 수행되어야 한다. 그러나 이러한 작업이 기존의 통합 시스템에서는 제시되지 못하였다. 본 논문은 분산 시스템 환경에서 지역 데이타베이스의 스키마 통합을 위한 객체 중심의 통합을 정의하고, 통합의 타당성 검증을 위한 모델을 제안하고 검증 시 스템을 구현한다.

  • PDF

평면적 어휘 자질들을 활용한 확장 혼합 커널 기반 관계 추출 (Relation Extraction based on Extended Composite Kernel using Flat Lexical Features)

  • 최성필;정창후;최윤수;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권8호
    • /
    • pp.642-652
    • /
    • 2009
  • 본 논문에서는 기존의 관계 추출 성능을 향상시키기 위해서 기존의 자질 기반 방법에서 추구하였던 개체 주변 문맥 다양성 정보의 추출 및 적용과 커널 기반 방법의 강점인 관계 인스턴스에 대한 구문 구조적 자질 정보의 통합 활용을 통한 확장된 혼합 커널을 제안한다. ACE RDC 코퍼스를 활용한 실험에서, 기존의 합성곱 구문 트리 커널 기반 혼합 커널을 기반으로 총 9 종류의 평면적 어휘 자질 집합을 정의하고 이를 적용함으로써 성능 향상에 기여하는 어휘 자질 유형을 파악할 수 있었으며, 적은 규모의 학습 집합으로도 현재 최고 수준의 성능에 필적하는 결과를 얻을 수 있었다. 결론적으로 관계 추출을 위한 세 가지 핵심 정보, 즉 개체 자질, 구문 구조적 자질, 주변 문맥 어휘 자질을 통합 적용하면 관계 추출의 성능을 향상시킬 수 있음을 알 수 있었다.