• 제목/요약/키워드: Entity-relation

검색결과 103건 처리시간 0.028초

확률적 교차 연산을 이용한 보편적 관계 추출 (General Relation Extraction Using Probabilistic Crossover)

  • 이제승;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.371-380
    • /
    • 2023
  • 관계 추출은 텍스트로부터 개체(named entity) 사이의 관계를 추출하는 과정이다. 전통적으로 관계 추출 방법은 주어와 목적어가 미리 정해진 상태에서 관계만 추출한다. 그러나 종단형 관계 추출에서는 개체 쌍마다 주어와 목적어의 위치를 고려하여 가능한 모든 관계를 추출해야 하므로 이 방법은 시간과 자원을 비효율적으로 사용한다. 본 논문에서는 이러한 문제를 완화하기 위해 문장에서 주어와 목적어의 위치에 따른 방향을 설정하고, 정해진 방향에 따라 관계를 추출하는 방법을 제안한다. 제안하는 방법은 기존의 관계 추출 데이터를 활용하여 문장에서 주어가 목적어를 가리키는 방향을 나타내는 방향 표지를 새롭게 생성하고, 개체 위치 토큰과 개체 유형 정보를 문장에 추가하는 작업을 통해 사전학습 언어모델 (KLUE-RoBERTa-base, RoBERTa-base)을 이용하여 방향을 예측한다. 그리고 확률적 교차 연산을 통해 주어와 목적어 개체의 표상을 생성한다. 이후 이러한 개체의 표상을 활용하여 관계를 추출한다. 실험 결과를 통해, 제안 모델이 하나로 통합된 라벨을 예측하는 것보다 3 ~ 4%p 정도 더 우수한 성능을 보여주었다. 또한, 제안 모델을 이용해 한국어 데이터와 영어 데이터를 학습할 때, 데이터 수와 언어적 차이로 인해 한국어보다 영어에서 1.7%p 정도 더 높은 성능을 보여주었고, 최상의 성능을 내는 매개변수의 값이 다르게 나타나는 부분도 관찰할 수 있었다. 제안 모델은 방향에 따른 경우의 수를 제외함으로써 종단형 관계 추출에서 자원의 낭비를 줄일 수 있다.

Electrical Fire Cause Diagnosis System based on Fuzzy Inference

  • Lee, Jong-Ho;Kim, Doo-Hyun
    • International Journal of Safety
    • /
    • 제4권2호
    • /
    • pp.12-17
    • /
    • 2005
  • This paper aims at the development of an knowledge base for an electrical fire cause diagnosis system using the entity relation database. The relation database which provides a very simple but powerful way of representing data is widely used. The system focused on database construction and cause diagnosis can diagnose the causes of electrical fires easily and efficiently. In order to store and access to the information concerned with electrical fires, the key index items which identify electrical fires uniquely are derived out. The knowledge base consists of a case base which contains information from the past fires and a rule base with rules from expertise. To implement the knowledge base, Access 2000, one of DB development tools under windows environment and Visual Basic 6.0 are used as a DB building tool. For the reasoning technique, a mixed reasoning approach of a case based inference and a rule based inference has been adopted. Knowledge-based reasoning could present the cause of a newly occurred fire to be diagnosed by searching the knowledge base for reasonable matching. The knowledge-based database has not only searching functions with multiple attributes by using the collected various information(such as fire evidence, structure, and weather of a fire scene), but also more improved diagnosis functions which can be easily wed for the electrical fire cause diagnosis system.

언어모델에서 엔티티 정보를 이용한 관계 추출 성능 향상 기법 (A Technique for Improving Relation Extraction Performance using Entity Information in Language Model)

  • 허윤아;오동석;황태선;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-127
    • /
    • 2020
  • 관계 추출은 문장에서 두 개의 엔티티가 주어졌을 때 두 개의 엔티티에 대한 의미적 이해를 통해 관계를 분류하는 작업이다. 이와 같이 관계 추출에서 관계를 분류하기 위해서는 두 개의 엔티티에 대한 정보가 필요하다. 본 연구에서는 관계 추출을 하기 위해 문장에서 엔티티들의 표현을 다르게하여 관계 추출의 성능을 비교 실험하였다. 첫번째로는 문장에서 [CLS] 토큰(Token)으로 관계를 분류하는 Standard 엔티티 정보 표현과 두번째로는 엔티티의 앞과 뒤에 Special Token을 추가하여 관계를 분류하는 Entity-Markers 엔티티 정보 표현했다. 이를 기반으로 문장의 문맥 정보를 학습한 사전 학습(Pre-trained)모델인 BERT-Large와 ALBERT-Large를 적용하여 실험을 진행하였다. 실험 결과 Special Token을 추가한 Entity-Markers의 성능이 높았으며, BERT-Large에서 더 높은 성능 결과를 확인하였다.

  • PDF

Extending TextAE for annotation of non-contiguous entities

  • Lever, Jake;Altman, Russ;Kim, Jin-Dong
    • Genomics & Informatics
    • /
    • 제18권2호
    • /
    • pp.15.1-15.6
    • /
    • 2020
  • Named entity recognition tools are used to identify mentions of biomedical entities in free text and are essential components of high-quality information retrieval and extraction systems. Without good entity recognition, methods will mislabel searched text and will miss important information or identify spurious text that will frustrate users. Most tools do not capture non-contiguous entities which are separate spans of text that together refer to an entity, e.g., the entity "type 1 diabetes" in the phrase "type 1 and type 2 diabetes." This type is commonly found in biomedical texts, especially in lists, where multiple biomedical entities are named in shortened form to avoid repeating words. Most text annotation systems, that enable users to view and edit entity annotations, do not support non-contiguous entities. Therefore, experts cannot even visualize non-contiguous entities, let alone annotate them to build valuable datasets for machine learning methods. To combat this problem and as part of the BLAH6 hackathon, we extended the TextAE platform to allow visualization and annotation of non-contiguous entities. This enables users to add new subspans to existing entities by selecting additional text. We integrate this new functionality with TextAE's existing editing functionality to allow easy changes to entity annotation and editing of relation annotations involving non-contiguous entities, with importing and exporting to the PubAnnotation format. Finally, we roughly quantify the problem across the entire accessible biomedical literature to highlight that there are a substantial number of non-contiguous entities that appear in lists that would be missed by most text mining systems.

Topic Maps를 이용한 MARC데이터의 FRBR모델 구현에 관한 연구 (An Implementation of FRBR Model by Using Topic Maps)

  • 이현실;한성국
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.289-306
    • /
    • 2005
  • FRBR 모델에서는 서지 요소와 관계를 중심으로 ER 모델링 방식을 제공하고 있지만, 단지 구조적 프레임워크로서 FRBR 모델을 효율적으로 구현할 수 있는 도구가 필요하다. 본 연구에서는 Topic Maps를 이용하여 FRBR 모델을 구현하는 방법을 제시한다. Topic Maps 기반의 FRBR 모델 구현의 유효성을 실증적으로 보이기 위하여, 명성황후라는 주제와 관련된 MARC 데이터를 추출하여 FRBR 모델을 설계하였고, Topic Maps를 이용하여 이를 구현하였다. 연구 결과, FRBR의 entity-relation과 Topic Maps의 topic-association이 개념적으로 동일하기 때문에 FRBR 모델 개발의 적합함을 알 수 있었다. FRBR 구조는 Topic Maps 패러다임과 그대로 일치하기 때문에 FRBR 모델은 Topic Maps로 구현함이 바람직하다.

클라우드 환경에서 개체 속성 기반 접근제어 모델 (An Entity Attribute-Based Access Control Model in Cloud Environment)

  • 최은복
    • 융합정보논문지
    • /
    • 제10권10호
    • /
    • pp.32-39
    • /
    • 2020
  • 클라우드 환경의 대규모 인프라 구조에서는 응용프로그램들과 디바이스의 공유로 인하여 불법적인 접근권한 문제가 빈번하게 발생하기 때문에 이러한 공격에 적극적으로 대응하기 위해서는 상황별로 대비가 가능한 강화된 접근통제 시스템이 요구된다. 우리는 대규모 인프라 환경에 기반한 보안등급과 릴레이션 개념의 개체 속성 기반 접근통제 모델을 제시하였다. 본 모델은 주체와 객체에 무결성과 기밀성 등급을 부여하고 동일한 역할에 대해 서로 다른 서비스가 가능한 강화된 접근제어 특성을 가지며, 서비스와 관련된 릴레이션과 상태정보인 컨텍스트에 의해 역할과 권한을 배정함으로써 권한 관리의 유연성을 갖는다. 또한, 대학이라는 대규모 인프라 구조를 갖는 다중 서비스 환경에 적용한 응용 사례를 통하여 본 모델의 적용 가능성을 제시하였다.

웹 GIS 기반 철도 지반정보 관리프로그램의 개발 (Development of the Railroad Geotechnical Information Management System Using Web GIS)

  • 황선근;이성혁;김현기;김정무
    • 한국철도학회논문집
    • /
    • 제7권1호
    • /
    • pp.20-25
    • /
    • 2004
  • Railroad geotechnical information management system was developed by using Web GIS and DB in this study. The standardization of railroad geotechnical information is progressed by classifying three groups as like basic informations, vibration informations along railway lines and design drawings. The basic informations consisted of basic and dynamic properties of soils, geophysical exploration and seismic survey/exploration. And the specification for 'human exposure to whole-body vibration' was adopted to construct the vibration informations along railway lines. The informations as like drawings and photographs were saved by changing to graphic files in the standardization of design drawings. In the case of standardization of geographical information, the topographical maps(NGIS, 1:5000) were primarily used as digital maps. Another digital maps(KRRI, 1:5000) and their geographical DB based on NGI code system were added on this maps. The standardized informations were used to construct their database. And railroad information management system was developed using Entity-Relation(ER) model which had a good feasibility for expansion and transition to other system in designing stage of database. This system consisted of layer selection, search and analysis of geotechnical informations and Zeus DB was adopted for GIS operating and user interface. This system could be a good tool for saving, searching and analyzing the geotechnical and geophysical informations. These DB systems would offered the basic informations to plans, design and construction of railroad lines etc. in practical use.

종합적 질 관리 (TQM)를 위한 프로세스 분석 방법 -의약품 실체를 중심으로- (An Integrative Way of Process Analysis for Better Total Quality Management: Focusing on Drug Entity)

  • 김명기
    • 한국의료질향상학회지
    • /
    • 제1권1호
    • /
    • pp.56-65
    • /
    • 1994
  • Total quality management has been a focus of concern in recent years since some dissatisfaction with the results from implementation of quality assurance programs in the U.S. Many managerial methodologies and innovation guidelines from academic disciplines have been applied to promote TQM programs in the health field. This paper consists of two folds of aspects: firstly to examine TQM's managerial philosophy by comparing with the newly introduced managerial concepts in Business Reengineering; and then to introduce a method for an integrative way of process analysis, Entity Life-Cycle Diagram (ELCD) modeling. The analysis method was compared with Process Map, which is a well-known method for BR applications. To show effectiveness of ELCD modeling, a case of application was introduced using 'drug' as a target entity. With having TQM issues in mind, the result was reflected in designing Entity Relation Diagrams. The results of ELCD modeling turn out to be helpful in designing database related to quality monitoring, in that many monitoring check points can be identified in a systematic way and that queries cross-sectional over organizational boundaries can be generated with a consistent view focusing on the drug use as a single process. Full evaluation of the analysis method remains to be studied until the completion of the information system under construction. But as long as TQM is based on a process-oriented view and needs supports from information system, ELCD can be one of the appropriate choice as a tool for the process analysis.

  • PDF

대표 속성을 이용한 저자 개체 식별 (Author Entity Identification using Representative Properties in Linked Data)

  • 김태홍;정한민;성원경;김평
    • 한국콘텐츠학회논문지
    • /
    • 제12권1호
    • /
    • pp.17-29
    • /
    • 2012
  • 급격하게 성장하고 있는 오픈 리소스인 링크드 데이터는 최근 선진국 정부의 많은 관심 속에 데이터 공개 및 상호운용성 확보를 위한 방안으로 주목받고 있다. 그러나 신뢰할 수 있는 개체 식별 기술의 부재로 링크드 데이터의 양적 성장에 비해 개체 수 대비 링크의 수가 적은 현상과 일부 데이터 셋에 링크가 집중되는 현상을 보이고 있다. 본 연구에서는 이러한 링크드 데이터의 문제를 해결하기 위해 개체 간 관계(owl:sameAs, owl differentFrom 등)를 이용하거나 Curation 방식을 사용하는 기존 링크드 데이터 기반 개체 식별 방식의 문제를 다중 온톨로지의 개체 식별이 가능한 자동화된 개체 식별 방식을 통해 개선하고 저자 개체의 대응 속성과 개체 유형의 논리적 특성을 활용하여 개체 식별 정합성을 검증할 수 있는 다중 온톨로지 기반의 실시간 저자 식별 방법을 제안하고 평가한다. 본인의 확인을 거친 29명의 저자 정보를 이용해 개체 식별 정확성 결과를 평가하여 평균 0.8533 (K measure)의 긍정적인 성능을 보였다.

문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법 (Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF