• Title/Summary/Keyword: Entity Linking

Search Result 34, Processing Time 0.027 seconds

Design of an Information System Prototype for Generating and Linking Ultra-precision Digital Maps of Construction Sites (건설 현장의 초정밀 디지털 맵 생성 및 연계를 위한 정보체계 프로토타입 설계)

  • Kim, Jong-Hyeop;Yeom, Dong-Jun;Ko, Hyun-A;Kang, Tai-Kyung
    • Journal of the Korean Society of Industry Convergence
    • /
    • v.23 no.6_2
    • /
    • pp.1015-1024
    • /
    • 2020
  • By nature, smart construction technology is a convergence technology, therefore aptly constructing and running an information system is needed in order to effectively develop and maintain it. Thus, in this study, an information system prototype was developed for the creation and linking of high precision digital maps at road construction sites for the effective performance of the development of the Information Collecting and Analyzing Techniques in the Construction Site (ICAT). For this, (1) defined input/output (I/O) data of each technical detail of ICAT, (2) analyzed the data flow, (3 ) proposed an information system prototype for high precision digital maps development and connection. Based on the information system prototype constructed in this study, it was inferred that each technique and its information for the Smart Construction Technique Development Business was in a consistent flow. Developed information system prototype would enable effective cooperation between subjects directly involved in the technique development, by defining I/O data in advance. Moreover, it would be of value to practitioners for refining the output data from each technique, thereby linking databases and forming Entity Relationship Diagram.

Named Entity Linking Based on Deep Learning Model (딥러닝 모형 기반 한국어 개체명 연결)

  • Sohn, Dae-Neung;Lee, Dongju;Lee, Yong-Hun;Chung, Youjin;Kang, Inho
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.90-95
    • /
    • 2016
  • 개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

  • PDF

Document Embedding for Entity Linking in Social Media (문서 임베딩을 이용한 소셜 미디어 문장의 개체 연결)

  • Park, Youngmin;Jeong, Soyun;Lee, Jeong-Eom;Shin, Dongsoo;Kim, Seona;Seo, Junyun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.194-196
    • /
    • 2017
  • 기존의 단어 기반 접근법을 이용한 개체 연결은 단어의 변형, 신조어 등이 빈번하게 나타나는 비정형 문장에 대해서는 좋은 성능을 기대하기 어렵다. 본 논문에서는 문서 임베딩과 선형 변환을 이용하여 단어 기반 접근법의 단점을 해소하는 개체 연결을 제안한다. 문서 임베딩은 하나의 문서 전체를 벡터 공간에 표현하여 문서 간 의미적 유사도를 계산할 수 있다. 본 논문에서는 또한 비교적 정형 문장인 위키백과 문장과 비정형 문장인 소셜 미디어 문장 사이에 선형 변환을 수행하여 두 문형 사이의 표현 격차를 해소하였다. 제안하는 개체 연결 방법은 대표적인 소셜 미디어인 트위터 환경 문장에서 단어 기반 접근법과 비교하여 높은 성능 향상을 보였다.

  • PDF

Named Entity Linking Based on Deep Learning Model (딥러닝 모형 기반 한국어 개체명 연결)

  • Sohn, Dae-Neung;Lee, Dongju;Lee, Yong-Hun;Chung, Youjin;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.90-95
    • /
    • 2016
  • 개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

  • PDF

Semantic-specific Adapter memory network for Mention detection entity linking (시멘틱 특화 Adapter 메모리 네트워크에 기반한 멘션 추출 및 개체 연결)

  • Lee, Jong-Hyeon;Na, Seung-Hoon;Kim, Hyun-Ho;Kim, Seon-Hoon;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.233-236
    • /
    • 2020
  • 개체 연결 태스크는 문장 내에 등장하는 멘션(Mention)들을 위키피디아(Wikipedia)와 같은 지식 베이스 상의 실제 개체에 연결하는 태스크이다. 본 논문에서는 각 멘션을 시멘틱(Semantic)으로 분류하여 각 시멘틱별 추가 학습을 진행할 수 있는 Adapter Memory Network 모델을 제안한다. 이는 각 시멘틱 별 학습을 하나의 통합된 과정으로 진행하도록 하는 모델이며, 본 논문에서는 Adapter Memory Network 모델을 통해 기존 개체 연결 태스크에서 높은 성능을 보이는 NIL 멘션 탐지와 개체 연결의 통합 모델의 성능을 향상시켰음을 보인다.

  • PDF

RoBERTa-catseqE: Neural keyphrase Extraction with Entity linking using RoBERTa (RoBERTa-catSeqE: 개체 연결을 이용한 RoBERTa기반 키워드 추출)

  • Lee, Jeong-Doo;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.486-490
    • /
    • 2020
  • 키워드 구문 추출(Keyphrase extraction)은 각 문서에서 내용과 주제를 포괄하는 핵심 단어 또는 구문을 추출하는 것을 말한다. 이는 뉴스나 논문에서 중요한 정보를 추출하는 데 매우 중요한 역할을 한다. 본 논문에서는 기존 catSeq 모델에 한국어로 학습한 RoBERTa 언어 모델을 적용하고 개체 연결 정보를 활용해 기존 키워드 생성 디코더와 개체 연결된 단어의 키워드 여부 분류 디코더, 즉 듀얼 디코더를 사용하는 모델을 제안하고 직접 구축한 한국어 키워드 추출 데이터에 대한 각 모델의 성능을 비교한다.

  • PDF

Considerations for BIBFRAME Acceptance of Expression and Representative Expression Attributes in LRM (BIBFRAME에서 LRM 표현형 및 대표표현형 속성 적용시 고려사항)

  • Lee, Mihwa
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.30 no.2
    • /
    • pp.33-50
    • /
    • 2019
  • Cataloging principles, cataloging rules, and encoding formats should considered LRM acceptance because LRM replaced FRBR as the conceptual model. This study identifies considerations for BIBFRAME acceptance of expression and representative expression attributes in LRM by using literature reviews and expert interviews. Primarily, work in BIBFRAME without expression as entity could map to work and expression of LRM and sustain expression by linking 2 works (work and expression). Second, BIBFRAME must consider association between representative expression attributes and specific expressions whose values can be transferred to the representative expression attributes. Third, representative expression attributes are different according to work types in LRM, and language, media, intended audience, and scale, that can be used as representative expression attributes in BIBFRAME, should be changed in class. Fourth, relation properties should be articulated for expanding networks between expressions originated from work in BIBFRAME. This study analyzes LRM and BIBFRAME by focusing on expression entity and representative expression attributes. More LRM study is needed on cataloging principles and cataloging rules.

A Study on the Development of Metadata Schema for Intangible Cultural Heritage Based on Multiple Entity Model (다중개체모형을 적용한 무형문화유산 메타데이터 요소 개발에 관한 연구)

  • Han, Hui-Jeong;Kim, Tae-Young;Kim, Yong
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.50 no.3
    • /
    • pp.329-359
    • /
    • 2016
  • This study has developed standard metadata for intangible cultural heritages based on multiple entity model. By analyzing "Preservation and Promotion of Intangible Cultural Heritage Act", which was newly legislated in 2016, intangible cultural heritages archiving books, archival information resources and guidelines of organizations which conducted resources investigations, the transmission status of intangible cultural heritages, and the current status of intangible cultural heritage digital archiving and information services of related organizations, we obtained information lists required for intangible cultural heritages and took them into account in the process of selecting elements for intangible cultural heritage metadata. In addition, developing the intangible cultural heritage metadata based on the multiple entity model made it possible to provide comprehensive information by organically linking numerous sorts of information-with intangible cultural heritage information, which is the most essential, in the center, information on agents related to intangible cultural heritages, archival information resources information that they produce, and record management task information required to manage these archival information resources. By maintaining various relations of intangible cultural heritages and keeping the information up-to-date, the developed metadata is expected to provide rich contextual information on intangible cultural heritages in addition to the efficient management of information; and ultimately, make contribution to sustainably developing the value of intangible cultural heritages.

Document Embedding for Entity Linking in Social Media (문서 임베딩을 이용한 소셜 미디어 문장의 개체 연결)

  • Park, Youngmin;Jeong, Soyun;Lee, Jeong-Eom;Shin, Dongsoo;Kim, Seona;Seo, Junyun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.194-196
    • /
    • 2017
  • 기존의 단어 기반 접근법을 이용한 개체 연결은 단어의 변형, 신조어 등이 빈번하게 나타나는 비정형 문장에 대해서는 좋은 성능을 기대하기 어렵다. 본 논문에서는 문서 임베딩과 선형 변환을 이용하여 단어 기반 접근법의 단점을 해소하는 개체 연결을 제안한다. 문서 임베딩은 하나의 문서 전체를 벡터 공간에 표현하여 문서 간 의미적 유사도를 계산할 수 있다. 본 논문에서는 또한 비교적 정형 문장인 위키백과 문장과 비정형 문장인 소셜 미디어 문장 사이에 선형 변환을 수행하여 두 문형 사이의 표현 격차를 해소하였다. 제안하는 개체 연결 방법은 대표적인 소셜 미디어인 트위터 환경 문장에서 단어 기반 접근법과 비교하여 높은 성능 향상을 보였다.

  • PDF

Natural language processing techniques for bioinformatics

  • Tsujii, Jun-ichi
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2003.10a
    • /
    • pp.3-3
    • /
    • 2003
  • With biomedical literature expanding so rapidly, there is an urgent need to discover and organize knowledge extracted from texts. Although factual databases contain crucial information the overwhelming amount of new knowledge remains in textual form (e.g. MEDLINE). In addition, new terms are constantly coined as the relationships linking new genes, drugs, proteins etc. As the size of biomedical literature is expanding, more systems are applying a variety of methods to automate the process of knowledge acquisition and management. In my talk, I focus on the project, GENIA, of our group at the University of Tokyo, the objective of which is to construct an information extraction system of protein - protein interaction from abstracts of MEDLINE. The talk includes (1) Techniques we use fDr named entity recognition (1-a) SOHMM (Self-organized HMM) (1-b) Maximum Entropy Model (1-c) Lexicon-based Recognizer (2) Treatment of term variants and acronym finders (3) Event extraction using a full parser (4) Linguistic resources for text mining (GENIA corpus) (4-a) Semantic Tags (4-b) Structural Annotations (4-c) Co-reference tags (4-d) GENIA ontology I will also talk about possible extension of our work that links the findings of molecular biology with clinical findings, and claim that textual based or conceptual based biology would be a viable alternative to system biology that tends to emphasize the role of simulation models in bioinformatics.

  • PDF