• Title/Summary/Keyword: 한국어 개체명 인식

Search Result 117, Processing Time 0.021 seconds

Named Entity Recognition based on ELECTRA with Dictionary Features and Dynamic Masking (사전 기반 자질과 동적 마스킹을 이용한 ELECTRA 기반 개체명 인식)

  • Kim, Jungwook;Whang, Taesun;Kim, Bongsu;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.509-513
    • /
    • 2021
  • 개체명 인식이란, 문장에서 인명, 지명, 기관명, 날짜, 시간 등의 고유한 의미의 단어를 찾아서 미리 정의된 레이블로 부착하는 것이다. 일부 단어는 문맥에 따라서 인명 혹은 기관 등 다양한 개체명을 가질 수 있다. 이로 인해, 개체명에 대한 중의성을 가지고 있는 단어는 개체명 인식 성능에 영향을 준다. 본 논문에서는 개체명에 대한 중의성을 최소화하기 위해 사전을 구축하여 ELECTRA 기반 모델에 적용하는 학습 방법을 제안한다. 또한, 개체명 인식 데이터의 일반화를 개선시키기 위해 동적 마스킹을 이용한 데이터 증강 기법을 적용하여 실험하였다. 실험 결과, 사전 기반 모델에서 92.81 %로 성능을 보였고 데이터 증강 기법을 적용한 모델은 93.17 %로 높은 성능을 보였다. 사전 기반 모델에서 추가적으로 데이터 증강 기법을 적용한 모델은 92.97 %의 성능을 보였다.

  • PDF

Named Entity Recognition for Patent Data by Machine Learning (특허 개체명 인식에 대한 기계학습 사례)

  • Lee, Tae-Seok;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.183-186
    • /
    • 2014
  • 특허 분석에서 관심 있는 기술명, 서비스명, 제품명을 인식하도록 기계학습 기법을 사용해 개체명 인식기의 성능을 평가해 보았다. 개체인식을 위한 엔진은 스탠포드 대학의 NER과 CRF++을 사용하였다. 그 결과 F1값인 0.5612로 나타났다. 이것은 인명, 지역명, 조직명 개체를 인식하는 다른 연구에서 나타난 0.7857보다 0.2245 떨어지는 결과이다. 특허 개체명 인식에 대한 자질값 선정과 사전처리에 대한 더 많은 연구가 필요하다.

  • PDF

KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique (KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기)

  • Park, Geonwoo;Park, Seongsik;Jang, Yoengjin;Choi, Kihyoen;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

Named Entity Recognition for Schedule Management in Mobile Devices (모바일 기기에서 일정 관리를 위한 개체명 인식)

  • Jang, Eun-Seo;Kang, Seung-Shik;Lee, Jae-Won;Kim, Do-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.171-174
    • /
    • 2013
  • 본 논문은 모바일 기기에서 일정을 메모하거나 음성 인식 등의 인터페이스로부터 일정 관리, 약속과 관련된 문구가 입력되었을 때 입력 문자열로부터 개체명을 인식하여 시간, 장소, 참석자 등을 일정 관리 시스템에 자동으로 등록하는 개체명 인식 시스템을 개발하는 방법에 관한 연구이다. 일정 관리의 편의성을 위한 개체명 인식 시스템을 개발하기 위하여 개체명 사전을 구축하고, 자연어 처리 기술을 이용하여 정확하고 향후 발전 가능성이 높은 시스템을 개발하고자 한다.

  • PDF

Generating Korean NER Corpus using Hidden Markov Model (은닉 마르코프 모델을 이용한 한국어 개체명 말뭉치 생성)

  • Kim, Jae-Kyun;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Nam-Goong, Young;Choi, Min-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.357-361
    • /
    • 2019
  • 기계학습을 이용하여 개체명 인식을 수행하기 위해서는 많은 양의 개체명 말뭉치가 필요하다. 이를 위해 본 논문에서는 문장 자동 생성을 통해 개체명 표지가 부착된 말뭉치를 구축하는 방법을 제안한다. 기존의 한국어 문장 생성 연구들은 언어모델을 이용하여 문장을 생성하였다. 본 논문에서는 은닉 마르코프 모델을 이용하여 주어진 표지열에 기반 하여 문장을 생성하는 시스템을 제안한다. 제안하는 시스템을 활용하여 자동으로 개체명 표지가 부착된 3,286개의 새로운 문장을 생성할 수 있었다. 학습말뭉치 문장과 약 70%의 차이를 보이는 새로운 문장을 생성하였다.

  • PDF

Improving Quality of Training Corpus for Named Entity Recognition Using Heuristic Rules (휴리스틱을 이용한 개체명 인식 학습 말뭉치 품질 향상)

  • Lee, Seong-Hee;Song, Yeong-Kil;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.202-205
    • /
    • 2015
  • 개체명 인식은 문서에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 지도 학습 기법을 이용한 개체명 인식을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 말뭉치 구축은 인력과 시간이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하고 초기 학습 말뭉치의 노이즈를 제거하여 말뭉치의 품질을 향상시키는 방법을 제안한다. 제안 방법은 반자동 개체명 사전 구축 방법으로 구축한 개체명 사전과 원거리 감독법을 사용하여 초기 개체명 범주 부착 말뭉치를 구축한다. 그리고 휴리스틱을 이용하여 초기 말뭉치의 노이즈를 제거하여 학습 말뭉치의 품질을 향상시키고 개체명 인식의 성능을 향상시킨다. 실험 결과 휴리스틱 적용을 통해 개체명 인식의 F1-점수를 67.36%에서 73.17%로 향상시켰다.

  • PDF

Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs (한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발)

  • Kim, GyeongMin;Kim, Kuekyeng;Jo, Jaechoon;Lim, HeuiSeok
    • Journal of the Korea Convergence Society
    • /
    • v.9 no.12
    • /
    • pp.47-52
    • /
    • 2018
  • Named Entity Recognition is a system that extracts entity names such as Persons(PS), Locations(LC), and Organizations(OG) that can have a unique meaning from a document and determines the categories of extracted entity names. Recently, Bi-LSTM-CRF, which is a combination of CRF using the transition probability between output data from LSTM-based Bi-LSTM model considering forward and backward directions of input data, showed excellent performance in the study of object name recognition using deep-learning, and it has a good performance on the efficient embedding vector creation by character and word unit and the model using CNN and LSTM. In this research, we describe the Bi-LSTM-CNN-CRF model that enhances the features of the Korean named entity recognition system and propose a method for constructing the traditional culture corpus. We also present the results of learning the constructed corpus with the feature augmentation model for the recognition of Korean object names.

Extracting English-Korean Named-Entity Word-pairs using Wikipedia (위키피디아를 이용한 영-한 개체명 대역어 쌍 구축)

  • Kim, Eun-Kyung;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

Named Entity Recognition for Analyzing Factors of Agrifood Price Fluctuation (농식품 가격변동 요인분석을 위한 개체명 인식)

  • Park, Chan;Lee, Kung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.347-350
    • /
    • 2020
  • 농식품 가격을 안정적으로 제공하기 위해 농식품 가격 변동에 대한 요인 분석이 필요하다. 본 연구는 농식품 가격 변동의 요인 분석을 위해 인과관계 템플릿을 정의하고, 요약을 위한 개체명 인식 방법을 적용한다. 농식품 일일동향 데이터에 대한 평가에서 딥러닝 기반 BiLSTM-CRF 실험 결과 F1-점수 0.93으로 베이스라인 Bi-LSTM 실험 결과 0.75에 비해 높은 성능을 보였다.

  • PDF

A Semi-automatic Annotation Tool based on Named Entity Dictionary (개체명 사전 기반의 반자동 말뭉치 구축 도구)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Ho-Min;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF