• Title/Summary/Keyword: 개체명 인식기

Search Result 35, Processing Time 0.022 seconds

KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique (KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기)

  • Park, Geonwoo;Park, Seongsik;Jang, Yoengjin;Choi, Kihyoen;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique (KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기)

  • Park, Geonwoo;Park, Seongsik;Jang, Yoengjin;Choi, Kihyoen;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

How to Use Effective Dictionary Feature for Deep Learning based Named Entity Recognition (딥러닝 기반의 개체명 인식을 위한 효과적인 사전 자질 사용 방법)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.293-296
    • /
    • 2019
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간과 같이 고유한 의미를 갖는 단어들을 찾아 개체명을 부착하는 기술이다. 최근 개체명 인식기는 형태소 단위나 음절 단위의 입력을 사용하는 연구가 주로 진행되고 있다. 그러나 형태소 단위 개체명 인식은 미등록어를 처리하지 못하는 문제점이 존재하고 음절 단위 개체명 인식은 단어의 의미를 제대로 반영하지 못하는 문제점이 존재한다. 본 논문에서는 이 문제점을 보완하기 위해 품사 정보를 활용한 음절 단위 개체명 인식기를 제안한다. 또한 개체명 인식 성능에 큰 영향을 미치는 개체명 사전 자질을 더 효과적으로 사용할 수 있는 방법을 제안하며 이 방법을 사용했을 때 기존의 방법보다 향상된 개체명 인식 성능(F1-score 0.8576)을 보였다.

  • PDF

Constructing Korean Named Recognition Dataset for Financial Domain Using Active Learning (능동 학습 기법을 활용한 한국어 금융 도메인 개체명 인식 데이터 구축)

  • Jeong, Dong-Ho;Heo, Min-Kang;Kim, Hyung-Chul;Park, Sang-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.82-86
    • /
    • 2020
  • 딥러닝 모델의 성능은 데이터의 품질과 양에 의해 향상된다. 그러나 데이터 구축은 많은 비용과 시간을 요구한다. 특히 전문 도메인의 데이터를 구축할 경우 도메인 지식을 갖춘 작업자를 활용할 비용과 시간이 더욱 제약적이다. 능동 학습 기법은 최소한의 데이터 구축으로 모델의 성능을 효율적으로 상승시키기 위한 방법이다. 다양한 데이터셋이 능동 학습 기법으로 구축된 바 있으나, 아직 전문 도메인의 한국어 데이터를 구축하는 연구는 활발히 수행되지 못한 것이 현실이다. 본 논문에서는 능동학습기법을 통해 금융 도메인의 개체명 인식 코퍼스를 구축하였고, 이를 통해 다음의 기여가 있다: (1) 금융 도메인 개체명 인식 코퍼스 구축에 능동 학습 기법이 효과적임을 확인하였고, (2) 이를 통해 금융 도메인 개체명 인식기를 개발하였다. 본 논문이 제안하는 방법을 통해 8,043문장 데이터를 구축하였고, 개체명 인식기의 성능은 80.84%로 달성되었다. 또한 본 논문이 제안하는 방법을 통해 약 12~25%의 예산 절감 효과가 있음을 실험으로 보였다.

  • PDF

Korean Named Entity Recognition using BERT (BERT 를 활용한 한국어 개체명 인식기)

  • Hwang, Seokhyun;Shin, Seokhwan;Choi, Donggeun;Kim, Seonghyun;Kim, Jaieun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.820-822
    • /
    • 2019
  • 개체명이란, 문서에서 특정한 의미를 가지고 있는 단어나 어구를 뜻하는 말로 사람, 기관명, 지역명, 날짜, 시간 등이 있으며 이 개체명을 찾아서 해당하는 의미의 범주를 결정하는 것을 개체명 인식이라고 한다. 본 논문에서는 BERT(Bidirectional Encoder Representations from Transformers) 활용한 한국어 개체명 인식기를 제안한다. 제안하는 모델은 기 학습된 BERT 모델을 활용함으로써 성능을 극대화하여, 최종 F1-Score 는 90.62 를 달성하였고, Bi-LSTM-Attention-CRF 모델에 비해 매우 뛰어난 결과를 보였다.

Study on Named Entity Recognition in Korean Text (한국어 문서에서 개체명 인식에 관한 연구)

  • 이경희;이주호;최명석;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용하는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이용하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정확률과 83.4%의 재현율을 얻었다.

  • PDF

Korean Named Entity Recognition based on ELECTRA with CRFs (ELECTRA-CRFs 기반 한국어 개체명 인식기)

  • Hong, Jiyeon;Kim, Hyunwoo J
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.473-476
    • /
    • 2020
  • 개체명 인식에 적용된 대부분의 신경망 모델들에서 CRFs와 결합을 통해 성능 향상을 하였다. 그러나 최근 대용량 데이터로 사전 학습한 모델을 활용하는 경우, 기 학습된 많은 유의미한 파라미터들로 인해 CRFs의 영향력이 비교적 작아졌다. 따라서 본 논문에서는 한국어 대용량 말뭉치로 사전 학습한 ELECTRA 모델에서의 CRFs 가 개체명 인식에 미치는 영향을 확인해보고자 한다. 모델의 입력 단위로 음절 단위와 Wordpiece 단위로 사전 학습된 두 가지의 모델을 사용하여 미세 조정을 통해 개체명 인식을 학습하였다. 실험을 통해서 두 모델에 대하여 각각 CRFs 층의 유무에 따른 성능을 비교해 보았다. 그 결과로 ELECTRA 기반으로 사전 학습된 모델에서 CRFs를 통한 F1-점수 향상을 보였다.

  • PDF

KAISER: Named Entity Recognizer using Word Embedding-based Self-learning of Gazettes (KAISER: 워드 임베딩 기반 개체명 어휘 자가 학습 방법을 적용한 개체명 인식기)

  • Hahm, Younggyun;Choi, Dongho;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.337-339
    • /
    • 2016
  • 본 논문에서는 한국어 개체명 인식의 성능 향상을 위하여 워드 임베딩을 활용할 수 있는 방법에 대하여 기술한다. 워드 임베딩이란 문장의 단어의 공기정보를 바탕으로 그 단어의 의미를 벡터로 표현하는 분산표현이다. 이러한 분산 표현은 단어 간의 유의미한 정도를 계산하는데 유용하다. 본 논문에서는 이러한 워드 임베딩을 통하여 단어 벡터들의 코사인 유사도를 통한 개체명 사전 자가 학습 및 매칭 방법을 적용하고, 그 실험 결과를 보고한다.

  • PDF

Named Entity Recognition for Patent Data by Machine Learning (특허 개체명 인식에 대한 기계학습 사례)

  • Lee, Tae-Seok;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.183-186
    • /
    • 2014
  • 특허 분석에서 관심 있는 기술명, 서비스명, 제품명을 인식하도록 기계학습 기법을 사용해 개체명 인식기의 성능을 평가해 보았다. 개체인식을 위한 엔진은 스탠포드 대학의 NER과 CRF++을 사용하였다. 그 결과 F1값인 0.5612로 나타났다. 이것은 인명, 지역명, 조직명 개체를 인식하는 다른 연구에서 나타난 0.7857보다 0.2245 떨어지는 결과이다. 특허 개체명 인식에 대한 자질값 선정과 사전처리에 대한 더 많은 연구가 필요하다.

  • PDF

Automatic Construction of a Named Entity Dictionary for Named Entity Recognition (개체명 인식을 위한 개체명 사전 자동 구축)

  • Jeon, Wonpyo;Song, Yeongkil;Choi, Maengsik;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.82-85
    • /
    • 2013
  • 개체명 인식기에 대한 연구에서 개체명 사전은 필수적으로 필요하다. 그러나 공개된 개체명 사전은 거의 없기 때문에, 본 논문에서는 디비피디아의 데이터로부터 개체명을 효과적으로 추출하여 자동으로 구축할 수 있는 방법을 제안한다. 제안 방법은 엔트리의 '이름'과 '분류' 정보를 사용한다. 엔트리의 '이름'은 개체명으로 사용하고, 엔트리의 '분류'는 각 개체명 클래스와의 상호정보량을 계산하여 엔트리와 개체명 클래스 사이의 점수를 계산한다. 이렇게 계산된 점수를 이용하여 개체명과 개체명 클래스를 매핑한다. 그 결과 76.7%의 평균 정확률을 보였다.

  • PDF