• Title/Summary/Keyword: 개체 인식

Search Result 448, Processing Time 0.024 seconds

KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique (KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기)

  • Park, Geonwoo;Park, Seongsik;Jang, Yoengjin;Choi, Kihyoen;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

Bidirectional LSTM-RNNs-CRF for Named Entity Recognition in Korean (양방향 LSTM-RNNs-CRF를 이용한 한국어 개체명 인식)

  • Shin, Youhyun;Lee, Sang-goo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.340-341
    • /
    • 2016
  • 개체명 인식은 질의 응답, 정보 검색, 기계 번역 등 다양한 분야에서 유용하게 사용되고 있는 기술이다. 개체명 인식의 경우 인식의 대상인 개체명이 대부분 새롭게 등장하거나 기존에 존재하는 단어와 중의적 의미를 갖는 고유한 단어라는 문제점이 있다. 본 논문에서는 한국어 개체명 인식에서 미등록어 및 중의성 문제를 해결하기 위한 딥 러닝 모델을 제안한다. 제안하는 모델은 형태소 및 자음/모음을 이용하여 새롭게 등장하는 단어에 대한 기존 단어와의 형태적 유사성을 고려한다. 또한 임베딩 및 양방향 LSTM-RNNs-CRF 모델을 이용하여, 각 입력 값의 문맥에 따른 의미적 유사성, 문법적 유사성을 고려한다. 제안하는 딥 러닝 모델을 사용하여, F1 점수 85.71의 결과를 얻었다.

  • PDF

Korean Named Entity Recognition using Joint Learning with Language Model (언어 모델 다중 학습을 이용한 한국어 개체명 인식)

  • Kim, Byeong-Jae;Park, Chan-min;Choi, Yoon-Young;Kwon, Myeong-Joon;Seo, Jeong-Yeon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.333-337
    • /
    • 2017
  • 본 논문에서는 개체명 인식과 언어 모델의 다중 학습을 이용한 한국어 개체명 인식 방법을 제안한다. 다중 학습은 1 개의 모델에서 2 개 이상의 작업을 동시에 분석하여 성능 향상을 기대할 수 있는 방법이지만, 이를 적용하기 위해서 말뭉치에 각 작업에 해당하는 태그가 부착되어야 하는 문제가 있다. 본 논문에서는 추가적인 태그 부착 없이 정보를 획득할 수 있는 언어 모델을 개체명 인식 작업과 결합하여 성능 향상을 이루고자 한다. 또한 단순한 형태소 입력의 한계를 극복하기 위해 입력 표상을 자소 및 형태소 품사의 임베딩으로 확장하였다. 기계 학습 방법은 순차적 레이블링에서 높은 성능을 제공하는 Bi-directional LSTM CRF 모델을 사용하였고, 실험 결과 언어 모델이 개체명 인식의 오류를 효과적으로 개선함을 확인하였다.

  • PDF

KACTEIL-NER: Named Entity Recognizer Using Deep Learning and Ensemble Technique (KACTEIL-NER: 딥러닝과 앙상블 기법을 이용한 개체명 인식기)

  • Park, Geonwoo;Park, Seongsik;Jang, Yoengjin;Choi, Kihyoen;Kim, Harksoo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.324-326
    • /
    • 2017
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간 등과 같은 고유한 의미를 갖는 단어 열을 찾아 범주를 부착하는 기술이다. 기존의 연구에서는 단어 단위나 음절 단위를 입력으로 사용하였다. 하지만 단어 단위의 경우 미등록어 처리가 어려우며 음절 단위의 경우 단어 고유의 의미가 희석되는 문제가 발생한다. 이러한 문제들을 해결하기 위해 본 논문에서는 형태소 단위 개체명 인식기와 음절 단위 개체명 인식기를 앙상블하여 보정된 결과를 예측하는 개체명 인식기를 제안한다. 제안된 모델은 각각의 단일 입력 모델보다 향상된 F1-점수(0.8049)를 보였다.

  • PDF

Named Entity Recognition for Schedule Management in Mobile Devices (모바일 기기에서 일정 관리를 위한 개체명 인식)

  • Jang, Eun-Seo;Kang, Seung-Shik;Lee, Jae-Won;Kim, Do-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.171-174
    • /
    • 2013
  • 본 논문은 모바일 기기에서 일정을 메모하거나 음성 인식 등의 인터페이스로부터 일정 관리, 약속과 관련된 문구가 입력되었을 때 입력 문자열로부터 개체명을 인식하여 시간, 장소, 참석자 등을 일정 관리 시스템에 자동으로 등록하는 개체명 인식 시스템을 개발하는 방법에 관한 연구이다. 일정 관리의 편의성을 위한 개체명 인식 시스템을 개발하기 위하여 개체명 사전을 구축하고, 자연어 처리 기술을 이용하여 정확하고 향후 발전 가능성이 높은 시스템을 개발하고자 한다.

  • PDF

Bidirectional LSTM-RNNs-CRF for Named Entity Recognition in Korean (양방향 LSTM-RNNs-CRF를 이용한 한국어 개체명 인식)

  • Shin, Youhyun;Lee, Sang-goo
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.340-341
    • /
    • 2016
  • 개체명 인식은 질의 응답, 정보 검색, 기계 번역 등 다양한 분야에서 유용하게 사용되고 있는 기술이다. 개체명 인식의 경우 인식의 대상인 개체명이 대부분 새롭게 등장하거나 기존에 존재하는 단어와 중의적 의미를 갖는 고유한 단어라는 문제점이 있다. 본 논문에서는 한국어 개체명 인식에서 미등록어 및 중의성 문제를 해결하기 위한 딥 러닝 모델을 제안한다. 제안하는 모델은 형태소 및 자음/모음을 이용하여 새롭게 등장하는 단어에 대한 기존 단어와의 형태적 유사성을 고려한다. 또한 임베딩 및 양방향 LSTM-RNNs-CRF 모델을 이용하여, 각 입력 값의 문맥에 따른 의미적 유사성, 문법적 유사성을 고려한다. 제안하는 딥 러닝 모델을 사용하여, F1 점수 85.71의 결과를 얻었다.

  • PDF

Constructing Korean Named Recognition Dataset for Financial Domain Using Active Learning (능동 학습 기법을 활용한 한국어 금융 도메인 개체명 인식 데이터 구축)

  • Jeong, Dong-Ho;Heo, Min-Kang;Kim, Hyung-Chul;Park, Sang-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.82-86
    • /
    • 2020
  • 딥러닝 모델의 성능은 데이터의 품질과 양에 의해 향상된다. 그러나 데이터 구축은 많은 비용과 시간을 요구한다. 특히 전문 도메인의 데이터를 구축할 경우 도메인 지식을 갖춘 작업자를 활용할 비용과 시간이 더욱 제약적이다. 능동 학습 기법은 최소한의 데이터 구축으로 모델의 성능을 효율적으로 상승시키기 위한 방법이다. 다양한 데이터셋이 능동 학습 기법으로 구축된 바 있으나, 아직 전문 도메인의 한국어 데이터를 구축하는 연구는 활발히 수행되지 못한 것이 현실이다. 본 논문에서는 능동학습기법을 통해 금융 도메인의 개체명 인식 코퍼스를 구축하였고, 이를 통해 다음의 기여가 있다: (1) 금융 도메인 개체명 인식 코퍼스 구축에 능동 학습 기법이 효과적임을 확인하였고, (2) 이를 통해 금융 도메인 개체명 인식기를 개발하였다. 본 논문이 제안하는 방법을 통해 8,043문장 데이터를 구축하였고, 개체명 인식기의 성능은 80.84%로 달성되었다. 또한 본 논문이 제안하는 방법을 통해 약 12~25%의 예산 절감 효과가 있음을 실험으로 보였다.

  • PDF

Study on Named Entity Recognition in Korean Text (한국어 문서에서 개체명 인식에 관한 연구)

  • 이경희;이주호;최명석;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용하는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이용하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정확률과 83.4%의 재현율을 얻었다.

  • PDF

Named Entity Recognition based on CRF reflecting relative weight (상대적 가중치 자질을 반영한 CRF 기반의 개체명 인식)

  • Jeong, Jin-Wook
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.338-339
    • /
    • 2017
  • 본 논문은 개체명 인식을 위해 CRF 모델을 이용해 분류를 수행했다. 개체명 후보를 개체명으로 식별에서 중의성 문제가 필요하다. 본 논문에서는 이러한 중의성 문제 해결을 위해 학습 셋으로부터 패턴과 형태적 특성을 고려해 개체명 후보를 최대로 선택하고 선택된 개체명 후보의 중의성과 정확도를 높이기 위해 주변의 문맥 자질과 분별 확률 모델인 CRF를 이용해 중의성 문제를 해결한다.

  • PDF

Named Entity Recognition for Patent Documents Based on Conditional Random Fields (조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식)

  • Lee, Tae Seok;Shin, Su Mi;Kang, Seung Shik
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.9
    • /
    • pp.419-424
    • /
    • 2016
  • Named entity recognition is required to improve the retrieval accuracy of patent documents or similar patents in the claims and patent descriptions. In this paper, we proposed an automatic named entity recognition for patents by using a conditional random field that is one of the best methods in machine learning research. Named entity recognition system has been constructed from the training set of tagged corpus with 660,000 words and 70,000 words are used as a test set for evaluation. The experiment shows that the accuracy is 93.6% and the Kappa coefficient is 0.67 between manual tagging and automatic tagging system. This figure is better than the Kappa coefficient 0.6 for manually tagged results and it shows that automatic named entity tagging system can be used as a practical tagging for patent documents in replacement of a manual tagging.