• 제목/요약/키워드: 한국어 개체명 인식 시스템

검색결과 34건 처리시간 0.035초

개체명 구성 원리를 이용한 교사학습 기반의 한국어 개체명 인식 (Korean Named Entity Recognition Based on Supervised Learning Using Named Entily Construction Principles)

  • 황이규;이현숙;정의석;윤보현;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-117
    • /
    • 2002
  • 개체명 인식은 질의응답(QA), 정보 주줄(IE), 텍스트 마이닝 시스템의 성능 향상에 중요한 역할을 담당한다. 이 논문에서는 교사학습 기반의 한국어 개체명 인식에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있으며, 개체명을 구성하는 단어 사이에는 의존 관계가 존재하고, 개체명과 개체명 주위의 단어 사이에도 문맥적 의존관계를 가지고 있다. 본 논문에서는 가변길이의 개체명과 주변 문맥의 학습을 위해 트라이그램을 이용한 HMM을 사용하였으며, 자료 부족 문제를 해소하기 위해 어휘 기반이 아닌 부개체 유형 기반의 학습을 수행하였다. 학습된 개체명 인식 시스템을 이용하여 경제 분야의 신문 기사에 대한 실험 결과, 84.4%의 정확률과 90.9%의 재현률을 보였다.

  • PDF

Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템 (Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF)

  • 이동엽;임희석
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식 (Named Entity Recognition with Structural SVMs and Pegasos algorithm)

  • 이창기;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-104
    • /
    • 2010
  • 개체명 인식은 정보 추출의 한 단계로서 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 본 논문에서는 structural Support Vector Machines(structural SVMs) 및 수정된 Pegasos 알고리즘을 이용한 한국어 개체명 인식 시스템에 대하여 기술하고 기존의 Conditional Random Fields(CRFs)를 이용한 시스템과의 성능을 비교한다. 실험결과 structural SVMs과 수정된 Pegasos 알고리즘이 기존의 CRFs 보다 높은 성능을 보였고(신뢰도 99%에서 통계적으로 유의함), structural SVMs과 수정된 Pegasos 알고리즘의 성능은 큰 차이가 없음(통계적으로 유의하지 않음)을 알 수 있었다. 특히 본 논문에서 제안하는 수정된 Pegasos 알고리즘을 이용한 경우 CRFs를 이용한 시스템보다 높은 성능 (TV 도메인 F1=85.43, 스포츠 도메인 F1=86.79)을 유지하면서 학습 시간은 4%로 줄일 수 있었다.

  • PDF

ManiFL을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using ManiFL)

  • 김완수;신준철;박서연;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-636
    • /
    • 2021
  • 개체명 인식은 주어진 문장 안의 고유한 의미가 있는 단어들을 인명, 지명, 단체명 등의 미리 정의된 개체의 범주로 분류하는 문제이다. 최근 연구에서는 딥 러닝, 대용량 언어 모델을 사용한 연구들이 활발하게 연구되어 높은 성능을 보이고 있다. 하지만 이러한 방법은 대용량 학습 말뭉치와 이를 처리할 수 있는 높은 연산 능력을 필요로 하며 모델의 실행 속도가 느려서 실용적으로 사용하기 어려운 문제가 있다. 본 논문에서는 얕은 기계 학습 기법을 적용한 ManiFL을 사용한 개체명 인식 시스템을 제안한다. 형태소의 음절, 품사 정보, 직전 형태소의 라벨만을 자질로 사용하여 실험하였다. 실험 결과 F1 score 기준 90.6%의 성능과 초당 974 문장을 처리하는 속도를 보였다.

  • PDF

Bi-directional LSTM-CNN-CRF를 이용한 한국어 개체명 인식 시스템 (Korean Entity Recognition System using Bi-directional LSTM-CNN-CRF)

  • 이동엽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-329
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식 시스템을 개발하기 위해 딥러닝 기반의 워드 임베딩(word embedding) 자질과 문장의 형태적 특징 및 기구축 사전(lexicon) 기반의 자질 구성 방법을 제안하고, bi-directional LSTM, CNN, CRF과 같은 모델을 이용하여 구성된 자질을 학습하는 방법을 제안한다. 실험 데이터는 2017 국어 정보시스템 경진대회에서 제공한 2016klpNER 데이터를 이용하였다. 실험은 전체 4258 문장 중 학습 데이터 3406 문장, 검증 데이터 426 문장, 테스트 데이터 426 문장으로 데이터를 나누어 실험을 진행하였다. 실험 결과 본 연구에서 제안하는 모델은 BIO 태깅 방식의 개체 청크 단위 성능 평가 결과 98.9%의 테스트 정확도(test accuracy)와 89.4%의 f1-score를 나타냈다.

  • PDF

한국어 지명 인식 처리를 위한 사전기반의 규칙 적용을 위한 세분화된 시스템 연구 (A Study on Recognition of Korean Place Names System on the Internet by Using the Rules of Dictionary Use)

  • 장혜숙;정규철;이진관;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.301-304
    • /
    • 2005
  • 문서의 내용을 대표하는 용어를 추출하는데 있어서 반드시 선행되어야 할 작업이 개체명 인식이다. 개체명의 범주로는 인명, 지명, 단체명, 시간, 날짜등이 있다. 높은 신뢰도의 개체명 인식은 정보추출 시스템구축을 한 차원 높일 수 있을 것이다. 일반적인 개체명 인식이나 인명의 개체명 인식에 대한 연구는 활발하게 진행되어 왔다.. 그러나 세분화된 지명 인식의 연구는 다루어지지 않았다. 본 논문에서는 한국어 지명 인식 처리를 위한 사전기반의 세분화된 규칙 적용 시스템 연구방법을 제안하고자 한다.

  • PDF

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.

규칙을 적용하여 세분화한 사전기반의 한국어 지명인식 시스템 연구 (A Study on Recognition of Korean Place Names System on the Internet by Using the Rules of Dictionary Use)

  • 장혜숙;정규철;이진관;박기홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1097-1100
    • /
    • 2005
  • 개체명 인식에 있어서 반드시 선행되어야 할 작업이 문서의 내용을 대표하는 용어의 추출이다. 높은 신뢰도의 개체명 인식은 정보추출 시스템구축을 한 차원 높일 수 있을 것이다. 지금까지 일반적인 개체명 인식이나 인명의 개체명 인식에 대한 많은 연구가 활발하게 진행되어 왔지만 세분화된 지명 인식의 연구는 다루어지지 않았다. 본 논문에서는 수작업으로 작성된 규칙을 적용하여 세분화한 사전기반의 한국어 지명인식 시스템 개발 방법을 제안한다.

  • PDF

자질 보강과 양방향 LSTM-CNN-CRF 기반의 한국어 개체명 인식 모델 (Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation)

  • 이동엽;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.55-62
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식을 하기위한 전통적인 연구방법으로는 hand-craft된 자질(feature)을 기반으로 모델을 학습하는 통계 기반의 모델이 있다. 최근에는 딥러닝 기반의 RNN(Recurrent Neural Networks), LSTM(Long-short Term Memory)과 같은 모델을 이용하여 문장을 표현하는 자질을 구성하고 이를 개체명 인식과 같이 순서 라벨링(sequence labeling) 문제 해결에 이용한 연구가 제안되었다. 본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, end-to-end learning 방식이 가능한 딥러닝 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안한다. 실험 결과 본 논문에서 제안하는 방법에 따라 자질을 보강한 한국어 개체명 인식 시스템의 성능 향상을 확인하였다. 또한 본 연구의 결과를 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통해 공개하였다.

MLM 기반 언어 간 전이학습을 이용한 개체명 인식 방법론 분석 (An Analysis of Named Entity Recognition System using MLM-based Language Transfer Learning)

  • 손준영;김경민;김진성;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.284-288
    • /
    • 2022
  • 최근 다양한 언어모델의 구축 및 발전으로 개체명 인식 시스템의 성능은 최고 수준에 도달했다. 하지만 이와 관련된 대부분의 연구는 데이터가 충분한 언어에 대해서만 다루기 때문에, 양질의 지도학습 데이터의 존재를 가정한다. 대부분의 언어에서는 개체 유형에 대한 언어의 잠재적 특성을 충분히 학습할 수 있는 지도학습 데이터가 부족하기 때문에, 종종 자원 부족의 어려움에 직면한다. 본 논문에서는 Masked language modeling 기반 언어 간 전이학습을 이용한 개체명 인식 방법론에 대한 분석을 수행한다. 이를 위해 전이를 수행하는 소스 언어는 고자원 언어로 가정하며, 전이를 받는 타겟 언어는 저자원 언어로 가정한다. 본 논문에서는 언어모델의 토큰 사전에 언어 독립적인 가상의 자질인 개체 유형에 대한 프롬프트 토큰을 추가하고 이를 소스 언어로 학습한 뒤, 타겟 언어로 전이하는 상황에서 제안하는 방법론에 대한 평가를 수행한다. 실험 결과, 제안하는 방법론은 일반적인 미세조정 방법론보다 높은 성능을 보였으며, 한국어에서 가장 큰 영향을 받은 타겟 언어는 네덜란드어, 한국어로 전이할 때 가장 큰 영향을 준 소스 언어는 중국어인 결과를 보였다.

  • PDF