• Title/Summary/Keyword: 개체명 사전

Search Result 90, Processing Time 0.033 seconds

Multilingual Named Entity Recognition with Limited Language Resources (제한된 언어 자원 환경에서의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-min;Noh, Kyung-Mok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

Multilingual Named Entity Recognition with Limited Language Resources (제한된 언어 자원 환경에서의 다국어 개체명 인식)

  • Cheon, Min-Ah;Kim, Chang-Hyun;Park, Ho-min;Noh, Kyung-Mok;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

Design and Implementation of Dictionary Based Alias Search Modules on KT114 Business Search System (KT114 상호/업종 검색 시스템에서의 사전 기반 통상명 검색 모듈의 설계 및 구현)

  • 신봉근;정희정;김종수;김명호;유병규;유광일;홍희경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.327-329
    • /
    • 1998
  • KT114 상호/업종 검색 서비스에서는 데이터베이스 내의 동일한 개체에 대하여, 사용자가 입력한 상호명과 실제 데이터베이스에 저장된 상호명이 서로 다른 '통상명 검색 문자'가 존재한다. 이는 사용자가 인지하고 있는 상호명이 실제 상호명이 아니라 해당 상호의 대표적인 상표 혹은 상품명 등인 경우 발생한다. 본 논문에서는 이러한 '통상명 검색 문제'의 해결을 위하여 실제 상호와 사용자 인지 상호 간의 관계를 정의한 사전에 기반을 둔 해결 방안을 제안한다. 대용량의 자료에 대한 빠른 검색을 요구하는 시스템 특성상 사전의 구축 방식은 매우 중요한 문제이다. 본 논문에서는 사전을 구축하는 두 가지 서로 다른 접근 방법으로, 'DBMS 내부 구축 방식'과 '외부 사전 구축 방식'에 대하여 설명하고, 시스템 환경을 고려하여 두 접근 방법을 비교 및 분석한다.

Syllable-based Korean Named Entity Recognition and Slot Filling with ELECTRA (ELECTRA 모델을 이용한 음절 기반 한국어 개체명 인식과 슬롯 필링)

  • Do, Soojong;Park, Cheoneum;Lee, Cheongjae;Han, Kyuyeol;Lee, Mirye
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.337-342
    • /
    • 2020
  • 음절 기반 모델은 음절 하나가 모델의 입력이 되며, 형태소 분석을 기반으로 하는 모델에서 발생하는 에러 전파(error propagation)와 미등록어 문제를 회피할 수 있다. 개체명 인식은 주어진 문장에서 고유한 의미를 갖는 단어를 찾아 개체 범주로 분류하는 자연어처리 태스크이며, 슬롯 필링(slot filling)은 문장 안에서 의미 정보를 추출하는 자연어이해 태스크이다. 본 논문에서는 자동차 도메인 슬롯 필링 데이터셋을 구축하며, 음절 단위로 한국어 개체명 인식과 슬롯 필링을 수행하고, 성능 향상을 위하여 한국어 대용량 코퍼스를 음절 단위로 사전학습한 ELECTRA 모델 기반 학습방법을 제안한다. 실험 결과, 국립국어원 문어체 개체명 데이터셋에서 F1 88.93%, ETRI 데이터셋에서는 F1 94.85%, 자동차 도메인 슬롯 필링에서는 F1 94.74%로 우수한 성능을 보였다. 이에 따라, 본 논문에서 제안한 방법이 의미있음을 알 수 있다.

  • PDF

Fine-Grained Named Entity Recognition using Conditional Random Fields for Question Answering (Conditional Random Fields를 이용한 세부 분류 개체명 인식)

  • Lee, Chang-Ki;Hwang, Yi-Gyu;Oh, Hyo-Jung;Lim, Soo-Jong;Heo, Jeong;Lee, Chung-Hee;Kim, Hyeon-Jin;Wang, Ji-Hyun;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.268-272
    • /
    • 2006
  • 질의응답 시스템은 사용자 질의에 해당하는 정답을 찾기 위해서 세부 분류된 개체명을 사용한다. 이러한 세부 분류 개체명 인식을 위해서 대부분의 시스템이 일반 대분류 개체명인식 후에 사전 등을 이용하여 세부 분류로 나누는 방법을 이용하고 있다. 본 논문에서는 질의응답 시스템을 위한 세부 분류 개체명 인식을 위해서 Conditional Random Fields를 이용한다. 개체명 인식의 과정을 개체명 경계 인식과 경계가 인식된 개체명의 클래스 분류의 두 단계로 나누어, 개체명 경계 인식에 Conditional Random Fields를 이용하고, 경계 인식된 개체명의 클래스 분류에는 Maximum Entropy를 이용한다. 실험결과 147개의 세부분류 개체명 인식에 대해서 정확도 85.8%, 재현률 81.1%. F1=83.4의 성능을 얻었고. baseline model 보다 학습 시간이 27%로 줄고 성능은 증가하였다. 또한 제안된 세부 분류개체명 인식기를 이용하여 질의응답 시스템에 적용한 결과 26%의 성능향상을 보였다.

  • PDF

Detection of Adverse Drug Reactions Using Drug Reviews with BERT+ Algorithm (BERT+ 알고리즘 기반 약물 리뷰를 활용한 약물 이상 반응 탐지)

  • Heo, Eun Yeong;Jeong, Hyeon-jeong;Kim, Hyon Hee
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.465-472
    • /
    • 2021
  • In this paper, we present an approach for detection of adverse drug reactions from drug reviews to compensate limitations of the spontaneous adverse drug reactions reporting system. Considering negative reviews usually contain adverse drug reactions, sentiment analysis on drug reviews was performed and extracted negative reviews. After then, MedDRA dictionary and named entity recognition were applied to the negative reviews to detect adverse drug reactions. For the experiment, drug reviews of Celecoxib, Naproxen, and Ibuprofen from 5 drug review sites, and analyzed. Our results showed that detection of adverse drug reactions is able to compensate to limitation of under-reporting in the spontaneous adverse drugs reactions reporting system.

An Analysis of Named Entity Recognition System using MLM-based Language Transfer Learning (MLM 기반 언어 간 전이학습을 이용한 개체명 인식 방법론 분석)

  • Junyoung Son;Gyeongmin Kim;Jinsung Kim;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.284-288
    • /
    • 2022
  • 최근 다양한 언어모델의 구축 및 발전으로 개체명 인식 시스템의 성능은 최고 수준에 도달했다. 하지만 이와 관련된 대부분의 연구는 데이터가 충분한 언어에 대해서만 다루기 때문에, 양질의 지도학습 데이터의 존재를 가정한다. 대부분의 언어에서는 개체 유형에 대한 언어의 잠재적 특성을 충분히 학습할 수 있는 지도학습 데이터가 부족하기 때문에, 종종 자원 부족의 어려움에 직면한다. 본 논문에서는 Masked language modeling 기반 언어 간 전이학습을 이용한 개체명 인식 방법론에 대한 분석을 수행한다. 이를 위해 전이를 수행하는 소스 언어는 고자원 언어로 가정하며, 전이를 받는 타겟 언어는 저자원 언어로 가정한다. 본 논문에서는 언어모델의 토큰 사전에 언어 독립적인 가상의 자질인 개체 유형에 대한 프롬프트 토큰을 추가하고 이를 소스 언어로 학습한 뒤, 타겟 언어로 전이하는 상황에서 제안하는 방법론에 대한 평가를 수행한다. 실험 결과, 제안하는 방법론은 일반적인 미세조정 방법론보다 높은 성능을 보였으며, 한국어에서 가장 큰 영향을 받은 타겟 언어는 네덜란드어, 한국어로 전이할 때 가장 큰 영향을 준 소스 언어는 중국어인 결과를 보였다.

  • PDF

Morpheme-Based Few-Shot Learning with Large Language Models for Korean Healthcare Named Entity Recognition (한국어 헬스케어 개체명 인식을 위한 거대 언어 모델에서의 형태소 기반 Few-Shot 학습 기법)

  • Su-Yeon Kang;Gun-Woo Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.428-429
    • /
    • 2023
  • 개체명 인식은 자연어 처리의 핵심적인 작업으로, 특정 범주의 명칭을 문장에서 식별하고 분류한다. 이러한 기술은 헬스케어 분야에서 진단 지원 및 데이터 관리에 필수적이다. 그러나 기존의 사전 학습된 모델을 특정 도메인에 대해 전이학습하는 방법은 대량의 데이터에 크게 의존하는 한계를 가지고 있다. 본 연구는 방대한 데이터로 학습된 거대 언어 모델(LLM) 활용을 중심으로, 한국어의 교착어 특성을 반영하여 형태소 정보를 활용한 Few-Shot 프롬프트를 통해 한국어 헬스케어 도메인에서의 개체명 인식 방법을 제안한다.

A Study on Named Entity Recognition for Effective Dialogue Information Prediction (효율적 대화 정보 예측을 위한 개체명 인식 연구)

  • Go, Myunghyun;Kim, Hakdong;Lim, Heonyeong;Lee, Yurim;Jee, Minkyu;Kim, Wonil
    • Journal of Broadcast Engineering
    • /
    • v.24 no.1
    • /
    • pp.58-66
    • /
    • 2019
  • Recognition of named entity such as proper nouns in conversation sentences is the most fundamental and important field of study for efficient conversational information prediction. The most important part of a task-oriented dialogue system is to recognize what attributes an object in a conversation has. The named entity recognition model carries out recognition of the named entity through the preprocessing, word embedding, and prediction steps for the dialogue sentence. This study aims at using user - defined dictionary in preprocessing stage and finding optimal parameters at word embedding stage for efficient dialogue information prediction. In order to test the designed object name recognition model, we selected the field of daily chemical products and constructed the named entity recognition model that can be applied in the task-oriented dialogue system in the related domain.

Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation (자질 보강과 양방향 LSTM-CNN-CRF 기반의 한국어 개체명 인식 모델)

  • Lee, DongYub;Yu, Wonhee;Lim, HeuiSeok
    • Journal of the Korea Convergence Society
    • /
    • v.8 no.12
    • /
    • pp.55-62
    • /
    • 2017
  • The Named Entity Recognition system is a system that recognizes words or phrases with object names such as personal name (PS), place name (LC), and group name (OG) in the document as corresponding object names. Traditional approaches to named entity recognition include statistical-based models that learn models based on hand-crafted features. Recently, it has been proposed to construct the qualities expressing the sentence using models such as deep-learning based Recurrent Neural Networks (RNN) and long-short term memory (LSTM) to solve the problem of sequence labeling. In this research, to improve the performance of the Korean named entity recognition system, we used a hand-crafted feature, part-of-speech tagging information, and pre-built lexicon information to augment features for representing sentence. Experimental results show that the proposed method improves the performance of Korean named entity recognition system. The results of this study are presented through github for future collaborative research with researchers studying Korean Natural Language Processing (NLP) and named entity recognition system.