• Title/Summary/Keyword: Named entity recognition

Search Result 154, Processing Time 0.022 seconds

Study on Named Entity Recognition in Korean Text (한국어 문서에서 개체명 인식에 관한 연구)

  • 이경희;이주호;최명석;김길창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용하는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이용하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정확률과 83.4%의 재현율을 얻었다.

  • PDF

A Prior Model of Structural SVMs for Domain Adaptation

  • Lee, Chang-Ki;Jang, Myung-Gil
    • ETRI Journal
    • /
    • v.33 no.5
    • /
    • pp.712-719
    • /
    • 2011
  • In this paper, we study the problem of domain adaptation for structural support vector machines (SVMs). We consider a number of domain adaptation approaches for structural SVMs and evaluate them on named entity recognition, part-of-speech tagging, and sentiment classification problems. Finally, we show that a prior model for structural SVMs outperforms other domain adaptation approaches in most cases. Moreover, the training time for this prior model is reduced compared to other domain adaptation methods with improvements in performance.

Named Entity Recognition for Analyzing Factors of Agrifood Price Fluctuation (농식품 가격변동 요인분석을 위한 개체명 인식)

  • Park, Chan;Lee, Kung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.347-350
    • /
    • 2020
  • 농식품 가격을 안정적으로 제공하기 위해 농식품 가격 변동에 대한 요인 분석이 필요하다. 본 연구는 농식품 가격 변동의 요인 분석을 위해 인과관계 템플릿을 정의하고, 요약을 위한 개체명 인식 방법을 적용한다. 농식품 일일동향 데이터에 대한 평가에서 딥러닝 기반 BiLSTM-CRF 실험 결과 F1-점수 0.93으로 베이스라인 Bi-LSTM 실험 결과 0.75에 비해 높은 성능을 보였다.

  • PDF

Named Entity Recognition Using Customs Data (관세데이터를 활용한 개체명 인식)

  • KyoungHun yu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.434-436
    • /
    • 2023
  • 본 연구는 관세 데이터를 BERT 기반 모델을 활용한 개체명 인식(NER)모델을 제안한다. 관세 분야 국내 첫 시도이며, 선행연구들과 달리 개체명 인식에 초점을 맞춘다. 관세 관련 텍스트에서 고유한 의미의 개체를 인식하는 것이 주요 목표이다. 이 연구는 관세 분야의 개체명 인식에 대한 이해도를 높이고 향후 HS 코드 검색 시스템 개발에 대한 기초 연구를 제공한다.

Utilizing NER for Gale-Shapley Matching Algorithm (NER 기술을 활용한 Gale-Shapely 매칭 알고리즘)

  • Sungjun Yun;Seunghyo Jo;JoEun Yang;Youngjong Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.696-697
    • /
    • 2023
  • Gale-Shapley 알고리즘의 한계를 보완하기 위해 개체명 인식(Named Entity Recognition, 이하 NER) 기술을 활용한 보완된 알고리즘 방법을 제안한다. 이를 통해 개인의 성향과 관심사를 고려하여 매칭 결과를 더욱 정확하고 효율적으로 도출할 수 있다. 이 방법은 다수의 그룹원을 가진 두 그룹 간의 매칭, 특히 1:N 매칭의 문제를 해결하는 방식을 제안한다.

Title Named Entity Recognition based on Automatically Constructed Context Patterns and Entity Dictionary (자동 구축된 문맥 패턴과 개체명 사전에 기반한 제목 개체명 인식)

  • Lee, Joo-Young;Song, Young-In;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.40-45
    • /
    • 2004
  • 본 논문에서는 영화명, 도서명, 음악명 등의 제목 개체명 인식을 위한 새로운 방법에 대해 기술한다. 제목 개체명은 개체명 내부에 기존 MUC에서 분류한 인명, 지명, 기관명 등과 같은 일반적인 개체명과는 달리, 철자 자질 등 내부 자질을 사용하기 어려우며, 제목 개체명 부착 말뭉치가 없기 때문에 기존 연구에서 좋은 성능을 보인 방법들을 적용하기는 힘들다. 이러한 문제를 해결하기 위해 본 논문에서는 원시 말뭉치에서 자동으로 구축한 문맥 패턴 정보와 개체명 사전을 사용하여 제목 개체명을 인식하는 방법을 제안한다. 패턴과 제목 개체명 사전 구축을 위해, 사전 정보를 이용한 패턴 확장과 이렇게 구축된 패턴 정보를 사용한 사전 확장 단계를 반복 수행하여 문맥 패턴과 제목 개체명 사진을 점진적으로 증가시키는 방법을 사용하였으며, 이러한 정보가 제목 개체명 인식에 도움이 됨을 실험적으로 입증하였다.

  • PDF

Detection of Adverse Drug Reactions Using Drug Reviews with BERT+ Algorithm (BERT+ 알고리즘 기반 약물 리뷰를 활용한 약물 이상 반응 탐지)

  • Heo, Eun Yeong;Jeong, Hyeon-jeong;Kim, Hyon Hee
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.11
    • /
    • pp.465-472
    • /
    • 2021
  • In this paper, we present an approach for detection of adverse drug reactions from drug reviews to compensate limitations of the spontaneous adverse drug reactions reporting system. Considering negative reviews usually contain adverse drug reactions, sentiment analysis on drug reviews was performed and extracted negative reviews. After then, MedDRA dictionary and named entity recognition were applied to the negative reviews to detect adverse drug reactions. For the experiment, drug reviews of Celecoxib, Naproxen, and Ibuprofen from 5 drug review sites, and analyzed. Our results showed that detection of adverse drug reactions is able to compensate to limitation of under-reporting in the spontaneous adverse drugs reactions reporting system.

KorPatELECTRA : A Pre-trained Language Model for Korean Patent Literature to improve performance in the field of natural language processing(Korean Patent ELECTRA)

  • Jang, Ji-Mo;Min, Jae-Ok;Noh, Han-Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.2
    • /
    • pp.15-23
    • /
    • 2022
  • In the field of patents, as NLP(Natural Language Processing) is a challenging task due to the linguistic specificity of patent literature, there is an urgent need to research a language model optimized for Korean patent literature. Recently, in the field of NLP, there have been continuous attempts to establish a pre-trained language model for specific domains to improve performance in various tasks of related fields. Among them, ELECTRA is a pre-trained language model by Google using a new method called RTD(Replaced Token Detection), after BERT, for increasing training efficiency. The purpose of this paper is to propose KorPatELECTRA pre-trained on a large amount of Korean patent literature data. In addition, optimal pre-training was conducted by preprocessing the training corpus according to the characteristics of the patent literature and applying patent vocabulary and tokenizer. In order to confirm the performance, KorPatELECTRA was tested for NER(Named Entity Recognition), MRC(Machine Reading Comprehension), and patent classification tasks using actual patent data, and the most excellent performance was verified in all the three tasks compared to comparative general-purpose language models.

Korean Named Entity Recognition Based on Supervised Learning Using Named Entily Construction Principles (개체명 구성 원리를 이용한 교사학습 기반의 한국어 개체명 인식)

  • Hwang, Yi-Gyu;Lee, Hyun-Sook;Chung, Eui-Sok;Yun, Bo-Hyun;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.111-117
    • /
    • 2002
  • 개체명 인식은 질의응답(QA), 정보 주줄(IE), 텍스트 마이닝 시스템의 성능 향상에 중요한 역할을 담당한다. 이 논문에서는 교사학습 기반의 한국어 개체명 인식에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있으며, 개체명을 구성하는 단어 사이에는 의존 관계가 존재하고, 개체명과 개체명 주위의 단어 사이에도 문맥적 의존관계를 가지고 있다. 본 논문에서는 가변길이의 개체명과 주변 문맥의 학습을 위해 트라이그램을 이용한 HMM을 사용하였으며, 자료 부족 문제를 해소하기 위해 어휘 기반이 아닌 부개체 유형 기반의 학습을 수행하였다. 학습된 개체명 인식 시스템을 이용하여 경제 분야의 신문 기사에 대한 실험 결과, 84.4%의 정확률과 90.9%의 재현률을 보였다.

  • PDF

Development of Tourism Information Named Entity Recognition Datasets for the Fine-tune KoBERT-CRF Model

  • Jwa, Myeong-Cheol;Jwa, Jeong-Woo
    • International Journal of Internet, Broadcasting and Communication
    • /
    • v.14 no.2
    • /
    • pp.55-62
    • /
    • 2022
  • A smart tourism chatbot is needed as a user interface to efficiently provide smart tourism services such as recommended travel products, tourist information, my travel itinerary, and tour guide service to tourists. We have been developed a smart tourism app and a smart tourism information system that provide smart tourism services to tourists. We also developed a smart tourism chatbot service consisting of khaiii morpheme analyzer, rule-based intention classification, and tourism information knowledge base using Neo4j graph database. In this paper, we develop the Korean and English smart tourism Name Entity (NE) datasets required for the development of the NER model using the pre-trained language models (PLMs) for the smart tourism chatbot system. We create the tourism information NER datasets by collecting source data through smart tourism app, visitJeju web of Jeju Tourism Organization (JTO), and web search, and preprocessing it using Korean and English tourism information Name Entity dictionaries. We perform training on the KoBERT-CRF NER model using the developed Korean and English tourism information NER datasets. The weight-averaged precision, recall, and f1 scores are 0.94, 0.92 and 0.94 on Korean and English tourism information NER datasets.