• 제목/요약/키워드: entity extraction

검색결과 86건 처리시간 0.026초

A Review of the Opinion Target Extraction using Sequence Labeling Algorithms based on Features Combinations

  • Aziz, Noor Azeera Abdul;MohdAizainiMaarof, MohdAizainiMaarof;Zainal, Anazida;HazimAlkawaz, Mohammed
    • 인터넷정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.111-119
    • /
    • 2016
  • In recent years, the opinion analysis is one of the key research fronts of any domain. Opinion target extraction is an essential process of opinion analysis. Target is usually referred to noun or noun phrase in an entity which is deliberated by the opinion holder. Extraction of opinion target facilitates the opinion analysis more precisely and in addition helps to identify the opinion polarity i.e. users can perceive opinion in detail of a target including all its features. One of the most commonly employed algorithms is a sequence labeling algorithm also called Conditional Random Fields. In present article, recent opinion target extraction approaches are reviewed based on sequence labeling algorithm and it features combinations by analyzing and comparing these approaches. The good selection of features combinations will in some way give a good or better accuracy result. Features combinations are an essential process that can be used to identify and remove unneeded, irrelevant and redundant attributes from data that do not contribute to the accuracy of a predictive model or may in fact decrease the accuracy of the model. Hence, in general this review eventually leads to the contribution for the opinion analysis approach and assist researcher for the opinion target extraction in particular.

Deep recurrent neural networks with word embeddings for Urdu named entity recognition

  • Khan, Wahab;Daud, Ali;Alotaibi, Fahd;Aljohani, Naif;Arafat, Sachi
    • ETRI Journal
    • /
    • 제42권1호
    • /
    • pp.90-100
    • /
    • 2020
  • Named entity recognition (NER) continues to be an important task in natural language processing because it is featured as a subtask and/or subproblem in information extraction and machine translation. In Urdu language processing, it is a very difficult task. This paper proposes various deep recurrent neural network (DRNN) learning models with word embedding. Experimental results demonstrate that they improve upon current state-of-the-art NER approaches for Urdu. The DRRN models evaluated include forward and bidirectional extensions of the long short-term memory and back propagation through time approaches. The proposed models consider both language-dependent features, such as part-of-speech tags, and language-independent features, such as the "context windows" of words. The effectiveness of the DRNN models with word embedding for NER in Urdu is demonstrated using three datasets. The results reveal that the proposed approach significantly outperforms previous conditional random field and artificial neural network approaches. The best f-measure values achieved on the three benchmark datasets using the proposed deep learning approaches are 81.1%, 79.94%, and 63.21%, respectively.

KONG-DB: 웹 상의 어휘 사전을 활용한 한국 소설 지명 DB, 검색 및 시각화 시스템 (KONG-DB: Korean Novel Geo-name DB & Search and Visualization System Using Dictionary from the Web)

  • 박성희
    • 정보관리학회지
    • /
    • 제33권3호
    • /
    • pp.321-343
    • /
    • 2016
  • 본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구 (Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation)

  • 정창후;최윤수;서정현;윤화묵
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.67-77
    • /
    • 2006
  • 기존의 도메인 지식 기반의 랩퍼 학습 방법은 도메인에 대한 정보를 바탕으로 해당 정보 소스에 대한 랩퍼를 생성한다. 용용 분야에 맞게 정의된 도메인 지식을 이용함으로써 정보 소스에서 제공하는 다양한 텍스트의 의미와 형태를 이해할 수 있다. 그러나 정보 소스에서 제공되는 모든 텍스트에 의미 인식의 근거가 되는 레이블이 붙어서 제공되는 것이 아니기 때문에 도메인 지식만을 이용해서 랩퍼를 학습하는 방법은 한계에 부딪힐 수밖에 없다. 이러한 문제를 해결하기 위해서 본 논문은 인터넷에 존재하는 다양한 웹 정보 소스에서 효율적이고 정확하게 랩퍼를 생성하는 도메인 지식 기반의 확률적 랩퍼 생성 시스템을 제안한다. 효율적이고 정확한 랩퍼 생성 시스템을 구축하기 위해서 도메인 지식뿐 아니라 상세 정보로 연결되어 있는 하이퍼링크와 엔티티 인식을 위한 확률 모델을 이용한다. 이와 같은 방법을 적용함으로써 사용자의 개입 없이 다양한 정보 소스에 대해서 보다 추출 성능이 좋은 랩퍼를 생성할 수 있다.

  • PDF

PubMiner: Machine Learning-based Text Mining for Biomedical Information Analysis

  • Eom, Jae-Hong;Zhang, Byoung-Tak
    • Genomics & Informatics
    • /
    • 제2권2호
    • /
    • pp.99-106
    • /
    • 2004
  • In this paper we introduce PubMiner, an intelligent machine learning based text mining system for mining biological information from the literature. PubMiner employs natural language processing techniques and machine learning based data mining techniques for mining useful biological information such as protein­protein interaction from the massive literature. The system recognizes biological terms such as gene, protein, and enzymes and extracts their interactions described in the document through natural language processing. The extracted interactions are further analyzed with a set of features of each entity that were collected from the related public databases to infer more interactions from the original interactions. An inferred interaction from the interaction analysis and native interaction are provided to the user with the link of literature sources. The performance of entity and interaction extraction was tested with selected MEDLINE abstracts. The evaluation of inference proceeded using the protein interaction data of S. cerevisiae (bakers yeast) from MIPS and SGD.

사전학습 언어모델과 GCN을 이용한 한국어 관계 추출 (Korean Relation Extraction Using Pre-Trained Language Model and GCN)

  • 이제승;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.379-384
    • /
    • 2022
  • 관계 추출은 두 개체 간의 관계를 식별하는 작업이며, 비정형 텍스트를 구조화시키는 역할을 하는 작업 중 하나이다. 현재 관계 추출에서 다양한 모델에 대한 연구들이 진행되고 있지만, 한국어 관계 추출 모델에 대한 연구는 영어에 비해 부족하다. 따라서 본 논문에서는 NE(Named Entity)태그 정보가 반영된 TEM(Typed Entity Marker)과 의존 구문 그래프를 이용한 한국어 관계 추출 모델을 제안한다. 모델의 학습과 평가 말뭉치는 KLUE에서 제공하는 관계 추출 학습 말뭉치를 사용하였다. 실험 결과 제안 모델이 68.57%의 F1 점수로 실험 모델 중 가장 높은 성능을 보여 NE태그와 구문 정보가 관계 추출 성능을 향상시킬 수 있음을 보였다.

  • PDF

기계학습 기반 개체명 인식을 위한 사전 자질 생성 (Feature Generation of Dictionary for Named-Entity Recognition based on Machine Learning)

  • 김재훈;김형철;최윤수
    • 정보관리연구
    • /
    • 제41권2호
    • /
    • pp.31-46
    • /
    • 2010
  • 오늘날 정보 추출의 한 단계로서 개체명 인식은 정보검색 분야 뿐 아니라 질의응답과 요약 분야에서 매우 유용하게 사용되고 있다. 개체명은 일반 단어와 달리 다양한 문서에서 꾸준히 생성되고 변화되고 있다. 이와 같은 개체명의 특성 때문에 여러 응용 시스템에서 미등록어 문제가 야기된다. 본 논문에서는 이런 미등록어 문제를 해결하기 위해 기계학습 기반 개체명 인식 시스템을 위한 새로운 자질 생성 방법을 제안한다. 일반적으로 기계학습 기반 개체명 인식 시스템은 단어 단위의 자질을 사용하므로 구절 단위의 개체명을 그대로 자질로 사용할 수 없다. 이 문제를 해결하기 위해 본 논문에서는 새로운 구절 단위의 정보를 단어 단위의 자질로 변환하는 자질 생성 방법을 제안하였다. 이 방법으로 개체명 사전과 WordNet을 개체명 인식의 자질로 사용할 수 있었다. 그 결과 영어 개체명 시스템은 F1 점수의 약 6%가 향상되었고 오류의 약 38%가 줄어들었다.

Cavernous sinus thrombosis following dental extraction: a rare case report and forgotten entity

  • Aggarwal, Karun;Rastogi, Sanjay;Joshi, Atul;Kumar, Ashish;Chaurasia, Archana;Prakash, Rajat
    • Journal of the Korean Association of Oral and Maxillofacial Surgeons
    • /
    • 제43권5호
    • /
    • pp.351-355
    • /
    • 2017
  • Prior to the advent of efficacious antimicrobial agents, the mortality rate from cavernous sinus thrombosis (CST) was effectively 100%. There have been very few reports of CST associated with tooth extraction. A 40-year-old female presented to the emergency room with swelling over the right side of the face and history of extraction in the upper right region by an unregistered dental practitioner. The patient presented with diplopia, periorbital ecchymosis, and chemosis of the right eye. A computed tomography scan revealed venous dilatation of the right superior ophthalmic vein. The patient was immediately treated with incision and drainage, intravenous antibiotics, and heparin (low molecular weight). Unfortunately, the patient died two days after surgery due to complications from the disease. CST is a rare disease with a high mortality rate. Therefore, dental health education in rural areas, legal action against unregistered dental practitioners, early diagnosis, and aggressive antibiotic treatment can prevent future mortality resulting from CST.

생의학분야 PLOT 및 관계추출을 위한 테스트컬렉션 구축 (Construction of Test Collection for Extraction of Biomedical PLOT & Relations)

  • 최윤수;최성필;정창후
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집
    • /
    • pp.425-427
    • /
    • 2010
  • 대용량 문서에서 정보를 추출하는 작업은 크게 개체명 인식, 전문용어 인식, 관계추출 작업으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어 왔기 때문에, 이와 관련된 기계학습모델을 위한 테스트컬렉션 또한 독립적으로 구축되어 왔다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많아, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따르므로, 개체명과 전문용어를 동시에 추출 할 수 있는 기계학습 모델을 위한 테스트컬렉션이 필요하다. 본 연구에서는 생의학 분야 과학기술문헌에 대한 개체명, 전문용어를 통합한 PLOT(Person, Location, Organization, Terminology)과, PLOT 간의 관계추출을 위한 테스트컬렉션을 구축한다.

  • PDF

패턴 학습을 이용한 고유명사 추출 (Proper Noun Extraction Using Pattern Learning)

  • 김현준;김정화;강승식;우종우;윤보현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.184-186
    • /
    • 2001
  • 본 논문은 고유명사를 활용하여 특정 정보를 좀더 효율적으로 추출하기 위한 연구이며, Named Entity의 한 범주인 사람 이름에 대하여 어휘 사전이나 실마리 사전의 사용 없이 초기에 주어지는 몇 개의 인칭 명사들을 태그가 부착되지 않은 코퍼스에 적용시켜 고유명사 추출을 위한 패턴을 학습하고, 그 패턴을 적용하여 새로운 고유명사를 생성해 내는 작업을 통해 인칭 명사들을 효율적으로 추출할 수 있는 방법을 제안한다.

  • PDF