• 제목/요약/키워드: Korean Named Entity Recognition

검색결과 88건 처리시간 0.024초

바이오 문헌에서의 단백질, 유전자 객체 인식을 위한 특징 추출 (Feature Selection for Bio Named Entity Recognition from Biological Literature)

  • 김태욱;이미정;;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.166-168
    • /
    • 2012
  • 바이오 문헌으로부터의 의미 있는 객체 추출 및 상호작용 관계 추출은 수 많은 바이오 문헌으로부터 유용한 정보를 얻기 위한 필수적인 과정이다. 특히 문헌으로부터 유전자 또는 단백질 이름과 같은 바이오 객체를 정확하게 인지하는 것은 새로운 객체인식의 어려움과 객체를 찾기 위한 특징 패턴의 다양성으로 인해 도전적인 과제로 남아있다. 본 논문에서는 전처리 과정을 거친 문헌 데이터로부터 12개의 의미 있는 속성들을 선택하였다. 선택된 속성에 데이터마이닝 기법중 하나인 속성 추출 기법을 적용하여 객체를 분류하는데 있어 의미 있는 속성들을 추출하였다. 특징 추출 방법과 분류 알고리즘이 분류 성능에 미치는 영향을 평가하기 위해 각 방법의 정확도를 사용하여 분류 성능을 비교였으며, Gain Ratio Attribute Evaluation과 Symmetrical Uncertainty Attribute Evaluation 기법에 의해 추출된 속성이 가장 정확한 분류 성능을 보여주었다.

검색어 생성을 위한 딥 러닝 기반 문장 분석 연구 (Deep Learning based Sentence Analysis for Query Generation)

  • 나성원;윤경로
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2018년도 하계학술대회
    • /
    • pp.336-337
    • /
    • 2018
  • 최근 이미지의 Visual 정보를 추출하고 Multi label 분류를 통해 나온 결과의 상관관계를 modeling하여 문장으로 출력하는 CNN-RNN 아키텍처가 많은 발전을 이뤘다. 이 아키텍처의 출력은 이미지의 정보가 요약되어 문장으로 표현되기 때문에 Semantic정보가 풍부하여 유사 콘텐츠 검색에도 사용 가능하다. 하지만 결과 문장에 사람이 포함 되면 광범위한 검색 결과를 얻게 되고 부정확한 결과를 초래하게 된다. 이에 본 논문에서는 문장에서 사람을 인식하여 Identity를 부여함으로써 검색어를 좀 더 구체적으로 생성하고자 한다. 이 문제를 해결하기 위해 자연어 처리의 분야 중 하나인 개체명 인식(Named Entity Recognition) 문제로 다루며, 가장 많이 사용되고 있는 모델인 Bidirectional-LSTM-CRF와 CoNLL2003 dataset을 사용하여 수행 한다.

  • PDF

한국어 특질을 고려한 단어 벡터의 Bi-LSTM 기반 개체명 모델 적용 (Application of Word Vector with Korean Specific Feature to Bi-LSTM model for Named Entity Recognition)

  • 남석현;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-150
    • /
    • 2017
  • Deep learning의 개발에 따라 개체명 인식에도 neural network가 적용된 연구가 활발히 일어나고 있다. 영어권 개체명 인식에서는 F1 score 90%을 웃도는 성능을 내는 연구들이 나오고 있다. 하지만 한국어는 영어와 언어적 특질이 많이 달라 이를 그대로 적용시키는 데는 어려움이 있어 영어권 개체명 인식기에 비해 비교적 낮은 성능을 보인다. 본 논문에서는 "하다" 접사의 동사형이 보존된 워드 임베딩을 사용하고 한국어 개체명의 특징을 담은 one-hot 벡터를 추가하여 한국어의 특질에 보다 적합한 데이터를 deep learning 기술에 적용하였다.

  • PDF

의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 (Performance Comparison of Recurrent Neural Networks and Conditional Random Fields in Biomedical Named Entity Recognition)

  • 조병철;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.321-323
    • /
    • 2016
  • 최근 연구에서 기계학습 중 지도학습 방법으로 개체명 인식을 하고 있다. 그러나 지도 학습 방법은 데이터를 만드는 비용과 시간이 많이 필요로 한다. 본 연구에서는 주석 된 말뭉치를 사용하여 지도 학습 방법을 사용 한다. 의생명 개체명 인식은 Protein, RNA, DNA, Cell type, Cell line 등을 포함한 텍스트 처리에 중요한 기초 작업입니다. 그리고 의생명 지식 검색에서 가장 기본과 핵심 작업 중 하나이다. 본 연구에서는 순환형 신경망과 워드 임베딩을 자질로 사용한 조건적 임의 필드에 대한 성능을 비교한다. 조건적 임의 필드에 N_Gram만을 자질로 사용한 것을 기준점으로 설정 하였고, 기준점의 결과는 70.09% F1 Score이다. RNN의 jordan type은 60.75% F1 Score, elman type은 58.80% F1 Score의 성능을 보여준다. 조건적 임의 필드에 CCA, GLOVE, WORD2VEC을 사용 한 결과는 각각 72.73% F1 Score, 72.74% F1 Score, 72.82% F1 Score의 성능을 얻을 수 있다.

  • PDF

Bidirectional LSTM CRFs를 이용한 한국어 개체명 인식 (Named-entity Recognition Using Bidirectional LSTM CRFs)

  • 송치윤;양성민;강상우
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.321-323
    • /
    • 2017
  • 개체명 인식은 문서 내에서 고유한 의미를 갖는 인명, 기관명, 지명, 시간, 날짜 등을 추출하여 그 종류를 결정하는 것을 의미한다. Bidirectional LSTM CRFs 모델은 연속성을 갖는 데이터에 가장 적합한 RNN기반의 심층 학습모델로서 개체명 인식 연구에 가장 우수한 성능을 보여준다. 본 논문에서는 한국어 개체명 인식을 위하여 Bidirectional LSTM CRFs 모델을 사용하고, 입력 자질로 단어뿐만 아니라 품사 임베딩 모델과, 개체명 사전을 활용하여 입력 자질을 구성한다. 또한 입력 자질에 대한 벡터의 크기를 최적화 하여 기본 모델보다 성능이 향상되었음을 증명하였다.

  • PDF

양방향 LSTM-RNNs-CRF를 이용한 한국어 개체명 인식 (Bidirectional LSTM-RNNs-CRF for Named Entity Recognition in Korean)

  • 신유현;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.340-341
    • /
    • 2016
  • 개체명 인식은 질의 응답, 정보 검색, 기계 번역 등 다양한 분야에서 유용하게 사용되고 있는 기술이다. 개체명 인식의 경우 인식의 대상인 개체명이 대부분 새롭게 등장하거나 기존에 존재하는 단어와 중의적 의미를 갖는 고유한 단어라는 문제점이 있다. 본 논문에서는 한국어 개체명 인식에서 미등록어 및 중의성 문제를 해결하기 위한 딥 러닝 모델을 제안한다. 제안하는 모델은 형태소 및 자음/모음을 이용하여 새롭게 등장하는 단어에 대한 기존 단어와의 형태적 유사성을 고려한다. 또한 임베딩 및 양방향 LSTM-RNNs-CRF 모델을 이용하여, 각 입력 값의 문맥에 따른 의미적 유사성, 문법적 유사성을 고려한다. 제안하는 딥 러닝 모델을 사용하여, F1 점수 85.71의 결과를 얻었다.

  • PDF

문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용 (Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition)

  • 민진우;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-101
    • /
    • 2016
  • 문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능 향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.

  • PDF

한국어 문서에서 개체명 인식에 관한 연구 (Study on Named Entity Recognition in Korean Text)

  • 이경희;이주호;최명석;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙 기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용되는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이응하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정화률과 83.4%의 재현율을 얻었다.

  • PDF

Cotraining 학습을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using Cotraining-based Learning)

  • 이현숙;정의석;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.597-600
    • /
    • 2002
  • 본 논문에서는 정보추출 및 정보검색, 문서요약과 같은 자연어처리 응용에서 중요한 역할을 하는 개체명 인식 모델을 제안하였다. 기존의 한국어 개체명 인식에 관한 연구는 규칙 기반 연구의 경우 수동으로 생성한 규칙이나 어휘사전에 매우 의존적이고, 통계기반의 연구의 경우 개체명이 태깅된 대량의 학습데이터를 필요로 하므로 새로운 도메인으로의 이식성 관점에서 한계가 있다. 이를 극복하기 위해 본 논문에서는 개체명이 태깅되지 않은 학습데이터를 이용하여 Cotraining 기반 학습을 수행함으로써 개체명 인식을 위한 규칙과 사전을 자동적으로 확장하였다. 실험 결과, 경제분야 문서에 대해 87.6%의 정확률을 보였다.

  • PDF

BERT 를 활용한 한국어 개체명 인식기 (Korean Named Entity Recognition using BERT)

  • 황석현;신석환;최동근;김성현;김재은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.820-822
    • /
    • 2019
  • 개체명이란, 문서에서 특정한 의미를 가지고 있는 단어나 어구를 뜻하는 말로 사람, 기관명, 지역명, 날짜, 시간 등이 있으며 이 개체명을 찾아서 해당하는 의미의 범주를 결정하는 것을 개체명 인식이라고 한다. 본 논문에서는 BERT(Bidirectional Encoder Representations from Transformers) 활용한 한국어 개체명 인식기를 제안한다. 제안하는 모델은 기 학습된 BERT 모델을 활용함으로써 성능을 극대화하여, 최종 F1-Score 는 90.62 를 달성하였고, Bi-LSTM-Attention-CRF 모델에 비해 매우 뛰어난 결과를 보였다.