• 제목/요약/키워드: named entity recognition

검색결과 157건 처리시간 0.025초

ULMS를 이용한 언어자원 구축 및 생물학적 개체명 인식 시스템 (Biological Language Resource Construction and Named Entity Recognition System using UMLS)

  • 이현숙;김태현;장현철;박수준;박선희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.833-836
    • /
    • 2003
  • 본 논문에서는 생물학적 문헌으로부터 유의미한 정보를 추출하는 바이오 텍스트 마이닝의 기본 단계인 생물학적 개체명 인식 모델을 제안하였다. 기존의 생물학적 개체명 인식은 규칙 혹은 코퍼스 구축뿐만 아니라 개체명 인식에 요구되는 기본 자원을 구축하는데만도 많은 시간과 비용이 요구되므로 한정된 도메인을 대상으로 연구가 진행되어 왔다. 본 논문에서 제안하는 개체명 인식 방법은 이러한 비용 문제 및 새로운 도메인으로의 이식성 문제를 극복하기 위해 UMLS 로부터 통계적인 방법으로 정보를 추출해 기본적인 언어자원을 구축하고 이를 이용해 규칙을 생성함으로써 개체명인식을 수행한다. 본 연구에서 제안하는 방법은 바이오 텍스트 마이닝 연구의 도메인 한정적인 문제를 해결하는데 기여할 수 있을 것으로 기대된다.

  • PDF

SVM을 이용한 중국어 고유명사 식별에서의 자질 선택 (Feature Selection for Chinese Named Entity Recognition using SVM)

  • 김풍;나승훈;강인수;리금희;김동일;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.90-95
    • /
    • 2004
  • "고유명사 식별"은 사전에 등록되어 있지 않은 고유명사를 찾아내고 분류하는 과정으로 주로 인명, 지명, 조직 명을 처리 대상으로 한다. 처리할 데이터는 점점 많아지고 고유명사는 수시로 생겨나기 때문에 고유명사 식별은 정보검색, 질의응답, 기계번역시스템의 핵심 기술 중의 하나로 부각되었다. 고유명사 식별에 있어 정확률과 더불어 식별속도와 식별모듈의 크기가 시스템의 성능에 미치는 문제도 쟁점이 되고 있다. 본 논문에서는 SVM과 자질선택을 결합한 다양한 실험을 통하여 중국어 고유명사의 식별 효율을 높이는 방법을 연구하였다.

  • PDF

모바일 기기에서 일정 관리를 위한 개체명 인식 (Named Entity Recognition for Schedule Management in Mobile Devices)

  • 장은서;강승식;이재원;김도현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.171-174
    • /
    • 2013
  • 본 논문은 모바일 기기에서 일정을 메모하거나 음성 인식 등의 인터페이스로부터 일정 관리, 약속과 관련된 문구가 입력되었을 때 입력 문자열로부터 개체명을 인식하여 시간, 장소, 참석자 등을 일정 관리 시스템에 자동으로 등록하는 개체명 인식 시스템을 개발하는 방법에 관한 연구이다. 일정 관리의 편의성을 위한 개체명 인식 시스템을 개발하기 위하여 개체명 사전을 구축하고, 자연어 처리 기술을 이용하여 정확하고 향후 발전 가능성이 높은 시스템을 개발하고자 한다.

  • PDF

양방향 LSTM-RNNs-CRF를 이용한 한국어 개체명 인식 (Bidirectional LSTM-RNNs-CRF for Named Entity Recognition in Korean)

  • 신유현;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.340-341
    • /
    • 2016
  • 개체명 인식은 질의 응답, 정보 검색, 기계 번역 등 다양한 분야에서 유용하게 사용되고 있는 기술이다. 개체명 인식의 경우 인식의 대상인 개체명이 대부분 새롭게 등장하거나 기존에 존재하는 단어와 중의적 의미를 갖는 고유한 단어라는 문제점이 있다. 본 논문에서는 한국어 개체명 인식에서 미등록어 및 중의성 문제를 해결하기 위한 딥 러닝 모델을 제안한다. 제안하는 모델은 형태소 및 자음/모음을 이용하여 새롭게 등장하는 단어에 대한 기존 단어와의 형태적 유사성을 고려한다. 또한 임베딩 및 양방향 LSTM-RNNs-CRF 모델을 이용하여, 각 입력 값의 문맥에 따른 의미적 유사성, 문법적 유사성을 고려한다. 제안하는 딥 러닝 모델을 사용하여, F1 점수 85.71의 결과를 얻었다.

  • PDF

문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용 (Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition)

  • 민진우;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.99-101
    • /
    • 2016
  • 문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능 향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.

  • PDF

한국어 문서에서 개체명 인식에 관한 연구 (Study on Named Entity Recognition in Korean Text)

  • 이경희;이주호;최명석;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙 기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용되는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이응하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정화률과 83.4%의 재현율을 얻었다.

  • PDF

Cotraining 학습을 이용한 한국어 개체명 인식 (Korean Named Entity Recognition using Cotraining-based Learning)

  • 이현숙;정의석;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.597-600
    • /
    • 2002
  • 본 논문에서는 정보추출 및 정보검색, 문서요약과 같은 자연어처리 응용에서 중요한 역할을 하는 개체명 인식 모델을 제안하였다. 기존의 한국어 개체명 인식에 관한 연구는 규칙 기반 연구의 경우 수동으로 생성한 규칙이나 어휘사전에 매우 의존적이고, 통계기반의 연구의 경우 개체명이 태깅된 대량의 학습데이터를 필요로 하므로 새로운 도메인으로의 이식성 관점에서 한계가 있다. 이를 극복하기 위해 본 논문에서는 개체명이 태깅되지 않은 학습데이터를 이용하여 Cotraining 기반 학습을 수행함으로써 개체명 인식을 위한 규칙과 사전을 자동적으로 확장하였다. 실험 결과, 경제분야 문서에 대해 87.6%의 정확률을 보였다.

  • PDF

SVM을 이용한 중국어 개체명 식별 (Recognition Of Chinese Named-Entity Using Support Vector Machine)

  • 김풍;나승훈;강인수;리금희;김동일;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.934-936
    • /
    • 2004
  • 본문에서는 최근 들어 각광을 받고 있는 패턴인식 방법론인 Support Vector Machine을 이용하여 중국어 개체명을 식별하는 방법을 제안하고자 한다. SVM(support vector machine)은 입력 자질이 많을 경우에도 안정적인 성능을 나타내고 보편적으로 적용할 수 있는 모델을 개발할 수 있는 장점이 있다. 실험에서 어휘. 품사, 의미부류 등 많은 수의 자질을 이용하였다. 실험결과는 본문에서 제안한 방법이 튜닝을 거치지 않아도 좋은 성능을 나타낼 수 있고, 수행 속도도 만족스럽다는 것을 보여주었다.

  • PDF

바이오 문헌에서의 단백질, 유전자 객체 인식을 위한 특징 추출 (Feature Selection for Bio Named Entity Recognition from Biological Literature)

  • 김태욱;이미정;;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.166-168
    • /
    • 2012
  • 바이오 문헌으로부터의 의미 있는 객체 추출 및 상호작용 관계 추출은 수 많은 바이오 문헌으로부터 유용한 정보를 얻기 위한 필수적인 과정이다. 특히 문헌으로부터 유전자 또는 단백질 이름과 같은 바이오 객체를 정확하게 인지하는 것은 새로운 객체인식의 어려움과 객체를 찾기 위한 특징 패턴의 다양성으로 인해 도전적인 과제로 남아있다. 본 논문에서는 전처리 과정을 거친 문헌 데이터로부터 12개의 의미 있는 속성들을 선택하였다. 선택된 속성에 데이터마이닝 기법중 하나인 속성 추출 기법을 적용하여 객체를 분류하는데 있어 의미 있는 속성들을 추출하였다. 특징 추출 방법과 분류 알고리즘이 분류 성능에 미치는 영향을 평가하기 위해 각 방법의 정확도를 사용하여 분류 성능을 비교였으며, Gain Ratio Attribute Evaluation과 Symmetrical Uncertainty Attribute Evaluation 기법에 의해 추출된 속성이 가장 정확한 분류 성능을 보여주었다.

BERT 를 활용한 한국어 개체명 인식기 (Korean Named Entity Recognition using BERT)

  • 황석현;신석환;최동근;김성현;김재은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.820-822
    • /
    • 2019
  • 개체명이란, 문서에서 특정한 의미를 가지고 있는 단어나 어구를 뜻하는 말로 사람, 기관명, 지역명, 날짜, 시간 등이 있으며 이 개체명을 찾아서 해당하는 의미의 범주를 결정하는 것을 개체명 인식이라고 한다. 본 논문에서는 BERT(Bidirectional Encoder Representations from Transformers) 활용한 한국어 개체명 인식기를 제안한다. 제안하는 모델은 기 학습된 BERT 모델을 활용함으로써 성능을 극대화하여, 최종 F1-Score 는 90.62 를 달성하였고, Bi-LSTM-Attention-CRF 모델에 비해 매우 뛰어난 결과를 보였다.