• 제목/요약/키워드: 능동 배깅

검색결과 2건 처리시간 0.013초

원거리 감독과 능동 배깅을 이용한 개체명 인식 (Named Entity Recognition Using Distant Supervision and Active Bagging)

  • 이성희;송영길;김학수
    • 정보과학회 논문지
    • /
    • 제43권2호
    • /
    • pp.269-274
    • /
    • 2016
  • 개체명 인식은 문장에서 개체명을 추출하고 추출된 개체명의 범주를 결정하는 작업이다. 기존의 개체명 인식 연구는 주로 지도 학습 기법이 사용되어 왔다. 지도 학습을 위해서는 개체명 범주가 수동으로 부착된 대용량의 학습 말뭉치가 필요하며, 대용량의 학습 말뭉치를 수동으로 구축하는 것은 시간과 인력이 많이 들어가는 일이다. 본 논문에서는 학습 말뭉치 구축비용을 최소화하면서 개체명 인식 성능을 빠르게 향상시키기 위한 준지도 학습 방법을 제안한다. 제안 방법은 초기 학습 말뭉치를 구축하기 위해 원거리 감독법을 사용한다. 그리고 배깅과 능동 학습을 결합한 앙상블 기법의 하나인 능동 배깅을 사용하여 초기 학습 말뭉치에 포함된 노이즈 문장을 효과적으로 제거한다. 실험 결과, 15회의 능동 배깅을 통해 개체명 인식 F1-점수를 67.36%에서 76.42%로 향상시켰다.

학습 데이터 확장을 통한 딥러닝 기반 인과관계 추출 모델 (Deep Learning Based Causal Relation Extraction with Expansion of Training Data)

  • 이승욱;유홍연;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-66
    • /
    • 2018
  • 인과관계 추출이란 어떠한 문장에서 인과관계가 존재하는지, 인과관계가 존재한다면 원인과 결과의 위치까지 분석하는 것을 말한다. 하지만 인과관계 관련 연구는 그 수가 적기 때문에 말뭉치의 수 또한 적으며, 기존의 말뭉치가 존재하더라도 인과관계의 특성상 새로운 도메인에 적용할 때마다 데이터를 다시 구축해야 하는 문제가 있다. 따라서 본 논문에서는 도메인 특화에 따른 데이터 구축비용 문제를 최소화하면서 새로운 도메인에서 인과관계 모델을 잘 구축할 수 있는 통계 기반 모델을 이용한 인과관계 데이터 확장 방법과 도메인에 특화되지 않은 일반적인 언어자질과 인과관계에 특화된 자질을 심층 학습 기반 모델에 적용함으로써 성능 향상을 보인다.

  • PDF