• 제목/요약/키워드: Eojeol Syntactic Tag

검색결과 2건 처리시간 0.016초

엔트로피 지도 CRF를 이용한 한국어 어절 구문태그 예측 (Eojeol Syntactic Tag Prediction of Korean Text using Entropy Guided CRF)

  • 오진영;차정원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권5호
    • /
    • pp.395-399
    • /
    • 2009
  • 본 연구에서는 의사결정나무와 Conditional Random Fields(CRFs)를 이용하여 한국어 어절 구문태그를 예측하는 시스템에 대해서 설명한다. 기계학습에서 자질의 선택은 작성자의 직관에 의해서 주로 이루어지는데 이는 작성자의 지식에 의존한다. 본 연구에서는 의사결정나무를 사용하여 보다 체계적으로 조합이 이루어지도록 하였다. 또한 오류 분석을 통하여 최적의 자질이 무엇인지를 파악하여 최고의 성능을 보이도록 하였다. 실험을 통하여 본 논문에서 제안한 방법이 성능향상에 도움이 된다는 것을 확인할 수 있어 앞으로 구문 분석에 많은 도움이 될 것이라고 확신한다.

다단계 구단위화를 이용한 고속 한국어 의존구조 분석 (High Speed Korean Dependency Analysis Using Cascaded Chunking)

  • 오진영;차정원
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.103-111
    • /
    • 2010
  • 한국어 처리에서 구문분석기에 대한 요구는 많은 반면 성능의 한계와 강건함의 부족으로 인해 채택되지 못하는 것이 현실이다. 본 연구는 구문분석을 레이블링 문제로 전환하여 성능, 속도, 강건함을 모두 실현한 시스템에 대해서 설명한다. 우리는 다단계 구 단위화(Cascaded Chunking)를 통해 한국어 구문분석을 시도한다. 각 단계에서는 어절별 품사 태그와 어절 구문표지를 자질로 사용하고 CRFs(Conditional Random Fields)를 이용하여 최적의 결과를 얻는다. 58,175문장 세종 구문 코퍼스로 10-fold Cross Validation(평균 10.97어절)으로 실험한 결과 평균 86.01%의 구문 정확도를 보였다. 이 결과는 기존에 제안되었던 구문분석기와 대등하거나 우수한 성능이며 기존 구문분석기가 처리하지 못하는 장문도 처리 가능하다.