• 제목/요약/키워드: Linear-Chain CRF

검색결과 7건 처리시간 0.02초

Semi-CRF or Linear-Chain CRF? 한국어 형태소 분할 및 품사 태깅을 위한 결합 모델 비교 (Semi-CRF or Linear-chain CRF? A Comparative Study of Joint Models for Korean Morphological Analysis and POS Tagging)

  • 나승훈;김창현;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-12
    • /
    • 2013
  • 본 논문에서는 한국어 형태소 분할 및 품사 태깅 방법을 위한 결합 모델로 Semi-CRF와 Linear-chain CRF에 대한 초기 비교 실험을 수행한다. Linear-chain방법은 출력 레이블을 형태소 분할 정보와 품사 태그를 조합함으로써 결합을 시도하는 방식이고, Semi-CRF는 출력의 구조가 분할과 태깅 정보를 동시에 포함하도록 표현함으로써, 디코딩 과정에서 분할과 태깅을 동시에 수행하는 방법이다. Sejong품사 부착말뭉치에서 비교결과 Linear-chain방법이 Semi-CRF방법보다 우수한 성능을 보여주었다.

  • PDF

양방향 LSTM과 선형체인 CRF를 이용한 복합명사 분해 (Compound Noun Decomposition by using Bi-LSTM and Linear-chain CRF)

  • 이현영;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.719-720
    • /
    • 2018
  • 복합명사 분해 문제를 태그열 부착 문제로 정의하고 음절 임베딩과 딥러닝을 이용하여 복합명사를 분해하는 방법을 제안한다. 임베딩 방식으로는 음절 단위로 복합명사에 출현한 음절들을 벡터 공간에 표현하고 양방향 LSTM과 선형체인(linear-chain) CRF를 이용하여 복합명사 분해 태그를 부착하여 복합명사를 단위명사들로 분해하였다.

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해 (Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.74-79
    • /
    • 2019
  • 기존의 복합명사 분해 알고리즘은 미등록어 단위명사들이 포함된 복합명사를 분해할 때 미등록어를 분리하기 어려운 문제가 발생한다. 이는 현실적으로 모든 고유명사, 신조어, 외래어 등의 모든 단위 명사를 사전에 등록하는 것은 불가능하다는 한계가 존재하기 때문이다. 이 문제를 해결하기 위하여 복합명사 분해 문제를 태그 열 부착(sequence labeling) 문제로 정의하고 음절 단위 임베딩과 딥러닝 기법을 이용하는 복합명사 분해 방법을 제안한다. 단위명사 사전을 구축하지 않고 미등록 단위명사를 인식하기 위하여 복합명사를 구성하는 각 음절들을 연속적인 벡터 공간에 표현하여 LSTM과 선형체인(linear-chain) CRF를 이용하는 방식으로 복합명사를 단위명사들로 분해한다.

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 (Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅 (Lattice-based Discriminative Approach for Korean Morphological Analysis)

  • 나승훈;김창현;김영길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.523-532
    • /
    • 2014
  • 본 논문에서는 래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅을 수행하는 방법을 제안한다. 제안하는 방법은 입력문이 주어질 때 어휘 사전(lexicon)을 참조하여, 형태소를 노드로 취하고 인접형태소간의 에지를 갖도록 래티스를 구성하며, 구성된 래티스상 가장 점수가 높은 경로상에 있는 형태소들을 분석 결과로 제시하는 방법이다. 실험 결과, ETRI 품사 부착 코퍼스에서 기존의 1차 linear-chain CRF에 기반한 방법보다 높은 어절 정확률 그리고 문장 정확률을 얻었다.

래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅 (Lattice-based discriminative approach for Korean morphological analysis and POS tagging)

  • 나승훈;김창현;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2013
  • 본 논문에서는 래티스상의 구조적 분류에 기반한 한국어 형태소 분석 및 품사 태깅을 수행하는 방법을 제안한다. 제안하는 방법은 입력문이 주어질 때 어휘 사전을 참조하여, 형태소를 노드로 취하고 인접형태 소간의 에지를 갖도록 래티스를 구성하며, 구성된 래티스상 가장 점수가 높은 경로상에 있는 형태소들을 분석 결과로 제시하는 방법이다. 실험 결과, ETRI 품사 부착 코퍼스에서 기존의 1차 linear-chain CRF에 기반한 방법보다 높은 어절 정확률 그리고 문장 정확률을 얻었다.

  • PDF