• 제목/요약/키워드: 한국어 띄어쓰기

검색결과 101건 처리시간 0.048초

CRF를 이용한 한국어 자동 띄어쓰기 (Automatic Word Spacing based on Conditional Random Fields)

  • 심광섭
    • 인지과학
    • /
    • 제22권2호
    • /
    • pp.217-233
    • /
    • 2011
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 한국어 문장을 입력받아 자동으로 띄어쓰기를 해 주는 시스템을 제안한다. 띄어쓰기 문제는 주어진 문장의 각 음절에 대하여 띄어쓰기 여부를 나타내는 레이블을 부착하는 일종의 레이블링 문제이므로, 본 논문에서는 레이블링 문제 해결에 띄어난 성능을 보이는 것으로 알려진 CRF를 이용하여 자동 띄어쓰기를 시도하였다. 약 112만 음절 규모의 학습용 데이터로 학습을 하고, 2,114 문장(약 9.3만 음절)의 평가용 데이터로 띄어쓰기 정확도에 대한 평가를 하였다. 평가 결과 음절 단위의 정확도는 98.84%, 어절 단위의 정확도는 95.99%인 것으로 나타났다.

  • PDF

통계 정보를 이용한 한국어 자동 띄어쓰기 시스템의 성능 개선 (Improving Korean Word-Spacing System Using Stochastic Information)

  • 최성자;강미영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.883-885
    • /
    • 2004
  • 본 논문은 대용량 말뭉치로부터 어절 unigram과 음절 bigram 통계 정보를 추출하여 구축한 한국어 자동 띄어쓰기 시스템의 성능을 개선하는 방법을 제안한다 어절 통계를 주로 이용하는 기법으로 한국어 문서를 처리할 때, 한국어의 교착어적인 특성으로 인해 자료부족 문제가 발생한다 이물 극복하기 위해서 본 논문은 음절 bigram간 띄어쓸 확률 정보를 이용함으로써 어절로 인식 가능한 추가의 후보 어절을 추정하는 방법을 제안한다. 이와 글이 개선된 시스템의 성능을 다양한 실험 데이터를 사용하여 평가한 결과, 평균 93.76%의 어절 단위 정확도를 얻었다.

  • PDF

음절 bigram 특성을 이용한 띄어쓰기 오류의 인식 (A Recognition of Word Spacing Errors Using By Syllable Bigram)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-88
    • /
    • 2000
  • 대용량 말뭉치에서 이웃 음절간 공기빈도 정보를 추출하여 한글의 bigram 음절 특성을 조사하였다. Bigram 음절 특성은 띄어쓰기가 무시된 문서에 대한 자동 띄어쓰기, 어떤 어절이 띄어쓰기 오류어인지 판단, 맞춤법 검사기에서 철자 오류어의 교정 등 다양한 응용분야에서 유용하게 사용될 것으로 예상되고 있다. 본 논문에서는 한글의 bigram 음절 특성을 자동 띄어쓰기 및 입력어절이 띄어쓰기 오류어인지를 판단하는데 적용하는 실험을 하였다. 실험 결과에 의하면 bigram 음절 특성이 매우 유용하게 사용될 수 있음을 확인하였다.

  • PDF

한국어 문장의띄어 쓰기 오류 교정과 최적 형태소 분석을위한 통합 확률 모델 (A Unified Probablistic Model for Correcting Spacing Errors and Improving Accuracy of Morphological Analysis of Korean Sentences)

  • 이동주;연종흠;이상구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.237-240
    • /
    • 2011
  • 띄어쓰기 오류는 한국어로 작성된 글에서 나타나는 가장 흔한 오류 중 하나로 문장의 의미적 모호성과 중의성을 가져온다. 규칙 기반 혹은 통계적접근 방법으로 띄어쓰기 오류를 교정하는다양한 방법이 제시되었으나, 기존의 방법들은 띄어쓰기를 형태소 분석의 전단계로 여기거나 띄어쓰기를 교정하기 위해서 형태소 분석을이용하는 등 각각을 독립된 과정으로 다루어, 한 과정에서 발생하는 오류가 다른 과정으로 전파되도록 하는 문제를 안고 있다. 본 논문에서는 띄어 쓰기와 최적 형태소 분석을 하나의 통합된 문제로 다루어각과정에서 발생할 수 있는 오류가 다른 과정에 영향을 주지 않도록 하고 상호 오류를 보완하여 좀더 정확한 띄어쓰기 오류 교정 및 형태소 분석을 가능하게 하는 확률적 접근 방법을 제시한다.

자동띄어쓰기 오류 수정 및 복합명사 분해 개요: 2018 차세정 언어처리 경진대회 (Overview of Automatic Spacing and Compound Noun Decomposition: 2018 Korean Natural Language Processing Contest)

  • 최진혁;류법모;오효정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.193-196
    • /
    • 2018
  • 차세대정보컴퓨팅 개발사업 협의회에서 주최하고 한국어 정보처리 원천기술 연구개발 사업단에서 주관하는 2018 차세정 언어처리 경진대회가 개최되었다. "한국어 자동 띄어쓰기"와 "한국어 복합명사 분해"의 두 태스크로 진행되었고 각각 4팀, 2팀이 참가하였다. 주최 측에서 제공한 데이터만을 활용하는 closed 트랙과 각 참가팀이 추가 데이터를 활용하는 open 트랙으로 구분하여 평가하였다.

  • PDF

Latent Structural SVM을 확장한 결합 학습 모델 (Jointly Learning Model using modified Latent Structural SVM)

  • 이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.70-73
    • /
    • 2013
  • 자연어처리에서는 많은 모듈들이 파이프라인 방식으로 연결되어 사용되나, 이 경우 앞 단계의 오류가 뒷 단계에 누적되는 문제와 앞 단계에서 뒷 단계의 정보를 사용하지 못한다는 단점이 있다. 본 논문에서는 파이프라인 방식의 문제를 해결하기 위해 사용되는 일반적인 결합 학습 방법을 확장하여, 두 작업이 동시에 태깅된 학습 데이터뿐만 아니라 한 작업만 태깅된 학습데이터도 동시에 학습에 사용할 수 있는 결합 학습 모델을 Latent Structural SVM을 확장하여 제안한다. 실험 결과, 기존의 한국어 띄어쓰기와 품사 태깅 결합 모델의 품사 태깅 성능이 96.99%였으나, 본 논문에서 제안하는 결합 학습 모델을 이용하여 대용량의 한국어 띄어쓰기 학습데이터를 추가로 학습한 결과 품사 태깅 성능이 97.20%까지 향상 되었다.

  • PDF

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리 (Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram)

  • 권오욱
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.274-284
    • /
    • 2002
  • 한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 (A Stochastic Word-Spacing System Based on Word Category-Pattern)

  • 강미영;정성원;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.965-978
    • /
    • 2006
  • 본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

음절 N-Gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템 (Korean Word Spacing System Using Syllable N-Gram and Word Statistic Information)

  • 최성자;강미영;허희근;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-53
    • /
    • 2003
  • 본 논문은 정제된 대용량 말뭉치로부터 얻은 음절 n-gram과 어절 통계를 이용한 한국어 자동 띄어쓰기 시스템을 제안한다. 한 문장 내에서 최적의 띄어쓰기 위치는 Viterbi 알고리즘에 의해 결정된다. 통계 기반 연구에 고유한 문제인 데이터 부족 문제, 학습 말뭉치 의존 문제를 개선하기 위하여 말뭉치를 확장하고 실험을 통해 얻은 매개변수를 사용하고 최장 일치 Viable Prefix를 찾아 어절 목록에 추가한다. 본 연구에 사용된 학습 말뭉치는 33,641,511어절로 구성되어 있으며 구어와 문어를 두루 포함한다.

  • PDF