• 제목/요약/키워드: 한국어 띄어쓰기 교정

검색결과 30건 처리시간 0.045초

단어 간 연관성 측정을 통한 문맥 철자오류 교정 (Context-sensitive Spelling Correction using Measuring Relationship between Words)

  • 최성기;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1362-1365
    • /
    • 2013
  • 한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델 (Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model)

  • 조정제;신동수;조경빈;한영섭;전병기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

격틀사전을 활용한 존댓말 교정 프로그램 (Honorific Correction Program Using Case Frame Dictionary)

  • 장윤정;임리나;이재성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.954-957
    • /
    • 2019
  • 한국어 맞춤법 검사기는 현재 여러 곳에서 개발하여 서비스를 제공하고 있으며 다양한 목적으로 사용되고 있다. 하지만 이들은 맞춤법이나 띄어쓰기를 검사할 뿐, 존댓말과 같은 높임표현이 잘못 사용되었는지는 검사할 수 없다. 최근에는 맞춤법 검사를 위해 통계적 방식과 딥러닝을 사용하고 있지만, 본 연구에서는 규칙 기반을 활용하여 사용자가 텍스트를 입력하면 잘못된 높임표현을 탐지하여 그에 대한 오류 정보를 제공하고, 올바른 표현으로 교정하는 프로그램을 개발하였다. 구문 분석기를 사용하여 주어-서술어 구조를 파악하고, 형태소 분석기를 활용하여 높임표현을 탐지한 후 격틀사전의 정보를 이용하여 존댓말 오류를 탐지한다. 본 연구는 격식이 있는 문서를 검사할 때나, 한국어 높임말에 익숙하지 않은 외국인들에게 도움이 될 수 있을 것이다.

한글 문서에서 형태적 중의 오류의 교정 (A method for morphological correction of ambiguous error)

  • 김민주;정준호;이현주;최재혁;김항준;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-48
    • /
    • 1998
  • 교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

  • PDF

문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기 (Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method)

  • 정지수;원세연;서혜인;정상근;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기 (A Light Weighted Robust Korean Morphological Analyzer for Korean-to-English Mobile Translator)

  • 여상화
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.191-199
    • /
    • 2009
  • 본 논문에서는 핸드폰, 스마트폰, PDA폰 등의 모바일폰에서 동작하는 강건하고 경량화된 한국어 형태소 분석기를 제안한다. 이들 모바일 장치들은 낮은 CPU 성능과 메모리 사용에서의 제약으로 인해 자연언어 인터페이스를 적용하기 곤란했다. 본 논문에서는 1) 키 이벤트 핸들러 (Key Event Handler)를 이용한 온라인 형태소 분석과 2) 붙여 쓴 오류 문장에 대해 띄어쓰기 오류 교정의 전처리 과정 없이 강건한 형태소 분석 방법을 제안한다. 본 논문에서 제안된 경량화된 한국어 형태소 분석기는 모바일 한영 번역기 시제품에 적용하여 메모리 사용량은 5.8% 줄이고 평균 반환 시간은 19.0% 개선하였다.

교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델 (A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus)

  • 이세희;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.427-434
    • /
    • 2009
  • 인터넷 및 모바일 환경의 빠른 발전과 함께 신조어나 줄임말과 같은 철자 오류들을 포함하는 텍스트들이 활발히 통용되고 있다. 이러한 철자 오류들은 텍스트의 가독성을 떨어뜨림으로써 자연어처리 응용들을 개발하는데 걸림돌이 된다. 이러한 문제를 해결하기 위해서 본 논문에서는 철자오류 교정사전과 신문기사 말뭉치를 이용한 철자 오류 교정 모델을 제안한다. 제안 모델은 구하기 쉬운 신문기사 말뭉치를 학습 말뭉치로 사용하기 때문에 데이터 구축비용이 크지 않다는 장점이 있다. 또한 교정사전 기반의 단순 매칭 방법을 사용하기 때문에 띄어쓰기 교정 시스템이나 형태소 분석기와 같은 별도의 외부 모듈이 필요 없다는 장점이 있다. 신문기사 말뭉치와 실제 휴대폰에서 수집한 문자 메시지 말뭉치를 이용한 실험 결과, 제안 모델은 다양한 평가 척도에서 비교적 높은 성능(오교정률 7.3%, F1-척도 97.3%, 위양성율 1.1%)을 보였다.

악성 댓글에 사용된 문자의 형태를 고려한 한국어 자연어처리를 위한 전처리 기법 (Preprocessing technique for natural language processing considering the form of characters used in malicious comments)

  • 김해수;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.543-545
    • /
    • 2022
  • 최근 악플에 대한 논란이 끊이지 않고 있어 이것을 해결하기위한 방법으로 자연어 처리를 이용하고 있다. 특히 소셜 미디어, 온라인 커뮤니티에서 많이 발생하고 있고 해당 매체에서는 한글을 그대로 사용하지 않고 그들의 은어를 섞어서 사용하며 그중에서 한글이 아닌 문자를 섞어서 만들어낸 문장도 있다. 이러한 문장은 기존의 모델에 학습된 데이터의 형태와 다르며 한글이 아닌 문장이 많을수록 모델의 예측이 부정확해진다는 단점이 있어 본 논문에서는 인공지능을 이용한 이미지 분류와 띄어쓰기, 오타 교정을 이용한 전처리 기법을 제안한다.

문자메시지의 특성을 고려한 한국어 모바일 스팸필터링 시스템 (Korean Mobile Spam Filtering System Considering Characteristics of Text Messages)

  • 손대능;이정태;이승욱;신중휘;임해창
    • 한국산학기술학회논문지
    • /
    • 제11권7호
    • /
    • pp.2595-2602
    • /
    • 2010
  • 본 논문에서는 휴대전화로 오는 짧은 문자메시지의 스타일을 반영하여 스팸 문자메시지를 검출해내는 한국어 모바일 스팸필터링 시스템을 소개한다. 제안하는 시스템은 내용어 어휘들의 출현에만 기반을 두는 기존 방법과 달리 제안하는 스타일 정보를 추가적으로 활용하여 스팸성 단어가 포함된 일반 문자메시지가 스팸으로 잘못 분류되는 치명적인 오류를 효과적으로 줄인다. 또한 띄어쓰기 및 철자 오류교정을 거쳐 문자메시지를 정규화 함으로써 스팸 분류성능을 향상시킨다. 실제 한국어 문자메시지를 이용한 실험 결과를 통해 제안하는 시스템이 한국어 스팸 문자메시지 검출에 효과적임을 보인다.

CNN을 적용한 한국어 상품평 감성분석: 형태소 임베딩을 중심으로 (Sentiment Analysis of Korean Reviews Using CNN: Focusing on Morpheme Embedding)

  • 박현정;송민채;신경식
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.59-83
    • /
    • 2018
  • 고객과 대중의 니즈를 파악하기 위한 감성분석의 중요성이 커지면서 최근 영어 텍스트를 대상으로 다양한 딥러닝 모델들이 소개되고 있다. 본 연구는 영어와 한국어의 언어적인 차이에 주목하여 딥러닝 모델을 한국어 상품평 텍스트의 감성분석에 적용할 때 부딪히게 되는 기본적인 이슈들에 대하여 실증적으로 살펴본다. 즉, 딥러닝 모델의 입력으로 사용되는 단어 벡터(word vector)를 형태소 수준에서 도출하고, 여러 형태소 벡터(morpheme vector) 도출 대안에 따라 감성분석의 정확도가 어떻게 달라지는지를 비정태적(non-static) CNN(Convolutional Neural Network) 모델을 사용하여 검증한다. 형태소 벡터 도출 대안은 CBOW(Continuous Bag-Of-Words)를 기본적으로 적용하고, 입력 데이터의 종류, 문장 분리와 맞춤법 및 띄어쓰기 교정, 품사 선택, 품사 태그 부착, 고려 형태소의 최소 빈도수 등과 같은 기준에 따라 달라진다. 형태소 벡터 도출 시, 문법 준수도가 낮더라도 감성분석 대상과 같은 도메인의 텍스트를 사용하고, 문장 분리 외에 맞춤법 및 띄어쓰기 전처리를 하며, 분석불능 범주를 포함한 모든 품사를 고려할 때 감성분석의 분류 정확도가 향상되는 결과를 얻었다. 동음이의어 비율이 높은 한국어 특성 때문에 고려한 품사 태그 부착 방안과 포함할 형태소에 대한 최소 빈도수 기준은 뚜렷한 영향이 없는 것으로 나타났다.