• 제목/요약/키워드: 맞춤법

검색결과 95건 처리시간 0.04초

Denoising Transformer기반 한국어 맞춤법 교정기 (Korean Spell Correction based on Denoising Transformer)

  • 박찬준;정솔;양기수;이수미;조재춘;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.368-372
    • /
    • 2019
  • 맞춤법 교정이란 주어진 문장에서 나타나는 철자 및 맞춤법 오류들을 올바르게 교정하는 것을 뜻하며 맞춤법 교정 시스템이란 컴퓨터가 이를 자동으로 수행하는 것을 의미한다. 본 논문에서는 맞춤법 교정을 기계번역의 관점으로 바라보고 문제를 해결하였다. 소스문장에 맞춤법 오류문장, 타겟 문장에 올바른 문장을 넣어 학습시키는 방법을 제안한다. 본 논문에서는 단일 말뭉치로 한국어 맞춤법 병렬 말뭉치를 구성하는 방법을 제안하며 G2P(Grapheme to Phoneme)를 이용한 오류 데이터 생성, 자모 단위 철자 오류데이터 생성, 통번역 데이터 기반 오류 데이터 생성 크게 3가지 방법론을 이용하여 맞춤법 오류데이터를 생성하는 방법론을 제안한다. 실험결과 GLEU 점수 65.98의 성능을 보였으며 44.68, 39.55의 성능을 보인 상용화 시스템보다 우수한 성능을 보였다.

  • PDF

메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점 (Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues)

  • 황은하;안진산;남길임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF

한글 맞춤법 검사 시스템의 개발 (A Development of Han-geul Spelling Checker)

  • 박종만;김영찬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.11-15
    • /
    • 1990
  • 문자 생활에 있어서 컴퓨터의 도입이 가속화되면서, 한글의 맞춤법 검사를 자동으로 해주는 문안 편집 도움 기법의 필요성이 대두되었다. 교착어인 한국어의 문자인 한글의 맞춤법 검사는 다른 언어에 비해 상대적으로 어렵게 여겨져 왔다. 본 논문에서는 한글 맞춤법 검사시스템의 개발에 대하이 실용화의 관점에서 논한다. 실용화의 관점에서는 한글 맞춤법 검사뿐 만 아니라 문서 편집기를 통한 인터페이스, 사전의 제공, 틀린 경우의 적절한 조치 등이 필요하다.

  • PDF

무모한 한글 맞춤법 개정, 혼란만 부른다

  • 김성재
    • 출판저널
    • /
    • 통권244호
    • /
    • pp.6-6
    • /
    • 1998
  • 맞춤법을 개정한 뒤 수많은 편집자들이 새 맞춤법을 익히느라 얼마나 많은 시간을 허비하는지 모른다. 찍어 놓은 엄청난 수량의 책들이 휴지가 돼버려 경제적으로도 큰 손실을 보았다.

  • PDF

뉴럴 한국어 맞춤법 교정기에서 과교정(Overcorrection) 문제 완화 (Alleviation of Overcorrection Problem in Neural Korean Spelling Correction)

  • 박찬준;이연수;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2020
  • 현재까지 한국어 맞춤법 교정 Task는 대부분 규칙기반 및 통계기반 방식의 연구가 진행되었으며 최근 딥러닝 기반의 한국어 맞춤법 교정에 대한 연구가 진행되고 있다. 맞춤법 교정에서 문법적 또는 철자적으로 틀린 부분을 교정하는 것도 중요하지만 올바른 문장이 입력으로 들어왔을 때 교정을 진행하지 않고 올바른 문장을 출력으로 내보내는 것 또한 중요하다. 규칙기반 맞춤법 교정기 같은 경우 문장의 구조를 흐트러트리지 않고 규칙에 부합하는 오류 부분만 고쳐낸다는 장점이 있으나 신경망 기반의 한국어 맞춤법 교정 같은 경우 Neural Machine Translation(NMT)의 고질적인 문제점인 반복 번역, 생략, UNK(Unknown) 때문에 문장의 구조를 흐트러트리거나 overcorrection(과교정) 하는 경우가 존재한다. 본 논문은 이러한 한계점을 극복하기 위하여 Correct to Correct Mechanism을 제안하며 이를 통해 올바른 문장이 입력으로 들어왔을 시 올바른 문장을 출력하는 성능을 높인다.

  • PDF

한글 맞춤법 지도를 위한 웹 기반 원고지 사용 지도 시스템의 설계 (Design of the Web-Based Guidance on using the manuscript paper system for Guidance on the rules of Korean spelling)

  • 박기순;양창모
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2004년도 하계학술대회
    • /
    • pp.138-145
    • /
    • 2004
  • 독후감상문을 쓸 때에나 각종 생활문, 논설문을 쓸 때에 원고지를 이용하지만 많은 어린이들은 원고지 사용법이나 맞춤법에 익숙하지 않다. 어릴 때부터 한글 맞춤법에 대해 많이 공부를 하고, 교육을 받지만, 학교현장에서는 시간을 내어서 특별히 할 수 있는 시간이 많지 않기 때문에 또 다른 지도 방법이 요구되는 바이다. 따라서, 아동들이 원고지를 이용하여 스스로 맞춤법에 대하여 공부를 해 보고, 복잡한 기구 없이 좀 더 쉬운 방법으로 아동들의 한글 맞춤법 등 글짓기의 기능적인 측면을 지도할 수 있는 웹 기반의 원고지 첨삭지도 시스템을 설계한다.

  • PDF

초등학교 한글 맞춤법 학습시스템 설계 (Design of Hangeul Orthography Instruction system in Elementary Schools)

  • 홍성익;김동호
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2004년도 동계학술대회
    • /
    • pp.187-194
    • /
    • 2004
  • 초등학교 어린이들의 글쓰기 자료를 수집하여 분석한 결과 각 학년마다 공통적으로 오류를 범하는 글자가 있었다. 수업시간 또는 수업 후에 개개의 어린이들에게 맞춤법지도를 하고 올바른 한글 사용법을 가르쳐야 하겠지만 여건상 모든 어린이들을 상대로 지도한다는 것은 사실상 어렵다. 따라서 공통적으로 오류를 범하는 글자를 조사하고 올바른 표현법으로 수정하여 학습자료로 제작하면 맞춤법 지도에 특별한 시간을 할애하지 않더라도 학습자 개개인이 개별학습용으로 사용할 수 있다. 본 연구의 목적은 웹을 이용하여 올바른 한글 맞춤법에 대하여 인터넷과 컴퓨터라는 공간에서 시간과 공간의 제약을 받지 않고 상호작용이 가능하도록 구현하여 한글맞춤법 학습활동이 자기 주도적으로 이루어지도록 하는데 있으며 나아가 올바르게 한글을 사용하도록 태도를 형성하는데 있다.

  • PDF

띄어쓰기가 관형어절 이해에 미치는 영향 (Effects of Spacing Words on Reading Adnominal Eojeol)

  • 김지혜;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-254
    • /
    • 2009
  • 띄어쓰기는 한글 맞춤법에 명시되어 있는 규정에 따르면 되지만, 근본적으로 명확한 정의가 내려있지 않으며 복잡하고 애매모호한 기준들이 얽혀 사용자들이 혼란을 겪는 등 많은 오류를 일으키고 있다. 이에 맞춤법 오류에 대한 원인을 찾아 체계적인 교육이 이루어지거나, 맞춤법을 수정 및 보완할 필요성이 있다 하겠다. 본 연구는 사용자들의 편의성을 우선시하여 맞춤법에 있어 논리적 근거를 마련하고 한국어 정보처리의 양상을 살펴보는 것에 의의가 있다. 이에 비교적 띄어쓰기 기준이 명확한 관형어절에 초점을 두어 띄어쓰기가 읽기에 어떤 영향을 미치는지 알아보고자 실시하였다. '관형사 + 명사' 구조와 '~적 + 명사' 구조의 관형어절이 포함된 104개의 문장을 가지고 2개의 목록을 만들었다. 목록 간에는 띄어쓰기 여부가 반대이며 피험자는 목록 중 하나를 경험하였다. 하나의 문장을 끊어서 제시하여 피험자는 읽는 데로 space bar key를 누르는 자기 읽기 조절 과제를 시행하였고, 이어서 문장에 대한 질문을 통해 이해도 검사를 실시하였다. 관형어절을 읽는 평균 속도를 분석한 결과 미세한 차이가 있었으나, 유의미하지는 않았다. 이는 관형어절에 있어서 띄어쓰기의 영향이 크지 않음을 의미한다고 볼 수 있겠다.

  • PDF

한국어 맞춤법 교정을 위한 초거대 언어 모델의 잠재적 능력 탐색 (Examining the Feasibility of Utilizing a Large Language Model for Korean Grammatical Error Correction)

  • 구선민;박찬준;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.61-65
    • /
    • 2023
  • 최근, 대부분의 태스크가 초거대 언어 모델로 통합되고 있을 정도로 많은 관심 및 연구되고 있다. 초거대 언어 모델을 효과적으로 활용하기 위해서는 모델의 능력에 대한 분석이 선행되어야 하나, 한국어에 대한 분석 및 탐색은 상대적으로 부족하다. 본 논문에서는 한국어 맞춤법 교정 태스크를 통해 초거대 언어 모델의 능력을 탐색한다. 맞춤법 교정 태스크는 문장의 구조 및 문법을 이해하는 능력이 필요하며, 사용자의 만족도에 영향을 미칠 수 있는 중요한 태스크이다. 우리는 맞춤법 세부 유형에 따른 ChatGPT의 제로샷 및 퓨샷성능을 평가하여 초거대 언어 모델의 성능 분석을 수행한다. 실험 결과 제로샷의 경우 문장부호 오류의 성능이 가장 우수했으며, 수사 오류의 성능이 가장 낮았다. 또한, 예제를 더 많이 제공할수록 전체적인 모델의 성능이 향상되었으나, 제로샷의 경우보다 오류 유형 간의 성능 차이가 커지는 것을 관찰할 수 있었다.

  • PDF

fastText와 OpenCV를 이용하여 크리에이터 맞춤 영상자막 수정 방법 연구 (A Study on Tools for Creater's Subtitle using fastText and OpenCV)

  • 최원칠;조세현;윤동우;우호진;김영종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.566-567
    • /
    • 2019
  • 영상으로 콘텐츠를 개발하는 사람들을 '크리에이터'라 칭한다. 이들이 사람들에게 재미를 주고 이목을 끌기 위해 표준어 이외에 다양한 유행어와 신조어들을 만들어내며 이들을 영상뿐만 아니라 자막으로 활용하게 된다. 이러한 자막이 있는 영상 제작시 대본을 제작하는데 있어 자유도가 높은 크리에이터들의 특징상 맞춤법 오류 및 오타의 문제가 생긴다. 하지만 영상제작 도구에는 맞춤법 검사 기능이 없어 검사를 미리 하기에는 어려운 점이 있다. 우리는 이 문제점을 해결하기 위해 영상을 완성 하고 최종 검토를 할 때 맞춤법 검사를 하기 쉽도록 프로그램을 개발한다. OpenCV를 통해 영상의 자막을 글자로써 인식을 하고, fastText 모델을 통해 인식된 글자가 맞춤법에 맞는지 크리에이터에게 제안해주는 맞춤형 프로그램을 개발하고자 한다.