• 제목/요약/키워드: 한글맞춤법

검색결과 46건 처리시간 0.021초

규칙의 일반화와 통계 방식을 결합한 한국어 문맥의존 철자오류 교정규칙의 재현율 향상 (Improving Recall for Context-Sensitive Spelling Correction Rules by Combining Rule-Generalization and Statistical Method)

  • 최현수;권혁철;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-23
    • /
    • 2014
  • 한국어 맞춤법 검사기는 전자화된 한국어 텍스트에 나타난 오류어를 검색하여 이를 교정할 대치어를 제시하는 시스템이다. 이때 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 정확하지만, 문맥을 고려하였을 때 오류가 되는 유형으로 교정 난도가 매우 높다. 문맥의존 철자오류의 교정 방법은 크게 규칙을 이용한 방법과 통계 정보에 기반을 둔 방법으로 나뉜다. 이때 규칙을 이용한 방법은 그 특성상 정확도가 매우 높지만, 반대로 재현율이 매우 낮다. 본 논문에서는 본 연구진이 기존에 연구하였던 규칙을 일반화하는 방식에 추가로 조건부 확률을 이용한 통계 방식을 결합하여 정확도를 유지하면서 재현율을 향상시키는 방법을 제안한다.

  • PDF

어문 규정 검색 통합 시스템의 설계 및 구현 (Design and Implementation of Korean Language Regulation Retrieval System)

  • 최유경;황호전;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.1117-1120
    • /
    • 2001
  • 본 논문에서는 한국어를 사용하는 사람들에게 올바른 국어 지식을 보급하여 올바른 국어 생활을 영위하도록 하고, 국어 정보화에 기여하고자 '어문 규정 검색 통합 시스템'을 설계하고 구현한다. '어문 규정 검색 통합 시스템'은 '한글 맞춤법 검색 시스템', '표준어 규정 검색 시스템', 외래어 표기법 검색 시스템'으로 구성되어 있다. '어문 규정 검색 통합 시스템'은 실생활에서 사용되고 있는 단어들이 맞춤법이나 표준어 규정, 외래어 표기법에 맞는지를 확인할 수 있도록 하며, 틀린 경우에 올바른 단어와 그에 해당하는 어문 규정을 알 수 있도록 하였다. '어문 규정 검색 통합 시스템'은 세부 검색 시스템들을 하나의 인터페이스에서 접근할 수 있도록 통합하였으며 '규정', 검색', '전체 검색', '게임', '통계'의 세부 메뉴로 구성되어 있다. 한국 어문 규정은 폴더 형식으로 장과 절을 체계적으로 검색할 수 있도록 구현하였다. 검색에서는 하나의 단어 입력으로 동시에 여러 세부 시스템에서 검색 결과를 찾도록 하였다.

  • PDF

한국어의 모음음가

  • 이현복
    • 대한음성학회지:말소리
    • /
    • 제1호
    • /
    • pp.56-70
    • /
    • 1980
  • 이 글은 현대 한국어의 모음 음가를 음성학적으로 기술한다. 여기서 한국어란 서울 지역을 근거로 하는 표준말을 뜻한다. 한국어 모음의 소리값을 기술하는 과정에서 일부 방언 및 외국어의 음가와 비교 설명하는 일이 있으므로 이들 방언이나 외국어와 한국 표준말의 소리 차이를 이해하는 데도 도움이 될 것이다. 이 글의 본문은 "음성 반풀어 쓰기"로 적는다. "반풀어 쓰기"란 받침을 아래에 두지 않고 오른쪽 옆으로 적는 것을 말하며 "음성"이란 맞춤법을 따르지 않고 한글 글자를 음성기호로 활용하여 소리나는 대로 적는 법을 뜻한다. 그러므로 각 모음 기호마다 올바른 소리값을 주면서 음성 반풀어 쓰기로 적은 본문을 읽는다면 틀림없이 한국 표준 발음을 하게 될 것이다. 본문에서 긴소리는 같은 글자를 두 번 겹쳐서 나타냈다.

  • PDF

국어 어문 규정 검색 프로그램 개발 (Development of Korean Language Regulation Retrieval System)

  • 오형진;이신원;두길수;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 하계종합학술대회 논문집(3)
    • /
    • pp.103-106
    • /
    • 2002
  • 국어 어문 규정 검색 프로그램은 21세기 세종계획 프로젝트의 한민족 언어 정보화 분과에서 개발한 것으로, 한글 맞춤법, 표준어 규정, 외래어 표기법, 국어의 로마자 표기법 등의 어문 규정과 검색어에 대한 어문 규정 설명을 HTML 문서로 보여준다. 본 논문에서는 국어 어문 규정을 검색하기 위한 데이터베이스의 구조와 국민 어문 규정 검색 프로그램의 검색 방법에 대해서 논한다.

  • PDF

남북한 과학기술용어

  • 최승언
    • 과학과기술
    • /
    • 제26권4호통권287호
    • /
    • pp.90-93
    • /
    • 1993
  • 북한의 천문학용어는 한글을 많이 사용하고 있으며 「살별(혜성)」과 같이 전통적인 우리말을 사용하려고 노력하고 있다. 우리의 용어는 일본의 용어를 전용하여 사용하고 있는데 반해 북한의 용어는 그들의 주체성에 입각하여 일본식 용어에서 탈피하고 있다. 그렇지만 순한글용어와 한자식 용어가 혼용되고 있는 경우가 많다. 북한의 용어는 두음법칙이 없어 역을 력이라고 표기하는 등 우리와의 맞춤법이 약간 다르다. 그리고 외래어의 표기에 있어서도 우리와는 많이 다르다. 우리는 영어식 발음을 따르고 있는데 반해 북한은 러시아식 발음을 따르고 있다. 어원의 비교를 위해서 일본, 중국 용어도 첨가하였다. 중국은 일본식 용어와는 다른 중국 독자의 용어를 사용하고 있다. 그리고 고유명사를 제외하고, 외래어는 모두 뜻에 맞는 한자용어로 바꾸었다. 위성과 소행성, 성단, 별자리 등의 천체의 명칭도 적절한 중국용어를 사용하고 있다.

  • PDF

한글 문서에서 형태적 중의 오류의 교정 (A method for morphological correction of ambiguous error)

  • 김민주;정준호;이현주;최재혁;김항준;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-48
    • /
    • 1998
  • 교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

  • PDF

한글 토크나이징 라이브러리 모듈 분석 (Analysis of the Korean Tokenizing Library Module)

  • 이재경;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.78-80
    • /
    • 2021
  • 현재 자연어 처리(NLP)에 대한 연구는 급속히 발전하고 있다. 자연어 처리는 인간이 일상생활에서 사용하는 언어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 기술로 음성인식, 맞춤법 검사, 텍스트 분류 등 여러 분야에 사용하고 있다. 현재 가장 많이 사용되는 자연어처리 라이브러리는 영어를 기준으로 한 NLTK로 한글처리에 단점을 가지고 있다. 따라서 본 논문에서는 한글 토크나이징(Tokenizing) 라이브러리인 KonLPy와 Soynlp를 소개 후 형태소 분석 및 처리 기법을 분석하고, KonLPy의 단점을 보완한 Soynlp와의 모듈을 비교·분석하여 향후 의료분야에 적합한 자연어 처리 모델로 활용하고자 한다.

  • PDF

한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능 (Morphological Analysis and Spelling Check Function of Korean Morphological Analyzer HAM)

  • 강승식;이하규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-252
    • /
    • 1996
  • 한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.

  • PDF

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

양방향 최장일치법을 이용한 한국어 띄어쓰기 자동 교정 시스템 (Automatic Korean Spacing Words Correction System With Bidirectional Longest Match Strategy)

  • 최재혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-151
    • /
    • 1997
  • 기존의 맞춤법 검사기의 단점인 오류 수정 작업과 처리 시간을 감소시키면서, 높은 오류 교정의 정확률을 보장하는 자동 오류 교정 시스템의 개발을 위한 첫 단계로써 한국어 오류의 80% 이상을 차지하는 띄어쓰기 오류에 대한 자동 교정 시스템을 개발하였다. 본 논문에서는 우리가 사용하는 일반 문서에서 띄어쓰기가 잘못된 단어에 대한 교정과 오류 단어에 대한 검색을 행하기 위하여, 띄어쓰기 교정 시스템의 개발 단계에서 현실적으로 고려해야 할 사항과 교정 정확률 및 처리 속도를 높이기 위한 본 시스템의 띄어쓰기 오류 루틴을 제시한다. 본 시스템의 처리 결과, 올바른 어절을 제외한 띄어쓰기가 잘못된 오류 단어(띄붙 오류와 붙띄 오류 포함)에 대해 약 98.7%의 띄어쓰기 교정 성공률을 보였다.

  • PDF