• 제목/요약/키워드: 자소

검색결과 184건 처리시간 0.027초

무제한 음성합성 시스팀을 위한 전처리과정 (A Preprocessing for the Unlimited Korean Text to Speech System)

  • 강용범
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.334-337
    • /
    • 1994
  • 본 논문에서는 형식형태소 사전 및 1300여 단어의 발음예외 사전을 이용하여 무제한 dam성합성을 위한 전처리과정을 구현하였으며, 문자열 정형화부, 형식셩태소 중심의 문장분석 및 자소단위의 음운변동과정에 관하여 논한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

오프라인 필기체 한글 인식을 위한 자소 내 자획의 분리 (Stroke Extraction in Phoneme for Off-Line Handwritten Hangul Recognition)

  • 정민철
    • 한국산학기술학회논문지
    • /
    • 제7권3호
    • /
    • pp.385-392
    • /
    • 2006
  • 본 논문은 오프라인 필기체 한글 인식을 위한 요소 기술의 하나인 자소 분할을 위한 새로운 자획 추출법을 제안한다. 수평 런 길이를 이용하여 자소의 자획을 수직, 경사, 수평으로 구분 분리한다. 수직 자획이나 경사 자획의 수평 런 길이는 자획 두에가 되며, 수평 자획의 수평 런의 개수가 자획 두께가 된다. 수평 자획을 분리 추출한 후, 끊어진 수직, 경사 자획을 자획 두께의 수평 런으로 연결하여 분리한 자획들이 문자의 특징을 나타내게 한다. 추출된 자획들은 온라인 필기체 한글 인식 시스템에서 개발 사용되고 있는 자획 사전 정합을 통해 문자 인식을 할 수 있다.

  • PDF

거리변환법에 의한 한글패턴의 특징분류 (Feature Classification of Hanguel Patterns by Distance Transformation method)

  • 고찬;이대영
    • 한국통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.650-662
    • /
    • 1989
  • 본 논문에서는 한글문자패턴의 새로운 특징추출 및 분류 알고리즘을 제안하였다. 입력된 패턴을 한글기본 6형식으로 분류하고 자소분리를 시행한 후 각 자소별 위치에 따른 굴곡특징점을 추출하였다. 이 특징점에 의해 입력문자의 내용을 정의하고 이를 색인-순차 파일로 구성하였다. 이 파일과 표준사전화일과의 검색으로 인식처리토록 하였다. 간단한 알고리즘으로 인한 처리시간의 단축과 소프트웨어 작성이 용이함을 보였다. 실험의 결과는 입력패턴의 특징추출과 분류의 결과를 나타내준다. 제안된 알고리즘은 문자를 이루는 최소 4각형 안에서 거리변환을 시켜 굴국특성을 추출하여 이들이 갖고 있는 상대 위치 정보를 이용한 것이 특징으로 실험을 통해 97%의 인식율을 나타내었다.

  • PDF

트루타입의 합성 글립을 이용한 한글폰트의 중복성 최소화 방법 (Mnimizing Duplicates for Hangul Fonts using Composite Glyph of TrueType)

  • 김은희;정근호;최재영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1230-1236
    • /
    • 1999
  • 한글 폰트는 서로 상반된 장단점을 가진 조합형 폰트와 완성형 폰트로 구분된다. 완성형 폰트는 조합형과 비교하여 우수한 품질을 가지지만 폰트 제작에 더 많은 시간과 노력을 요구한다. 특히 완성형 폰트는 폰트내의 중복된 자소들의 정보를 중복해서 저장하므로 폰트 저장에 필요한 공간이 더 많이 필요하다. 본 논문에서는 트루타입의 합성 글립(Composite Glyph)을 이용하여 이들 중복된 자소를 최소화한 완성형 폰트를 구성하였다. 실험 결과 생성된 완성형 트루타입 폰트는 기존 완성형 폰트와 유사한 고수준의 품질을 유지하면서, 샘체의 경우 기존 폰트의 57.6%, 명조체의 경우 73.0%의 저장공간을 절약할 수 있었다.Abstract Hangul fonts are classified into 2 categories, complete type and combination type which have their own strength and weakness. The complete type shows a high quality of fonts, while the combination type takes less time, efforts, and storage space to develop. Since the Hangul makes a syllable by combining consonants with vowels, the complete type has many duplicates and requires a large storage space to save them. We present a method that minimizes the duplicates of the complete type of the Hangul using the composite glyph of TrueType. New fonts had high quality and saved storage space, for example Sam saved 57.6% and Myungjo saved 73.0% compared to old.

한글 인쇄체 문자인식 전용 신경망 Coprocessor의 구현에 관한 연구 (Study on Implementation of a neural Coprocessor for Printed Hangul-Character Recognition)

  • 김영철;이태원
    • 한국정보처리학회논문지
    • /
    • 제5권1호
    • /
    • pp.119-127
    • /
    • 1998
  • 본 논문에서는 한글 인쇄체 인식 시스템의 실시간 처리를 위하여 인식 프로세스중 시간이 많이 걸리는 한글 문자 유형 분류 및 자소 인식 단계를 고속 처리할 수 있는 다층구조 신경망을 VLSI 설계 하였으며, 신경망과 호스트 컴퓨터간의 인터페이스와 신경망 제어를 담당하는 코프로세서 구조를 제안하였다. 이를 VHDL 모델링 및 논리합성을 통하여 설계하여 시뮬레이션을 통하여 구조와 동작 및 성능을 검증하였다. 실험결과 제안한 신경망 coprocessor는 기존의 소프트웨어 구현 인식 시스템의 유형 분류 및 자소 인식률과 대등한 성능을 보인 반면 고속의 인식속도를 보였다.

  • PDF

필기체 한글 인식에 유용한 세선화 알고리듬의 성능 개선에 관한 연구 (A Study on the Performance Improvement of Thinning Algorithm for Handwritten Korean Character)

  • 이기영;구하성;고형화
    • 한국통신학회논문지
    • /
    • 제19권5호
    • /
    • pp.883-891
    • /
    • 1994
  • 본 논문에서는 화소에서의 방향성을 이용하여 필기체 한글 인식에 유용한 세선화 알고리듬을 제안하였다. 세선화하기 전에 방향성 검출을 시행한다. 검출된 방향성에 의해서 직선과 사선으로 분류한다. 직선성분에는 Rutovitz crossing number를 이용한 알고리듬을 적용한다. 사선성분에는 Hilditch crossing number를 이용한 알고리듬을 적용한다. 제안한 알고리듬을 이미 제안된 다른 6가지의 세선화 알고리듬을 적용한 세선화 영상들과 성능을 비교하였다. 비교 항목으로는 기준 골격선과의 유사도, 잔가지 수, 그리고 자소 분리율 등이 사용되었다. 실험은 570개 문자에 대해서 수행하였다. 실험 결과 제안한 알고리듬은 유사도와 필기체 한글 인식에 많이 사용되는 자소 분리율에서 6개 비교 대상 중에서 가장 우수한 결과를 보였다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

중국 조선족 아동의 한글 자소-음소 대응능력의 발달과 글자읽기와의 관계에 관한 연구 (The Development of Grapheme-Phoneme Correspondence Rules and Kulja Reading in Korean-Chinese Children)

  • 윤혜경;박혜원
    • 아동학회지
    • /
    • 제26권4호
    • /
    • pp.145-155
    • /
    • 2005
  • This study was carried out to reveal Hangul acquisition processes in Korean-Chinese children who grow in a horizontal bilingual environment. In this experiment Grapheme substitution/deletion tasks and sensible/non-sensible Kulja reading tasks were administered to 3-, 4-, 5- and 6-year-old Korean-Chinese children growing up in a bilingual environment. Results were that Korean-Chinese children showed similar patterns of Hangul acquisition processes to Korean children but acquired grapheme-phoneme(G-P) correspondence earlier than Korean children. Hangul acquisition rates were 41.7%, 45.7%, 53% and 92.7% at age 3, 4, 5 and 6, respectively. Both Korean-Chinese and Korean children showed higher sensitivity for the final consonant than for the initial and middle consonants. Correlation between phoneme perception and reading was only significant among 6-year-olds in non-sensible Kulja reading tasks. Training in transforming ideographic Chinese to a phonetic system could effect early acquisition of G-P correspondence in Korean-Chinese children.

  • PDF

공간 위치 변조에 의한 한글자소의 필터링 (On the Filtering of Hangul character Element with the Spatial Positioning Modulation)

  • 강대수;진용옥
    • 한국통신학회논문지
    • /
    • 제17권9호
    • /
    • pp.1029-1039
    • /
    • 1992
  • 본 논문은 한글인식 방법중 주파수 변환영역에서 행하는 필터링의 방법을 제시한 것이다. 한글 문자패턴을 2차원 변조처리하여 공간위치에 의존적인 한글자소의 위상문자적 특징을 주파수 영역으로 사상하였고, 이때 변조 주파수를 정규화함으로서 주파수 영역에서 문자의 크기를 정규화 한다. 또한 한글의 각 자소를 발생위치에 따라 분류하여 표준패턴으로 설정하고, 설정된 각 자소의 표준패턴을 자소필터로 사용하여 주파수 영역으로 사상된 문자패턴을 필터링하였다. 한글자소의 분별 파라미터로는 정규화된 상호상관함수와 필터링 결과로 부터 유도된 코히어런스 함수를 산출하여 분별기준을 설정하였으며, 그 결과로서 문자크기의 변화, 자소의 융착, 제한적인 자획의 유실이나 잡음의 혼입등의 요인이 발생하였음 경우에도 한글자소의 분별이 가능하였고 또한 표준패턴을 설정함에 따라 숫자, 영문자등의 분별에도 적용할 수 있었다.

  • PDF