• Title/Summary/Keyword: 문자 분류

Search Result 349, Processing Time 0.023 seconds

A Method of Machine-Printed Hangul Recognition using Grapheme Recognizer (낱자 특징 기반 자소 인식기를 이용한 인쇄체 한글 인식방법)

  • Jang, SeungIck;Nam, Youn-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.351-354
    • /
    • 2004
  • 본 논문에서는 낱자에서 추출한 특징을 입력으로 사용하는 자소 인식기를 이용한 저해상도 인쇄체 한글 영상의 인식 방법을 제안하였다. 제안한 방법에서는 입력 문자를 한글 6 형식과 기타 형식의 문자, 총 7 종으로 분류한 뒤, 입력 문자를 인식 대상 문자의 수와 자소 복잡도에 따라 하나 또는 두 개의 인식 단위로 구분하여 인식한다. 각 HRU는 낱자에서 추출한 방향각 특징을 입력으로 사용하는 다층 신경망 인식기를 이용하여 인식한다. 다음으로, 각 다층 신경망 인식기의 신뢰도를 조합하여 최종 인식 결과를 도출한다. 제안한 방법을 사용한 실험에서 98.99%의 인식률을 얻을 수 있었으며, 이는 기존 방법에 비해 15.83%의 오류가 감소한 것이다.

  • PDF

A New Thpe of Recurrent Neural Network for the Umprovement of Pattern Recobnition Ability (패턴 인식 성능을 향상시키는 새로운 형태의 순환신경망)

  • Jeong, Nak-U;Kim, Byeong-Gi
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.2
    • /
    • pp.401-408
    • /
    • 1997
  • Human gets almist all of his knoweledge from the recognition and the accumulation of input patterns,image or sound,the he gets theough his eyes and through his ears.Among these means,his chracter recognition,an ability that allows him to recognize characters and understand their meanings through visual information, is now applied to a pattern recognition system using neural network in computer. Recurrent neural network is one of those models that reuse the output value in neural network learning.Recently many studies try to apply this recurrent neural network to the classification of static patterns like off-line handwritten characters. But most of their efforts are not so drrdtive until now.This stusy suggests a new type of recurrent neural network for an deedctive classification of the static patterns such as off-line handwritten chracters.Using the new J-E(Jordan-Elman)neural network model that enlarges and combines Jordan Model and Elman Model,this new type is better than those of before in recobnizing the static patterms such as figures and handwritten-characters.

  • PDF

Logic Expression for Information Retrieval of Natural Language (자연언어 정보 검색을 위한 논리적 표현)

  • 김길준
    • Proceedings of the Korea Database Society Conference
    • /
    • 2000.11a
    • /
    • pp.261-268
    • /
    • 2000
  • 고대 아시리아의 도서관에서는 점토판에 새겨진 계행 문자로 된 문서가 항아리에 주제별로 분류되어 담겨져 있었다고 한다. 수없이 쏟아져 나오는 문서 정보를 관리하기 위하여 이와 같은 분류기술이 발달 된 것이라고 추측된다. (중략)

  • PDF

In the Study on the Classification Framework of Edutainment Industry (에듀테인먼트 산업의 분류체계에 관한 연구)

  • 최인규;김은정
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.863-866
    • /
    • 2004
  • 초고속 인터넷의 보급과 확산으로 더 이상 문자위주의 단편적인 교육이 아니라 영상과 음향, 각종 놀이 문화가 접목된 에듀테인먼트가 본격적으로 시도되고 있다. 본 논문에서는 에듀테인먼트의 내용분석과 사례분석을 통하여 에듀테인먼트 산업의 분류 체계를 구축하는 것을 제안한다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR (나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정)

  • Noh, Kyung-Mok;Kim, Chang-Hyun;Cheon, Min-Ah;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

A Study on Type Classification and Subpattern Extraction Using Structural Information of Radical in Printed Hanja (인쇄체 한자에서 Radical의 구조적 정보를 이용한 형식분류 및 부분패턴 추출에 관한 연구)

  • 김정한;조용주;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.16 no.3
    • /
    • pp.232-247
    • /
    • 1991
  • This paper proposes a new classification algorithm using characteristic and structural information of printed Hanja as preliminary stages of Hanja-character recognition. Hanja is difficult for not only recognition but classification as many character and complicated structure. In this paper, to solve thie problem, extracted common subpattern in classified pattern after processing type classification fot Hanja pattern. First, we extracted subpattern, after we process preprecessing about input of character pattern, extracting directional segment, labeling on 4-directional pattern and 12 type classified using structural information based on the subpattern existing region of character pattern. Though the experiment, this study obtained that classified rate of Hanja is 93.07% on 1800 character of educational Hanja and 90.12% on 4888 character of KS C5601 standard TRIGEM LBP Hanja font and saw that as extracting subpattern at classified data was this paper possibly applied to the recognition.

  • PDF

Block Adaptive Binarization of Business Card Images Acquired in PDA Using a Modified Quadratic filter (변형된 Quadratic 필터를 이용한 PDA로 획득한 명함 영상의 블록 적응 이진화)

  • 신기택;장익훈;김남철
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.29 no.6C
    • /
    • pp.801-814
    • /
    • 2004
  • In this paper, we propose a block adaptive binarization (BAB) using a modified quadratic filter (MQF) to binarize business card images acquired by personal digital assistant (PDA) cameras effectively. In the proposed method, a business card image is first partitioned into blocks of 8${\times}$8 and the blocks are then classified into character Hocks (CBs) and background blocks (BBs). Each classified CB is windowed with a 24${\times}$24 rectangular window centering around the CB and the windowed blocks are improved by the pre-processing filter MQF, in which the scheme of threshold selection in QF is modified. The 8${\times}$8 center block of the improved block is barbarized with the threshold selected in the MQF. A binary image is obtained tiling each binarized block in its original position. Experimental results show that the MQF and the BAB have much better effects on the performance of binarization compared to the QF and the global binarization (GB), respectively, for the test business card images acquired in a PDA. Also the proposed BAB using MQF gives binary images of much better quality, in which the characters appear much better clearly, over the conventional GB using QF. In addition, the binary images by the proposed BAB using MQF yields about 87.7% of character recognition rate so that about 32.0% performance improvement over those by the GB using QF yielding about 55.7% of character recognition rate using a commercial character recognition software.

A Study on the Extraction into the Logical Structure of a Specific Document using Knowledge (지식을 이용한 특정 문서의 논리 구조 추출에 관한 연구)

  • 손영우;남궁재찬
    • The Journal of Information Technology and Database
    • /
    • v.3 no.1
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문은 특정문서에서 문서가 갖고 있는 일반적인 지식을 이용하여 논리적 항목을 추출하는 방법에 관한 연구이다. 먼저 입력된 문서의 영역 분할, 분리자 추출, 그리고 문자와 비문자를 구별하였다. 논리구조 추출단계에서는 구별된 요소의 상대적 크기, 위치 및 전후 블록들의 연관성에 관한 지식을 이용하여 각 블록들을 레이블링 하였고, 레이블된 항목들의 위치정보값을 이용하여 각 항목들을 자료화하였다. 마지막으로, 오분류된 항목에 대해서는 배치기술자를 이용한 검증을 통해 정정하였다. 본 논문에서 구현한 방법으로 실험한 결과 96.5%의 논리항목 추출율을 획득함으로써 그 유효성을 입증하였다.

  • PDF

A Study on the Cultural Practicality of Hangul Calligraphy (한글 캘리그라피의 문화적 실용성에 관한 연구)

  • Moon, kyoung-hee;Lee, sang-hwa;Ko, kwang-man
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2013.05a
    • /
    • pp.319-320
    • /
    • 2013
  • 본 연구는 한글 캘리그라피에서 보여지는 문자 형태의 감정적 표현, 문자 의미의 형상적 표현, 한자체와의 이미지 혼합의 표현등으로 분류하여 심미성과 차별성 있는 디자인 가치를 연구하고자한 것이다. 한글의 예술적 독창성과 한글 캘리그라피의 문화적 실용성이 결합된 창의적 생성물을 만드는 것은 중요하다. 따라서 한국의 전통글씨를 현대적으로 재해석한 실용과 미감이 풍부한 서체를 분석하고 문화원형의 대표성을 확인하고자 한다.

  • PDF