• Title/Summary/Keyword: 글자 분할

Search Result 36, Processing Time 0.026 seconds

Handwritten Korean Character Segmentation using Background thinning (배경 세선화를 이용한 한글 필기체 글자 단위 분할)

  • 서원택;조범준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.823-825
    • /
    • 2004
  • 본 연구에서는 필기체 한글의 글자단위의 분할을 위해 배경 세선화(Background thinning)라는 방법을 제안한다. 배경 세선화 방법은 글자와 글자 사이에 존재하는 배경의 정보를 세선화 처리하여 필기체 한글에서 많이 발생할 수 있는 중첩(Overlap)글자와 연결(Touched)글자를 서로 분할하는데 효과적인 성능을 보였다. 배경 세선화를 이용하여 글자를 분할하는 방법은 인식과정의 판단을 필요하지 않은 외적분할 방법으로 빠른 속도의 분할 성능을 보였다. 이 방법은 특히, 중첩된 글자의 분할에 탁월한 성능을 보였을 뿐만 아니라, 연결된 글자에 대해서도 좋은 성능을 보였다.

  • PDF

A study of Character segmentation of Handwritten Hangul (필기체한글 글자단위 분할에 관한 연구)

  • 박아람;조범준
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.831-834
    • /
    • 2004
  • 본 연구에서는 무제약으로 쓰여진 필기체 한글단어를 글자단위로 분할하는 새로운 방법을 제안한다. 이 방법은 글자와 글자사이 흑은 자소사이에 존재하는 배경(Background)정보를 세선화(Thinning) 처리하여 얻은 패스(Path)를 이용하여 글자와 글자사이를 지나는 패스를 결정하는 방법이다. 특히, 이 방법은 분할에 대한 판단을 인식기로 넘기지 않는 외적분할 방법으로 빠른 처리시간을 얻을 수 있고 외적분할 방법의 단정인 정확도를 다른 외적분할 방법에 비해서 높일 수 있었다. 제안한 방법은 필기체 한글에서 많이 발생할 수 있는 중첩(Over lap)글자와 연결(Touched)글자를 분할하는데 효과적인 성능을 보였다. 중첩글자의 경우, 세선화에 의해 생성된 패스가 자연스럽게 중첩된 부분의 사이를 지나가면서 생성되기 때문에 매우 정확한 패스를 얻을 수 있었고, 연결 글자의 경우는 연결된 부분을 판단하고, 후보영역을 선정하여 연결된 부분을 분리해내는 방법을 사용하였다.

  • PDF

Automatic Stroke Extraction and Stroke Ordering Based on TrueTypeFont (트루타입 폰트 기반 한자 자동 획 분할 및 획 순서 부여)

  • Jang, Hyun-Gyu;Koo, Sang-Ok;Jung, Soon-Ki
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02a
    • /
    • pp.526-534
    • /
    • 2006
  • 이 논문에서는 트루타입 폰트의 글자 외곽선 데이터를 이용하여 자동으로 한자의 획을 분리하고 획 순서를 정하는 방법을 제안한다. 트루타입 폰트에는 글자의 외곽선 정보가 벡터 형식으로 저장되어 있으며, 이러한 벡터들은 일정한 규칙으로 배열되어 있다. 이와 같은 벡터들의 배치를 이용하여 한자의 획이 될 수 있는 벡터들의 집합을 조합하여 독립적인 획을 분리해 내고, 글자를 획 별로 분리하여 본래 트루타입 폰트의 저장 형식과 동일한 파일 형식으로 저장한다. 또한 분리된 모든 획에 대하여, 획 이름을 정의하고, 정의된 획들 간의 위치와 상관관계를 이용하여, 획 사이의 우선순위를 결정하여 획 순서를 부여한다. 이 작업들은 사람의 작업 없이 순수하게 자동으로 이루어지므로, 시간과 노력을 최소화 할 수 있다. 게다가, 획 별로 분리되고 순서대로 정리된 한자들은 트루타입 폰트에 저장되어 있는 모양과 특성을 그대로 가지고 있으므로, 단순히 폰트 자체로써 사용할 수도 있을 뿐만 아니라, 한자 학습 컨텐츠로도 이용이 가능하며, 각종 애니메이션 효과 등 다양한 분야에서 융통성 있게 활용될 수 있다.

  • PDF

Word Segmentation Algorithm for Handwritten Documents based on k-means Clustering (k-평균 클러스터링을 이용한 필기 문서 영상의 단어 분리법)

  • Ryu, Jewoong;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.06a
    • /
    • pp.38-41
    • /
    • 2014
  • 본 논문에서는 필기 문서 영상을 분석하여 단어 단위로 요소들을 분할하는 방법을 제안한다. 일반적으로 인쇄 문서에 비하여 필기 문서에서는 글자 간 간격이 일정하지 않을 뿐만 아니라 필기자 또는 작성된 언어에 따라 특성이 매우 다르게 나타나기 때문에 단어를 분리하는 것은 어려운 문제로 간주되었고 많은 연구가 진행되었다. 제안하는 방법은 이 문제를 해결하기 위하여 글자 획의 두께를 고려하여 정규화시킨 각 연결 요소간 간격과 간격 안에 존재하는 글자 픽셀의 수로 구성된 2 차원의 특징값을 추출하였다. 이 특징값을 바탕으로, 제안하는 방법은 k-평균 클러스터링을 이용하여 각 텍스트라인을 구성하는 연결 요소간 간격을 단어 사이의 간격과 단어 내부 글자간의 간격으로 분류하였다. ICDAR 2013 Handwriting Segmentation Contest 데이터베이스에 대한 실험 결과 제안하는 방법은 가장 우수한 성능을 나타내었다.

  • PDF

Word Spotting Algorithms Using SIFT in Document Images (SIFT를 이용한 문서 영상에서의 단어 검색 알고리즘)

  • Lee, Duk-Ryong;Jeon, Hyo-Jong;Oh, Il-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.488-490
    • /
    • 2011
  • 본 논문에서는 문서 영상에서 글자 분할 및 인식이 필요 없는 단어 검색 알고리즘을 제안한다. 글자 분할을 하지 않고 검색하기 위해 영상 검색에 사용되는 SIFT특징을 이용하였다. 제안하는 알고리즘은 사용자가 입력한 질의어를 질의 영상으로 변환하고, 질의 영상에서 SIFT특징을 추출한다. 추출된 특징은 문서영상에서 추출한 특징과 매칭을 통해 매칭점 쌍을 생성한다. 생성된 매칭점 쌍들을 군집화 조건에 따라 군집화 한다. 군집화는 질의 영상과 지리적 분포가 유사하게 군집화 되도록 설계되었다. 생성된 군집은 군집에 포함된 특징점의 개수가 많을수록 질의 영상과 유사하다. 따라서 N개 이상의 원소를 가지는 군집을 결과로 출력한다. 실험한 결과 제안하는 알고리즘의 가능성을 확인할 수 있었다.

Hangul Component Decomposition in Outline Fonts (한글 외곽선 폰트의 자소 분할)

  • Koo, Sang-Ok;Jung, Soon-Ki
    • Journal of the Korea Computer Graphics Society
    • /
    • v.17 no.4
    • /
    • pp.11-21
    • /
    • 2011
  • This paper proposes a method for decomposing a Hangul glyph of outline fonts into its initial, medial and final components using statistical-structural information. In a font family, the positions of components are statistically consistent and the stroke relationships of a Hangul character reflect its structure. First, we create the component histograms that accumulate the shapes and positions of the same components. Second, we make pixel clusters from character image based on pixel direction probabilities and extract the candidate strokes using position, direction, size of clusters and adjacencies between clusters. Finally, we find the best structural match between candidate strokes and predefined character model by relaxation labeling. The proposed method in this paper can be used for a study on formative characteristics of Hangul font, and for a font classification/retrieval system.

Automatic Stroke Extraction and Stroke Ordering of Chinese Characters Based on TrueTypeFont (트루타입폰트 기반 한자 자동 획 분할 및 자동 획순 부여)

  • Jang, Hyun-Gyu;Koo, Sang-Ok;Jung, Soon-Ki
    • Journal of the Korea Computer Graphics Society
    • /
    • v.11 no.3
    • /
    • pp.10-18
    • /
    • 2005
  • 이 논문에서는 트루타입 폰트(TrueType Font)의 글자 외곽선 데이터를 이용하여 자동으로 한자의 획을 분리하고 획 순서를 정하는 방법을 제안한다. 트루타입 폰트에는 글자의 외곽선 정보가 벡터 형식으로 저장되어 있으며, 이러한 벡터들은 일정한 규칙으로 배열되어 있다. 이와 같은 벡터들의 배치를 이용하여 한자의 획이 될 수 있는 벡터들의 집합을 조합하여 독립적인 획을 분리해 내고, 글자를 획 별로 분리하여 본래 트루타입 폰트의 저장 형식과 동일한 파일 형식으로 저장한다. 또한 분리된 모든 획에 대하여, 획 이름을 정의하고, 정의된 획들 간의 위치와 상관관계를 이용하여, 획 사이의 우선순위를 결정하여 획 순서를 부여한다. 이 작업들은 사람의 작업 없이 순수하게 자동으로 이루어지므로, 시간과 노력을 최소화 할 수 있다. 게다가, 획별로 분리되고 순서대로 정리된 한자들은 트루타입 폰트에 저장되어 있는 모양과 특성을 그대로 가지고 있으므로, 단순히 폰트 자체로써 사용할 수도 있을 뿐만 아니라, 한자 학습 컨텐츠로도 이용이 가능하며, 각종 애니메이션 효과 등 다양한 분야에서 융통성 있게 활용될 수 있다.

  • PDF

Online korean character recognition using letter spotting method (자소 탐색 방법에 의한 온라인 한글 필기 인식)

  • 조범준
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.21 no.6
    • /
    • pp.1379-1389
    • /
    • 1996
  • Hangul character always consists of consonants-vowel-consonants in order. Using this point, this paper proposes an approach to design a model for spotting each letter in Hangul, and then recognize characters based on the spotting results. The network model consist of a set of HMMs. The letter search is carried out by Viterbi algorithm, while character recognition is performed by searching the lattice of letter hypotheses. Experimental results show that, in spite of simple architecture of recognition, the performance is quite high reaching 87.47% for discrete regular characters. In particular the approach shows highly plausible segmentation of letters in characters.

  • PDF

Learning-based Word Segmentation for Text Document Recognition (텍스트 문서 인식을 위한 학습 기반 단어 분할)

  • Lomaliza, Jean-Pierre;Moon, Kwang-Seok;Park, Hanhoon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.41-42
    • /
    • 2018
  • 텍스트 문서 영상으로부터 단어를 검출하고, LLAH(locally likely arrangement hashing) 알고리즘을 이용하여 이웃 단어 사이의 기하 관계를 표현하는 특징 벡터를 계산한 후, 특징 벡터를 비교함으로써 텍스트 문서를 효과적으로 인식하거나 검색할 수 있다. 그러나, 이는 문서 내 각 단어가 정확하고 강건하게 검출된다는 전제를 필요로 한다. 본 논문에서는 텍스트 내 각 라인을 검출하고, 각 라인 내에서 단어 사이의 간격과 글자 사이의 간격을 깊은 신경망(deep neural network)을 이용하여 학습하고 분류함으로써, 보다 카메라와 텍스트 문서 사이의 거리나 방향이 동적으로 변하는 조건에서 각 단어를 강건하게 검출하는 방법을 제안한다. 모바일 환경에서 제안된 방법을 구현하였으며, 실험을 통해 단어 사이의 간격과 글자 사이의 간격을 92.5%의 정확도로 구별할 수 있으며, 이를 통해 동적인 환경에서 단어 검출의 강건성을 크게 개선할 수 있음을 확인하였다.

  • PDF

Development an Android based OCR Application for Hangul Food Menu (한글 음식 메뉴 인식을 위한 OCR 기반 어플리케이션 개발)

  • Lee, Gyu-Cheol;Yoo, Jisang
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.5
    • /
    • pp.951-959
    • /
    • 2017
  • In this paper, we design and implement an Android-based Hangul food menu recognition application that recognizes characters from images captured by a smart phone. Optical Character Recognition (OCR) technology is divided into preprocessing, recognition and post-processing. In the preprocessing process, the characters are extracted using Maximally Stable Extremal Regions (MSER). In recognition process, Tesseract-OCR, a free OCR engine, is used to recognize characters. In the post-processing process, the wrong result is corrected by using the dictionary DB for the food menu. In order to evaluate the performance of the proposed method, experiments were conducted to compare the recognition performance using the actual menu plate as the DB. The recognition rate measurement experiment with OCR Instantly Free, Text Scanner and Text Fairy, which is a character recognizing application in Google Play Store, was conducted. The experimental results show that the proposed method shows an average recognition rate of 14.1% higher than other techniques.