• Title/Summary/Keyword: 문자 분류

Search Result 349, Processing Time 0.025 seconds

Mobile Phone's Input Method Reflecting the Korean Alphabet's Morphological Intuition (한글 모음의 형태적 직관성을 반영한 이동통신 단말기의 문자입력 방식에 관한 연구)

  • Park, Sang-Hyun;Lee, Gi-Ho;Lee, Hyun-Joo
    • 한국HCI학회:학술대회논문집
    • /
    • 2006.02b
    • /
    • pp.140-146
    • /
    • 2006
  • 한글은 자음과 모음이 한눈에 구분되는 세계 유일의 표음문자이다. 14 개의 자음과 10 개의 모음을 조합하여 글자를 만들어 내는 한글의 문자 구성원리의 우수성은 이미 세계가 인정하고 있으며, 영국 리스대학의 Geoffrey Sampson 음성언어학 교수는 물리적, 철학적 원리를 문자화한 한글을 새로운 차원의 Feature System 으로 분류하기도 하였다. 본 연구는 이러한 한글의 그 형상학적 생성원리를 바탕으로 이동통신 단말기의 문자입력 시스템의 사용성 증대를 위한 인터페이스 디자인에 그 목적이 있다. 이를 위하여 본 연구에서는 한글의 Feature System 을 응용한 이동통신 단말기의 새로운 문자입력 시스템의 인터페이스를 개발하고, 이를 기존의 이동통신 단말기를 위한 문자입력 방식과 비교 검증하여 그 사용성을 검증하고자 한다.

  • PDF

Multi-font/multi-size Hangul Character Recognition with Hierarchical Neural Networks (계층적 신경망을 이용한 다중크기의 다중활자체 한글문자인식)

  • Gwon, Jae-Uk;Jo, Seong-Bae;Kim, Jin-Hyeong
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.183-190
    • /
    • 1990
  • 본 논문에서는 인쇄체 한글문자를 실용적으로 인식하기 위하여 고안된 계층적 신경망을 소개하고, 이를 다중활자체의 한글문자를 인식하는 문제에 적용하였다. 이 신경망은 입력된 문자영상을 6가지의 유형으로 분류한 후, 해당 유형을 처리하는 신경망에서 실제 문자를 인식하도록 구성되었다. 또한 각 신경망을 모든 입력영상의 모든 출력노드에 대해 고르게 학습시키기 위하여 Backpropagation 알고리즘을 개선한 Descending Epsilon 알고리즘을 도입하였다. 그 결과 사용빈도수가 높은 한글 520자에 대해 94.4 - 98.4%의 인식률을 얻음으로써 본 논문에서 제안한 시스템이 다양한 활자체로 이루어진 실제 문서인식시스템의 문자인식부에 효과적으로 사용될 수 있음을 제시하였다.

  • PDF

Character Recognition of Vehicle Number Plate Using Feature Based Neural Network (특징 추출에 기반한 신경망 시스템을 이용한 차량 번호판 문자인식)

  • 이현숙;김희승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.383-385
    • /
    • 2000
  • 차량 번호판 문자영상으로부터 여러 가지 특징 추출 방법을 조합하여 입력특징소를 재구성하고, 신경망을 이용하여 문자를 인식한다. 속도 개선을 위해 특별한 전처리 과정없이 이치화와 크기 정규화만을 수행한 후 그물망 방법과 BLT 방법, 정규화된 투영값 특정 방법을 조합하여 입력특징소를 구성한다. 본 연구에서는 숫자 인식에서 그물망 방법과 BLT 방법을 이용하여 잡음으로 인한 유사 문자의 오인식을 해결하였고, 문자 인식에서는 정규화된 투영값 특징을 이용하여 문자의 유형을 분류한 후 자소를 개별적으로 인식하였다. 이로써 모음 인식 경우에 중요한 역할을 하는 작은 획의 영역에 BLT 방법을 사용함으로 기존 연구에서의 모음 오인식 문제를 해결하였다.

  • PDF

Text Region Verification in Natural Scene Images using Multi-resolution Wavelet Transform and Support Vector Machine (다해상도 웨이블릿 변환과 써포트 벡터 머신을 이용한 자연영상에서의 문자 영역 검증)

  • Bae Kyungsook;Choi Youngwoo
    • The KIPS Transactions:PartB
    • /
    • v.11B no.6
    • /
    • pp.667-674
    • /
    • 2004
  • Extraction of texts from images is a fundamental and important problem to understand the images. This paper suggests a text region verification method by statistical means of stroke features of the characters. The method extracts 36 dimensional features from $16\times16$sized text and non-text images using wavelet transform - these 36 dimensional features express stroke and direction of characters - and select 12 sub-features out of 36 dimensional features which yield adequate separation between classes. After selecting the features, SVM trains the selected features. For the verification of the text region, each $16\times16$image block is scanned and classified as text or non-text. Then, the text region is finally decided as text region or non-text region. The proposed method is able to verify text regions which can hardly be distin guished.

A Study on Printed Hangeul Recognition with Dynamic Jaso Segmentation and Neural Network (동적자소분할과 신경망을 이용한 인쇄체 한글 문자인식기에 관한 연구)

  • 이판호;장희돈;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.19 no.11
    • /
    • pp.2133-2146
    • /
    • 1994
  • In this paper, we present a method for dynamic Jaso segmentation and Hangeul recognition using neural network. It uses the feature vector which is extracted from the mesh depending on the segmentation result. At first, each character is converted to 256 dimension feature vector by four direction contributivity and $8\times8$ mesh. And then, the character is classified into 6 class by neural network and is segmented into Jaso using the classification result the statistic vowel location information and the structural information. After Jaso segmentation, Hanguel recognition using neural network is performed. We experiment on four font of which three fonts are used for training the neural net and the rest is used of testing. Each font has the 2350 characters which are comprised in KS C 5601. The overall recognition rates for the training data and the testing data are 97,4% and 94&% respectively. This result shows the effectivness of proposed method.

  • PDF

Word Image Decomposition from Image Regions in Document Images using Statistical Analyses (문서 영상의 그림 영역에서 통계적 분석을 이용한 단어 영상 추출)

  • Jeong, Chang-Bu;Kim, Soo-Hyung
    • The KIPS Transactions:PartB
    • /
    • v.13B no.6 s.109
    • /
    • pp.591-600
    • /
    • 2006
  • This paper describes the development and implementation of a algorithm to decompose word images from image regions mixed text/graphics in document images using statistical analyses. To decompose word images from image regions, the character components need to be separated from graphic components. For this process, we propose a method to separate them with an analysis of box-plot using a statistics of structural components. An accuracy of this method is not sensitive to the changes of images because the criterion of separation is defined by the statistics of components. And then the character regions are determined by analyzing a local crowdedness of the separated character components. finally, we devide the character regions into text lines and word images using projection profile analysis, gap clustering, special symbol detection, etc. The proposed system could reduce the influence resulted from the changes of images because it uses the criterion based on the statistics of image regions. Also, we made an experiment with the proposed method in document image processing system for keyword spotting and showed the necessity of studying for the proposed method.

Korean Mobile Spam Filtering System Considering Characteristics of Text Messages (문자메시지의 특성을 고려한 한국어 모바일 스팸필터링 시스템)

  • Sohn, Dae-Neung;Lee, Jung-Tae;Lee, Seung-Wook;Shin, Joong-Hwi;Rim, Hae-Chang
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.11 no.7
    • /
    • pp.2595-2602
    • /
    • 2010
  • This paper introduces a mobile spam filtering system that considers the style of short text messages sent to mobile phones for detecting spam. The proposed system not only relies on the occurrence of content words as previously suggested but additionally leverages the style information to reduce critical cases in which legitimate messages containing spam words are mis-classified as spam. Moreover, the accuracy of spam classification is improved by normalizing the messages through the correction of word spacing and spelling errors. Experiment results using real world Korean text messages show that the proposed system is effective for Korean mobile spam filtering.

Block Classification of Document Images Using the Spatial Gray Level Dependence Matrix (SGLDM을 이용한 문서영상의 블록 분류)

  • Kim Joong-Soo
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.10
    • /
    • pp.1347-1359
    • /
    • 2005
  • We propose an efficient block classification of the document images using the second-order statistical texture features computed from spatial gray level dependence matrix (SGLDM). We studied on the techniques that will improve the block speed of the segmentation and feature extraction speed and the accuracy of the detailed classification. In order to speedup the block segmentation, we binarize the gray level image and then segmented by applying smoothing method instead of using texture features of gray level images. We extracted seven texture features from the SGLDM of the gray image blocks and we applied these normalized features to the BP (backpropagation) neural network, and classified the segmented blocks into the six detailed block categories of small font, medium font, large font, graphic, table, and photo blocks. Unlike the conventional texture classification of the gray level image in aerial terrain photos, we improve the classification speed by a single application of the texture discrimination mask, the size of which Is the same as that of each block already segmented in obtaining the SGLDM.

  • PDF

Block Classification of Document Images by Block Attributes and Texture Features (블록의 속성과 질감특징을 이용한 문서영상의 블록분류)

  • Jang, Young-Nae;Kim, Joong-Soo;Lee, Cheol-Hee
    • Journal of Korea Multimedia Society
    • /
    • v.10 no.7
    • /
    • pp.856-868
    • /
    • 2007
  • We propose an effective method for block classification in a document image. The gray level document image is converted to the binary image for a block segmentation. This binary image would be smoothed to find the locations and sizes of each block. And especially during this smoothing, the inner block heights of each block are obtained. The gray level image is divided to several blocks by these location informations. The SGLDM(spatial gray level dependence matrices) are made using the each gray-level document block and the seven second-order statistical texture features are extracted from the (0,1) direction's SGLDM which include the document attributes. Document image blocks are classified to two groups, text and non-text group, by the inner block height of the block at the nearest neighbor rule. The seven texture features(that were extracted from the SGLDM) are used for the five detail categories of small font, large font, table, graphic and photo blocks. These document blocks are available not only for structure analysis of document recognition but also the various applied area.

  • PDF

A Study on the Arabic numeral reading rules in Modern Korean (현대 한국어에서 아라비안 숫자의 읽기 규칙 연구)

  • Jung, Young-Im;Kim, Jeong-Se;Kim, Sang-Hoon;Lee, Young-Jik;Yoon, Ae-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.16-23
    • /
    • 2002
  • 본 논문에서는 아라비안 숫자를 포함한 텍스트를 음성으로 합성하기 위하여, 숫자 형태와 분류사 그리고 숫자가 나오는 문맥에 따라 숫자를 자동으로 문자화할 수 있는 전처리 규칙을 설정하는데 목적을 둔다. 먼저 선행연구를 통해 숫자를 포함한 수사 및 수사표현의 읽기 규칙의 적용 범위 및 한계점을 살펴보고, 음성 합성을 위한 아라비안 숫자의 문자화 규칙을 설정하고자 한다. 현대 한국어에서 아라비안 숫자를 읽는 방식은 크게 고유어 방식과 한자어 방식이 있으며 단(單)단위에서는 영어가 사용되기도 한다. 또한 한자어 방식에서도 단위를 붙여 읽는 경우와 모든 수를 단 단위로 읽는 경우가 있으므로, 아라비안 숫자의 문자화를 단순한 규칙을 설정하여 자동화하기에는 중의성이 높다. 본 연구에서는 (1) 숫자 전 전치어(pre-numeral), (2) 기호를 포함한 숫자열의 표현 형식과 크기, (3) 단위 표현, (4) 숫자 후치어(post-numeral), (5) 분류사(classifier) (6) 분류사 후치어(post-classifier), (7) 수사표현 앞뒤 문맥에 따라, 아라비안 숫자표현이 문자화되는 방식을 살펴보았다. 분석 대상 말뭉치는 C 신문의 2000년 1월부터 2000년 4월까지 전체 기사 1,400건에서 숫자가 포함된 숫자표현 약 63,000개론 구성하였다. 패턴화된 구조 및 중의성이 없는 구조를 12가지로 밝히고 중의성이 있는 구조의 유형을 밝혔으며 분류사 후치어와의 결합 관계, 좌우 문맥정보를 통해 중의성 해결의 단서를 제시하고자 하였다.

  • PDF