• 제목/요약/키워드: ocr

검색결과 476건 처리시간 0.032초

A Methodology for Urdu Word Segmentation using Ligature and Word Probabilities

  • Khan, Yunus;Nagar, Chetan;Kaushal, Devendra S.
    • International Journal of Ocean System Engineering
    • /
    • 제2권1호
    • /
    • pp.24-31
    • /
    • 2012
  • This paper introduce a technique for Word segmentation for the handwritten recognition of Urdu script. Word segmentation or word tokenization is a primary technique for understanding the sentences written in Urdu language. Several techniques are available for word segmentation in other languages but not much work has been done for word segmentation of Urdu Optical Character Recognition (OCR) System. A method is proposed for word segmentation in this paper. It finds the boundaries of words in a sequence of ligatures using probabilistic formulas, by utilizing the knowledge of collocation of ligatures and words in the corpus. The word identification rate using this technique is 97.10% with 66.63% unknown words identification rate.

DNP3.0을 이용한 과전류 계전기 에이전트의 통신 방안 연구 (A Study on communication method between OverCurrent Relay Agents using DNP 3.0)

  • 이한웅;정광호;임성일;현승호;최면송;이승재
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 추계학술대회 논문집 전력기술부문
    • /
    • pp.265-267
    • /
    • 2002
  • In this paper, the communication between Over-Current Relay agents is realized using DNP(Distributed Network Protocol), which is the standard communication protocol of distribution automation system in KEPKO. The key words in OCR agent communication are defined and represented by use of DNP application function code. And the DNP index for OCR agent is defined. The proposed communication scheme is tested by use of Communication Test Harness, a test tool for DNP protocol to show its soundness.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

임베디드 OCR시스템 개발을 위한 소프트웨어 아키텍쳐 (Software Architecture for Embedded OCR System Development)

  • 김세호;박재화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.862-864
    • /
    • 2005
  • 최근 임베디드 환경에서는 정보 처리를 위한 문자 인식 기술이 많이 요구되고 있다. 하지만 임베디드 환경에서의 문자인식 시스템(Opticai Character Recognition)은 제약적인 자원으로 인하여 플랫폼에 크게 의존하는 문제점을 안고 있어 재사용성을 기대하기 힘들다. 그렇지만 임베디드 환경에서 플랫폼에 독립적인 즉, 재사용이 가능한 모범적인 소프트웨어 아키텍쳐는 없다. 따라서, 본 논문에서는 임베디드 환경에서의 문자 인식 시스템 개발시 플랫폼에 독립적인 즉, 재사용이 가능한 소프트웨어 아키텍쳐를 제안하였다. 또한 제안한 아키텍쳐를 바탕으로 실제 임베디드 환경(WIPI, Qt)에 문자인식 시스템에 적용시켜보았으며, 더 이상 플랫폼에 의존적이지 않음을 확인 해 볼 수 있다.

  • PDF

인천국제공항 부지 해성 세립토에 대한 CPTU와 DMT 결과 비교 (Comparison of CPTU and DMT Results on Inchon International Airport Marine Soils)

  • 김주형;김영웅;조성민;김명모
    • 한국지반공학회논문집
    • /
    • 제16권6호
    • /
    • pp.23-33
    • /
    • 2000
  • 인천국제 공항에 분포하는 해성세립토 지반에서 일련의 CPTU와 DMT를 실시하고 그결과로부터 구한 비배수전단강도($s_{u}$ ), 과입밀도(OCR), 압밀계수($c_{h}$) 등과 같은 지반 정수와 기존의 시험자료 등을 분석하여 두 시험 결과를 비교하였다. 이 분석에의하면, CPTU와 DMT 두시험은 모두 피에조콘 정수, $B_{q}$ )로 분류하여 점성토인 지반에서 보다 신뢰성이 높은결과를 주었으며, 또한 해석방법에 따라 지반정수 산정결과에 큰 편차를 보여, 적절한 해석방법의 선택이 신뢰성있는 지반정수의 산정을 위한 주요한 인자임을 알았다. 그리고, 소성적 성질이 낮은 세립토 지반에서의 CPTU와 DMT를 이용한 비배수전단 강도 또한 과압밀비의 산정은 상당한 오차를 유발할 수 있다고 판단되었다.

  • PDF

Construct OCR on mobile mechanic system for android wireless dynamics and structure stabilization

  • Shih, Bih-Yaw;Chen, Chen-Yuan;Su, Wei-Lun
    • Structural Engineering and Mechanics
    • /
    • 제42권5호
    • /
    • pp.747-760
    • /
    • 2012
  • In today's online social structure, people with electronic devices or network have been closely related to whether any of the activities, work, school, etc., is related to electronic devices, intelligent robot, and network control. The best mobility and the first rich media of these products as smart phones, smart phones rise rapidly in recent years, high speed processing performance and high free way to install software, deeply loved by many business people. However, not only for smart phone business aspects of the use, but also can engage in education of the teachers or the students are learning a great help. This study construct OCR-assisted learning software written by the JAVA made, and the installation is provided by the Android mobile phone users.

워드이미지로부터 영문인식을 위한 트루타입 특성 추출 (Deriving TrueType Features for Letter Recognition in Word Images)

  • SeongAh CHIN
    • 한국시뮬레이션학회논문지
    • /
    • 제11권3호
    • /
    • pp.35-48
    • /
    • 2002
  • In the work presented here, we describe a method to extract TrueType features for supporting letter recognition. Even if variously existing document processing techniques have been challenged, almost few methods are capable of recognize a letter associated with its TrueType features supporting OCR free, which boost up fast processing time for image text retrieval. By reviewing the mechanism generating digital fonts and birth of TrueType, we realize that each TrueType is drawn by its contour of the glyph table. Hence, we are capable of deriving the segment with density for a letter with a specific TrueType, defined by the number of occurrence over a segment width. A certain number of occurrence appears frequently often due to the fixed segment width. We utilize letter recognition by comparing TrueType feature library of a letter with that from input word images. Experiments have been carried out to justify robustness of the proposed method showing acceptable results.

  • PDF

오픈소스를 이용한 문자/음성 인식 및 번역 앱 개발 (Text/Voice Recognition & Translation Application Development Using Open-Source)

  • 윤태진;서효종;김도헌
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.425-426
    • /
    • 2017
  • 본 논문에서는 Google에서 지원하는 오픈소스인 Tesseract-OCR을 이용한 문자/음성 인식 및 번역 앱에 대해 제안한다. 최근 한국어를 포함한 외국어 인식과 번역기능을 이용한 다양한 스마트폰 앱이 개발되어 여행에 필수품으로 자리잡고 있다. 스마트폰의 카메라기능을 이용하여 촬영한 영상을 인식률을 높이도록 처리하고, Crop기능을 넣어 부분 인식기능을 지원하며, Tesseract-OCR의 train data를 보완하여 인식률을 높이고, Google 음성인식 API를 이용한 음성인식 기능을 통해 인식된 유사한 문장들을 선택하도록 하고, 이를 번역하고 보여주도록 개발하였다. 번역 기능은 번역대상 언어와 번역할 언어를 선택할 수 있고 기본적으로 영어, 한국어, 일본어, 중국어로 번역이 가능하다. 이 기능을 이용하여 차량번호 인식, 사진에 포함된 글자를 통한 검색 등 다양한 응용분야에 맞게 앱을 개발할 수 있다.

  • PDF

고속 문자 인식기의 대분류용 다중 처리기의 구현 (Implementation of Multiprocessor for Classification of High Speed OCR)

  • 김형구;강선미;김덕진
    • 전자공학회논문지B
    • /
    • 제31B권6호
    • /
    • pp.10-16
    • /
    • 1994
  • In case of off-line character recognition with statistical method, the character recognition speed for Korean or Chinese characters is slow since the amount of calculation is huge. To improve this problem, we seperate the recognition steps into several functional stages and implement them with hardwares for each stage so that all the stages can be processed with pipline structure. In accordance with temporal parallel processing, a high speed character recognition system can be implemented. In this paper, we implement a classification hardware, which is one of the several functional stages, to improve the speed by parallel structure with multiple DSPs(Digital Signal Processors). Also, it is designed to be able to expand DSP boards in parallel to make processing faster as much as we wish. We implement the hardware as an add-on board in IBM-PC, and the result of experiment is that it can process about 47-times and 71-times faster with 2 DSPs and 3 DSPs respectively than the IBM-PC(486D$\times$2-66MHz). The effectiveness is proved by developing a high speed OCR(Optical Character Recognizer).

  • PDF

실시간 글자 인식을 위한 안드로이드 기반의 글자 영역 추출 기술 (A text region extraction algorithm based on Android for real-time text recognition)

  • 이규철;이상용;유지상
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 추계학술대회
    • /
    • pp.194-196
    • /
    • 2016
  • 본 논문에서는 안드로이드 환경에서 글자 인식을 위한 전처리 과정으로 입력 영상에서 글자 영역만을 추출하는 기법을 제안한다. 대부분의 글자 인식 어플리케이션에서 글자를 인식하는 방법은 RoI(Region of Interest)에 인식하려는 글자를 위치시켜 놓고 사용자가 촬영함으로써 진행된다. 하지만 촬영된 영상 그대로를 인식에 사용하기 때문에 잡음 및 글자가 아닌 영역들을 글자로 인식하는 문제 등으로 인하여 인식률이 현저히 떨어진다. 제안하는 기법에서는 MSER(Maximally Stable Extremal Regions) 기법을 통해 각각의 글자를 추출한 후, 글자의 특성을 이용하여 글자 영역만을 추출한다. 기법의 성능 평가는 무료 OCR(Optical Character Recognition) 엔진인 Tesseract-OCR을 통해 글자 인식률을 비교하였으며, 제안하는 기법을 적용한 글자 인식 시스템이 적용하지 않은 시스템보다 글자의 인식률이 향상되는 것을 확인하였다.

  • PDF