• 제목/요약/키워드: OCR

검색결과 471건 처리시간 0.031초

$K_o$-재하/제하에 의한 건조모래의 거동(I): 단주기 시험 (Behaviour of Dry Sand under $K_o$-Loading/unloading Conditions(I) : Single-Cyclic Test)

  • 송무효;남선우
    • 한국지반공학회지:지반
    • /
    • 제10권4호
    • /
    • pp.83-102
    • /
    • 1994
  • 건조모래의 응력이력에 따른 Ko 값을 관찰하기 위하여 압밀링 형태의 Ko시험기를 새로이 고안하였으며, 이 시험기를 사용하여 수평응력을 측정하였다. 본 실험을 위하여 총 2형태의 단주기 Ko 재하/제하시험이 4종류의 상대밀도에 대하여 수행하였다. 실험결과, 처녀재하 시의 정지토압계수 K.은 모래의 내부마촹각 U'의 함수로서 K.. : 1-0.914sin0'와 같은 관계식을 얻을 수 있었다. 처녀제하 시의 정지토압계수 Kou는 Ko.과 과압밀비(OCR)의 함수로서 Ko.=Ko. (OCR)a으로 표시할 수 있으며, 지수 a는 대체로 상대밀도가 클수록 증가하는 경향을 보인다. 처녀재재하 시의 정지토압계수 Kor은 연직응력 Qv'가 증가함에 따라 쌍곡선 형태로 감소한다. 그리고 처녀재재하 시의 응력경로는 최소제하응력의 크기에 무관하게 최대선행점으로 복귀하며, 이곡선의 기울기 mr은 OCR이 클수로 증가한다.

  • PDF

한글 인식을 위한 CNN 기반의 간소화된 GoogLeNet 알고리즘 연구 (Streamlined GoogLeNet Algorithm Based on CNN for Korean Character Recognition)

  • 김연규;차의영
    • 한국정보통신학회논문지
    • /
    • 제20권9호
    • /
    • pp.1657-1665
    • /
    • 2016
  • CNN(Convolutional Neural Network)을 사용한 심화 학습이 다양한 분야에서 진행되고 있으며 관련 연구들은 이미지 인식의 많은 분야에서 높은 성능을 보이고 있다. 본 논문에서는 한글 인식을 위해 대규모 한글 데이터베이스를 학습할 수 있는 CNN 구조의 간소화된 GoogLeNet을 사용한다. 본 논문에 사용된 데이터베이스는 대규모 한글 데이터베이스인 PHD08로 총 2,350개의 한글 문자에 대해 각 2,187개의 샘플을 가져 총 5,139,450개의 데이터로 구성되어 있다. 간소화된 GoogLeNet은 학습의 결과로 학습 종료 시점에서 PHD08에 대해 99% 이상의 Top-1 테스트 정확도를 보였으며 실험의 객관성을 높이기 위해 PHD08에 존재하지 않는 한글 폰트로 이루어진 한글 데이터를 제작하여 상용 OCR 프로그램들과 분류 성능을 비교하였다. 상용 OCR 프로그램들은 66.95%에서 83.17%의 분류 성공률을 보인 반면, 제안하는 간소화된 GoogLeNet은 평균 89.14%의 분류 성공률을 보여 상용 OCR 프로그램들보다 높은 분류 성공률을 보였다.

Automatic Generation of Training Character Samples for OCR Systems

  • Le, Ha;Kim, Soo-Hyung;Na, In-Seop;Do, Yen;Park, Sang-Cheol;Jeong, Sun-Hwa
    • International Journal of Contents
    • /
    • 제8권3호
    • /
    • pp.83-93
    • /
    • 2012
  • In this paper, we propose a novel method that automatically generates real character images to familiarize existing OCR systems with new fonts. At first, we generate synthetic character images using a simple degradation model. The synthetic data is used to train an OCR engine, and the trained OCR is used to recognize and label real character images that are segmented from ideal document images. Since the OCR engine is unable to recognize accurately all real character images, a substring matching method is employed to fix wrongly labeled characters by comparing two strings; one is the string grouped by recognized characters in an ideal document image, and the other is the ordered string of characters which we are considering to train and recognize. Based on our method, we build a system that automatically generates 2350 most common Korean and 117 alphanumeric characters from new fonts. The ideal document images used in the system are postal envelope images with characters printed in ascending order of their codes. The proposed system achieved a labeling accuracy of 99%. Therefore, we believe that our system is effective in facilitating the generation of numerous character samples to enhance the recognition rate of existing OCR systems for fonts that have never been trained.

스캐닝 과정에서 발생하는 전자문서의 기하학적 변형감지에 관한 연구 (Study on Measuring Geometrical Modification of Document Image in Scanning Process)

  • 오동열;오해석;류성열
    • 한국산학기술학회논문지
    • /
    • 제10권8호
    • /
    • pp.1869-1876
    • /
    • 2009
  • 기존 종이 문서를 영상 파일로 변환하기 위해서 스캐너와 같은 광학기를 사용하게 된다. 스캐닝 과정에서 문서가 제대로 문서 영상으로 생성되었는지를 판단하기 위해서 이미지 품질 검사 과정을 거치게 된다. 이미지 품질검사 과정에서는 스캐너 기기의 특성상 스캐닝 과정에서 발생할 수 있는 문서 영상의 기울기, 노이즈 여부, 문서가 접힌 상태로 스캔되었는지의 여부 등을 체크하게 된다. 이에 본 논문에서는 스캐너를 이용하여 문서 영상을 생성 과정에서 발생하는 기하학적 변형을 평가하기 위한 방법론을 제시한다. 본 연구에서는 품질 검사의 검사 항목에 대해서 영상 처리를 이용하여 각각의 변형 정도를 측정하고 각각의 변형 정도가 실제 문서의 가독성에 얼마나 영향을 미치는지를 OCR 결과 값과 비교한다. OCR 인식 성공 비율과 각 항목별 변형 정도를 나타내는 측정 값 간에 상관관계를 분석하기 위해서 피어슨 상관 계수(Pearson Correlation Coefficient)를 이용하고 이를 기반으로 실제 문서 영상의 변형정도를 평가하기 위한 가중치 값을 산정한다. 제시한 방법으로 평가에서 높은 평가 값으로 계산된 영상 문서는 OCR 인식률에서도 높은 인식 결과를 나타내고 있다.

FPN(Feature Pyramid Network)을 이용한 고지서 양식 인식 (Recognition of Bill Form using Feature Pyramid Network)

  • 김대진;황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제25권4호
    • /
    • pp.523-529
    • /
    • 2021
  • 4차산업 혁명 시대를 맞아, 기술의 변화가 다양한 분야에 적용되고 있다. 고지서 분야에서도 자동화, 디지털화, 데이터관리가 되고 있다. 사회에서 유통되는 고지서의 형태는 수만 가지 이상이며, 이를 자동화, 디지털화, 데이터관리를 위해서는 고지서 인식이 필수적이다. 현재 다양한 고지서들을 관리하기 위해서 OCR(Optical Character Recognition) 기술을 활용한다. 이때, 정확도를 높이기 위해, 먼저 고지서 양식을 인식하면, OCR 인식 시 더 높은 인식률을 가질 수 있다. 본 논문에서는 고지서 양식을 구분하기 위해 인덱스로 사용할 수 있는 로고를 객체 인식하였으며, 이때 로고의 크기가 전체 고지서 대비 작으므로 딥러닝 기술 중 FPN(Feature Pyramid Network)을 작은 객체 검출에 활용하였다. 결과적으로, 제안하는 알고리즘을 통해서 자원 낭비를 줄이고, OCR 인식 정확도를 높일 수 있었다.

YOLO와 OCR 알고리즘에 기반한 시각 장애우를 위한 유통기한 알림 시스템 (Expiration Date Notification System Based on YOLO and OCR algorithms for Visually Impaired Person)

  • 김민수;문미경;한창희
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1329-1338
    • /
    • 2021
  • 점자를 제외한 시각 장애우들이 유통기한을 확인할 수 있는 효과적인 방법이 거의 개발되어 있지 않으며, 이로 인하여 시각 장애우들의 식품 안전성이 위협받고 있다. 본 연구에서는 시각 장애우의 식품 안전성 확보를 위해 실시간 객체 인식 알고리즘(you only look once, YOLO) 및 광학 문자 인식 (optical character recognition, OCR)에 기반한 유통기한 알림 시스템을 개발했다. 제안하는 시스템은 총 4가지 단계로 시각 장애우에게 유통기한 정보를 전달한다: (1) 표적 제품의 바코드 스캔을 통한 제품 확인 (2) 실시간으로 입력되는 제품 영상에서 YOLO 알고리즘을 활용하여 유통기한이 표기된 이미지 영역 검출; (3) 검출된 이미지 영역에서 OCR 알고리즘을 활용하여 유통기한 문자 인식; (4) Text to Speech (TTS) 기술을 활용하여 유통기한 정보를 사용자에게 전달. 성능 평가를 위한 온라인 실험 결과, 앞이 보이지 않는 피험자가 개발한 시스템을 사용해서 제품의 유통기한을 평균 86%의 높은 정확도로 확인할 수 있음이 검증되었다. 이러한 결과는 제안하는 시스템이 저시력자를 포함한 시각 장애우들의 식품 안전성 확보에 이바지할 수 있음을 보여준다.

Spam Image Detection Model based on Deep Learning for Improving Spam Filter

  • Seong-Guk Nam;Dong-Gun Lee;Yeong-Seok Seo
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.289-301
    • /
    • 2023
  • Due to the development and dissemination of modern technology, anyone can easily communicate using services such as social network service (SNS) through a personal computer (PC) or smartphone. The development of these technologies has caused many beneficial effects. At the same time, bad effects also occurred, one of which was the spam problem. Spam refers to unwanted or rejected information received by unspecified users. The continuous exposure of such information to service users creates inconvenience in the user's use of the service, and if filtering is not performed correctly, the quality of service deteriorates. Recently, spammers are creating more malicious spam by distorting the image of spam text so that optical character recognition (OCR)-based spam filters cannot easily detect it. Fortunately, the level of transformation of image spam circulated on social media is not serious yet. However, in the mail system, spammers (the person who sends spam) showed various modifications to the spam image for neutralizing OCR, and therefore, the same situation can happen with spam images on social media. Spammers have been shown to interfere with OCR reading through geometric transformations such as image distortion, noise addition, and blurring. Various techniques have been studied to filter image spam, but at the same time, methods of interfering with image spam identification using obfuscated images are also continuously developing. In this paper, we propose a deep learning-based spam image detection model to improve the existing OCR-based spam image detection performance and compensate for vulnerabilities. The proposed model extracts text features and image features from the image using four sub-models. First, the OCR-based text model extracts the text-related features, whether the image contains spam words, and the word embedding vector from the input image. Then, the convolution neural network-based image model extracts image obfuscation and image feature vectors from the input image. The extracted feature is determined whether it is a spam image by the final spam image classifier. As a result of evaluating the F1-score of the proposed model, the performance was about 14 points higher than the OCR-based spam image detection performance.

전자문서에서 서식인식과 광학문자인식을 이용한 개인정보 탐지 및 보호 시스템 (A Personal Information Security System using Form Recognition and Optical Character Recognition in Electronic Documents)

  • 백종경;지윤석;박재표
    • 한국산학기술학회논문지
    • /
    • 제21권5호
    • /
    • pp.451-457
    • /
    • 2020
  • 전자문서에서 개인정보를 보호하기 위한 방법으로 서식 인식과 광학 문자 인식 기법이 많이 이용되고 있으나 OCR 엔진의 저조한 인식률로 인해서 개인정보를 탐지하지 못하거나 오탐이 많이 발생하고 있고 또한 대량의 전자문서를 분석하는데도 오랜 시간이 걸린다. 본 논문에서는 기존의 방법을 개선하여 전자문서의 이미지 분석 속도와 OCR엔진의 글자 인식률, 그리고 개인정보의 탐지율을 향상할 수 있는 방안을 제시한다. 서식 인식 방법을 이용하여 분석 속도를 높이고, 이미지 보정을 통해 OCR 엔진 분석 속도 및 글자 인식률을 향상한다. 이미지에서의 개인정보 분석 알고리즘을 제안하여 개인정보의 탐지율을 높였다. 실험을 통하여 이미지 서식 인식 시료 1755개를 분석하여 평균 0.24초가 소요되어 기존의 PAID 시스템 서식 인식 방안보다 0.5초 향상되었으며 이미지 서식 인식률은 평균 99%를 기록하였다. 본 논문에서 제안한 방법은 전자문서에서 개인정보를 보호할 수 있는 시스템으로서 공공, 통신사, 금융, 관광, 보안 등 여러분야에서 활용할 수 있을 것이다.

장기압밀시험에 의한 광양항 점성토의 응력이력 특성 연구 (A Study on the Characteristics of Stress History of Kwang-Yang Port Clayey Soil Based on the Long-term Consolidation Test)

  • 김진영;류승석;백원진;심재록;오종신;김승곤
    • 한국지반공학회논문집
    • /
    • 제28권6호
    • /
    • pp.31-38
    • /
    • 2012
  • 본 연구에서는 재성형한 광양항 점성토를 이용하여 응력이력과 OCR이 연약 점성토의 장기압밀특성에 미치는 영향을 규명하기 위해 표준압밀시험기를 개조하여 장기압밀 시험을 수행하였다. 과압밀상태의 점토 시료에 대해, OCR이 1.5를 초과한 경우, 이차압밀 및 최종침하량은 OCR이 2.0에서 3.0으로 증가함에도 큰 차이를 보이지 않았으며, 이로부터 이차압밀과 최종침하량을 저감하기 위해 현장적용 OCR은 1.5로 나타났다. 더욱이 선행하중 재하기간과 장기압밀 거동 특성사이의 관계를 알아보기 위해 광양항 재성형 점토를 이용한 실험결과로부터 압밀도 70~80%를 초과하여 재하하중을 제거하여도 장기압밀에 미치는 영향은 크지 않은 것으로 나타났다.

해성점토지반에서 CPT를 이용한 응력이력(OCR, $\sigma$를 p)의 산정 (Profiling Stress History(OCR, $\sigma를$p) of Marine Clay Using Piezocone Penetration Test)

  • 이강운;윤길림;채영수
    • 한국지반공학회논문집
    • /
    • 제18권6호
    • /
    • pp.73-81
    • /
    • 2002
  • 국내 남해안 해성점토 지반의 응력이력(stress history)에 대하여 피조콘 관입시험 방법을 이용하여 통계분석과 사례 연구을 통하여 조사하였다. 경험식과 피조콘 관입시험으로 산정한 선행압밀응력과 과압밀비는 이론적, 경험적 상관관계를 찾고자 회귀분석을 수행하였고 기준값은 실내 표준압밀시험 결과를 토대로 하였다. 표준압밀시험에서 나타난 조사 지반의 응력이력 상태는 전체적으로 해수면 아래 표층 l0m까지는 과압밀된 상태였으나, 표층 l0m 아래 깊이에서는 과압밀비(OCR)가 0.3까지도 존재하여 전반적으로 지층상태는 불안정한 구조를 가지고 있었다. 응력이력에서 선행압밀하중의 결정은 Chen과 Mayne(1996)의 경험방법과 Konrad와 Law(1987)의 이론공식을 사용하였다. 산정결과, Chen과 Mayne(1996)의 경험공식중에서 간극수압을 이용한 예측방법이 가장 신뢰성이 높았다. 그리고 과압밀비도 Chen과 Mayne(1996)의 경험식이 가장 높은 신뢰성을 보였다. 하지만 Mayne과 Holtz(1988), 그리고 Mayne과 Bachus(1988)방법은 각각 OCR이 1.0이하인 미압밀 지반에서 좋은 결과를 제시하였다. 그러므로 피조콘 관입시험으로부터 지반의 응력이력을 산정하는 다양한 방법은 대부분 지반조건과 위치에 따라 그 결과가 크게 다르므로 지역과 현장특성을 반영한 적합식을 개발하여 지반 설계에 활용하는 것이 타당한 것으로 판단되었다.