• 제목/요약/키워드: ocr

검색결과 476건 처리시간 0.027초

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

E-Book을 위한 교정 편집기 (The Correction Editor for E-Book)

  • 서현석;하상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.85-88
    • /
    • 2002
  • e-book은 책을 종이가 아닌 전자형태로 출판하는 것이다. 이러한 e-book 은 기존의 책들과는 달리 다양한 서비스를 제공할 수 있으며 가격이나 책의 재고관리와 같은 경제적인 부분에서도 소비자나 출판사입장에서 상당한 이득을 기대 할 수 있다. 일반적으로 e-book 은 OCR(문자 인식기)을 사용하여 생성되는데 OCR 의 문자인식률은 일반적으로 95%정도이며 인식된 텍스트 문서에 대한 교정이 필요하다. 그러나 기존의 워드 프로세서들은 간단한 수준의 교정기능만이 제공되고 있다. 본 논문에서는 교정을 보다 효율적으로 수행할 수 있는 교정 편집기를 설계하고, 구현한다.

  • PDF

아두이노와 OCR시스템을 활용한 점자 출력 장치 개발 (Development of Braille Display Device with Arduino and OCR System)

  • 박용덕;염상길;손민한;추현승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.1031-1032
    • /
    • 2015
  • 이전부터 시각 장애인들은 제한된 인쇄매체를 사용해왔다. 하지만 시각 장애인들은 각종 데이터 및 콘텐츠 정보에 대한 접근성이 부족하여 일반인과의 정보 격차가 심화될 수밖에 없다. 이를 해결하기 위해 시각 장애인의 환경을 개선할 수 있는 여러 장비들이 개발되고 있다. 그 중에서도 문자 표기의 경우 점자 표기로 대체하여 사용되어왔으며 대표적인 예로는 점자 출력 장치가 있다. 하지만 기존의 점자 출력 장치는 고가이며 경제적으로 어려운 시각장애인의 경우 구입하기 어렵다. 또한 제조사 별로 제공하는 콘텐츠 수의 한계로 인해 보다 효과적인 사용이 어렵다. 본 논문에서는 스마트 디바이스와 연동 가능한 저가형 점자 출력 장치를 제안한다.

문서에서 정보 추출 기능을 갖는 RPA 개발 (Development of RPA with Information Extraction Module)

  • 김기태;정수나;이세훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.435-436
    • /
    • 2021
  • 본 논문에서는 RPA(Robotic Process Automation) Tool 개발 과정 중 OCR기법을 활용한 영수증 인식 후 가계부 생성에 관한 자동화 처리 과정을 기술한다. 개발된 RPA 툴은 AI분야에 사용될 데이터의 데이터 전처리 기능을 제공하고 그 외에 반복적으로 사용되는 기능들의 자동화를 제공한다. 그 중 영수증을 이용하여 가계부 작성을 자동으로 처리해주는 기능은 반복적이고 시간이 많이 소요되는 작업으로 이 기능을 활용하면 작업의 수행시간을 단축하고 효율적인 관리가 가능하다.

  • PDF

머신러닝 기반의 대규모 이미지 파일에서 개인 정보 분류 시스템 (Machine Learning based Personal Information Classification System in Large Image Files)

  • 김기태;윤상혁;서보인;이세훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.293-294
    • /
    • 2020
  • 본 논문에서는 현재 이슈가 되고 있는 개인 정보 보안에 대해서 Keras 라이브러리를 사용하여 개인 정보 관련 데이터를 학습한 후, 한글 인식률 증가된 Tesseract-OCR 활용하여 사람들이 가지고 있는 데이터의 개인 정보 유무를 판단하여 분류한다.

  • PDF

어디서나 쉬운 에코 기반 홈수리 플랫폼 '그린망치' (Easy Echo-Platform For Home Repair Everywhere, 'Green Hammer')

  • 김호준;김지심
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.137-138
    • /
    • 2022
  • 코로나 팬데믹이 장기화되고 경제가 침체되면서 사람들이 가장 많이 머무는 집 안에서 가전제품과 가구를 수리나 상호판대 등을 통해 재사용할 수 있는 방법에 관한 관심이 커지고 있다. 특히, 가전이나 가구를 수리하여 제품을 오래 사용한다면 개인의 경제에 도움이 될 뿐만 아니라, 장기적으로는 환경을 보호하는 효과도 거둘 수 있다. 따라서 본 연구에서는 유사한 기존 앱들의 단점을 보완하여 홈수리 앱을 개발하였다. 지역적, 시간적 제약을 극복하고 환경까지 보호할 수 있는 친환경 플랫폼인 '그린망치'를 개발하였다. 본 앱은 다양한 API와 OCR 기능을 활용하여 사용자 중심의 수리 서비스를 제공하고 친환경 자재의 사용을 유도하는 서비스를 제공한다.

  • PDF

영상인식기반의 선박 의약품 종합 관리 시스템 개발

  • 박지해;최원진;문성배
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.220-221
    • /
    • 2022
  • 선박에선 의료관리자가 선박 의약품의 처방 및 관리를 하고 있으며 이는 대부분 항해사로 지정된다. 항해사의 고유 업무와 전문의료지식 부족으로 의약품 관리가 체계적으로 이루어지지 않고 수기로 기록되는 문제점이 있다. 본 연구에서는 영상인식기반의 선박 의약품 종합 관리 시스템을 개발하여 의약품 관리를 자동화하고 의료관리자의 업무 효율성을 증가시키고자 한다. 시스템은 의약품 용기·포장지를 촬영한 영상으로부터 글자를 인식하는 OCR(Optical Character Recognition) 기술을 활용한 모듈, 바코드를 인식모듈, 사용자가 검색할 수 있는 모듈로 구성되어있으며 선박 의약품을 데이터베이스화하여 전산으로 관리할 수 있다. 또한 시스템을 통하여 의약품 재고 관리를 하거나 의약품의 사용법을 확인할 수 있다.

  • PDF

오류 역전파 알고리즘을 이용한 영문자의 폰트 분류 방법에 관한 연구 (Front Classification using Back Propagation Algorithm)

  • 정민철
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.65-77
    • /
    • 2004
  • 본 연구에서는 영문 단어로부터 폰트를 분류하기 위해 연역적이고 국부적인 폰트 분류 방법을 제안한다. 이는 문자 인식 전에 한 단어에서 폰트를 분류하는 것을 말한다. 폰트 분류를 위해 활자 특성인 어센더(ascender), 디센더(descender)와 세리프(serif)가 사용된다. 입력 단어로부터 어센더(ascender), 디센더(descender)와 세리프(serif)가 추출되어 경사도 특징 벡터가 추출되고, 그 특징 벡터는 인공 신경망에 의해 입력 단어에 대한 2가지 폰트 스타일, 3가지 폰트 그룹, 7가지 폰트 이름이 분류된다. 제안된 연역적이고 국부적인 폰트 분류 방법은 폰트 정보가 문자 분할기와 문자 인식기에 사용될 수 있게 한다. 나아가, 특정 폰트에 따른 Mono-Font 문자 분할기와 Mono-Font문자 인식기로 구성되는 OCR시스템을 구성할 수 있는 것을 가능하게 한다. 실험 결과는 평균 95.4 퍼센트의 높은 폰트 분류율을 보였다. 본 논문에서 7가지 폰트분류를 위해 제안된 방법은 그 외 다른 폰류 분류에도 적용될 수 있다.

  • PDF