• 제목/요약/키워드: 글자 인식

검색결과 182건 처리시간 0.03초

다양한 크기 및 활자체를 갖는 인쇄체 한글 영상의 문서화에 관한 연구 (A Study on Documentization of Printed Hangul Image with Multi-size and Multi-style)

  • 김장욱;김경숙;손영선
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 추계학술대회 학술발표 논문집
    • /
    • pp.295-298
    • /
    • 2001
  • 본 논문에서는 CCD카메라로 입력 받은 다중 크기 및 활자체로 구성된 한글문서의 화상 데이터를 편집기에서 수정 가능한 문자로 변환시키는 시스템을 구현하였다. 먼저 Dynamic 이 진화 처리 과정을 거친 화상을 흑백 화소의 누적분포에 따라 문자단위로 분할한 후, 다양한 크기로 분할된 문자를 표준패턴 크기로 표준화 시켰다. 한글을 자소 간 공백 위치의 특징에 따라서 6가지 유형으로 분류한 후, 퍼지 이론을 접목시킨 원형 패턴 벡터 알고리즘을 사용해서 표준벡터와 입력된 글자의 특징벡터를 비교하여 문자로 인식하게 하였다. 각 6가지 유형에서 서로 다른 자소로 결합된 문자들을 30개 선정하여 여러 가지 활자체 및 크기에 적용해 본 결과, 모두 문서화가 가능함을 알 수 있었다.

  • PDF

한글 필기 인식을 위한 기계학습 용 데이터 수집 앱 개발 (A development of App to gather data for machine learning on Korean language writing recognition)

  • 배준우;심현도;김성석;성미영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.753-754
    • /
    • 2018
  • 최근 인공지능에 대한 관심이 증가하고 관련 연구가 활발히 진행됨에 따라, 기존 연구분야에도 이를 적용하고자 하는 시도가 증가하고 있다. 본 연구진도 한글 글씨를 인식하기 위해 기계학습을 적용하고자 하며, 그에 따라 본 연구에서는 초기 연구로서 사용자 필기 데이터를 수집하기 위한 안드로이드용 앱을 개발하였다. 최종 대상이 한글 공부를 시작하는 유아로 선정하였으므로, 그에 적절하게 학습 앱의 Activity를 구성하였다. 입력한 한글 데이터 분만 아니라 하나의 글자에 대한 초성, 중성, 종성별로 데이터를 별도로 수집하여 추후 활용할 수 있게 구성하였다. 즉, 학습과정에서 발생한 데이터는 이미지와 이벤트 두 가지 모두 저장하여 추후 최종 연구에 활용하고자 하였다.

딥러닝을 활용한 한글문장 OCR연구 (A Study on the OCR of Korean Sentence Using DeepLearning)

  • 박선우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.470-474
    • /
    • 2019
  • 한글 OCR 성능을 높이기 위해 딥러닝 모델을 활용하여 문자인식 부분을 개선하고자 하였다. 본 논문에서는 폰트와 사전데이터를 사용해 딥러닝 모델 학습을 위한 한글 문장 이미지 데이터를 직접 생성해보고 이를 활용해서 한글 문장의 OCR 성능을 높일 다양한 모델 조합들에 대한 실험을 진행했다. 딥러닝 모델은 STR(Scene Text Recognition) 구조를 사용해 변환, 추출, 시퀀스, 예측 모듈 각 24가지 모델 조합을 구성했다. 딥러닝 모델을 활용한 OCR 실험 결과 한글 문장에 적합한 모델조합은 변환 모듈을 사용하고 시퀀스와 예측 모듈에는 BiLSTM과 어텐션을 사용한 모델조합이 다른 모델 조합에 비해 높은 성능을 보였다. 해당 논문에서는 이전 한글 OCR 연구와 비교해 적용 범위를 글자 단위에서 문장 단위로 확장하였고 실제 문서 이미지에서 자주 발견되는 유형의 데이터를 사용해 애플리케이션 적용 가능성을 높이고자 한 부분에 의의가 있다.

  • PDF

시각장애인의 문맹률을 낮추기 위한 스마트 점자학습 보드 (Smart Braille Learning Board to lower illiteracy rate for the Blind)

  • 김성경;이효정;장윤희;김인수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.977-979
    • /
    • 2022
  • 본 논문에서는 시중에서 판매되는 점자학습 기기의 단점들을 보완한 점자학습 보드를 제안한다. 학습 보드는 다음과 같은 기능을 수행한다. 첫째, 자음, 모음 등의 기초적인 글자 학습, 단어와 문장 학습, 게임학습, 총 세 가지의 학습 모드를 지원하는 기능. 둘째, 사용자의 학습 데이터를 분석하여 마지막 학습 일자, 학습 진행 상황 등의 다양한 요소를 고려한 학습, 복습 내용을 자동으로 업로드하는 기능. 셋째, 기기에 연동된 애플리케이션을 통해 학습상태를 확인하고 기기를 조작하는 기능. 넷째, 학습 보드와 앱의 음성안내, 생체인식을 사용한 로그인, 음성인식을 통한 언어 변환, 보드 자동 교체 등의 사용자 편의성을 위한 기능이다. 본 논문은 이를 통해 점자학습에 대한 접근성을 높여 시각장애인의 문맹률 감소를 목표로 한다.

동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정 (Using Dynamic Programming for Word Segmentation in OCR)

  • 박호민;김창현;노경목;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정 (Using Dynamic Programming for Word Segmentation in OCR)

  • 박호민;김창현;노경목;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

5~8세 아동의 철자지식과 음운인식이 시각적 단어 해독과 부호화에 미치는 영향 (Effects of Orthographic Knowledge and Phonological Awareness on Visual Word Decoding and Encoding in Children Aged 5-8 Years)

  • 나예주;하지완
    • 디지털융복합연구
    • /
    • 제14권6호
    • /
    • pp.535-546
    • /
    • 2016
  • 철자지식과 음운인식이 시각적 단어 해독과 부호화에 미치는 영향을 알아보기 위하여, 5세에서 8세의 아동 각 15명씩 총 60명을 대상으로 철자지식(자모지식, 소리-글자 대응지식, 철자표상), 음운인식(단어인식, 음절인식, 음소인식), 시각적 단어 해독(자소-음소 일치 단어 읽기, 불일치 단어 읽기), 시각적 단어 부호화(자소-음소 일치 단어 받아쓰기, 불일치 단어 받아쓰기) 과제를 실시하였다. 그 결과 철자지식, 음운인식, 시각적 단어 해독, 시각적 단어 부호화의 모든 과제에서 연령 집단 간 수행력 차이가 유의하였고, 각 과제 수행력 간 유의한 정적 상관관계가 있었다. 이 중 불일치 단어 철자표상, 음절인식, 음소인식이 본 연구 대상자들을 연령에 따라 보다 민감하게 구분하는 것으로 나타났다. 시각적 단어 해독과 부호화 능력을 예측하는 변인으로 음운인식보다는 자모지식과 철자표상과 같은 철자지식 능력이 포함되었다. 본 연구결과는 학령기 전후 철자에 보다 익숙해지면 음운인식보다 철자지식이 시각적 단어 해독과 부호화에 더 많은 영향을 미친다는 것을 시사한다.

인쇄체 문서의 문자영역에서 한글과 한자의 구별에 관한 연구 (A Study on Classification into Hangeul and Hanja in Text Area of Printed Document)

  • 심상원;이성범;남궁재찬
    • 한국통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.802-814
    • /
    • 1993
  • 본 논문에서는 문서인식시스템의 문자인식부에서 각 문자를 인식하기 위한 전처리 단계인 한글과 한자를 구별하는 알고리즘을 제안한다. 본 연구에서는 문자의 구별에 큰 영향을 미치고, 쓰기형태와 글자체에 따라서 변동을 흡수할 수 있는 9가지의 한자 특성을 제안하고, 문자의 크기에 영향을 받지 않고 문자를 구별할 수 있도록 문자 크기에 따른 비율을 제안된 각 특성에 반영하여 문자의 구별을 행하였다. 입력된 문서 제안한 9가지의 한자 구조적 특성을 조사하여, 한글과 한자로 구별한다. KS-C5601의 한글 2350자와 한자 4888자의 고딕, 명조체에 대하여, 실험결과는 인쇄 표본, 신문, 학회지, 잡지 교재에서 각각 98.8%, 92%, 96%, 98%, 98%을 얻었다.

  • PDF

OCR 기반 출납 모바일 어플리케이션 개발 (Developement of OCR based receipt and Payment Mobile Application)

  • 황지연;박도희;김도연;임승호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.28-31
    • /
    • 2018
  • 이 연구에서는 효율적인 입, 출금 관리를 위해 기존 어플리케이션들의 불편함을 개선한 '입, 출금 관리시스템을 설계 및 구현하였다. 기존 출납관리 어플리케이션은 모든 내역을 사용자가 직접 입력하고 관리하는 방식으로 구현되어 있어서, 다수의 수입, 지출, 이체내역을 직접 입력해야하기 때문에 불편함과 오류들이 발생한다. 또한 남아있는 돈이 어느 계좌에 얼마나 남았는지 알 수 없는 문제점과 동일 은행에 2개 이상의 카드가 있는 경우 인식이 불가능하다는 문제점 역시 발생한다. 이런 문제점들을 개선하기 위해 계좌마다 보유액을 표시하도록 하고, 은행과 카드정보를 연결시켰다. 추가적으로 영수증의 텍스트를 인식해 내역을 저장함으로써 효율적으로 입, 출금 내역을 관리할 수 있도록 하였다. 본 어플리케이션의 기능은 크게 영수증 글자입력을 통한 내역추가, 사용자의 자산내역관리, 계좌 & 체크카드 연동, 더치페이 시스템 등이 있다. 영수증을 카메라로 찍어 필요 정보를 구별해 인식하고 지출 내역을 추가한다. 지출 내역을 추가할 때 필요에 따라 다른 사람들과 내역을 공유할 수 있다. 이 시스템을 통해 사용자는 더욱 쉽고 간편하게 입, 출금내역을 관리할 수 있을 것으로 보인다.

오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구 (A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition)

  • 이병희;김태균
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.184-194
    • /
    • 1997
  • 최근 상용 오프라인 문자 인식시스템들이 계속 발표되고 있다. 본 눈문에서는 적 은 메모리와 빠른 시간내에 검색이 가능한 자기조직화 구조를 가진 단어 사전을 구축 하고 검색하는 알고리즘을 제시하며 오프라인 문자 인식 시스템을 이용하여 오인식 교정의 측면에서 문장부호, 영문자, 한자를 인식한 후에 나온 오인식된 문자들을 수 집하여 오인식 형태를 제분류하였다. 영문자에 대해서는 영문자의 오인식 형태와 오 인식의 예들을 조사하고 오인식이 자주 일어나는 글자에 대해 오인식 혼동 테이블을 작성하였으며 25,145개의 영어 단어가 입력된 자기조직화된 영어 단어 사전을 가지고 교정을 행하여 0.5%의 인식률 향상을 가져왔다. 한자에 대해서도 영문자와 마찬가지 로 오인식 행태를 조사하고 혼동 테이블을 작성하였으며 34,593개의 단어가 입력된 자기조직화된 한자 단어 사전을 이용하여 교정을 행하여 인식률을 6.1% 향상시켰다.

  • PDF