• 제목/요약/키워드: 한글 문자 인식

검색결과 325건 처리시간 0.021초

구조적응 자기조직화 신경망 : 한글 문자인식에의 적용 (Structure-Adaptive Self-Organizing Neural Network : Application to Hangul Character Recognition)

  • 이경미;조성배;이일병
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-142
    • /
    • 1995
  • 코호넨의 SOFM(Self-Organizing Feature Map)온 빠른 검증 학습이 가능하여 다층 퍼셉트론의 단점을 보완할 수 있는 패턴분류기로 부각되고 있다. 그러나 기본적으로 고정된 크기와 구조의 네트워크를 사용하기 때문에 실재 문제에 적용하기가 쉽지 않다는 문제가 있다. 본 논문에서는 패턴에 대한 사전 정보없이 복잡한 패턴공간을 적응적으로 분할하기 위해 구조적응되는 자기조직화 신경망을 소개하고 이를 인쇄체 한글 문자의 인식에 적용한 결과를 보여준다. 여기에서 제안하는 신경망은 SOFM의 각 셀이 좀더 자세한 SOFM으로 확장될 수 있도록하며, 확률분포가 0인 셀을 제거함으로써 패턴 공간에 보다 근사한 분류를 가능하게 한다. 실제로 이러한 방식이 한글과 같은 복잡한 분류 문제에서 어떻게 작동하는지 설명하고, 한글 완성형 2350자에 대해 실험한 결과를 보여준다.

  • PDF

한국어 정보처리를 위한 최적화 한글 코드에 관한 연구 (An Optimal Hangul Code System For The Korean Language Processing)

  • 변정용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.39-43
    • /
    • 1989
  • 컴퓨터에 의한 한글정보처리의 주체는 한글이며, 객체는 그 처리도구인 컴퓨터라는 전제하에서 한글문자의 개별성에 의한 주체적 파악을 통하여, 한국어 정보처리에 최적한 코드로의 개선안을 제안한다. 개선안의 구체적 대상 범주로서 최근의 한국어 정보처리의 응용분야인 자연언어처리, 문자인식, 음성 인식 및 합성, 전자출판등이 점차 확대되어 가고 있다는 관점에서 보아서 기존의 코드가 가지고 있는 문제점을 분석하고 이들에 최적한 코드는 무엇이며 어떠한 성격을 가져야 하며, 그들이 기존의 코드가 중요시하던 처리효율이나 저장 효율의 문제에 어떠한 영향을 미치는지에 대하여 해당 알고리즘을 개발하고 이들에 대한 평가를 해보인다.

  • PDF

Binary Watershed Algorithm을 이용한 필기체 문자 영상 향상에 관한 연구 (A Study on Enhancement of Handwritten Character Image using Binary Watershed Algorithm)

  • 이호준;최영규;이상범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.400-402
    • /
    • 2001
  • 오프라인 필기체 한글 문자인식에서 대부분의 연구들은 영상획득 장비로부터 얻어진 이진영상(Binary image)을 바탕으로 이루어진다. 이 과정 중 영상에 잡음이나 영상패턴의 훼손을 가져오는 경우가 많다. 획이 끊기거나 영상 내 홀(holes)이 발생한 경우 인식에 많은 질적인 문제를 가져온다. 오프라인 필기체 한글 문자인식 과정 중 영상 내 골격을 추출하는 연구는 아직도 많은 난제를 가지고 있다. 또한 골격추출과정은 인식에 많은 영향을 준다. 잡영이 포함된 영상은 잘못된 골격선 추출에 기인한다. 본 논문에 사용된 Binary Watershed Algorithm은 잡영이 포함된 영상개선에 사용하였고, 이 Algorithm은 많은 다양성을 가지고 있어 여러 분야의 응용에 사용되어지고 있다. 본 논문은 이러한 잡영이 포함된 영상의 개선을 통해 기존의 Morphological 세선화 방법과 Zang-Suen 세선화 방법을 통해 골격선 추출을 평가하였다. 여기에는 아직도 자소의 교차 획에 있어서 효과적인 골격선을 추출하는 문제를 가지고 있다.

  • PDF

홍용 문자 코드 집합을 위한 계층적 다중문자 인식기 (Hierarchical Multi-Classifier for the Mixed Character Code Set)

  • 김도현;박재현;김철기;차의영
    • 한국정보통신학회논문지
    • /
    • 제11권10호
    • /
    • pp.1977-1985
    • /
    • 2007
  • 문자 인식은 인공지능의 한 분야로써 자동화 시스템, 로봇, HCI 분야에서 그 응용성 이 증대되고 있는 첨단 기술이다. 본 논문에서는 숫자, 기호, 영어, 한글이 여러 가지 형태로 조합되어 사용될 수 있는 영역에서의 문자 인식을 위해 인식 문자 집합과 대표 문자를 도입하였다. 여러 가지 조합의 언어 집합에 따른 소규모 인식기를 계층적으로 조합하여 인식 결과의 정확성을 높이고 시간 비용을 줄일 수 있는 효율적인 인식기 구조를 제안하였다. 그리고 학습 성능이 우수한 Delta-bar-delta 알고리즘을 이용하여 개별 소규모 인식기를 학습한 다음 다양한 개별 문자를 대상으로 그 인식 성능을 살펴본 결과 99%의 인식률을 획득함으로써 혼용 언어 문자 인식의 효율성과 신뢰성을 증명하였다.

혼용문서에서의 유사문자 분류 (The Similar Character Classification in the Mixed Document)

  • 문경애;지수영;오원근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.485-492
    • /
    • 1993
  • 본 논문에서는 혼용문서에서 문자들의 유사성으로 인해 발생하는 오인식문자를 줄이기위해 대분류 단계에서 유사문자군을 찾고 이들 사이의 유사도를 계산, 분류하는 유사문자분류 방법을 제안하였다. 이 방법은 유사문자군내의 각 문자마다 그 문자만이 갖는 고유한 요인과 그 문자를 제외한 나머지 문자일 가능성이 있는 요인을 찾아 입력문자와 비교하여 유사도가 가장 큰 문자를 인식문자로 선택하는 알고리즘이다. 또한, 인식 후 오인식된 문자들에 대해 특징사전의 갱신을 통하여 인식률을 향상시켰다.

  • PDF

공간 위치 변조에 의한 한글자소의 필터링 (On the Filtering of Hangul character Element with the Spatial Positioning Modulation)

  • 강대수;진용옥
    • 한국통신학회논문지
    • /
    • 제17권9호
    • /
    • pp.1029-1039
    • /
    • 1992
  • 본 논문은 한글인식 방법중 주파수 변환영역에서 행하는 필터링의 방법을 제시한 것이다. 한글 문자패턴을 2차원 변조처리하여 공간위치에 의존적인 한글자소의 위상문자적 특징을 주파수 영역으로 사상하였고, 이때 변조 주파수를 정규화함으로서 주파수 영역에서 문자의 크기를 정규화 한다. 또한 한글의 각 자소를 발생위치에 따라 분류하여 표준패턴으로 설정하고, 설정된 각 자소의 표준패턴을 자소필터로 사용하여 주파수 영역으로 사상된 문자패턴을 필터링하였다. 한글자소의 분별 파라미터로는 정규화된 상호상관함수와 필터링 결과로 부터 유도된 코히어런스 함수를 산출하여 분별기준을 설정하였으며, 그 결과로서 문자크기의 변화, 자소의 융착, 제한적인 자획의 유실이나 잡음의 혼입등의 요인이 발생하였음 경우에도 한글자소의 분별이 가능하였고 또한 표준패턴을 설정함에 따라 숫자, 영문자등의 분별에도 적용할 수 있었다.

  • PDF

한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템 (Post-processing for Korean OCR Using Cohesive Feature between Syllables and Syntactic Lexical Feature)

  • 황영숙;박봉래;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 1997
  • 지금까지의 한글 문자인식 후처리 연구분야에서 미등록어와 비문맥적 오류 문제는 아직까지 잘 해결하지 못하고 있는 문제이다. 본 논문에서는 단어로서 가능한지를 결정하는 기준으로 확률적 음절 결합 정보를 사용하여 형태소 분석 기법만을 사용했을 때 발생할 수 있는 미등록어 문제를 해결하고, 통사적 기능의 어말 어휘를 고려한 문맥 결합 정보를 이용함으로써 다수의 후보 어절 가운데에서 최적의 후보 어절을 선택하는 방법을 제안한다. 제안된 시스템은 인식기에서 내보낸 후보 음절과 학습된 혼동 음절을 조합하여 하나 이상의 후보 어절을 생성하는 모듈과 통계적 언어 정보를 이용하여 최적의 후보 어절을 선정하는 모듈로 구성되었다. 실험은 1000만 원시 코퍼스에서 추출한 음절 결합 정보와 17만 태깅된 코퍼스에서 추출한 어절 결합 정보를 사용하였으며, 실제 인식 결과에 적용한 결과 문자 단위에서는 94.1%의 인식률을 97.4%로, 어절 단위에서는 87.6%를 96.6%로 향상시켰다. 교정률과 오교정률은 각각 문자 단위에서 56%와 0.6%, 어절 단위에서 83.9%와 1.66%를 보였으며, 전체 실험 어절의 3.4%를 차지한 미등록어 중 87.5%를 올바로 인식하는 한편, 전체 오류의 20.3%인 비문맥 오류에 대해서 91.6%를 올바로 교정하는 후처리 성능을 보였다.

  • PDF

대용량 필기 문자인식을 위한 최소거리 분류법의 성능 개선 전략 (Performance Improvement Strategies on Minimum Distance Classification for Large-Set handwritten Character Recognition)

  • 김수형
    • 한국정보처리학회논문지
    • /
    • 제5권10호
    • /
    • pp.2600-2608
    • /
    • 1998
  • 본 논문은 한글이나 한자처럼 문자 부류의 개수가 많은 경우에 효과적인 오프라인 필기 문자인식 알고리즘을 제안한다. 이 알고리즘은 간단하며 구현하기 쉬운 최소거리 분류법에 기반을 두고 있는데, 최소거리 분류법의 인식 성능을 향상시키기 위해 다단계 선인식(multi-stage pre-classification) 및 신경망을 이용한 후보문자 재정렬(candidate reordering)의 두 가지 전략이 첨가되었다. 제안된 알고리즘의 성능은 PE92 데이터베이스 상의 574 종의 한글 문자들에 대한 실험을 통해 입증하였는데, 인식률은 86%, 처리 속도는 초당 15자로서 기존의 연구 결과보다 우수함을 관측하였다.

  • PDF

유형의 상대적 크기를 고려한 한글문자의 유형 분류 (Tyue Classification of Korean Characters Considering Relative Type Size)

  • 김병기
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.99-106
    • /
    • 2006
  • 한글과 같이 문자집합이 큰 조합 문자의 인식을 위해서는 문제공간을 줄여주는 유형분류가 큰 도움이 된다. 기존 연구들이 한글 구성원리에 치중하여 한글 유형을 정한 결과 복모음 문자에 대한 정확한 분류가 어려웠고 문자집합이 상대적으로 큰 종성 있는 문자들에 대한 세분류가 부족하여 문제공간의 분배에 어려움이 많았다. 본 논문에서는 이러한 문제들을 해결하고자 수평 투영 프로파일을 이용하여 안정적 추출이 가능한 횡모음을 우선 추출하고. 수평 투영 프로파일과 연결요소를 이용하여 종성 있는 문자들에 대하여 종성을 5가지 그룹 중 하나로 세분류 하는 유형분류 방법을 제안하였다. 기존의 유형분류 방법들이 유형간 크기 불균형을 갖는 6개 혹은 15개의 유형을 가진 반면에 제안한 방법은 균형 있고 안정적 분류가 가능한 19개의 유형을 갖는다. 한글 잦기순 1.000자에 대한 7개의 상용 글꼴자료를 사용하여 분류 시스템을 만들고 월간지에서 스캔(Scan)한 30.614자에 대한 유형 분류 실험을 통하여 제안한 방법이 다양한 글꼴과 큰 문자집합을 갖는 한글 문자의 유형분류에 효율적임을 확인하였다.

  • PDF

런 길이를 이용한 필기체 한글 자획의 교점 검출 (Detection of Intersection Points of Handwritten Hangul Strokes using Run-length)

  • 정민철
    • 한국산학기술학회논문지
    • /
    • 제7권5호
    • /
    • pp.887-894
    • /
    • 2006
  • 본 논문은 런 길이를 이용해 필기체 한글 문자에서 자획의 교점을 검출하는 새로운 방법을 제안한다 이를 위해 첫째로, 수평 런 길이와 수직 런 길이를 이용해 필기체 한글 문자의 자획 두께를 구하고, 둘째로, 자획 두께를 이용해 입력 문자의 자소를 수평 성분과 수직 성분으로 분리하며, 마지막으로, 자획의 수평 성분과 수직 성분을 이용해 자획의 교점을 구하는 기술을 제안한다. 수평 성분과 수직 성분 분석은 각도와 관계없이 자획 두께와 런 길이의 변화량만을 이용해 구한다. 자획의 교점은 오프라인 필기체 한글 인식을 위한 요소 기술 중 하나인 자소 분리를 위한 분리점 후보가 되며 분리된 자획은 필기체 한글 인식을 위한 특징을 나타낸다.

  • PDF