• 제목/요약/키워드: 한글 문자 인식

검색결과 326건 처리시간 0.034초

필기영상의 동적 정보 추출 및 인식을 위한 통계적 모형 (An Accurate Stochastic Model for the Pen Trajectory-Based OCR)

  • 신봉기
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.395-397
    • /
    • 2003
  • 온라인 필기 인식기의 필기 모델을 응용하여 오프라인 한글 필기의 필기 궤적을 추적하고 인식하는 방법을 제안한다. 사용한 온라인 모델은 HMM의 망으로 구성한 조합형 한글 필기 모델 BongNet이다. 그리고 시계열 신호의 길이에 대한 모델이 전혀 없는 표준 HMM 대신 동적인 연속 출력 nonstationary HMM 을 이용한 방법을 기술하였다. 획 추적 계산 과정에는 프레임 동기 알고리즘을 적용한다 HMM의 각 상태는 가능한 필기 궤적상의 위치에 대한 정보를 기록한다. 매 시각마다 최종 상태의 후보 중에서 모든 획을 완전히 지나는 경로가 있는지를 조사한다. 본 방법은 문자영상에서 온라인 시계열 코드를 만들어 가는 과정이며 코드와 동시에 인식결과를 출력한다.

  • PDF

문자소 기반의 한국어 음성인식 (Korean speech recognition based on grapheme)

  • 이문학;장준혁
    • 한국음향학회지
    • /
    • 제38권5호
    • /
    • pp.601-606
    • /
    • 2019
  • 본 논문에서는 한국어 음성인식기 음향모델의 출력단위로 문자소를 제안한다. 제안하는 음성인식 모델은 한글을 G2P(Grapheme to Phoneme)과정 없이 초성, 중성, 종성 단위의 문자소로 분해하여 음향모델의 출력단위로 사용하며, 특별한 발음 정보를 주지 않고도 딥러닝 기반의 음향모델이 한국어 발음규정을 충분히 학습해 낼 수 있음을 보인다. 또한 기존의 음소기반 음성인식 모델과의 성능을 비교 평가하여 DB가 충분한 상황에서 문자소 기반 모델이 상대적으로 뛰어난 성능을 가진다는 것을 보인다.

문자 인식기의 특성과 말뭉치의 통계 정보를 이용한 문자 인식 결과의 후처리 (The Postprocessing of a Korean OCR using the Output of the Word Recognition and the Statistical Information from a Corpus)

  • 손훈석;최성필;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.188-193
    • /
    • 1997
  • 한국어 문자 인식 후처리는 인식기가 제공하는 후보 음절을 바탕으로 후처리를 하였다. 이 논문은 문자 인식기가 제공하는 후보 음절 대신에 인식기의 인식 결과를 분석하여 인식기의 오인식 통계 정보에 따라 인식 결과 음절의 후보 음절을 생성한다. 여기서 생성된 후보 어절을 각 음절의 확률 값을 이용하여 확률이 가장 놓은 어절을 선택한다. 이때 한국어 대용량 말뭉치에서 추출한 어절의 통계정보를 이용하여 그 어절의 확률 값을 구한다. 이 기법의 장점은 후보 음절의 조합으로 생성된 어절의 확률 값과 그 어절의 말뭉치상의 확률 값을 이용한 결과 말뭉치에 포함된 미등록어 정보에 따라 형태소 분석이 되지 않는 미등록어 처리가 가능하다. 또한 후보 어절 중 형태소 분석이 성공하는 어절이 두개 이상 있을 경우 실제 거의 쓰이지는 않지만 단지 음절의 확률 값이 높아 우선으로 선택되는 경우를 방지하였다. 실험은 약 1,000page 분량의 실험을 통해 오인식 결과를 수집하고, 4000만 원시 말뭉치에서 구한 어절의 통계정보를 이용하였다. 그 결과 문자 인식기의 98.05%의 어절 인식률을 후처리 결과 99.52%로 향상시켰다.

  • PDF

한글인식 후처리용 단어사전의 기억구조 (A Word Dictionary Structure for the Postprocessing of Hangul Recognition)

  • 김상운
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1702-1709
    • /
    • 1994
  • 한글인식 후처리에서 문맥정보의 저장구조는 인식율 및 인식속도를 결정짓는 중요한 요소이다. 단어사전의 형태로 문맥정보를 표현하기 위해서는 트라이(trie)를 주로 이용하지만, 기억공간 이용효율이 저조하다는 단점이 있다. 따라서 이 논문에서는 트라이의 장점을 유지하면서 공간효율을 향상시키는 기억구조를 제안한다. 한글은 조합문자이기 때문에 자모나 문자별로 기억시킬 수 있다. 그런데 자모단위로 기억시키면(P-모드) 검색시간은 빠르지만 공간효율이 나쁘고, 또한 문자단위로 기억시키면(C-모드) 공간효율은 좋지만 검색시간이 길어진다. 따라서 노드이용율과 분산율로 최적레벨을 선정한 다음, 입력단어의 시작자모부터 최적레벨까지는 자모 단위의 트라이로 기억시키고, 그 이상은 문자단위의 순차연결구조로 저장시켰다. (H-모드). 6가지 단어집합에 대하여 실험한 결과, H-모드에서의 검색시간은 P-모드만큼 빠르면서, 공간효율은 C-모드와 같게 되어 그 효용성을 확인할 수 있었다.

  • PDF

한글문자의 인식에 관한 연구(IV) (Mathematical Analysis of the Structure of Korean Characters)

  • 최주근
    • 대한전자공학회논문지
    • /
    • 제9권4호
    • /
    • pp.25-32
    • /
    • 1972
  • 이 논문은 한글문자의 조직을 수학적인 관점에서 분석 겸토하였다. 1) 자모문자와 조합문자외 조직개념을 통일된 관점에서 겸토하였고. 2) 문자는 24개의 기본자음과 모음이 음에 따라 조합될뿐만 않이라 그것은 또한 음(또는 문자)의 집단을 한음으로서 일거에 결정짖고 또 계단적으로 발전하는 특의한 성질을 가지고 있다는 것을 지적하였다. 3) 또 24개의 자모가 matrix 조직에 의한 수학적 방법에 의하여 14,364자가 조직배열 된다는 것을 기술하였다.

  • PDF

명도 한글 글씨 영상에서의 비선형 형태 정규화 알고리즘 (Nonlinear Shape Normalization Algorithms for Gray-Scale Handwritten Hangul Images)

  • 김상엽;김대인;이성환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.98-104
    • /
    • 1996
  • 일반적으로 비선형 형태 정규화 과정은 필기체 문자에서 발생하는 형태 변형을 보상하기 위하여 사용되며, 현재까지 이진 영상에 대한 비선형 형태 정규화 방법들이 제안되었다. 그러나 현존하는 대부분의 문자 인식 시스템은 스캐너를 통하여 입력된 명도 문자영상을 이진화하여 사용하고 있기 때문에 이진화로 인해 야기되는 물자 영상에 대한 정보 유실 및 잡영 첨가 현상이 비선형 형태 정규화 과정에 누적되어 결과적으로 좋은 특징 추출 결과를 기대하기 어려운 실정이다. 본 연구에서는 이진화에 의한 정보의 손실을 최소화시키고, 필기체 문자에서 발생하는 다양한 형태 변형을 효과적으로 보상할 수 있는 명도 영상에서의 비선형 형태 정규화 방법을 제안한다. 제안된 명도 영상에서의 비선형 형태 정규화 방법들의 성능을 객관적으로 검증하기 위하여 처리 시간 및 복잡도 등을 기준으로 평가하였으며, 다양한 명도 한글 글씨 데이터에 대한 실험을 통하여 이진 영상에서의 비선형 형태 정규화 방법에 비해 제안된 방법이 변형이 심한 한글 글씨 데이타의 품질을 개선하는데 있어서 매우 효율적임을 확인할 수 있었다.

  • PDF

선분정합에 의한 흘림체 온라인 한글 인식 (A Cursive On-Line Hangul Recognition Based on the Line Segment Matching)

  • 권오성;권영빈
    • 인지과학
    • /
    • 제3권2호
    • /
    • pp.271-289
    • /
    • 1992
  • 본 논문에서는 자소간 츨림의 형태를 허용하는 온라인 한글 인식 시스템을 제안하고 있다.한글의 인식은 자소 분할의 어려움과 후보문자의 증가에 따른 정합과정의 복잡도 증가라는 두 가지의 커다란 문제점을 갖고 있다.그러므로 본 논문에서는 이중 획분할 방법을 제안하고 이러한 획분할을 통하여 얻어진 선분들을 효율적으로 정합하는 인식 시스템의 구현을 설명하고 있다.또한,제안하는 방법이 흘림체 한글 인식에 적합하게 동작하는 것을 실험을 통하여 입증하였다.

대용량 오프라인 한글 글씨 데이타베이스의 설계 (Design of Large-set Off-line Handwritten Hangul Database Construction)

  • 이성환;송희헌;김종수;이응재;박희선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.131-136
    • /
    • 1995
  • 최근들어 자연스럽게 필기된 한글을 인식함으로써 정보 입력 과정을 자동화하기 위한 오프라인 한글 글씨 인식에 관한 연구가 활발히 진행되고 있다. 오프라인 한글 글씨 인식에 관한 연구에 있어서 반드시 확보되어야 하는 연구 환경으로 대용량 오프라인 한글 글씨 데이타베이스의 구축을 들 수 있는데, 본 논문에서는 시스템공학연구소 국어공학센터의 국어 정보 베이스 개발사업의 일환으로 추진중인 오프라인 한글 글씨 데이타베이스의 구축현황에 대해 간략히 소개하고자 한다. 오프라인 한글 글씨 데이타베이스의 구축은 크게 글씨 데이타베이스 설계, 글씨 데이타 수집, 용지 스캔 및 문자 단위 분할, 데이타베이스 검증의 4 단계로 구성된다. 본 연구에서는 다양한 변형을 갖는 글씨체의 수집을 데이타베이스 구축시 가장 고려해야 할 요소로 삼았으며, 고품질의 일관성 있는 글씨 데이타베이스 구축을 위해 데이타베이스 설계 단계와 검증 단계에 많은 시간을 할애했다. 마지막으로 본 연구에서는 WWW(World Wide Web)의 HTML(Hyper Text Markup Language)을 이용하여 편리 한 사용자 인터페이스를 구현함으로써 사용자들이 쉽게 한글 글씨 영상을 검색 할 수 있음은 물론 인식 알고리즘의 개발에 사용 가능한 형태의 화일을 제공받을 수 있도록 구성하고 있다. 현재는 KS C 완성형 한글 2,350자 중에서 사용 빈도순 상위 520자에 대한 한글 글씨 1,000벌을 수집하여 명도영상 데이타베이스를 구축 중에 있으며, 향후 2년간 나머지 1,830자에 대한 한글 글씨 데이타를 수집하여 데이타베이스를 완성하고자 한다. 구축된 글씨 데이타베이스는 조만간 국내의 오프라인 한글 글씨 인식 연구자들에게 제공되어 우수한 인식 알고리즘의 개발을 위한 중요한 실험 데이타로서 사용될 예정이며, 개발된 인식 시스템에 대한 객관적인 성능 평가에 있어서도 크게 기여하여 국내의 오프라인 한글 글씨 인식에 관한 연구를 활성화시켜주는 계기가 될 것으로 기대된다.

  • PDF

도로표지 영상에서 IRBP 기반의 문자 영역 추출 (Text Area Detection of Road Sign Images based on IRBP Method)

  • 정규수
    • 한국ITS학회 논문지
    • /
    • 제13권6호
    • /
    • pp.1-9
    • /
    • 2014
  • 최근 Mobile Mapping System을 활용한 영상의 수집과 도로표지 속성정보의 자동 인식을 위한 연구가 진행되고 있다. 도로표지는 판의 규격, 글씨크기 및 배치가 다양하고 가로수 등 타 시설물의 간섭으로 인해 일정한 패턴을 찾아 정보를 추출하기 어렵다. 본 연구에서는 다양한 크기의 한글 문자가 있거나, 한글문자 주변에 심벌이 위치한 도로표지에 대해서도 국문지명을 성공적으로 검출하기 위해서는, 한글문자 템플릿에 의존하지 않는 새로운 국문지명 검출 방법이 필요하다. 그 새로운 한 방법으로서, 점진적 좌측방향으로의 블럽 투사(incremental right-to-left blob projection, IRBP)를 제시하고, 그 가능성과 개선 정도를 평가하였다. 성능 평가하기 위하여, 60개의 도로표지 영상 데이터로 기존의 한글 템플릿을 사용하는 경우와 비교하여 성능을 평가하였다. 전반적으로, IRBP 방법으로 국문지명 검출 성능을 개선할 수 있음을 확인하였다.

시각 장애인의 입력 편의성 향상을 위한 손가락 터치 기반의 한글 입력 인터페이스 (Finger-Touch based Hangul Input Interface for Usability Enhancement among Visually Impaired Individuals)

  • 강승식;최윤승
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1307-1314
    • /
    • 2016
  • 스마트폰 환경에서 천지인, 나랏글, qwerty 등과 같은 가상 키보드들은 문자 입력 버튼의 위치가 고정되어 있으며 기본적으로 문자 버튼의 위치를 인식하는 시각 정보를 기반으로 문자를 입력하는 방식을 취하고 있다. 이처럼 입력할 문자의 위치가 고정되어 있는 버튼 입력 방식은 시각 장애인들이 사용하기에 매우 불편하다. 본 연구는 고정된 위치의 버튼을 기반으로 하는 한글 입력 방식의 불편한 점을 개선하기 위해, 버튼 위치의 시각 인지가 필요하지 않은 손가락 터치 기반의 한글 입력 방식을 제안한다. 자음과 모음의 손가락 터치 동작은 학습 편의성을 위해 한글 자모의 형태와 사용 빈도수, 손가락의 우선 순위 등을 고려하여 설계하였다. 최초 입력시에는 사용자가 직접 기준 위치를 정함으로써 다른 기기의 터치 화면에서도 동일한 인터페이스를 사용할 수 있는 장점이 있다. 이 방법은 고유의 손가락 터치 동작들을 각각의 한글 자음과 모음에 할당함으로써 기존의 버튼 터치 방식에서 이웃 버튼을 잘못 입력하는 오류가 발생하지 않기 때문에 의도치 않았던 문자가 잘못 입력되는 오류가 감소되는 장점이 있다.