• 제목/요약/키워드: 혼동률

검색결과 24건 처리시간 0.021초

온라인 필기 숫자 인식을 위한 혼동 모델 선택 기준 (Confusion Model Selection Criterion for On-Line Handwritten Numeral Recognition)

  • 박미나;하진영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권11호
    • /
    • pp.1001-1010
    • /
    • 2007
  • HMM은 파라미터의 수가 많을수록 모델링 성능이 향상되어 해당 클래스 데이타는 뿐만 아니라 혼동되는 다른 클래스 데이타에 대해서도 높은 확률을 출력하는 경향이 있다. 그러므로 단순히 파라미터 수를 증가 시키는 것은 변별력 향상에 도움이 되지 않는다. 본 논문에서는 혼동되는 클래스 데이터의 확률을 이용한 혼동 확률 선택 기준CMC(Confusion Model Selection Criterion)과 혼동 클래스 데이터를 구성하여 혼동 모델을 만들고 이것을 이용한 새로운 인식 방법인 RCM(Recognition using Confusion Models)을 제안하였다. 제안한 인식 방법은 혼동되는 클래스 데이타의 구성으로 혼동 데이타 집합을 만들고 이것을 이용하여 별도의 혼동 모델을 훈련한 후, 혼동 모델의 확률을 해당 표준 모델의 확률에서 차감하여 해당 클래스 데이타의 오인식 가능성을 억제한다. 모델 선택 기준 CMC를 온라인 필기 숫자 데이타를 대상으로 실험하여 기존 모델 선택 기준인 ML, ALC2, BIC와 비교 분석한 결과, 제안한 방법인 CMC가 적은 파라미터로 좋은 결과를 보였으며, 제안한 혼동 모델 인식 방법인 RCM은 93.08%의 인식률을 보여 표준 모델만을 사용한 인식한 방법보다 정인식률이 약 1.5%향상되었고, 이는 오류의 17.4%가 감소된 결과이다.

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

LDA를 이용한 한국어 연결숫자 인식기 성능향상에 관한 연구 (Study on Performance Improvement of Korean Connected Digit Recognition using LDA)

  • 송화전;김형순
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2001년도 추계학술발표대회 논문집 제20권 2호
    • /
    • pp.61-64
    • /
    • 2001
  • 본 논문에서는 class간의 변별력을 증가시키기 위한 유용한 방법인 LDA(Linear Discriminant Analysis)를 사용하여 한국어 숫자음간의 변별력을 높여 연결숫자 인식성능을 높이고자 하였다. 한국어 숫자음은 모두 단음절이며 또한 혼동가능성이 높은 숫자쌍이 존재하여 이것이 전체 인식률을 저하시킨다. LDA를 사용한 경우 숫자열 오인식률이 $8\%$ 감소하였다. 그리고, 음성특징 벡터의 차수를 감소시키고 LDA 사용전 보다 약간의 인식률 증가를 보였다. 그러나, 선형적인 방법으로 분리가 불가능한 class들의 분포가 존재할 때는 LDA를 사용하여도 변별력 향상은 기대하기 어렵다. 이와 같은 분포의 class사이의 변별력을 증가시키기 위해 between-scatter covariance matrix를 구할 때 class 사이에 혼동가능성 정도를 나타내는 weighting factor를 적용하였으며, 그 결과 숫자열 오인식률이 LDA 사용전보다 $9.7\%$ 감소하였다.

  • PDF

효율적인 순로코드 발생을 위한 고속 한글 주소검색 시스템 개발 (High-Speed Korean Address Searching System for Efficient Delivery Point Code Generation)

  • 김경환;이석구;신미영;남윤석
    • 정보처리학회논문지D
    • /
    • 제8D권3호
    • /
    • pp.273-284
    • /
    • 2001
  • 실제로 사용되는 주소의 분석을 통해 한글주소의 해석방법을 제안하고, 제안한 주소해석 방법을 이용한 주소 검색시스템의 구현에 대하여 서술한다. 주소 상위 및 하위영역의 일치검증을 각각 순차적으로 수행하는 2단계 과정을 통해 최종 배달점에 대한 순로코드를 발생한다. 우편 번호와 주소 상위영역 일치검증 단계에서는 우편버호를 이용하여 주소사전에서 검색된 주소단어와 인식된 문자 후보들과의 비교를 통해 우편 번호를 검증하게 되며, 주소 상위영역과 주소 하위영역이 분리된다. 주소 상위영역 일치검증 과정의 성능향상을 위해 혼동행렬을 제안하고, 주소 인식결과에 혼동행렬을 적용하여 검증 성공률의 향상을 통해 혼동행렬의 유용성을 확인하였다. 주소 하위영역 검증은 번지정보와 건물명 정보를 이용하여 순로코드를 발생하였다. 부분적으로 완성된 광주와 부산지역의 DPF(Delivery Point File)와 레이블링된 데이터를 이용해 분석 가능한 주소에 대해 높은 정확도를 가지고 순로코드를 발생함을 확인할 수 있었다.

  • PDF

한글 주소의 오인식 수정을 위한 효율적인 후처리 알고리즘 (An Efficient Postprocessing Algorithm for Error Correction in Hangul Address Recognition)

  • 이성환;김은순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.555-566
    • /
    • 1992
  • 본 논문은 한글 주소의 오인식 수정에 관한 연구로서, 필기자의 다양한 필기 형태와 입력 장치의 특성으로 인하여 문자 인식 단계에서 발생할 수 있는 혼동을 줄이고 오류를 효율적으로 수정하는 후처리 알고리즘을 소개한다. 특히, 주소의 행정 구역부에 대해서는 정합해야 할 문자 모델의 범위를 줄여줌으로써 높은 인식률과 처리 속도를 기록하였으며, 문자 인식의 결과에 임계값과 백트랙킹 방법을 도입한 후처리 알고리즘을 적용하여 더욱더 높은 인식률을 나타낼 수 있었다. 번지부와 건물부에 대한 오인식도 제안된 각각의 알고리즘을 적용함으로써 효과적으로 수정할 수 있었다. 우리나라의 25,000여 행정 구역을 바탕으로 작성 가능한 주소들 중에서 임의의 150개 주소 데이타에 대하여 제안된 후처리 방법을 포함한 다양한 후처리 방법으로 실험한 결과, 행정 구역부에 대하여 98%이상의 높은 인식률을 보임으로써, 제안된 후처리 알고리즘이 효과적임을 알 수 있었다.

  • PDF

오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구 (A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition)

  • 이병희;김태균
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.184-194
    • /
    • 1997
  • 최근 상용 오프라인 문자 인식시스템들이 계속 발표되고 있다. 본 눈문에서는 적 은 메모리와 빠른 시간내에 검색이 가능한 자기조직화 구조를 가진 단어 사전을 구축 하고 검색하는 알고리즘을 제시하며 오프라인 문자 인식 시스템을 이용하여 오인식 교정의 측면에서 문장부호, 영문자, 한자를 인식한 후에 나온 오인식된 문자들을 수 집하여 오인식 형태를 제분류하였다. 영문자에 대해서는 영문자의 오인식 형태와 오 인식의 예들을 조사하고 오인식이 자주 일어나는 글자에 대해 오인식 혼동 테이블을 작성하였으며 25,145개의 영어 단어가 입력된 자기조직화된 영어 단어 사전을 가지고 교정을 행하여 0.5%의 인식률 향상을 가져왔다. 한자에 대해서도 영문자와 마찬가지 로 오인식 행태를 조사하고 혼동 테이블을 작성하였으며 34,593개의 단어가 입력된 자기조직화된 한자 단어 사전을 이용하여 교정을 행하여 인식률을 6.1% 향상시켰다.

  • PDF

한국어의 음절 결합 특성 및 통사적 어휘 특성을 이용한 문자인식 후처리 시스템 (Post-processing for Korean OCR Using Cohesive Feature between Syllables and Syntactic Lexical Feature)

  • 황영숙;박봉래;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-182
    • /
    • 1997
  • 지금까지의 한글 문자인식 후처리 연구분야에서 미등록어와 비문맥적 오류 문제는 아직까지 잘 해결하지 못하고 있는 문제이다. 본 논문에서는 단어로서 가능한지를 결정하는 기준으로 확률적 음절 결합 정보를 사용하여 형태소 분석 기법만을 사용했을 때 발생할 수 있는 미등록어 문제를 해결하고, 통사적 기능의 어말 어휘를 고려한 문맥 결합 정보를 이용함으로써 다수의 후보 어절 가운데에서 최적의 후보 어절을 선택하는 방법을 제안한다. 제안된 시스템은 인식기에서 내보낸 후보 음절과 학습된 혼동 음절을 조합하여 하나 이상의 후보 어절을 생성하는 모듈과 통계적 언어 정보를 이용하여 최적의 후보 어절을 선정하는 모듈로 구성되었다. 실험은 1000만 원시 코퍼스에서 추출한 음절 결합 정보와 17만 태깅된 코퍼스에서 추출한 어절 결합 정보를 사용하였으며, 실제 인식 결과에 적용한 결과 문자 단위에서는 94.1%의 인식률을 97.4%로, 어절 단위에서는 87.6%를 96.6%로 향상시켰다. 교정률과 오교정률은 각각 문자 단위에서 56%와 0.6%, 어절 단위에서 83.9%와 1.66%를 보였으며, 전체 실험 어절의 3.4%를 차지한 미등록어 중 87.5%를 올바로 인식하는 한편, 전체 오류의 20.3%인 비문맥 오류에 대해서 91.6%를 올바로 교정하는 후처리 성능을 보였다.

  • PDF

필기 숫자의 기계 인식을 위한 인간의 필기 숫자 인식 실험에 대한 고찰 (A Study on Human Recognition Experiments with Handwritten Digit for Machine Recognition of Handwritten Digit)

  • 윤성수;정현숙;이광오;이일병;이상호
    • 한국지능시스템학회논문지
    • /
    • 제18권3호
    • /
    • pp.373-380
    • /
    • 2008
  • 지금까지 기계 기반의 필기 숫자 인식 방법에 대한 많은 연구가 진행되어 왔다. 그러나 여전히 인간이 만족할 만한 인식 성능을 이루지는 못하였다. 이러한 배경에는 단순히 인식률을 나타내는 수치가 낮은 것도 한 부분을 차지 하지만, 인간이 수긍할 수 없는 오류 성향도 중요한 부분을 차지한다. 그러므로 본 논문에서는 실제 인간의 숫자 인식이 어떻게 이루어지는지를 확인하는 실험을 먼저 수행하고, 이것에 근거하여 기계 인식을 위하여 필요한 요소들이 무엇인지를 고찰하도록 하였다. 실험결과 한쪽 또는 양쪽 방향으로 혼동하는 숫자 쌍, 전혀 혼동하지 않는 숫자 쌍, 오류 발생의 중복성 등의 결과를 비교 분석하여 인간이 인식과정에서 중요하게 고려하는 특징들을 찾아냈고, 그 결과에 근거하여 기계 인식에 있어서 더 높은 인식 성능을 발휘할 수 있고, 더 나아가 인간적인 측면에서 보다 더 신뢰할 수 있는 인식결과를 이끌어 낼 수 있는 접근 방향에 대하여 제시하였다.

유사 이미지 분류를 위한 딥 러닝 성능 향상 기법 연구 (Research on Deep Learning Performance Improvement for Similar Image Classification)

  • 임동진;김태홍
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.1-9
    • /
    • 2021
  • 딥 러닝을 활용한 컴퓨터 비전 연구는 여전히 대규모의 학습 데이터와 컴퓨팅 파워가 필수적이며, 최적의 네트워크 구조를 도출하기 위해 많은 시행착오가 수반된다. 본 연구에서는 네트워크 최적화나 데이터를 보강하는 것과 무관하게 데이터 자체의 특성만을 고려한 CR(Confusion Rate)기반의 유사 이미지 분류 성능 향상 기법을 제안한다. 제안 방법은 유사한 이미지 데이터를 정확히 분류하기 위해 CR을 산출하고 이를 손실 함수의 가중치에 반영함으로서 딥 러닝 모델의 성능을 향상시키는 기법을 제안한다. 제안 방법은 네트워크 최적화 결과와 독립적으로 이미지 분류 성능의 향상을 가져올 수 있으며, 클래스 간의 유사성을 고려해 유사도가 높은 이미지 식별에 적합하다. 제안 방법의 평가결과 HanDB에서는 0.22%, Animal-10N에서는 3.38%의 성능향상을 보였다. 제안한 방법은 다양한 Noisy Labeled 데이터를 활용한 인공지능 연구에 기반이 될 것을 기대한다.