• 제목/요약/키워드: Confusion Matrix

검색결과 111건 처리시간 0.034초

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

다중 레이블 콘볼루션 신경회로망을 이용한 능동펄스 식별 알고리즘 연구 (A Study of Active Pulse Classification Algorithm using Multi-label Convolutional Neural Networks)

  • 김근환;이석진;이균경;이동화
    • 한국산업정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-38
    • /
    • 2020
  • 본 논문에서는 다중 레이블 콘볼루션 신경회로망(Multi-label Convolution Neural Networks)을 이용하는 능동펄스 식별 알고리즘을 제안한다. 제안하는 기법은 기존의 단일 레이블 기반 알고리즘이 여러 개의 신경회로망 구조로 되어 있던 것과 달리 하나의 신경회로망 구조로 능동펄스의 정보를 한번에 획득할 수 있으며, 학습과정 역시 간편해지는 장점이 있다. 제안한 능동펄스 식별 알고리즘을 검증하기 위해서 해상실험 데이터를 이용하여 신경회로망을 학습시키고 성능을 분석하였다. 분석결과 제안한 능동펄스 식별 알고리즘이 수렴하는 것을 확인하였으며, 오차행렬(Confusion Matrix) 분석을 통하여 우수한 능동펄스 식별성능을 가지는 것을 확인하였다.

혼동행렬의 상관계수를 이용한 최적분류점 (Optimal threshold using the correlation coefficient for the confusion matrix)

  • 홍종선;오세현;최예원
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.77-91
    • /
    • 2022
  • 의학통계와 신용평가 분야에서 혼합분포함수를 판별하는 최적분류점 추정하기 위하여 판별력을 측정하는 다양한 정확도 측도들이 존재한다. 최근에 혼동행렬 빈도수로 표현되는 Matthews의 상관계수와 정밀도와 재현율의 조화평균인 F1 통계량의 정확도 측도들이 최적분류점을 추정하는데 연구되었다. 본 연구에서는 이런 정확도 측도들 중에서 표본크기에 의존하는 정확도 측도들은 두 표본크기 차이가 많은 경우에 최적분류점을 설정하는데 적절하지 않음을 발견한다. 그리고 대안적인 정확도 측도로 혼동행렬의 비율들의 함수인 상관계수를 정의하고, 이를 최대화하는 분류점을 최적분류점으로 추정하는 방법을 제안하고 이 방법의 유용성과 활용성에 대하여 토론한다.

고속하다마드 변환을 위한 치환기법 (Permutation Algorithm for fast Hadamard Transform)

  • 남지탁;박진배;최윤호;주영훈
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1997년도 하계학술대회 논문집 B
    • /
    • pp.616-619
    • /
    • 1997
  • The spectrum-recovery scheme in Hadamard transform spectroscopy is commonly implemented with a fast Hadamard transform (FHT). When the Hadamard or simplex matrix corresponding to the mask does not have the same ordering as the Hadamard matrix corresponding to the FHT, a modification is required. When the two Hadamard matrices are in the same equivalence class, this modification can be implemented as a permutation scheme. This paper investigates permutation schemes for this application. This paper is to relieve the confusion about the applicability of existing techniques, reveals a new, more efficient method: and leads to an extension that allows a permutation scheme to be applied to any Hadamard or simplex matrix in the appropriate equivalence class.

  • PDF

소나무재선충병 피해목 탐지를 위한 UAV기반의 식생지수 비교 연구 (A Study on the UAV-based Vegetable Index Comparison for Detection of Pine Wilt Disease Trees)

  • 정윤영;김상욱
    • 지적과 국토정보
    • /
    • 제50권1호
    • /
    • pp.201-214
    • /
    • 2020
  • 본 연구는 UAV 영상의 식생지수를 활용한 소나무재선충병 피해목 조기 탐지를 그 목적으로 하며, NDVI를 비롯한 대표적인 식생지수들을 선정하고 각각의 분류 정확도 비교분석을 통해 최적의 식생지수를 분석해보았다. 현장답사를 통하여 193개체의 소나무재선충병 피해목 위치데이터를 구축하고 동시에 다중분광 UAV 영상을 이용하여 4가지 식생지수 분석을 수행하였다. 무감독분류(K-Means)를 통하여 피해목을 분류하였고, 오차행렬(Confusion Matrix)를 이용하여 식생지수별 분류정확도를 비교·분석하였다. 연구의 결과를 요약하면 다음과 같다. 첫째 분류의 전체정확도는 NDVI (88.04%, Kappa계수 0.76) > GNDVI (86.01%, Kappa계수 0.72) > NDRE (77.35%, Kappa계수 0.55) > SAVI (76.84%, Kappa계수 0.54)순으로 분석되어 NDVI가 가장 높은 정확도를 보였으며, GNDVI가 거의 비슷한 수준의 분류정확도를 보였다. 둘째, NDVI 및 GNDVI 식생지수를 이용한 K-Means 무감독 분류방법으로 피해목의 판별이 어느 정도 가능한 것으로 판단된다. 특히 위 기법은 연산이 집약적이고 사용자의 개입이 적고 분석과정이 상대적으로 간단하여 피해목의 조기 탐지에 도움을 줄 수 있을 것으로 판단된다. 향후 시계열영상의 활용 또는 딥러닝기법의 추가 응용으로 분류정확도를 높일 수 있을 것으로 기대한다.

Approximated Posterior Probability for Scoring Speech Recognition Confidence

  • 김규홍;김회린
    • 대한음성학회지:말소리
    • /
    • 제52호
    • /
    • pp.101-110
    • /
    • 2004
  • This paper proposes a new confidence measure for utterance verification with posterior probability approximation. The proposed method approximates probabilistic likelihoods by using Viterbi search characteristics and a clustered phoneme confusion matrix. Our measure consists of the weighted linear combination of acoustic and phonetic confidence scores. The proposed algorithm shows better performance even with the reduced computational complexity than those utilizing conventional confidence measures.

  • PDF

문자 인식을 이용한 한글 문서 검색 (Hangul Document Retrieval Using Character Recognition)

  • 안재철;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

가중 템플릿 정합을 이용한 인쇄체 아라비아 숫자 인식 (Machine-printed Digit Recognition using Weighted Template Matching)

  • 정민철
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2005년도 춘계학술발표논문집
    • /
    • pp.180-183
    • /
    • 2005
  • 본 논문에서는 인쇄체 아라비아 숫자를 인식하기 위해 가중 템플릿 정합 방법을 제안한다. 가중 템플릿 정합은 패턴의 특징이 나타나는 영역에 해밍거리(Hamming Distance) 의 가중치를 두어 패턴 특징을 강조하여 숫자 패턴의 인식률을 높이는 것이다. 또한 패턴의 표면을 울퉁불퉁한 영상으로 만드는 한 두 픽셀의 랜덤 노이즈를 제거하기 위하여 본 연구에서는 트리밍(trimming) 기법을 적용하였다. 실험에서는 트리밍을 하지 않고 단순 템플릿 정합을 사용했을 때의 혼돈 행렬(confusion matrix)과 트리밍을 한 후 가중 템플릿 정합을 사용했을 때 혼돈 행렬을 서로 비교해 인식률이 크게 향상된 것을 보인다.

  • PDF

고립 연결-성분의 방향성 인지에 의한 도로 영역 추출 (Road Extraction by the Orientation Perception of the Isolated Connected-Components)

  • 이우범
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.75-81
    • /
    • 2012
  • 고해상도 위성영상에 내재된 도로 영역의 추출에 있어서 이진화, 잡음 제거, 색처리 등의 전처리 작업에 의해서 추출된 도로 후보 영역에 대한 도로 영역 식별 작업은 가장 중요한 과정이다. 따라서 본 논문에서는 전처리 작업에 의해서 추출된 도로 후보 영역에 대해서 대뇌 시각영역에서 발견되는 신경 세포(Neuron cell)의 방향-선택적 인지 기능을 계산 모델화한 공간필터(Orientation-selective spatial filter)를 적용하여 도로 영역을 식별하는 새로운 방법을 제안한다. 제안하는 방법은 전처리 결과 고립된 연결 성분으로 라벨링 된 각각의 도로후보 영역에 대해서 신경 세포형 방향 필터를 적용한 후, 강한 방향 성분이 인지된 영역을 도로 영역으로 식별한다. 제안한 방법의 성능 평가를 위해서는 위성영상으로부터 추출된 도로 후보 영역에 대해서 도로, 비도로 부류의 혼동 행렬(Confusion matrix)을 이용한 식별 정확 및 오류율을 측정하여 보인다. 실험 결과, 본 논문에서 제안한 방향 선택적 필터 기반의 방법은 추출된 도로 후보 영역에 대해서 92% 이상의 도로 식별 정확성을 보였다.

부합성을 이용한 표준화된 다항판별지수 (Standardized polytomous discrimination index using concordance)

  • 최진수;홍종선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권1호
    • /
    • pp.33-44
    • /
    • 2016
  • 의학진단과 신용평가 등에서 삼항 이상 다항 범주의 결과로 예측되는 경우가 많다. 다항 범주의 문제에 대하여 부합성 (concordance)을 이용한 다섯 종류의 통계량이 제안되고 사용되었다. 그러나 이러한 통계량들은 범주의 뚜렷한 구분없이 표현되어 짝 (pairwise) 접근방법과 집단 (set) 접근방법을 사용하기 어렵고, 이 통계량들의 의미를 명확하게 파악할 수 없다. 따라서 통계량들의 비교분석이 가능하지 않았다. 본 연구에서는 평가자료를 새롭게 표현하고, 이를 바탕으로 부합성을 재표현한다. 이 부합성을 이용하여 기존의 통계량들을 새롭게 정의한다. 본 연구에서 제안한 방법으로 다섯 가지 통계량들의 의미를 설명할 수 있으며 비교 분석이 가능하다. 다양한 자료를 생성하여 분석하여 이 통계량들의 특징을 탐색할 수 있으며 설명할 수 있다.