Ⅰ. 서론
바이오인식이란 개인의 신체적(physiological) 또는 행동적(behavioral) 특징을 인증 수단으로 하는 기술로 얼굴인식, 혈관인식, 지문인식, 홍채인식, 음성인식, 걸음걸이 인식 등 종류가 다양하다. 바이오인식은 불변성, 유일성, 보편성이라는 특징이 있어, 위조 도난 및 분실위험이 있는 PIN(Personal Identification Number), 토큰, 패스워드에 비하여 신분확인이 편리하고 정확하다는 장점이 있다[1]. 이러한 바이오인식의 장점을 바탕으로 공공건물 출입통제, 공항의 출입국 관리, 범죄 수사, PC 보안, 기업의 근태관리 등 다양한 분야에서 바이오인식이 폭 넓게 이용되고 있다. 최근에는 정부 각 부처별로 바이오인식 관련 사업을 빠르게 추진하고 있다. 예를 들어, 외교통상부에서는 전자 여권의 발급을 준비하고 있으며[2], 행정안전부에서는 전자 주민증의 도입을 계획하고 있다. 이와 같이 바이오인식 활용 분야가 국가적 차원으로 확대되면서, 국제적인 경쟁력을 갖춘 검증된 바이오인식 시스템을 판별하는 성능 평가 프로그램의 필요성이 제기되었다.
국외에는 각국의 산업처】, 대학, 연구기관 등에서 개발한 바이오인식 시스템의 성능을 평가하는 다양한 프로그램이 존재한다. 예를 들어, FERET(Facial Recognition Technology) [3], FRVT(Face Recognition Vendor Test) [4], FRGC(Face Recognition Grand Challenge) [5]는 얼굴인식 알고리즘의 성능을 평가하고, ICE(Iris Challenge Evaluation)[6]는 홍채 인식 알고리즘을, FVC(Fingerprint Verification Competition)[7-10]는 지문인식 알고리즘의 성능을 평가한다. 그러나 지금까지의 평가 방법들은 인식 알고리즘 성능 평가에만 국한되어 있다. 그리고 서로 다른 평가 프로그램에 참가한 인식 알고리즘간의 평가 결과 비교가 불가능하여, 평가 프로그램의 진정한 의미를 찾을 수 없었다. 따라서 보다 객관적인 인식 알고리즘 평가가 필요하며, 객관적인 평가를 위해서는 인식 성능 결과에 영향을 미치는 지문데이터베이스의 난이도(LoD, Level of Difficulty)[ll- 13]를 평가하는 일이 필요하다.
[그림 1]은 지문 데이터베이스의 난이도 연구가 갖는 연구의 의미를 보여주는 예이다. [그림 1]에서 Databasel 에 대한 Algorithm B의 오인식률 1%와 Database2에 대한 Algorithm A의 오인식률 0.5%를 비교한다면, Algorithm A의 성능이 더 좋다고 판단할 수 있다. 그러나 동일 데이터베이스 Database】에 대한 Algorithm A, B의 오인식률 비교를 통하여 Algorithm A의 성능이 더 좋다는 판단은 틀림을 알 수 있다. 따라서 서로 다른 데이터베이스로부터 산출한 인식 성능 결과는 비교할 수 없음을 증명하였다. 본 논문에서는 다음과 같이 서로 다른 데이터베이스로부터 산출한 인식 성능 결과를 비교할 수 없는 이유로, 데이터베이스의 난이도가 다르기 때문이라고 가정하였다. 그리고 Database】, 2에 대한 Algorithm A의 인식 성능 결과를 통하여 가정이 사실임을 확인할 수 있었다. 나아가 Database, 2에 대한 Algorithm A의 인식 성능 결과를 통하여 두 데이터베이스 간의 상대적인 난이도를 추측하고, 상대적 난이도를 기반으로 Database2에 대한 Algorithm 日의 오인식률도 추측할 수 있다고 판단하였다. 정리하면, 데이터베이스의 난이도가 같은 데이터베이스일 경우 두 데이터베이스로부터 산출한 인식 알고리즘의 성능 비교가 가능하고, 나아가 모르는 데이터베이스에 대한 인식 성능을 예측할 수 있다.
〔그림 1〕 데이터베이스 기반의 두 정합 알고리즘의 성능 평가 결과 예측
본 논문에서는 지문 데이터베이스의 난이도를 정의하고, 지문 데이터베이스의 LoD 정량화 방법을 연구한다. 본 논문의 口장에서는 데이터베이스의 난이도를 정의하고, m장에서는 품질 기반의 지문 데이터베이스의 난이도 정량화 방법을 제안한다. IV장은 실험 내용 및 결과를 정리하고, V장에서는 본 논문의 결론 및 향후연구 방향에 대하여 논한다.
Ⅱ. 지문 데이터베이스의 LoD 개요
2.1 Level of Difficulty(LoD) 정의
본 논문에서는 지문 데이터베이스의 난이도(LoD)를 다음과 같이 정의한다. LoD란, 지문 데이터베이스를 구성하는 지문영상들의 인식의 쉽고 어려움 정도를 정량화하여 레벨(level)화한, 상대적 난이도를나타낸다. LoD 는 [그림 2]와 같이 해당 데이터베이스를 인식 알고리즘의 평가에 사용함에 있어, 그 평가 결과에 영향을 주는 모든 항목들을 통합(Fusion)하고 정량화(Scoring)한 정보를 말한다[13]. 지문 데이터베이스의 난이도를 결정하는 평가 항목들은 신중히 정의되어야 하며, 평가 항목이 잘못 정의되는 경우 특정 인식 알고리즘에 대해서만 적합한 LoD를 산출하거나, 인식 알고리즘의 평가결과와 무관한 LoD를 얻을 수 있다. 그러므로 LoD 평가 항목을 제안하기에 앞서, 평가 항목이 갖추어야 할 조건을 정의함으로써 제안하는 평가 항목이 적합한지 판단할 수 있는 기준을 제시한다.
〔그림 2〕 지문 데이터베이스의 LoD 측정 방법
2.2 LoD 평가 항목의 조건
본 연구에서는 LoD 평가 항목의 조건으로 세 가지를 제안한다. 첫 번째 조건은, 평가 항목이 대부분의 인식알고리즘의 인식 성능 결과에 영향을 주는 보편적인 요소여야 한다는 점이다. LoD 평가 항목이 특정 알고리즘의 인식 성능 결과에만 영향을 주는 경우, 지문 데이터베이스의 객관적인 LoD 산출이 어렵고 이는 인식 알고리즘간의 성능 비교를 불가능하게 한다. LoD 평가항목의 두 번째 조건은, 평가 항목을 정량화한 값과 인식 성능이 상관관계를 보여야 한다는 것이다. 앞에서 정의한 것과 같이 LoD는 지문 인식 알고리즘의 평가 결과 즉, 인식 성능 결과에 영향을 주는 요소이므로 인식성능 결과와 상관관계를 보여야 한다. 마지막으로 LoD 평가 항목은 지문 인식 알고리즘의 정합 원리와 무관하며, 독립적으로 난이도를 정량화할 수 있어야 한다. 예를 들어, LoD 평가 항목으로, 특징점의 품질, 을 제안할 경우, 데이터베이스의 난이도는 특징점 품질이 좋은지 나쁜지를 기반으로 결정될 것이다. 이 난이도는 특징점 기반의 정합 알고리즘(minutiae based matching algorithm)의 인식 성능 결과와 상관관계를 보이지만, 융선의 패턴을 기반으로 정합하는 알고리즘(ridge feature-based matching algorithm)의 인식 성능 결과와는 상대적으로 상관관계가 적어 객관적인 난이도 산출이 어렵다. 그러므로 인식 알고리즘들의 정합 방식과 무관한, 독립적이고 객관적인 난이도산출이 가능한 요소를 고려해야 한다. 본 논문에서는, 영상 품질, 이 LoD 평가 항목의 세 가지 조건을 만족하고, 평가 항목으로 정의 가능하다고 판단한다. 다음은 영상 품질이 LoD 평가 항목의 조건을 만족함을 보인다. 일반적으로 지문영상의 낮은 품질은 대부분의 지문 인식 알고리즘의 인식 성능 결과에 영향을 주는 보편적인 요소이다. 그리고 낮은 품질의 지문영상이 많이 분포할수록 인식 알고리즘의 인식 성능 결과는 나빠진다[14-16]. 그러나 지문 영상의 품질은 특정지문 인식 알고리즘의 정합 기술과 관계가 없다. 따라서지문 영상의 품질이 LoD 평가 항목으로써 갖추어야 할 세 가지 조건을 모두 만족함을 확인하였다. 皿장에서는 영상 품질 기반의 LoD 정량화 방법을 제안한다.
Ⅲ. 품질 기반의 LoD 정량화 방법
지문 영상의 품질(Sample Quality)이란 지문 센서로부터 획득한 지문 영상의 상태를 수치화한 값이다. 지문영상의 품질은 지문 고유의 특성(Character), 지문의 상태, 센서에 기인한 잡음 등의 영향을 받는다. 따라서 품질 측정 알고리즘에서는 지문 영상의 융선 또는 골의 선명함, 특징점의 수와 품질, 배경의 잡음, 영상의 크기 등을 기준으로 품질을 정량화한다. 품질이 좋은 지문 영상의 경우 전경과 배경이 잡음의 영향을 받지 않고, 융선이 선명하게 나타난다. 이는 지문의 특징점 주줄을 용이하게 만들며, 특징점의 정보는 신뢰성이 높아 좋은 인식 성능을 보장한다. 그러나 품질이 나쁜 지문의 경우, 진짜 특징점의 정보가 손실되거나 가짜 특징점을 생성함으로써 특징점 정보에 대한 신뢰성이 떨어져 낮은 인식 성능을 산출한다. 즉, 품질이 나쁜 지문영상이 많을수록 데이터베이스의 전반적인 인식의 난이도는 높아지고 인식 오류도 높아질 것이다. 따라서 본 논문에서는 지문영상들의 품질에 기반 하여 지문영상 데이터베이스에 대한 인식의 어려움 정도, 즉 난이도를 정의하^, 결과적으로 그 데이터베이스에 대한 인식 에러율(EER, Equal Error rate)과 높은 상관관계를 갖는 정량적 표현방법을 제안한다.
본 논문에서는 품질 기반의 데이터베이스의 난이도정량화 방법으로 두 가지 방법론을 제안한다. 첫 번째는 데이터베이스를 구성흐}는 지문 영상의 품질 분포도 (Distribution of Sample Quality)를 이용한 정량화 방법이며, 두 번째는 동일 지문 영상 간의 품질의 차이 (Difference of Sample Quality)# 이용한 정량화 방법이다. 각 품질 분석 방법은 3.1 절과 3.2절에서 자세히 정리한다. 본 연구에서는 개별 지문영상의 품질측정을 위한 새로운 방법을 제안하지 않으며, 미국의 국가표준원(NIST)에서 개발한 NFIQ(NIST Fingerprint Image Quality)", 18]를 활용하였다. NFIQ는 지문영상의 품질 측정 알고리즘으로서 1 (Excellent)부터 5(Poor)까지 다섯 가지 품질 등급으로 나뉘며, 수치가 작을수록 높은 품질을 나타낸다.
3.1 품질 분포도(Distribution of Sample Quality) 분석
품질 분포도 분석은 데이터베이스를 구성하는 지문영상의 품질 등급별 빈도수를 기반으로 데이터베이스 전체의 난이도를 표현하는 방법이다. 본 품질 분석 방법은, 나쁜 품질의 지문영상이 많을수록 오인식률은 높아지고, 반대로 나쁜 품질의 영상이 적을수록 오인식률은 낮아진다'는 기본 원리에 근거한다. 따라서 인식 알고리즘의 EERe 나쁜 품질의 영상의 빈도수에 비례한다고 가정할 수 있으므로 나쁜 품질 등급의 빈도수에 가중치를 주어 데이터베이스의 난이도를 (식 1)과 같이 정의하였다.
#(1)
(식 1)에서 품질 분포도 기반의 데이터베이스의 난이도 LoDd"는 여와 f로 구성되며, 여는 각 품질 등급 1의 가중치를 나타내고 "는 각 품질 등급 1에 해당하는 지문 영상의 빈도수, 旳는 품질 등급 1을 갖는 지문 영상의 수를 나타내며, Le 전체 지문 영상의 수를 나타낸다. 가중치 여는 위에서 언급한 것과 같이 인식 성능을 저하하는 품질 등급에 주어지며, 본 논문에서는 품질 측정알고리즘 NFIQ에서 제공하는 품질 등급 l(Excellent) ~5(Poor)의 범위 중에서 3(Good), 4(Fair), 5(Poor)에 해당하는 품질 등급을 인식 성능을 저하하는 품질로 여겼다. [그림 3]은 오인식률(EER)과 [표 6]의 다섯 개의 데이터베이스에 대한 각 품질 등급의 빈도수의 상관관계를 나타내는 그림으로 품질 등급 3, 4, 5가 인식 성능을 저하하는 품질임을 보여준다. [그림 3]을 통하여 품질 등급 1의 빈도수는 오인식률과 음의 상관관계를 가지고, 품질 등급 3, 4, 5의 빈도수는 오인식률과 상대적으로 높은 양의 상관관계를 가짐을 확인할 수 있었다. 또한, 품질이 나쁠수록 미치는 영향정도가 큰 것을 알수 있었다. 따라서 품질 등급 3, 4, 5에 가중치를 주었으며, 나쁜 품질 등급일수록 가중치를 더욱 크게 주어 어려운 난이도의 데이터베이스로 정의하도록 % =衣 =0, 电 = §, %=을, = |■으로 정하였다.
〔그림 3〕 EER과 개별 품질 영상 빈도수의 상관관계
〔표 6〕 각 데이터베이스의 품질 분석 값과 인식 성능 (EER) 값
위에서 정의한 품질 분포도 기반의 데이터베이스 난이도는 인식 성능을 저하시킬 가능성이 있는 나쁜 품질등급의 지문영상의 분포율을 표현한다고 할 수 있다. 그러나 인식 성능은 지문 영상 간의 정합 결과이므로, 정합을 위해 입력되는 지문영상의 품질뿐만 아니라 입력된 지문영상의 품질도 동시에 고려되어야 한다. 즉, 동일한 지문에서 얻어진 등록영상과 입력영상 사이의 품질의 차이가 고려되어야 한다. 따라서 3.2절에서는 품질의 차이를 고려한 데이터베이스의 난이도 분석법을 제안한다.
3.2 품질 차이(Difference of Sample Quality) 분석
본 논문에서 제안하는 두 번째 품질 분석 방법은 품질 차이 기반의 데이터베이스 난이도 측정 방법이다. 품질의 차이란 [그림 4]과 같이 동일 지문으로부터 획득한 지문 영상 간의 품질 등급의 상대적 차이를 의미한다. 본 난이도 분석 방법은 데이터베이스의 인식 성능이 동일 지문 영상 간의 품질 차이에 영향을 받는다는 가정 하에 데이터베이스를 구성하는 동일 지문의 영상들 간의 각 품질 차이별 빈도수를 동시발생 매트릭스 (Co-occurrence Matrices)를 이용하여 분석함으로써 인
〔그림 4〕 동일 지문 영상 간의 품질의 차이
식 성능에 영향을 미치는 품질 차이를 알아본다.
3.2.1 동시발생 매트릭스(Co-occurrence Matrices)
본 논문에서는 동일 지문 영상 간의 품질의 차이를 정의하기 위한 방법으로 MPQ(Matching Pairwise Quality) 동시발생 매트릭스와 MVQ(Median-View Quality) 동시발생 매트릭스를 정의한다. [표 1, 2]는 FVC2004 DB2의 MPQ 동시발생 매트릭스를 나타내며, [표 3, 4]는 FVC2002 DB1의 MVQ 동시발생 매트릭스를 나타낸다. [표 1, 2]의 MPQ 동시발생 매트릭스는 'Genuine matching pair들의 품질 차이는 인식 성능을 저하시킨다「는 가정으로 정의된 매트릭스이다. 따라서 Genuine matching pair들의 품질 차이를 나타내기 위하여 매트릭스의 행은 등록된(Enrolled) 지문 영상의 품질 등급을 나타내고, 열은 인식을 시도하는(Tested) 지문 영상의 품질 등급을 나타낸다.
〔표 1〕 MPQ Co-occurrence Matrix, LQ Block
〔표 2〕 MPQ Co-occurrence Matrix, OQ Block
〔표 3〕 MVQ Co-occurrence Matrix, LQ Block
〔표 4〕 MVQ Co-occurrence Matrix, OQ Block
[표 3, 4]의 MVQ 동시발생 매트릭스는 동일 지문에서 얻어지는 다수의 지문영상이 가질 수 있는 랜덤한 품질 변화 효과를 제거하기 위하여, 동일 지문으로부터 획득된 지문 영상들의 품질 등급 중 대표 품질 등급과개별 지문영상들 사이의 품질 차이의 분포를 나타낸다. 행의 대표 품질 등급은 중앙값(median) 연산을 통하여 결정한다. 동시발생 매트릭스는 각 행과 열에 해당하는 지문 영상의 빈도수를 전체 빈도수로 나누어 백분율로 표현하며, 모든 셀의 빈도수를 합하면 100이 된다.
3.2.2 블록(Block)
본 연구에서는 동시발생 매트릭스에서 인식을 어렵게 만드는 특정 품질 차이들의 집합(Block)을 정의하였다. 특정 품질 차이는 [표 1, 2, 3, 4]에서 회색으로 칠해진 부분을 나타낸다. [표 1, 3]에서 정의한 품질 차이 집합은 LQ(Low Qualities) Block이라 부르며 지문 영상간의 품질 중 어느 하나라도 품질이 나쁜 경우를 포함한다. 즉, MPQ 동시발생 매트릭스에서 정의된 LQ Block의 경우 등록된 지문 영상과 인식을 시도하는 지문 영상 중 어느 하나라도 낮은 품질을 보유한 경우를 말한다. [표 2, 4]에서 정의한 OQ(Opposite Qualities) Block의 경우 지문 영상 간의 품질의 차이가 상반되는 경우를 의미한다. 예를 들어, MPQ 동시발생 매트릭스에서 OQ Block의 경우 등록된 지문 영상의 품질은 좋지만 인식을 시도하는 동일 지문 영상의 품질은 나쁜 경우 혹은 그 반대의 경우를 의미한다. 품질 차이 기반의 데이터베이스의 난이도는 각 Block이 포함하는 품
질 차이에 대한 빈도수를 합한 값으로 정의하며 식 (2)와 같이 정의한다.
#(2)
식 (2)에서 血D"와 LoDg는 각각 LQ Block과 OQ Block으로부터 구한 데이터베이스의 난이도로써, 난이도가 높을수록 나쁜 인식 성능이 산출될 확률이 높을것으로 기대된다. 각 블록이 포함하는 품질 차이에 해당하는 빈도수는 血, Cj)로 나타내며, "는 행에 해당흐]는 품질 등급 i를, G는 열에 해당하는 품질 등급 j를 의미한다. 본 논문에서 정의한 블록 중에서 인식 성능과 가장 높은 상관관계를 갖는 블록은 'HEER (Highest Correlation with EER) Block, 이라 정의한다.
Ⅳ. 실험 및 결과
본 실험에서는 m장에서 정의한 품질 분석방법을 이용하여 데이터베이스의 난이도를 정량화하고, 인식 성능과의 상관관계도 알아본다. 또한, 난이도와 인식 성능과의 상관관계 정보를 이용하여, 새로운 데이터베이스의 난이도를 기반으로 인식 성능을 예측하고 실제 인식성능과 비교하여 본다. 본 연구에서는 품질 측정 알고리
즘이 광학 방식 센서(Optical Sensor)에 최적화된 점은 고려하여, 광학 방식 센서로부터 구축된 데이터베이스를 선정하였다. 본 연구에 사용된 지문 영상 데이터베이스들은 [표 5]에 정리하였다. 연구에 사용된 데이터베이스는 FVC 데이터베이스, KFRIA 데이터베이스 두 종류로 나뉜다. FVC 데이터베이스는 세계 각국의 연구기관 혹은 기업의 지문 인식 알고리즘을 평가하기 위한 프로그램(FVC)을 통하여 구축한 평가용 데이터베이스로 광학방식, 반도체방식, 열감지 방식, 인조 지문 생성기 등 다양한 방식의 센서로부터 데이터베이스를 구축하였다. KFRIA 데이터베이스는 중소기업청 지원으吏 인하대가 주관이 되어 일곱 개의 국내 지문인식 업세 (디젠트, 니트젠, 씨큐트로닉스, 실리콘이미지웍스, 슈프리마, 테스텍, 유니온커뮤니티)와 함께 센서 및 알고리즘의 상호호환 연구를 위한 목적으로 구축한 데이터베이스이 다. FVC 데이터베이스는 데이터베이스의 난이도와 인식 성능과의 상관관계를 알아보기 위한 실험에 사용되며, KFRIA 데이터베이스는 새로운 데이터베이스의 인식 성능을 예측하는 실험에 사용된다.
〔표 5〕 LoD 정량화 실험에 사용된 지문 데이터베이스 정보
본 논문에서는 지문 영상의 품질을 기반으로 하는 데이터베이스의 난이도를 측정하기 위하여 NIST의 품질측정 알고리즘 NFIQ를 사용하였다. NFIQ는 지문영상의 특징점 벡터를 입력 값으로 하고, Multi-Layer Perceptron(MLP) 신경 회로망 분류기를 이용하여 5단계의 품질 등급을 산출한 품질 측정 알고리즘이다. 특징점 벡터는 지문 영상의 각 블록에 대해 direction map, low contrast map, low flow map, high curve map의 결과를 통합한 quality map과 특징점 추출 알고리즘 MINDTCT(Mmutiae Detection)로부터 생성된 특징점품질을 특징점 벡터로 여긴다[18]. 본 연구에서는 지문영상의 특징점을 추출하고, 정합하기 위한 실험에 Neurotechnologija사의 VeriFinger[19] 알고리즘을 사
용하였으며, VeriFinger 알고리즘은 0부터 최대 1770까지 정합 점수를 산출한다.
[그림 5]는 FVC 데이터베이스의 품질 분포도를 나타내며 인식 성능이 좋은 순서로 정렬하였다. 막대그래프는 각 데이터베이스의 품질 분포도를 나타내며, 품질 등급별 지문 영상의 빈도수는 백분율로 나타냈다. 선 그래프는 각 데이터베이스의 인식 성능(EER)을 의미하며 백분율로 표현하였다. [그림 5]를 통하여 FVC2002 DB1, DB4는 품질 등급 1 (Excellent), 2(Very Good)의 빈도수가 높은 것으로 보아 양질의 지문 영상으로 구성되었으며, 인식 성능도 좋은 것을 확인할 수 있다. 반면에 FVC2004 DB2, FVC2006 DB4는 다른 데이터베이스에 비하여 품질 등급 3(Good), 4(Fair), 5(Poor)가 차지하는 비율이 높은 것으로 보아 상대적으로 나쁜 품질의 지문 영상이 많이 등록되었으며, 인식 성능도 나쁜 것을 확인할 수 있다. 즉, [그림 5]를 통하여 인식 알고리즘의 EERe 나쁜 품질의 빈도수에 비례한다는 가정이 사실임을 확인할 수 있다. 또한, 품질 분포도 기반의 난이도 정량화 방법이 데이터베이스의 인식 성능과 상관관계 가짐을 알 수 있다.
〔그림 5〕 FVC 데이터베이스의 품질 분포도와 인식 성능의 관계
[표 6]은 각 품질 분석 방법으로부터 얻은 데이터베이스의 난이도와, 인식 성능(EER)을 정리한 표이다. [표 6]에서 LoDDis는 품질 분포도 분석 방법론으로부터 산출한 데이터베이스의 난이도를 의미하고, LoD Diff는 품질 차이 분석 방법으로부터 산출한 데이터베이스의 난이도를 의미한다. [표 6]를 통하여 FVC 2002 DB1 과 FVC2002 DB4의 오인식률이 다른 데이터베이스에 비하여 상대적으로 낮고, 품질 분석 방법으로부터 산출한 난이도 또한 낮은 것을 확인할 수 있다. 그리고 FVC2006 DB2와 FVC2006 DB4의 경우 상대적으로 오인식률이 높으며 산출된 난이도 또한 다른 데이터베이스에 비하여 상대적으로 높은 것을 알 수 있다. 이와 같은 결과는 품질 분포도 분석뿐만 아니라 품질 차이분석법에서도 타남을 알 수 있다. 즉, Genuine matching pair 간의 품질 차이나, 동일 지문 영상 간의 품질 차이 중에서 하나의 영상이 나쁜 품질인 경우, 혹은 지문 영상 간의 품질 차이가 상반되는 경우는 오인식률이 높아진다는 본 논문의 가설이 사실임을 증명하였다.
[그림 6]은 FVC 데이터베이스의 난이도와 인식 성능(EER)의 상관관계를 기반으로 한, KFRIA 데이터베이스의 인식 성능 예측 그래프이다. 그래프의 X축과 y축은 각 품질 분석 방법으로부터 산출한 난이도와 인식성능으로 정의하고, 난이도와 인식 성능의 상관관계를 알아본다. [그림 6]에서 FVC, KFRIA 데이터베이스의 실제 난이도와 인식 성능은 각각 점(・)과 세모(▲)로 표시하고, KFRIA 데이터베이스의 난이도를 기반으로 예측한 인식 성능 결과는 네모(口)로 표시한다. [그림 6]의 선 그래프는 FVC 데이터베이스의 난이도와 인식 성능의 상관관계를 선형 회귀 분석을 통하여 정의한 선형식이다. 선형 회귀 분석 결과 품질 차이 분석법의 산점도가, 품질 분포도 분석법의 산점도보다 선형 그래프에가까이 위치한 것으로 보아, 품질 차이 분석법이 품질분포도 분석법보다 인식 성능과 높은 상관관계를 가짐을 알 수 있다. FVC의 실제 난이도와 인식 성능 결과의 상관관계를 이용하여 KFRIA 데이터베이스의 난이도를 기반으로 하는 인식 성능을 예측한 결과, 전반적으로 OQ Block의 인식 성능 예측 결과가 가장 좋았고, 품질분포도 기반의 인식 성능 예측 결과가 가장 나쁜 것을 확인하였다. 특히, MPQ 동시발생 매트릭스의 OQ Block으로부터 정량화한 난이도와 인식 성능의 상관관계가 가장 높은 것으로 보아, 인식 성능을 저하하는 주원인은 동일 지문으로부터 획득한 지문 영상임에도 불구하고 상반되는 품질을 지닌 경우임을 알 수 있다. 따라서 본 논문에서는 데이터베이스의 인식 성능과 가장 높은 상관관계를 갖고, 새로운 데이터베이스에 대하여 높은 인식 성능 예측률을 보이는 OQ Block을 HEER Block으로 정의한다.
〔그림 6〕 KFRIA 데이터베이스의 인식 성능 예측 그래프
[그림 기은 KFRIA 데이터베이스에 대하여 Veri-Finger 에 의한 실제 인식 성능과, 본 논문에서 제안한 난이도측정치로부터 예측한 인식 성능의 오차를 제곱한 평균값 MSE(Mean Square Error)를 나타낸 선 그래프이다.
〔그림 7〕 품질 분석 방법의 인식 성능 예측 오차율
선 그래프를 통하여 품질 분포도 분석 방법의 오차율이 가장 크고, 품질 차이 분석 방법의 오차율이 상대적으로 작은 것을 알 수 있다. 이는 품질 차이 분석 방법이 품질 분포도 분석 방법 보다 뛰어남을 의미한다. 품질 차이 분석 방법 중에서는 MPQ 동시발생 매트릭스의 오차율이 MVQ 동시발생 매트릭스의 오차율보다 작았으며, 그 중에서 OQ Block의 오차율이 가장 작은 것을알 수 있다. 즉, MPQ 동시발생 매트릭스의 OQ Block 기반의 난이도 정량화 방법이 가장 예측 성능이 높음을 의미한다.
Ⅴ. 결론
본 논문은 영상 품질 기반의 데이터베이스의 난이도정량화 방법으로 품질 분포도 분석과 품질 차이 분석을 제안하였다. 두 방법론을 통하여 영상 품질 기반의 데이터베이스의 난이도는 인식 성능과 높은 상관관계를 가지는 것을 확인할 수 있었으며, 품질 차이 분석 방법이 품질 분포도 분석 방법보다 인식 성능과 더욱 높은 상관관계를 나타내는 것을 알 수 있었다. 이는 인식 성능은 지문 영상 간의 정합 결과이므로 인증을 위해 입력되는 지문영상의 품질뿐만 아니라 등록된 지문영상의 품질도 동시에 고려되어야 하기 때문이다. 품질 차이 분석 방법 중에서는 MPQ 동시발생 매트릭스의 OQ(Opposite Qualities) Block 기반의 난이도 정량화 방법이 인식 성능과 가장 높은 상관관계를 나타내며, 새로운 데이터베이스에 대한 인식 성능 예측률도 뛰어남을 알 수 있었다. 이는 데이터베이스의 난이도를 어렵게 만들고 인식 성능을 저하하는 주원인은, 동일 지문으로부터 획득한 지문 영상임 에도 불구하고 상반되는 품질을 지닌 경우임을 알 수 있다. 본 연구를 통해 서로 다른 데이터베이스로부터 산출한 인식 성능 결과를 이용하여 인식 알고리즘간의 성능 비교의 가능성을 확인할수 있었다.
향후 연구로는 영상의 품질 요소 외에도 지문 인식의 성능에 영향을 줄 수 있는 지문의 변형 정도(Deformation level)와 공통 영역의 면적(Ratio of common area)등의 요소들을 정의하고 수치화함으로써, 데이터베이스 난이도를 결정하는 다양한 항목들을 정량화하고 통합하는 것이다.
References
- D. Maio, D. Maltoni, A.K. Jain and S. Prabhakar, Handbook of Fingerprint Recognition, Springer, 2003
- http://www.mofat.go.kr/help/search/index.jsp
- FERET, http://www.itl.nist.gov/iad/humanid/feret/feret_master.html
- FRVT, http://www.frvt.org/FRVT2006/default.aspx
- FRGC, http://www.frvt.org/FRGC/default.aspx
- ICE, http://iris.nist.gov/ice/
- FVC, http://bias.csr.unibo.it/fvc2006/
- D. Maio, D. Maltoni, R. Cappelli, J.L. Wayman and A.K. Jain, "FVC2000:Fingerprint Verification Competition", IEEE Transactions on Pattern Analysis Machine Intelligence, vol. 24, no. 3, pp. 402-412, March 2002 https://doi.org/10.1109/34.990140
- D. Maio, D. Maltoni, R. Cappelli, J.L. Wayman and A.K. Jain, "FVC2002:Second Fingerprint Verification Competition", in proceedings 16th International Conferene on Pattern Recognition, vol. 3, pp. 811-814, 2002
- D. Maio, D. Maltoni, R. Cappelli, J.L. Wayman and A.K. Jain, "FVC2004:Third Fingerprint Verification Competition:, in proceedings First International Conference on ICBA, vol. 3072, pp. 1-7
- 문지현, 김학일, 길연희, 정윤수, 유장희, "지문 영상 데이터베이스의 Level of Difficulty 평가 방법 연구," Conference on Information Security and Cryptology, Vol. 15, No. 1, pp. 5-8, 2005
- 박노준, 김학일, "지문 영상의 Orientation field 를 이용한 FVC DB의 LoD 분석," Conference on Information Security and Cryptology, Vol. 15, No. 2, pp. 523-526, 2005
- 장지현, 김학일, "얼굴 데이터베이스의 Level of Difficulty 평가 항목 연구," Conference on Information Security and Cryptology, Vol. 15, No. 2, pp. 517-520, 2005
- E. Tabassi, C. L.Wilson. "A novel approach to fingerprint image quality", International Conferene on Image Processing, vol. 2, pp. 37-40, 2005
- E. Tabassi, P. Grother, Quality Summarization, NISTIR7422, 2007
- T. Ko and R. Krishnan, "Monitoring and Reporting of Fingerprint Image Quality and Match Accuracy for a Large User Application", 33rd Image Pattern Recognition Workshop, pp. 159-164, 2004
- M. Garris, S. Janet, R. McCabe, E. Tabassi, C. Watson and C. Wilson, User's Guide to NIST Fingerprint Image Software 2 (NFIS2), October 2004
- E. Tabassi, C.L. Wilson and C.I. Watson, Fingerprint Image Quality, NISTIR7151, 2004
- Neurotechnologija, Inc. VeriFinger (http://www.neurotechnologija.com/verifinger.html). 2006