1. 서 론
보건복지 분야의 개인정보는 의료정보, 건강정보, 연금정보, 사회복지정보 등 대부분 민감한 개인정보로 공공기관 보유량은 약 845억 건[1]으로 추산되고 있으며, 보건복지부 및 소속ㆍ산하기관 내부직원에 대한 개인정보 오ㆍ남용 여부를 상시 모니터링하고 대응할 수 있는 감시체계 필요하다고 판단하여 2010년부터 보건복지부에서는 개인정보를 보유하고 있는 주요 정보시스템을 대상으로 개인정보 유출 및 오ㆍ남용 사전 예방을 위한 관제활동을 추진하였다 [2]. 관제업무 및 활동은 보건복지부의 개인정보통합 관제시스템과 이에 연계된 대상 기관의 관제시스템 간의 사전에 정의된 표준화 업무 로그를 분석하고 적정성 여부를 검토한 후 최종 결과에 대해 판정을 내리는 것이다. 특히 표준화 업무 로그는 개인정보처리시스템에서 생성되는 개인정보취급자의 접속기록으로써 수행한 업무 내역에 대해 식별자, 접속일시, 접속자를 알 수 있는 정보, 수행업무 등을 전자적으로 기록한 것이며 ‘보건복지개인정보통합관제센터[3]’에서 정의한 5W1H(육하원칙) 칼럼의 표준화 형식으로 작성한 로그를 말한다[4]. 따라서 개인정보통합관제활동의 핵심요소라고 할 수 있는 표준 업무 로그에 대한 품질 관리는 매우 중요하며 개인정보통합관제의 궁극적 목표인 개인정보 유출의 조기 발견 및 사전 예방을 위해 필수적이다[5].
본 논문에서는 통합관제 품질 관리의 일환으로 보건복지 개인정보통합관제센터(이하 ‘센터’)에서 관제 되고 있는 접속로그의 품질, 즉 표준화 로그에 대한 품질 현황을 분석하고 기관별 로그의 특성을 분석 하여 관제 위험 요소를 최소화하는 기준을 마련하고 추출을 제한시키는 기관의 로그 품질을 상세하게 분석하였다[6]. 결과적으로 관제 대상 로그의 적정성 평가 및 보건복지 개인정보 오남용 관제를 위한 추출 조건 개발 방향을 제시하였다[8]. 그리고 기관 업무 특성에 따른 로그 품질의 현황 및 정보 공유를 통한 품질 개선이 가능하였으며 기관별 로그 특성에 따른 품질 관리 및 점검 기준을 마련하였다.
본 논문의 구성은 다음과 같다. 2장에서 본 논문에서 로그 품질을 분석하기 위해 제안한 내용 및 방법에 대하여 논하고, 3장에서 분석에 대한 결과 및 개선 방안을 설명한다. 여기에서는 데이터를 구성하는 로그 항목별 품질 분석 결과, 로그 식별 비율의 분석을 통한 기관별 로그 품질 분석 결과, 로그 품질 개선 방안 적용 사례 순서로 서술한다. 그리고 4장에서는 로그 품질 분석 및 개선 결과에 대한 성과 및 향후 연구로 결론을 맺는다.
2. 로그 품질 분석 내용 및 방법
2.1 분석 대상 및 범위
로그 품질을 분석하기 위해 ‘13. 1. 1∼ ’14. 5. 30 동안의 대상기관 8개와 시스템 3개로부터 수집된 업무 로그 데이터를 대상으로 선정하였다. 기관별 로그 적재 내역 현황은 Fig. 1과 같이 대상기관에 동일하게 적용하고 있는 주요 추출조건 20개에 영향을 미치는 로그 항목 및 유효성 항목 13개로 나타난다.
Fig. 1.Standardization log loaded status. (analysis of institution's common extraction condition applied status).
하지만 업무 특성이 서로 다른 처리시스템이 생성한 로그에 대해 추출조건을 동일하게 일괄 적용하는 것은 쉽지 않다. 따라서 각 추출조건별로 사용하는 칼럼을 파악하여 현황분석을 위한 보조 자료로 활용 하였다[9]. 추촐 조건에서 사용되는 참조 테이블 정보와 표준화 로그의 특정 칼럼간의 연계성을 고려하기 위해 Table 1의 공통추출조건(Fig. 1 참조) 20개에 대한 수집로그와 참조정보 현황을 작성하였다.
Table 1.※ Good : Load rate of the column corresponding to the extraction conditions 100% Average : 50% < Load rate of the column corresponding to the extraction conditions < 100% Bad : Load rate of the column corresponding to the extraction conditions < 50%
2.2 분석 프로세스
개인정보통합관제 로그품질을 분석하기 위한 프로세스는 Fig. 2와 같이 수립하였다.
Fig. 2.Process for analysis of integrated monitoring log quality.
로그품질을 분석하는 각 과정에서 대상기관별 접근 로그의 품질 현황 점검을 실시하였다. 현황 점검을 위해 기관별 표준 업무 로그의 품질 점검 및 표준 로그 적재율, 데이터 유효성, 추출조건에 대한 연관성 분석을 수행하였고 미 수집된 로그에 대한 현황도 병행 점검하였다. 다음으로 로그 데이터가 정상적인 업무 구간에서 생성된 것인지에 대한 심층 분석을 위해 원본 로그 데이터 수와 적재 로그 데이터 수를 비교한 후 기관별 업무 특수성을 기반으로 한 적재 기능 모듈을 분석함으로써 정상 업무 구간에서의 로그 생성인지 아닌지에 대한 원인을 파악하였다. 그리고 적재 기능 모듈 분석을 위해 수집된 로그 파일을 적재 테이블에서 표준 로그 칼럼의 여부를 구분하였고 발생일 존재 여부 및 수집된 로그 파일명에 대한 발생일의 적정성을 비교하였다. 분석 데이터로는 무결성 규칙(사원코드, 발생일, 기관코드)을 만족하지 못한 수집 데이터는 적재하지 않았고 적재하지 못한 수집 로그의 분석을 위해 임시적으로 별도 수집하였다. 심층 분석 결과에 대해서는 개인정보통합관제 대상기관에 피드백하고 로그 품질 개선 방안을 협의한 후 각 기관별 로그 품질 개선 결과에 대해 점검을 수행하였다
2.3 분석 방법
로그 품질 현황 분석을 통해 대상기관별 로그 품질 분석의 기초자료를 쌓았고 이에 대한 심층 분석단계에서 적재량의 변동 및 추출 한계점 분석을 통해 각 기관별 적용 추출조건 대비 추출량의 기준(한계점)을 선정, 이후 추출량의 과다 증가 시에 로그 품질의 변동을 확인하는 정상 품질 구간의 판정 기준을 마련하였다. 각 추출 조건별 한계치의 추출량 점검 방법으로 365일간의 적재 패턴과 기관별 공통추출조건을 대상으로 한 추출 패턴이 필요하였고 이는 향후 누적되는 데이터양에 따라 정밀한 판정기준을 만드는데 도움이 되었다. 패턴 생성을 위해 2013년 6월에서 2014년 6월간 약 1년 동안의 로그 적재량에 대한 패턴 분석을 수행하였다. 그리고 통상적인 업무 패턴을 1년간 분석하여 각 분기별로 자료를 수집하였다. 또한 2014년 1월에서 6월까지의 로그 추출량을 분석 하여 각 추출조건별로 추출량 감소 구간 패턴을 검출(한계 추출량)하고 로그와 추출조건이 안정적인 상태를 이루어 과다하게 추출량이 증가하지 않는 지점을 확보하였다. 하지만 추출 로그수와 추출량이 적은 경우는 표본수가 적어서 평가 자료로써 활용도가 낮은 것으로 확인되어 제외하였다(Fig. 3 참조).
Fig. 3.Extraction amount limit over log collection.
8개 기관, 3가지 시스템에 대한 추출조건별 로그 수와 사용자수를 점검하여 최소 추출량에 대한 한계점 기준을 마련하였다. 11개의 점검 결과 중 ○○기 관의 점검 결과는 Table 2에서 나타냈다.
Table 2.※ Given reference value may be determined by sudden variations in the system, or may be determined to create an error log.
대상기관이 사용하고 있는 로그에서 주요 칼럼의 적재율에 따른 추출량 점검을 위해 표준 로그 칼럼의 적재 변동치와 추출량을 비교하여 품질의 변동 여부를 점검하고 추출조건별 최빈값(mode) 주변 구간과 평균(mean) 추출 구간을 비교해서 추출시점의 품질을 분석한다. 각 분석 대상 칼럼은 추출량의 변동과 연계하여 품질을 분석해서 기관별 표준화 로그에 대한 항목별 적재 패턴 그래프를 생성한다.
3. 분석 결과 및 개선 방안
3.1 대상기관 접근 로그 품질 심층 분석 결과
개인정보통합관제 접근 로그 품질에 대한 심층 분석 결과는 앞서 Fig. 3에서 나타내었다. 본 사례는 로그 품질 대비 추출량 분석을 수행하였으며 기관과 추출조건별 추출에 따른 로그 품질을 진단한 결과이다. 앞 절의 Fig. 3 그래프에서 보듯이 추출수가 더이상 증가•감소하지 않는 패턴이 발생하는 지점을 해당 기관의 로그 품질 기준(한계)점으로 정하고 로그 품질의 변화 없이 추출량이 증감이 없음을 확인 할 수 있었다. 결과적으로 적용된 추출조건별 추출 한계 점을 찾아내어, 추출 패턴의 증감이 없는 지점이 해당 기관의 로그 품질 한계점이 되어 추출 한계점에 대한 표준화 칼럼의 기준 품질로 선정하도록 했다.
또한 추출 한계점이 선정됨으로써 추출 조건의 적정성 여부에 대한 검토가 가능하게 되었다[10]. 그이유는 추출량이 기준 패턴 없이 증감을 반복하는 경우, 추출 패턴을 통해 로그 품질 및 추출조건 적정 성의 측정이 어렵기 때문이다.
보건복지 개인정보통합관제 대상 기관 및 시스템에 획일적으로 적용할 수 있는 품질 기준을 마련하기 위해 다수의 기관들을 대상으로 추출조건을 적용하여 연간 추출 패턴을 생성하였고 분석 대상 기간의 표준 로그 품질을 분석하였다. 그 결과 기관별 추출 패턴 및 로그 품질을 측정할 수 있는 기준점을 마련 하였다. 다음 Fig. 4는 ○○기관의 추출조건에서 사용하는 주요 항목(칼럼)과 Fig. 5는 구간별(주별/연별) 로그 품질을 분석한 결과이다. 본 결과는 대상기관의 전체 로그 수집 량에 관계없이 사용자수와 사용자 IP 등, 식별 가능한 정보가 유사한 패턴을 보이고 있는 점에 착안하여 급격한 로그 내 항목 정보가 변동 시 로그 품질 이상을 판별할 수 있다[7]. 이 또한 품질 관리 기준 한계점에 이용된다.
Fig. 4.OO institution's connected record details change pattern.
Fig. 5.Analysis result of OO institution's piecewise(weekly/yearly) log quality.
다음 Fig. 5의 그래프에서는 기관의 주간 로그 수집량을 연간 도수분포를 구하여 각 요일별 로그 수집량 또는 사용자수가 품질 관리 기준 한계점에 미달되었을 때 신속하게 이상 징후를 파악하기 위해 지속적으로 수집 및 분석한 패턴이다.
따라서 Fig. 5의 사례와 같이 각 대상기관별 표준화 로그 칼럼에 대한 적재 변동치 및 추출량을 비교 하고 품질의 변동 여부에 대한 분석(추출조건별 최빈값(mode) 주변 구간과 평균(mean) 추출 구간을 비교, 추출시점의 품질 분석)을 진행하면 로그 품질에 대한 이상 유무를 모니터링 할 수 있다.
3.2 로그 식별 비율의 분석을 통한 기관별 로그 품질 분석 결과
개인정보통합관제시스템의 추출조건은 로그의 식별성이 로그 품질을 결정하는 중요한 요소로써 식별성 여부의 관점에서 분석하였다. 그리고 식별 비율 (이하 ‘식별율’)을 측정하기 위해 로그 수 대비 표준 로그 항목의 기본 연관성 분석 및 표준 로그 항목간의 연관성을 분석하였다.
기본 연관성 분석에 대한 일별 로그 적재 통계 및 표준 로그 칼럼 항목간의 연관성을 이용한 품질 분석 결과, 기관별 특성에 따라 Table 3과 같이 데이터 표본이 구성되었으며 품질의 기준 정보로 활용이 가능하게 되었다.
Table 3.※ 1), 2) Assign loaded & user count's valid minimum(average number of total log, including the missing log×10%), recalculate average and then calculate log identification rate
기관별 최소 로그 수집양의 기준 목표 값을 주간-일별 증감률 구간으로 분석하여 로그 품질 오차 범위를 최소화하도록 하였다. 그 결과로 각 로그 칼럼 항목의(예: 사용자수) 월간-주간 혹은 주간-일별 증감 량에 대한 분석을 통해 도출한 상관계수를 로그 식별율 측정 기준 자료로 사용할 수 있었으며 오차 범위를 최소화 할 수 있었다. 표준 로그의 각 항목별 데이터의 연관성 분석은 연간 적재량 및 5W1H에 해당하는 주요 로그 칼럼의 수집 량을 이용하여 수행하였다(Fig. 5 참조).
Table 4.※ 3) Log identification rate = (user identification count/load log count)×100
3.3 로그 품질 개선 방안
개인정보통합관제 대상기관에 대한 접근 로그 품질 현황 분석 및 로그 품질 특성별 심층 분석을 수행한 결과, 로그 데이터의 오류와 품질 개선에 대해 크게 세 가지 측면의 방안을 도출하였다.
첫 번째는 대상기관 측면에서의 개선 방안으로써 1) 표준 로그에 대한 기본 규칙(발생일, 기관코드, 담당자코드 등 필수 수집항목 적재)을 준수해야 한다. 또한 2) 데이터품질에 대한 기관 담당자의 중요성을 인식해야 하고 문제 발생 시 센터와 품질 향상 방안을 강구해야 한다. 3) 기관의 수집로그에 대한 자체 검토 및 품질 향상 방안을 수립해야 한다. 4) 시스템에 대한 변경이 발생했을 경우에는 해당 정보의 즉각 적인 공유(품질변동요인 즉시공유)를 해야 한다.
두 번째, 센터 측면의 개선 방안으로는 1)각 기관별 표준 로그에 대한 기본 규칙 준수 여부를 상시적으로 파악해야 하며, 2)데이터 품질 및 로그 품질을 위한 로그 수집 시스템에 대한 변경 이 어려운 경우 센터 및 대상 기관 담당자간 품질 향상을 위한 방안을 모색할 수 있도록 적극적으로 협의해야 한다. 또한 3) 기관의 특수성에 따라 관제시스템에 대한 변형 여부를 검토해야 하고 4) 개인정보 오남용 사례의 추출을 위한 칼럼의 대체 시 그에 대한 영향성을 지속적으로 분석해야 한다. 5) 센터의 통합관제 프로세스의 지속적 최적화와 개선을 통한 로그 적재의 품질을 개선해야 한다. 만약 6) 대상 기관의 특수성으로 인하여 일일 적재가 불가능한 경우 통합관제 업무 프로세서의 변형 가능성에 대해 논의해야 한다.
세 번째로 대상 기관 및 센터의 공동 측면의 개선 방안은 1) 센터 및 대상 기관 담당자간 공동으로 품질 향상 방안을 수립해야 한다. 2) 대상기관과 센터의 업무 개선 방안을 기준으로 가이드라인을 작성해야 한다. 3) 대상기관의 수집 시스템과 센터의 관제시스템 수정을 위한 협의와 계획을 수립해야 한다.
3.4 로그 품질 개선 방안 적용 사례
2014년 7월 OO기관의 사용자수 및 로그 적재량의 변동 추이 점검에 대한 분석 결과(Fig. 6), 로그 수의 변동 없이 사용자수는 한계점을 넘어서 하락을 보이는 경우가 발생했다. 따라서 해당 내용을 기관 담당 자에게 통보하여 시스템에 대한 점검을 요청하였고그 결과 암호화 모듈의 오류로 인하여 통합관제센터로 전송해야 하는 로그의 미 생성이 발생하였으며 7.21∼7.30 10일간의 로그 누락이 확인되어 해당 구간의 로그를 재 수집할 수 있었다.
Fig. 6.OO institution log quality.
4. 결 론
본 논문에서는 보건복지 분야의 개인정보통합관 제에 대한 품질 관리의 일환으로 통합관제의 대상기관별 특성에 따른 로그품질을 심층 분석하였고 관제 대상 로그의 적정성 평가 및 보건복지 개인정보 오남용 관제를 위한 추출조건 개발 방향을 제시하였다. 또한 기관별 로그 특성에 따른 품질 관리 및 점검기준을 마련하였으며, 관제 대상 로그의 품질 하락이 라는 관제 불안 요소를 지속적으로 제거할 수 있게 되었다.
결과적으로 관제 품질에 대한 개선 방안을 제시하였으며 다음과 같은 성과를 낼 수 있었다.
먼저, 대상 기관의 표준화 업무 로그에 대한 기본적 규칙 준수를 통해 적재오류를 최소화하고 적재율을 향상시킬 수 있었다. 다음으로는 품질 분석 및 대상기관과의 결과 공유를 통해 품질향상 방안을 상호간 강구 할 수 있도록 객관적인 데이터를 제시할 수 있게 되었으며, 로그 품질 향상으로 개인정보 오남용 의심로그 추출률을 질적 측면에서 최대화할 수 있는 기반을 마련하였다.
대상기관의 업무 특성에 따른 로그 품질의 기준을 제시하고 그 기준의 향상을 통해 추출조건의 정밀도를 높이고 오남용 추출로그의 누락을 최소화 할 수 있었다. 그리고 품질 기준에 따른 품질 저하 발생 시대상기관과 품질 개선에 대한 협의 및 과탐ㆍ오탐으로 인한 불필요한 소명 건을 제외시킬 수 있었다.
향후 연구에서는 개인정보통합관제의 로그 품질에 대한 지속적인 분석 및 개선 활동을 수행하여 선제적으로 대상 기관에 대한 로그 품질의 현황 배포 및 정보를 공유함으로써 개인정보 오남용 및 유출에 대한 사전예방 효과를 거둘 수 있을 것으로 기대한 다. 또한 다양한 분석 및 개선 사례를 토대로 ‘개인정보통합관제 로그 품질 관리 모형’ 구축에 대한 연구가 수행되어야 할 것이다.
References
-
Privacy Information Protection Portal,
http://www.privacy.go.kr (accessed Jan., 2014). - Personal Information Protection Commission, 2012 Personal Information Protection Annual Report, 11-1079930-000001-10, 2012.
- Y. Chung and Y. Lee, “Korea Institute for Health and Social Affairs Health and Welfare Personal Information Center,” Review of Korea Contents Association, Vol. 12, No. 3, pp. 62-64, 2014.
- 2012 Operating Instructions of Personal Information Protection Control, Health and Welfare Personal Information Center, 2012.
- Y. Lee, Y. Chung, and J. Kim, “The Importance of the Log Quality of Personal Information Protection, A Case Study of the Health and Welfare Division,” Review of Korea Contents Association, Vol. 11, No. 4, pp. 51-55, 2013.
- H. Chang, “The Design of Information Security Managament System for SMEs Industry Techique Leakage Prevention,” Journal of Korea Multimedia Society, Vol. 13, No. 1, pp. 111-121, 2010.
- T. Park, S. Kim, and M. Park, “Modeling for Discovery the Cutoff Point in Standby Power and Implementation of Group Formation Algorithm,” Journal of Korea Multimedia Society, Vol. 12, No. 1, pp. 107-121, 2009.
- AZAVEA HunchLab, 10 Steps to Optimize Your Crime Analysis, 2012.
- J.H. Kim and H.S. Yong, “OLAP System and Performance Evaluation for Analyzing Web Log Data,” Journal of Korea Multimedia Society, Vol. 6, No. 5, pp. 909-920, 2003.
- H.W. Lee and T.S. Kim, “High-Speed Search Mechanism based on B-Tree Index Vector for Huge Web Log Mining and Web Attack Detection,” Journal of Korea Multimedia Society, Vol. 11, No. 11, pp. 1601-1614, 2008.