The Evaluation for Web Mining and Analytics Service from the View of Personal Information Protection and Privacy

Kang, Daniel;Shim, Mi-Na;Bang, Je-Wan;Lee, Sang-Jin;Lim, Jong-In;

doi:10.13089/JKIISC.2009.19.6.121

Journal of the Korea Institute of Information Security & Cryptology (정보보호학회논문지)

Volume 19 Issue 6
/
Pages.121-134
/
2009
/
1598-3986(pISSN)
/
2288-2715(eISSN)

Korea Institute of Information Security and Cryptology (한국정보보호학회)

DOI QR Code

The Evaluation for Web Mining and Analytics Service from the View of Personal Information Protection and Privacy

개인정보보호 관점에서의 웹 트래픽 수집 및 분석 서비스에 대한 타당성 연구

Kang, Daniel (Graduate School of Information Management and Security, Korea Univ.) ;
Shim, Mi-Na (Graduate School of Information Management and Security, Korea Univ.) ;
Bang, Je-Wan (Graduate School of Information Management and Security, Korea Univ.) ;
Lee, Sang-Jin (Graduate School of Information Management and Security, Korea Univ.) ;
Lim, Jong-In (Graduate School of Information Management and Security, Korea Univ.)

강신범 (고려대학교 정보경영공학전문대학원) ;
심미나 (고려대학교 정보경영공학전문대학원) ;
방제완 (고려대학교 정보경영공학전문대학원) ;
이상진 (고려대학교 정보경영공학전문대학원) ;
임종인 (고려대학교 정보경영공학전문대학원)

Published : 2009.12.31

https://doi.org/10.13089/JKIISC.2009.19.6.121 Citation PDF KSCI HTML

Download PDF

⟨ Previous Next ⟩

Abstract

Consumer-centric marketing business is surely one of the most successful emerging business but it poses a threat to personal privacy. Between the service provider and the user there are many contrary issues to each other. The enterprise asserts that to abuse the privacy data which is anonymous there is not a problem. The individual only will not be able to willingly submit the problem which is latent. Web traffic analysis technology itself doesn't create issues, but this technology when used on data of personal nature might cause concerns. The most criticized ethical issue involving web traffic analysis is the invasion of privacy. So we need to inspect how many and what kind of personal informations being used and if there is any illegal treatment of personal information. In this paper, we inspect the operation of consumer-centric marketing tools such as web log analysis solutions and data gathering services with web browser toolbar. Also we inspect Microsoft explorer-based toolbar application which records and analyzes personal web browsing pattern through reverse engineering technology. Finally, this identified and explored security and privacy requirement issues to develop more reliable solutions. This study is very important for the balanced development with personal privacy protection and web traffic analysis industry.

소비자 중심 마케팅 성장과 더불어 확대되고 있는 웹 트래픽 수집 및 분석 서비스 시장에서는 이미 서비스 제공자와 사용자간 정보 활용과 정보보호의 치열한 공방이 시작되었고 보다 상세한 소비자 정보를 마케팅에 활용하고 싶은 욕구가 극대화되고 있다. 기업은 익명화된 개인정보의 마케팅활용을 정당화하고 개인은 잠재적 우려사항을 감수할 수밖에 없는 실정이다. 그러므로 본고에서는 국내의 웹 트래픽 수집 및 분석 서비스 산업에서 개인정보보호에 저해되는 프로세스를 검토하고 잠재적 우려사항을 밝히고자 한다. 국내 주요 상용서비스를 중심으로 개인정보보호정책 분석과 서비스과정의 고의 혹은 우연한 개인정보 수집행위 등 목적 외 범위 타당성을 검토하고, 역공학을 통해 서비스과정에서의 개인정보 수집 및 이용 범위를 분석하였다. 개인정보 추출 범위 확대와 침해 가능성 심화로 인해 현재 국내 서비스의 타당성 평가는 매우 중요하다. 웹 트래픽 수집 및 분석 행위로 인한 개인정보 침해의 잠재요인과 서비스 활용을 위한 개인정보보호의 요건을 명확히 밝히는 것은 웹 트래픽 분석산업과 개인정보보호의 균형 발전을 위해 매우 중요할 것이다.

Keywords

I. 서론

마케팅에 있어 소비자에 대한 정보 수집 및 분석 작업은 사업의 전략 수립과 수익 창출을 위한 가장 기초적이고 필수적인 행위이다. 판매자와 소비자가 양방향성을 갖게 되는 인터넷 환경, 특히 웹 환경에 있어서 소비자들에 대한 정보 수집의 욕구는 더욱 커져가고 있다. 완벽한 양방향성을 제공하는 최근의 인터넷 환경에서는 보다 많은 고객정보를 수집하고 싶은 기업과 자신의 프라이버시를 보호하려는 고객 간의 미묘한 신경전이 벌어진다. 인터넷 서비스를 위해 기업은 약관과 개인정보취급 방침을 통해 고객의 정보가 어떻게 수집되며 활용되어지는가에 대한 범위와 목적 그리고 멸실에 이르기까지의 절차를 고지 받게 된다. 그러나 약관과 개인정보취급 방침을 이해하고 인터넷 서비스 사용유무를 결정하기에는 정보주체인 고객에게 제공되는 정보의 한계와 편의성으로 인한 정보숙지 어려움 문제가 있을 수밖에 없고 이로 인하여 실질적으로는 정보주체의 권리 행사가 어려운 실정이다. 최근 다수의 대기업들이 부적절한 개인정보 활용 및 취급절차로 인해 사회적인 질타를 받은바 있다. 국가적으로 개인정보보호 정책의 마스터플랜과 중장기적인 실행전략을 통해 안전한 정보인프라를 구축하려는 노력이 요구되는 시점이다.

이러한 현재 시점에서 웹 트래픽 수집 및 분석 서비스는 웹을 이용하는 고객의 정보와 행위를 기록하거나 추적하여 이를 토대로 영업적인 인덱스 추출 또는 마케팅 측면에서의 다양한 보고서 작성 등을 위한 것으로 IT 서비스 사업의 성공적인 기획과 추진으로 부각되는 매우 의미 있는 분야이다. 그러나 그 성장과 더불어 잠재적 위협요인으로 인한 개인정보보호 이슈도 점증되고 있어 이를 해결하기 위한 기준과 정책마련이 시급하다. 본 논문에서는 해당 서비스 산업 영역에서 주요 업체의 실제 서비스를 대상으로 약관과 개인정보 취급 방침의 정책적인 분석을 하고, 역공학 기법을 이용한 해당 서비스 프로그램 분석을 통해 서비스 제공을 위해 기록 및 수집 되고 있는 개인정보를 검증하고 적합성을 검토하였으며 이를 토대로 웹 분석 서비스의 개인정보보호 잠재요인과 고려사항을 확인함으로써 향후 이 분야의 개인정보보호정책의 방향을 제시하고자 한다.

II. 웹 분석 서비스와 온라인 마케팅의 개인정보보호 주요 쟁점

잠재고객을 찾기 위한 마케팅사들은 전화번호부를 활용하던 방식에서 최근 인터넷 웹을 기반으로 하는 진화된 방식으로 효과적인 고객확보를 가능하게 하고 있다. 웹기반 마케팅 서비스는 그 형태에 따라 디렉토리 리스팅 서비스, 웹사이트 서비스, 클라이언트 리퍼럴 서비스, 행위 타겟팅 서비스로 구분되는데, 최근 행위 타겟팅 서비스는 가장 성행하는 마케팅 방법 중 하나이다[1]. Wall street journal(2007)에 따르면 행위 타겟팅 서비스는 온라인상에서 네티즌(잠재고객)이 어떻게 행동하느냐를 분석하여 네티즌이 어떤 제품이나 서비스에 관심이 있는지를 파악하고자 하는 것이다[2]. Behavioraltargeting.com에 따르면 행위 타겟팅은 특정 사용자가 찾은 검색어, 방문한 웹 페이지, 클릭한 링크, 사용자가 본 컨텐츠 등 소비자 행태에 관한 정보가 일정기간 수집되고 저장, 축적, 분석되어 이를 토대로 하는 광고행위를 통해 광고 프로파일 정보를 축적한다. 또한 이와 유사한 프로파일 타켓팅은 특정 소비자의 온라인 행태정보가 일정기간 수집, 저장, 축적, 분석된 자료를 이용한 광고행위로, 사용자의 온라인행태 뿐만 아니라 사용자의 등록정보나 공개된 정보도 이용한다는 의미에서 광고 프로파일 정보와 개인 프로파일 정보가 모두 사용된다[3]. 결국 이러한 의미를 모두 포괄하는 개념의 온라인 행위타켓팅 서비스는 IT기술과 대량정보 수집 및 검색 기술, 마이닝 기술을 결합함으로써 웹 트래픽을 통한 개인 프로파일이나 행위 정보의 대량 수집을 가능하게 하고, 이 대량 정보들을 서로 결합하고 분석한 결과로 보다 상세한 개인성향이나 취향 정보 추출을 가능하게 하는 것이다.

Meglena Kuneva(2009)는 최근 유럽 통신장관 회의에서 웹 트래픽 분석으로 이루어지는 인터넷 행위 타켓팅이 소비자들을 매우 조급하고 불안하게 하고 있다고 지적한 바 있다[4]. 그러나 대부분의 행위타겟팅 회사들은 특정 개인이 아닌 익명의 타겟을 겨냥한 것이므로 정보를 축적하더라도 특정 개인의 정보가 아니며 가공된 정보이므로 프라이버시 문제가 없다고 주장한다. 또한 마케팅 활용에 있어서도 고객의 가입시 동의에 따라 정보의 마케팅활용이 잠재적으로 허용되고 있어 외형적으로는 문제가 없는 것으로 보인다. 그러나 웹 트래픽 수집 및 분석 기술의 상당한 진화에 따라 실제 서비스 과정에서 개인정보의 수집과 결합, 추출범위가 프라이버시 보호의 범위를 벗어난 잠재적 프라이버시 위험을 예측할 수 있고, 절차상의 문제없음을 확인하기 어렵다는 한계로 인하여 온라인 행위마케팅에서의 개인정보를 둘러싼 문제는 매우 심각하며, 마케팅차원의 서비스 가치와 대비되는 소비자가 부담해야 할 잠재적 프라이버시 위험은 아직까지 무시되고 있다.

최근 국외에서는 웹분석 및 마케팅 이용 기술의 부당함을 알리고 그 대책을 요구하는 움직임이 크게 증가하고 있는데, 미국의 경우 이 분야에 대표업체인 Phorm사에 대한 제재요구가 상당하고, 영국의 경우에는 최근까지 영국텔레콤사가 추진해오던 Phorm사의 서비스도입을 포기한다고 밝힌 바 있다.〔5〕 Meglena Kuneva(2009)는 소비자의 프로파일은 소비자의 실명을 알지 못한다 하더라도 그 프로파일을 기반으로 하는 상업적 타겟이 될 수 있다는 사실에 입각하여 소비자정책이 마련되어야 한다고 하였다. 그러므로 아직까지 규제가 어려운 국내 유사서비스가 현재 가지고 있는 개인정보보호 측면의 잠재적 위험요인과 문제를 서비스 기술과 정책 분석을 통해 살펴보는 것은 매우 중요한 의미를 갖는다고 하겠다.

III. 국내 웹 분석 서비스 범위와 데이터 범위 분석

본 연구의 주요 대상인 국내 분석서비스는 A사와 B사의 데이터분석 서비스이다. 두 서비스는 패널 분석을 통해 웹 트래픽 수집 및 분석 서비스를 제공하고 있는 국내 대표업체들이다. 두 서비스는 각각의 서비스에서 제공하는 소프트웨어를 설치한 이용자 중 패널을 선정하고 선정된 패널의 웹사이트에서의 행위정보를 수집 및 가공하여 마케팅에 활용할 수 있는 데이터를 제공한다. 이와 유사한 서비스로 B사의 랭킹서비스는 동일한 패널의 웹사이트 행위정보를 토대로 웹사이트의 순위정보 분석하여 순위정보 데이터를 제공한다. 본 장에서는 이러한 상호 유사한 서비스의 세부 범위와 방법, 이용기술 등을 살펴봄으로써 Ⅳ장의 서비스별 이용약관 및 개인정보보호정책의 적정성 분석과 해당 정책대비 실서비스의 개인정보수집 범위가 적정한지를 분석하는데 이해를 높이고자 하였다. A사와 B사의 홈페이지에 제시하고 있는 서비스 개요를 살펴보면 일반적으로 최근의 온라인 마케팅은 인터넷 사용자의 웹상의 사이트방문행위나 검색행위정보를 기본적으로 사용하여 특정기업의 광고효과나 순위정보를 제공하며, 주요 고객을 선별하고 맞춤광고 내용을 선별해주는 지극히 소비자중심의 마케팅이 이루어진다. 이러한 소비자의 행위정보 분석은 암묵적으로 과도한 개인에 관한 정보의 수집을 전제하기 쉽다. 그러므로 서비스 이해와 더불어 본 장에서는 서비스사의 홈페이지에서 공식적으로 밝히고 있는 두 서비스의 목적과 범위, 그에 따른 개인정보를 포함한 모든 데이터의 수집범위를 확인하여 정리하였다.

3.1 홈페이지에 나타난 서비스 범위 및 데이터 수집범위

3.1.1 A사 서비스

① A사의 서비스 방법 및 목적

A사 서비스는 분석대상으로 선정된 인터넷 패널의 가정 혹은 PC에 iTrack 소프트웨어를 설치하고 iTrack 소프트웨어를 통해 웹로그 데이터와 애플리케이션 이용데이터를 수집 가공하는 방법으로 마케팅 활용 데이터와 보고서를 생성한다. 이로써 서비스를 제공받는 고객사의 웹사이트의 이용순위, 광고효과, 인터넷 이용자의 검색 정보 등을 분석하여 고객사의 마케팅 목적의 데이터로 활용한다. [표 1]은 A사 서비스의 수행절차와 데이터처리 방법을 나타낸다.

[표 1] A사 서비스수행 절차 및 방법

② A사의 서비스 범위 및 데이터 수집범위

A사는 데이터분석 서비스 제공을 위하여 iTrack을 통해 크게 4개 영역의 데이터를 수집한다. 패널의 PC사용 상태, 브라우저 활성화 여부, URL 정보 및 요청한 네트워크 파일, 사용자 PC의 인스턴트 메신저 등 어플리케이션 이용정보 등이다. [표 2]는 4개 영역 데이터에 대한 상세 설명을 나타낸다.

[표 2] A사 서비스의 데이터 수집범위

3.1.2 B사 서비스

① B사의 서비스 방법 및 목적

B사는 툴바 소프트웨어를 설치한 이용자중 패널을 선정하고 패널의 행위정보를 가공하는 방법으로 마케팅 활용데이터를 생성하며, 이를 통하여 데이터분석과 랭킹서비스를 제공하는 목적을 갖는다.

② B사의 서비스 범위 및 데이터 수집범위

B사 서비스는 크게 두 가지로 웹사이트의 순위정보 데이터는 제공하는 랭킹서비스와 웹페이지를 방문한 방문자의 성향과 이용패턴 등을 분석하여 마케팅 데이터로 제공하는 데이터분석 서비스로 나눈다. 툴바를 이용해 수집하는 툴바 데이터 수집영역은 서비스 이용자의 웹사이트 액세스 로그와 어플리케이션 이용정보이다. [표 4]와 [표 5]는 각각의 서비스의 개요와 제공범위, 데이터의 수집범위를 나타낸다.

[표 3] B사 서비스 방법

[표 4] B사 서비스의 범위

[표 5] B사 서비스의 데이터 수집범위

3.2 약관과 개인정보보호정책에 나타난 서비스 범위 및 개인정보 취급범위

Ⅲ장에서 살펴본 개인정보 수집 및 이용범위는 정보통신망법 규정에 따라 해당 서비스 약관과 개인정보보호정책에서 적절하게 명시되어야 한다. 정책 표명과 달리 실제 서비스의 개인정보 수집 및 이용범위가 다를 수 있기 때문이다. 그러므로 본장에서는 Ⅳ장의 역공학 결과와의 비교를 통해 개인정보 수집 및 이용의 상충범위를 확인하기 위하여 개인정보보호항목에 따라 대상 서비스별로 약관 및 개인정보보호정책을 살펴본다. 대부분의 업체들은 서비스에 필요한 최소한의 개인정보 수집 및 이용범위를 약관과 정책에 명시하고 동의 및 개인정보관리 등 관련방침들을 밝히고 있다.

3.2.1 A사 서비스의 약관과 개인정보보호정책 분석

A사는 서비스 약관을 홈페이지에 명시하지 않고, 개인정보보호정책에는 개인정보 수집범위로서 성명, 이메일주소, 쿠키를 통한 세션ID정보만을 명시하고 있으며, 수집 및 이용 목적의 범위로 뉴스레터신청자에 대한 정보제공과 고객사회원에 대한 온라인리포트 이용ID발급만을 한정하고 있다. 그러므로 3.1.1에서 확인한 어플리케이션 이용 정보 등 주요 수집 범위인 개인 성향정보에 대한 정책이 수집/이용/제공 목적에서 누락되었으며, 성명, 이메일주소, 세션ID정보에 대한 최소한의 관리정책만을 포함한다고 볼 수 있다. 또한 개인정보 뿐 아니라 성향정보와의 결합 및 가공을 통한 생성정보 즉, 이용 및 제공정보에 대한 관리 정책이 전반적으로 미비하다.

[표 6] A사 개인정보 수집 및 이용/제공 정책

[표 7] A사 개인정보관리 정책

3.2.2 B사 서비스의 약관과 개인정보보호정책 분석

B사 서비스 약관과 개인정보보호정책은 A사보다 명확하게 정책을 명시하고 있다. 개인정보 수집범위로서 쿠키를 사용한 정보수집이 이루어지며 이용습관분석 목적에만 사용되고 개인 식별이나 연락에 이용되지 않음을 밝히고 있다. 구체적인 개인정보사용 범위를 본인식별, 의사소통, 개인맞춤서비스제공, 요금결제, 세금발행 등으로 정의하며, 서비스 종류와 쿠키정보 제3자 제공정책 등을 포함한다. 그러므로 Ⅲ.1.2에서 확인한 대로 해당 서비스에서 제공하는 데이터의 생성에 필요한 수집 및 이용/제공 범위를 정책에서 적절하게 포괄하고 있다고 볼 수 있다.

[표 8] B사 개인정보 수집 및 이용/제공 정책

IV. 역공학을 이용한 웹 분석 서비스의 개인정보 수집 및 이용/제공 범위 분석

앞장에서 개인정보보호정책 현황을 분석한 A사, B사 서비스와 함께 유사한 영업행위를 하고 있는 C사, D사 서비스에 대해 역공학 기법을 이용한 서비스 모듈 분석을 시도하였다. A사는 내부 패널의 추천을 통한 가입절차가 필요하다는 제약이 있었고 D사의 경우 그레이웨어로 분류되어 안티바이러스 도구에 의해 제거되는 제한점 때문에 분석이 불가능 하였다. 애당초 주요 분석대상은 데이터분석 서비스인 A사와 B사의 서비스였으나 A사의 제약으로 인하여 유사서비스인 C사와 D사의 순위서비스에 대한 분석을 추가 시도하였고, 그 결과 최종적으로 B사와 C사 분석이 성공하였다. 다음은 역공학 기법을 통한 B사, C사 서비스모듈 분석 결과이다.

4.1 B사 로그항목 분석

4.1.1 ‘웹 사이트 이동시 URL의 전송 (NavvyTB.dll)'단계 분석

일반적으로 알려진 액세스 로그의 내용 외 특이사항을 발견하지 못하였으며, POST 방식으로 전송되는 데이터는 보이지 않는 것으로 보아 일반적인 로그인 과정에서의 ID/Password와 같은 개인 정보는 전송되지 않는 것으로 판단된다. 로그의 내용으로는 툴바의 버전정보, 이동 웹사이트의 URL정보(IP주소), 이동 전 웹사이트의 URL정보(IP주소)등을 확인할 수 있다. 특이사항으로 약관에 명시되지 않은 비정상적인 동작이 발견되었다. 웹 분석 서비스를 위해 제공된 툴바의 순위정보를 클릭하는 순간 해당 순위의 사이트로 바로 이동하지 않고 특정 URL (http://redirect.B사.com/redirect.html?)을 통한 리다이렉트가 일어나는 경우가 발견되었는데, 이는 제휴마케팅이 이루어질 때 일반적으로 사용되는 방법이다. [그림 1], [그림 2]는 각각 특정 URL을 방문할 경우 이용자의 방문지 정보를 전송하는 전체 데이터 구조와 [그림 1]에서 보인 데이터가 전송될 곳이 B사에서 배포한 프로그램 내부에 인코딩되어 있음을 보인다. [그림 3]은 해당 정보의 전송행위가 B사에서 배포한 프로그램에 의해 직접적으로 수행됨을 보이며 [그림 4]는 이러한 정보 전송행위가 이뤄지고 있음을 네트워크 패킷을 캡쳐하여 확인한 증거자료이다.

[그림 1] 이동사이트 전송을 위한 데이터 값

[그림 2] 툴바의 버전정보와 이동 URL 정보 구성

[그림 3] InternetOpen()을 이용한 데이터 전송부

[그림 4] WireShark로 확인한 전송 데이터

4.1.2 ‘구동 프로세스 정보의 수집(NavvyMan.exe)'단계 분석

[그림 5]와 [그림 6]의 NavvyMan.exe는 현재 구동되고 있는 프로세스의 시작, 종료, 활성화와 같은 상태정보를 로그파일로 저장한다. [그림 7]의 AppData_일시.log에 저장된 로그의 내용에서 보듯이 프로세스의 PID, Thread ID, 시작과 종료 및 활성시의 Caption 정보와 시간 정보가 기록된다.

[그림 5] NavvyMan.exe의 프로세스 로그기록

[그림 6] NavvyMan.exe의 로그파일 생성부

[그림 7]은 확인한 로그파일 기록의 실제 데이터이다. 위에서 4번째 줄은 14시 42분 59초에 사용자 PC에서 “C:\Program Files\EditPlus 2\editplus.exe” 파일이 실행되었음을 기록하고 있다. 이러한 데이터들은 개인 사용자 PC 상에 설치된 프로그램 목록 및 개인 사용자의 PC 사용에 대한 내역 열람에 해당되어 개인정보 침해 위험이 상당하다 할 수 있다. 특히, 활성화된 윈도우의 Caption 정보 중에는 개인적인 프라이버시와 연관된 내용이 포함될 가능성을 배제할 수 없기 때문에 이러한 수집은 제한되어야 한다.

[그림 7] AppData_일시.log의 내용

4.1.3 ‘구동 프로세스 정보의 전송(NavvyMan.exe)’ 단계 분석

NavvyMan.exe는 또한 구동되고 있는 프로세스의 시작, 종료, 활성화 로그 기록을 전송한다. [그림8]의 5번째, 6번째 줄에서 보듯이 개인사용자의 PC에서 “NateOn”이라는 프로그램이 15시56분 시작되어 15시57분 종료되었다는 정보를 서비스 제공사의 서버로 전송하는 것을 확인할 수 있다. 이렇듯 개인사용자의 PC에 특정 프로그램들의 구동 내역을 전송하는 행위 역시 개인정보 침해의 위험이 높기 때문에 제한되어야 한다.

Destination: a00.mediachannel.co.kr(211.115.65.90)/port 8

[그림 8] 로그파일 기록 실제 데이터

4.2 B사 고유번호 생성원리 분석

여기에서는 이용자에 할당된 고유번호가 개인정보에 의해 생성되거나 개인정보와 연결되어 개인식별의 위험을 내포하는지를 분석해 보았다. 이를 위해 고유번호가 저장되는 위치의 파일 권한과 고유번호 형태가 개인정보와 연관될 수 있는지를 확인하였다.

4.2.1 ‘고유번호 저장위치’ 분석

[그림 1]에서 보듯이 B사에서 생성하여 인터넷 이용자를 식별하는데 사용하는 고유 번호는 해당 정보와 함께 “navvy_serial=” 뒤에 붙여 전송된다. 해당 고유번호 정보는 레지스트리 HKEY_CLASS ES_ROOT의 WAS.Event.Help\\CLSID에 저장되며 다음과 같은 GUID 형태를 띤다. [그림 1]에서 { 5 7 1EE 8 7 9- 8A 1A- 4 1C 7 -ACCD-BD 1D 3 B8 5 E9E3}가 해당 고유번호이다.

4.2.2 ‘고유번호 생성원리(NavvySvy.exe)’ 분석

고유 번호는 설치 시에 진행되는 설문 조사 프로그램에서 생성하며 상기와 같은 함수로 임의로 생성된다.

[그림 9]의 CoCreateGuid 함수는 CLSIDs와 인터페이스 ID로 사용되는 128비트의 고유 정수값을 생성하는 함수이다. GUID는 임의로 생성되는 고유한 값으로 생성 시 삽입되는 별도의 개인 정보도 없기 때문에 사용자를 특정 개인을 식별하기 위한 개인정보와 무관한 값으로 생각할 수 있다. 따라서 서비스 모듈이 서버로 전송하는 고유번호로 인한 개인정보 침해 위험은 없는 것으로 보인다.

[그림 9] CoCreateGuid 함수 실행

4.3 C사 로그항목 분석

C사 서비스의 경우 A사나 B사와 유사한 서비스인 사이트 순위 정보를 수집하기 때문에 앞서 분석한 B사와의 비교를 위해 동일 방식의 역공학을 수행하였다. C사의 경우에도 즐겨찾기목록의 정보를 순차적으로 전송하고, 웹사이트 액세스 기록 또한 발생 즉시 전송하여 저장되는 것으로 확인되었으며, 그 외 특이사항은 나타나지 않았다.

4.3.1 ‘사용자 즐겨찾기목록 정보 전송' 단계 분석

[그림 10] [그림 11]에서 보듯이 C사의 경우도 즐겨찾기목록의 정보를 순차적으로 전송하는 것을 확인하였다. [그림 11]은 실제 전송데이터를 나타내고 있다. B사의 경우와 마찬가지로 이러한 데이터들은 개인 사용자의 웹사이트 이용 경향을 나타내는 성향정보로서 유용하며, 해당 개인의 다른 정보와 결합하게 될 때 간접적인 개인정보 침해 가능성을 내포하게 된다. 그러므로 이러한 개인에 관한 성향정보의 수집을 무조건 허용하는 것은 제한되어야 한다.

Destination: log1.100hot.co.kr/port 80, log2.100hot.co.kr/port 80

[그림 10] 전송을 위한 log1.100hot.co.kr 구성

[그림 11] WireShark로 확인한 전송 데이터

4.3.2 ‘웹 사이트 이동 시 URL 정보 전송(C사TB.dll)'단계 분석

[그림 12]와 같이 사용자가 특정 URL을 방문할 경우 C사 역시 B사와 같은 방식으로 사용자가 방문한 URL 정보를 해당 서비스 업체로 전송하며 이외의 특별한 상황은 발견되지 않았다

Destination: rank.100hot.co.kr (123.214.171.138)/port 80

[그림 12] 웹사이트 엑세스 기록 URL 전송

4.4 역공학 기법을 통한 로그항목 분석 종합결과

허용 가능한 범위 내에서 수행한 역공학 결과 공통적으로 수집행위로부터 수집되는 주요정보는 1차적으로 수집되는 웹로그 수집 범위 상에서 볼 때 큰 문제는 발견되지 않았다. 그러나 약관에 명시되지 않은 과도한 개인정보의 수집 및 비정상적인 동작이 발견되었다. [표 10]과 [표 11]은 B사와 C사의 역공학을 통해 확인한 수집행위에 따른 수집정보를 정리한 것이다. B사의 경우와 같이 개인사용자 PC 상에서 동작하는 프로그램 내역과 개인정보 노출이 우려되는 활성화된 창의 Caption 정보가 수집됨을 확인하였다. C사의 경우도 즐겨찾기 목록이나 웹사이트 접근기록이 전송됨에 따라 개인의 성향정보를 수집하는 것이 확인되었다. 또한, B사의 경우 웹 분석 서비스를 위해 제공된 툴바의 순위정보를 클릭하는 순간 해당 순위의 사이트로 바로 이동하지 않고 특정 URL (http://redirect.rankey.com/redirect.html?)을 통해 리다이렉트가 수행되는 행위가 발견되었다. 이는 사용자 동의를 얻지 않는 영업행위로 그에 따른 수익활동은 개인정보보호를 위해 약관 개정이나 서비스 방식의 변경이 요구되는 사항이며, 이러한 개인정보 목적 외 범위에 해당될 수 있는 제휴마케팅을 위한 서비스 행위가 이루어지고 있음을 나타낸다.

[표 10] B사 툴바의 수집정보

[표 11] C사 툴바의 수집정보

V. 정책과 역공학 분석에 따른 국내 서비스의 개인정보보호 평가 결과

5.1 서비스별 웹 트래픽 수집 및 분석 서비스의 개인정보보호정책 평가

Ⅲ.2.에서 살펴본 내용의 결과를 종합하면 실제 운영현황과 별개로 각사가 게시한 서비스 약관과 개인정보보호정책 상의 문제점이 존재한다. 서비스별 정책의 세부문제점은 [표 12]와 같이 나타난다. [표 12]의 A사는 기본적으로 약관이 존재하지 않으며, 수집정보의 범위가 완전하지 않고, 그 중 주요 수집정보인 쿠키정보의 유형이나 정의도 명시하지 않는 치명적인 정책상의 결함을 갖고 있다. 이 문제는 수집뿐만 아니라 수집된 정보를 이용 및 제공하는 전반에 근본적인 문제로 작용한다. 즉, 서비스를 통해 이용자의 개인정보가 어떻게 이용 및 제공되는지를 명확히 이해할 수 없어 개인정보보호 원칙에 중대한 위반이 된다. 특히, 개인을 식별하지 않으면서 사용자정보인식에 사용하는 ‘고유번호’에 대한 원칙이나 규정이 전혀 명시되지 않아, 개인정보가 식별정도로 이용되지 않음을 분명히 전제하는지 확신하기 어렵게 하는 문제가 있다.

[표 12] 서비스 개인정보 수집범위 비교

[표 12]의 B사는 A사와 마찬가지로 수집되는 쿠키 정보의 유형이 명시되지 않고, 이용과 제공의 형태만을 명시하고 있어 명확한 수집범위를 인식이 어렵다. 또한 리다이렉트가 이루어짐에도 그에 대한 제휴사에게 제공하기 위한 수집정보와 제공여부가 명시되지 않았다. 특히 사용자정보인식에 사용하는 ‘고유번호’에 대한 충분한 내용이 없어 개인과의 연계 가능성이 없음을 명확히 인식하기 어렵다. 마지막으로 열람, 정정 청구, 파기와 같은 이용자 자신이 보장받아야 하는 기타 권리에 대해 전혀 명시되지 않았다는 문제가 있다. 결론적으로, A사와 B사의 서비스 약관 및 정책의 평가결과, 주요 웹 트래픽 분석 서비스의 개인정보보호정책 규정은 상당히 원칙을 따르지 않고 있음이 확인되었다. 그러므로 실제 서비스 운영상에 발생하는 개인정보 유출 등 침해사고 발생 시 서비스사의 책임소지 시비를 가리는데 개인정보보호정책 규정문제는 상당한 위험요인으로 작용할 것이다.

5.2 서비스별 개인정보 수집/이용/제공범위 비교 평가

앞서 A사, B사, C사의 약관과 정책에 명시된 개인정보 수집 및 이용/제공 범위를 역공학 기법으로 확인한 결과 B사와 C사에서 일부 문제점이 나타났다. Ⅳ에서 밝힌 대로 A사의 제약요인으로 인하여 부득이 데이터분석 서비스와 유사한 순위서비스 업체인 C사를 추가 분석하였으며, 이에 정책과 역공학 결과 비교는 B사와 C사에 한해서만 이루어졌다. C사의 서비스와 정책내용은 Ⅲ장에서는 다루지 않고, [표 13]과 [표 14]에만 분석에 필요한 내용만 간단히 정리하였다. [표 13]과 [표 14]의 내용은 B사와 C사의 홈페이지 명시내용, 약관 및 정책내용에서 개인정보 수집 및 이용/제공 범위를 확인하고, 역공학 결과로 확인한 내용과 동일한가를 비교하기 위한 것이다.

[표 13] 서비스 개인정보 이용 및 제공범위 비교

[표 14] 서비스 개인정보 이용 및 제공범위 비교

[표 13]의 B사의 개인정보 수집범위는 역공학 결과로서 시스템정보인 IP주소, 로그정보로서 웹사이트 접근정보와 현재 설치 혹은 활성화된 프로그램 정보가 포함됨을 확인하였다. B사 약관과 정책에는 쿠키정보를 수집하여 회원의 인터넷 이용습관 분석에 이용하겠다고 명시되어 있어 IP주소와 웹사이트 접근정보 수집은 적정한 수집에 해당된다. 그러나 앞서 확인한 ‘설치 혹은 활성화된 이용자의 프로그램 목록 정보’ 수집은 정책에 명시된 범위에 해당하지 않는다. 결론적으로 B사는 이용자의 웹사이트 이용성향 외에 불필요한 프로그램 이용성향까지 수집하는 것으로 목적 외 범위의 수집에 해당된다. [표 13]의 C사의 개인정보 수집 범위는 웹사이트 엑세스 정보인 툴바정보와 유입 및 탈출 URL정보 정도이다. 이는 홈페이지나 약관/정책에 명시된 것처럼 웹서핑 기록, 패널의 웹사이트 활동 기록에 해당한다. 그러므로 C사의 수집범위 자체로서는 정책과 역공학 결과가 동일하고, 적정한 수집이 이루어진다고 볼 수 있다.

‘Ⅳ.1.B사 로그항목 분석’에서 확인한 것처럼 [표 14]의 B사는 이용자가 특정 URL을 방문한 방문지정보를 리다이렉트하여 전송함으로써 제휴마케팅 서비스를 제공하고 있다. 즉, B사는 특정 방문지정보를 제휴사에 제공하는 행위를 수행하여 해당 서비스 정책에 언급한 ‘제휴사에게 제공하는 이용량분석 자료 제공’의 범위를 넘어서고 있음을 나타낸다. 이 정보는 저장행위 없이 바로 전송한다고 하여 ‘목적 외 수집’에는 해당하지 않는다 하더라도 ‘목적 외 제공’에 해당한다. [표 14]의 C사 역시 이러한 특정 방문지정보의 제휴사 제공행위가 확인되었다. C사의 경우는 정책에 조차 이에 대해 명시하고 있지 않다. 그러므로 결론적으로 B사와 C사 모두 제휴마케팅으로써 ‘목적 외 제공’이 이루어지고 있음을 나타내며, 웹 트래픽 분석 서비스에서 제휴마케팅을 위한 개인정보 이용 및 제공범위에 대한 명확한 정책이 그만큼 중요함을 알 수 있다.

VI. 웹 트래픽 수집 및 분석서비스의 개인정보보호 위험 잠재요인과 고려사항

6.1 웹 트래픽 분석 서비스의 개인정보보호 위험 잠재요인

앞선 분석의 결과 기본적으로 웹 트래픽 수집 및 분석 서비스는 패널로 선정된 이용자의 컴퓨터로부터 수집하는 웹 액세스 로그 정보항목 중 해당 이용자를 특정할 수 있는 식별정보를 이용하지 않는다는 점과 가공된 통계정보만을 제공한다는 약관상에 명시한 사실만 고려한다면 개인정보 수집범위나 이용 및 제공 범위가 과도하다고 판단할 수 없다. 그러나 오늘날의 고속검색기술, 대량저장기술, 고도화된 데이터마이닝 기술 등의 기술기반은 웹 액세스 로그정보나 개인 성향정보, 기업이 보유한 개인의 일반적인 기본정보를 결합함으로써 더욱 심화된 개인식별 가능성을 증가시킨다. 이러한 위험에 대해서는 이미 많은 전문가와 학자들이 그 잠재적 위험의 심각성을 주장하고 있다[3,4]. [표 15]의 왼쪽 열은 대표적인 개인정보 침해 유형을 나타낸다[5]. 본 연구의 분석결과인 Ⅴ장 내용과 침해유형을 고려하여 웹 트래픽 분석을 통한 마케팅 정보이용 시 내재가능한 개인정보보호 위험 잠재요인을 오른쪽 열과 같이 정리하였다.

[표 15] 웹 트래픽 분석 서비스의 개인정보보호 고려사항

6.2 웹 트래픽 분석 서비스의 개인정보보호 고려사항

침해유형에 따라 정리한 위험 잠재요인은 다시 위험을 제거하고 개인정보보호를 달성하기 위한 대응원칙으로 정리할 수 있다. 이로써 일반화된 ‘웹 트래픽 분석 서비스의 개인정보보호 고려사항’을 정리하였다. [표 15]의 잠재요인을 웹 트래픽 분석 서비스에서의 개인정보 생명주기 단계에 맞춰 [표 16]과 같이 제시한다. 현재 웹 트래픽 분석 서비스를 제공하거나 준비중인 기업들은 본 고려사항을 유의하여 서비스 정책을 수립하고 개인정보보호 차원의 비즈니스 위험을 방지하는데 활용해야 할 것이다.

VII. 결론

본 연구를 통해 웹 트래픽 수집 및 분석 서비스에 대한 개인정보보호정책 및 실제 서비스 상에서 행해지고 있는 개인정보 수집과 이용/제공범위를 분석하고 개인정보보호 차원의 문제점을 분석 평가하였다.

또한 일반적인 개인정보 침해유형을 고려한 웹 트래픽 분석 서비스에서의 개인정보보호 위험 잠재요인과 이를 방지하기 위한 고려사항을 생명주기 단계에 맞춰 제시하였다. 제시한 잠재요인과 고려사항은 관련 서비스를 준비하거나 운영 중인 기업이 개인정보영향평가나 감사와 같은 보호활동을 수행하는데 있어서, 기업의 현존 위험 분석과 보호정책 수립의 기준으로 활용할 수 있다. 그러므로 본 연구결과의 제안사항을 기준으로 삼아 해당 서비스의 개인정보보호정책을 개선하고 평가하는 과정을 반복함으로써 보다 체계적인 개인정보보호정책을 수립할 수 있을 것이다. 향후연구는 현재 국내외 관련 서비스를 둘러싼 개인정보침해 분쟁과 소송 사례를 분석하여 본 연구결과에서 제시한 일반적 기준과 더불어 보다 실질적인 침해의 수준과 판단기준을 제시하고자 한다.

References

M.K. Danna, "Putting your firm on the web," Illinois bar journal, vol. 93, no. 11, p. 572, Nov. 2005
E. Steel, "How Marketers Hone Their Aim," The Wall Street Journal, p. B6, Sec. 6, June 1997
양지연, "온라인맞춤형광고: 개인정보보호와 정보 이용의 균형을 찾아서," Law & Technology, 5(2), p. 6, 2009년 3월
M. Kuneva, "Roundtable on Online Data Collection, Targeting and Profiling," European EC Rapid Press Release, SPEECH/09/156, Mar. 2009
BT, "Webwise and Phorm: Why it's Wrong," http://www.inphormationdesk.org/whyitswrong.htm

Journal of the Korea Institute of Information Security & Cryptology (정보보호학회논문지)

The Evaluation for Web Mining and Analytics Service from the View of Personal Information Protection and Privacy

개인정보보호 관점에서의 웹 트래픽 수집 및 분석 서비스에 대한 타당성 연구

Abstract

Keywords

I. 서론

II. 웹 분석 서비스와 온라인 마케팅의 개인정보보호 주요 쟁점

III. 국내 웹 분석 서비스 범위와 데이터 범위 분석

3.1 홈페이지에 나타난 서비스 범위 및 데이터 수집범위

3.1.1 A사 서비스

① A사의 서비스 방법 및 목적

② A사의 서비스 범위 및 데이터 수집범위

3.1.2 B사 서비스

① B사의 서비스 방법 및 목적

② B사의 서비스 범위 및 데이터 수집범위

3.2 약관과 개인정보보호정책에 나타난 서비스 범위 및 개인정보 취급범위

3.2.1 A사 서비스의 약관과 개인정보보호정책 분석

3.2.2 B사 서비스의 약관과 개인정보보호정책 분석

IV. 역공학을 이용한 웹 분석 서비스의 개인정보 수집 및 이용/제공 범위 분석

4.1 B사 로그항목 분석

4.1.1 ‘웹 사이트 이동시 URL의 전송 (NavvyTB.dll)'단계 분석

4.1.2 ‘구동 프로세스 정보의 수집(NavvyMan.exe)'단계 분석

4.1.3 ‘구동 프로세스 정보의 전송(NavvyMan.exe)’ 단계 분석

4.2 B사 고유번호 생성원리 분석

4.2.1 ‘고유번호 저장위치’ 분석

4.2.2 ‘고유번호 생성원리(NavvySvy.exe)’ 분석

4.3 C사 로그항목 분석

4.3.1 ‘사용자 즐겨찾기목록 정보 전송' 단계 분석

4.3.2 ‘웹 사이트 이동 시 URL 정보 전송(C사TB.dll)'단계 분석

4.4 역공학 기법을 통한 로그항목 분석 종합결과

V. 정책과 역공학 분석에 따른 국내 서비스의 개인정보보호 평가 결과

5.1 서비스별 웹 트래픽 수집 및 분석 서비스의 개인정보보호정책 평가

5.2 서비스별 개인정보 수집/이용/제공범위 비교 평가

VI. 웹 트래픽 수집 및 분석서비스의 개인정보보호 위험 잠재요인과 고려사항

6.1 웹 트래픽 분석 서비스의 개인정보보호 위험 잠재요인

6.2 웹 트래픽 분석 서비스의 개인정보보호 고려사항

VII. 결론

References

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)