초록
최근 개인정보 유출로 인해 피싱이나 스팸 등이 발생하고 있다. 기존에 시스템들은 개인정보 유출의 사전 예방에 중점을 두고 있다. 이로 인해 이미 유출된 개인정보가 있을 경우 개인정보 유출판별을 할 수 없는 문제점이 있었다. 이에 본 논문에서는 웹 문서 분석 기반 개인정보 위험도 분류 시스템을 제안한다. 이를 위해 트위터 서버로부터 웹 문서를 수집하고 해당 웹 문서 내에 사용자가 입력한 검색어가 있는지 확인한다. 또한 웹 문서 내에 유출된 개인정보들의 위험도 분류 가중치를 계산하고 개인정보를 유포한 트위터 계정의 권위를 확인한다. 이를 기반으로 위험도를 도출하여 해당 웹 문서의 개인정보 유출여부 판별을 확인할 수 있다.
Recently, personal information leakage has caused phishing and spam. Previously developed systems focus on preventing personal information leakage. Therefore, there is a problem that the leakage of personal information can not be discriminated if there is already leaked personal information. In this paper, we propose a personal information hazard classification system based on web document analysis that calculates the hazard. The system collects web documents from the Twitter server and checks whether there are any user-entered search terms in the web documents. And we calculate the hazard classification weighting of the personal information leaked in the web documents and confirm the authority of the Twitter account that distributed the personal information. Based on this, the hazard can be derived and the user can be informed of the leakage of personal information of the web document.