• 제목/요약/키워드: User Log

검색결과 371건 처리시간 0.026초

루씬을 이용한 빅데이터 인덱싱 및 검색시스템의 설계 및 구현 (A Design and Development of Big Data Indexing and Search System using Lucene)

  • 김동민;최진우;우종우
    • 인터넷정보학회논문지
    • /
    • 제15권6호
    • /
    • pp.107-115
    • /
    • 2014
  • 최근 소셜 미디어 사용의 증가, 산업간 융합의 확대, 다양한 스마트 기기의 보급을 통한 인터넷의 이용이 증가하면서 수많은 데이터를 발생시키고 있다. 이들 데이터들은 크기가 매우 크고, 형식이 다양하며, 순환속도가 매우 빨라 기존의 데이터 처리기술만으로는 관리와 분석이 어려운 실정이다. 즉, 수십 테라에 이르는 데이터의 폭증 및 데이터의 다양화에 따라 빠르게 분석하는 기술이 미흡하며, 이러한 문제점들을 해결하기 위한 새로운 기술적 방안이 절실히 요구되고 있다. 이러한 빅데이터의 처리기술에 대한 많은 연구가 최근 활성화 되고 있으며, 본 연구에서는 이러한 관점에서 빅데이터 플랫폼의 효과적인 인덱싱 엔진의 설계 및 구현에 관하여 기술한다. 즉, 기존의 데이터 처리기술의 범위를 초과하는 대규모의 데이터 집합을 효율적으로 관리하고, 인덱싱을 통한 검색속도의 향상으로 데이터 분석 시 소요되는 시간 단축을 연구목표로 한다. 본 연구의 실험을 위해서는 대규모 SNMP(Simple Network Management Prtocool) 로그 데이터를 사용하였으며, 효율적 데이터의 인덱싱을 통한 빠른 검색으로 데이터 분석시의 시간을 최대한 단축하고자 하였다. 또한 분석된 데이터의 표현의 가시화를 통하여 사용자의 데이터 분석에도 도움이 될 것으로 기대한다.

통합보안관리 에이전트를 확장한 웹 어플리케이션 공격 탐지 연구 (A Study of Web Application Attack Detection extended ESM Agent)

  • 김성락
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권1호
    • /
    • pp.161-168
    • /
    • 2007
  • 웹에 대한 공격은 웹 서버 자체의 취약점 보다 웹 어플리케이션의 구조, 논리, 코딩상의 오류를 이용한다. OWASP에서 웹 어플리케이션 취약점을 10가지로 분류하여 발표한 자료에 의하면 웹 해킹의 위험성과 피해가 심각함을 잘 알 수 있다. 이에 따라 웹 해킹에 대한 탐지능력 및 대응이 절실히 요구된다. 이러한 웹 공격을 방어하기 위해 패턴 매칭을 이용한 필터링을 수행하거나 코드를 수정하는 방법이 있을 수 있지만 새로운 공격에 대해서는 탐지 및 방어가 어렵다. 또한 침입탐지시스템이나 웹 방화벽과 같은 단위보안 제품을 도입할 수 있지만 운영과 지속적인 유지를 위해서는 많은 비용과 노력이 요구되며 많은 탐지의 오류를 발생한다. 본 연구에서는 웹 어플리케이션의 구조와 파라미터 입력 값에 대한 타입, 길이와 같은 특성 값들을 추출하는 프로파일링 기법을 이용하여 사전에 웹 어플리케이션 구조 데이터베이스를 구축함으로서 사용자 입력 값 검증의 부재에 대한 해결과 비정상적인 요청에 대해 데이터베이스의 프로파일 식별자를 이용하여 검증하고 공격 탐지가 가능하다. 통합보안관리시스템은 현재 대부분 조직에서 도입하여 운영하고 있으며 일반화 되어있다. 그래서 통합보안관리시스템의 보안 감사 로그 수집 에이전트에 웹 어플리케이션 공격 탐지 기능을 추가한 모델을 제시함으로서 추가 단위보안제품을 도입하지 않고서도 웹 어플리케이션 공격을 탐지할 수 있도록 하였다.

  • PDF

구글 애널리틱스를 활용한 웹 사이트의 개선방안 연구 : 앱팩토리를 대상으로 (Research in the Direction of Improvement of the Web Site Utilizing Google Analytics)

  • 김동림;임영환
    • 만화애니메이션 연구
    • /
    • 통권36호
    • /
    • pp.553-572
    • /
    • 2014
  • 인터넷을 이용한 서비스와 정보제공이 활성화 되면서 사용자들은 서비스 품질 및 컨텐츠 품질에 대해 관심 갖기 시작했으며 이러한 변화에 따라 서비스 제공자 또한 사용자의 욕구를 만족 시키는 서비스 및 다수의 사용자가 참여하는 사이트 활성화를 목적으로 하게 되었다. 사용자에게 최상의 서비스를 제공하기 위해 대부분의 서비스 제공자는 이용자 피드백 분석 및 운영시스템 분석 등 자료 분석에 노력하지만 제한된 이용자와의 커뮤니케이션과 자료 수집 및 분석에 상당한 시간과 비용을 들임으로써 사용자들에게 개선된 서비스 제공까지 너무 많은 시간이 소요된다. 본 논문에서는 이러한 이유로 특정 웹 사이트(www.appbelt.net)의 운영현황 분석을 위해 웹 마이닝 기법을 적용한 로그 파일 분석 방식을 채택하였는데 로그 데이터를 가져와 분석하고 별도의 리포트를 만들어 판단하는 번거로움 없이 구글 애널리틱스 툴을 활용하여 정량평가를 시행하였다. 또한 웹 표준 평가(Coolcheck)서비스를 이용한 웹 사이트의 전반적인 품질평가를 통해 해당 웹 사이트의 문제점을 진단하고 개선 방안을 연구하였다. 로그분석이란 사용자가 웹 사이트 이용하면 이에 대한 기록이 로그라는 형태로 흔적이 남게 되는데 이 데이터를 기반으로 사용자가 웹 사이트를 방문하여 행동하는 다양한 정보를 추출해 내는 것이라 할 수 있다. 또한 로그 분석을 통하여 대다수 이용자의 전반적인 이용행태를 분석할 수 있으므로 로그 분석방법은 이용자 계층이 다양하고 이질적인 웹 검색 분야의 연구에 적합한 방법이라고 할 수 있다. 본 논문에서는 로그분석 방법으로 구글 애널리틱스 로그 추적 코드를 웹사이트에 직접 삽입하여 데이터를 수집, 데이터 평가, 리포트 분석 단계를 거쳐 전반적인 웹 사이트의 운영현황을 진단하고 평가한 후 웹 사이트에서 예상하는 사용자의 행동패턴과 실제 방문자의 경로가 일치 하는지 판단하여 문제점 및 개선사항을 도출하였다. 이 판단은 곧 기업의 목표 값 도달 경로의 우선순위(중요도)에 영향을 미치고 사용성이 너무 낮을 경우 경로 설정의 부적절함 등을 웹 사이트의 개선 요소에 포함시키게 된다. 이러한 연구방법은 기업에서 하고자 하는 비즈니스의 방향이 제대로 설정되었는지, 사용자의 요구 및 행태와 일치하는지 분석하여 향 후 비즈니스 방향 재설정 및 웹 사이트 개선에 도움이 될 것으로 보인다.

변형된 FP-트리 기반의 적응형 비즈니스 프로세스 마이닝 알고리즘 (An Adaptive Business Process Mining Algorithm based on Modified FP-Tree)

  • 김건우;이승훈;김재형;서혜명;손진현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.301-315
    • /
    • 2010
  • 기업 간의 경쟁이 심화되고 새로운 비즈니스 가치 창출을 위한 필요성이 증대되고 있는 상황에서, 기업들은 비즈니스 프로세스 관리 기술에 많은 관심을 기울이고 있다. 하지만 비즈니스 분석가와 시스템 개발자간의 이해 정도 및 의견 불일치 등으로 인하여 프로세스가 의도한대로 실행되지 않거나 효율이 떨어지는 프로세스 등이 설계될 수 있다. 이러한 문제점을 해결하기 위하여 비즈니스 프로세스 재설계의 근거로 사용될 수 있는 비즈니스 프로세스 마이닝이 중요한 개념으로 인식되고 있다. 하지만 기존의 프로세스 마이닝에 관한 연구에서는 완성되어 있는 프로세스 로그를 기반으로 워크플로우 기반의 프로세스 모델을 추출하는 단조로운 형태였기 때문에 다양한 형태의 비즈니스 프로세스를 표현하는데 한계가 있었으며, 새로운 프로세스 로그가 추가될 때마다 로그 정보들을 재 스캔해야함으로 프로세스 검출 및 로그정보 탐색시간이 느려지는 단점이 존재하였다. 본 논문에서는 데이터 마이닝의 연관성 분석에 사용되는 FP-트라를 비즈니스 프로세스에 적합하게 변형하여 추가되는 대량의 프로세스 로그 정보를 재 스캔과정 없이 사용자가 원하는 수준의 프로세스 모델을 검출하도록 지원하는 변형된 FP-트리 기반의 프로세스 마이닝 알고리즘을 제시하고자 한다.

실행계획 분석을 이용한 SQL Injection 공격 대응방안 (Counter Measures by using Execution Plan Analysis against SQL Injection Attacks)

  • 하만석;남궁정일;박수현
    • 전자공학회논문지
    • /
    • 제53권2호
    • /
    • pp.76-86
    • /
    • 2016
  • 최근 들어 급증하고 있는 보안 관련 사고들로 인하여 개인정보 및 기업정보의 관리에 대한 대책 마련이 시급한 가운데 있다. 보안 관련 사고 가운데 SQL Injection 공격은 가장 널리 악용되고, 오래된 전통적인 해킹 기법 중 하나이다. 최근까지도 웹 해킹을 시도하는 유형 중에서 높은 비중을 차지하고 있으며 그 공격 형태 또한 복잡해지고 있다. 많은 site에서 SQL Injection 공격에 대한 보완을 하여 이전보다 피해가 많이 줄어들기는 했으나 SQL Injection 공격에 의한 악의적인 관리자 권한 획득 및 비정상적인 로그인 등으로 인하여 여전히 많은 피해가 발생하고 있다. 더욱이 향후 사물인터넷 및 센서 빅데이터 환경이 널리 보급되면 수많은 디바이스들과 센서들이 연결되고 데이터의 양이 폭발적으로 증가하게 될 것이다. 그렇게 되면 현재보다 SQL Injection 공격에 의한 피해 규모는 더욱 커질 것이다. SQL Injection 공격에 대응하기 위해서는 많은 시간과 비용이 발생하게 되므로 시스템의 성능을 떨어뜨리지 않으면서도 신속정확하게 SQL Injection 공격을 판별하여 방어해야 할 것이다. 본 논문에서는 SQL Injection 공격에 대응하기 위하여 데이터 분석 및 기계학습을 통하여 웹로그 데이터를 검사하여 비정상적인 패턴의 입력값인 경우 SQL 명령어의 실행 계획을 분석하여 정상적인 SQL 명령어와 비정상적인 SQL 명령어를 판별하는 방안을 제시한다. 실험 및 성능 평가를 위해 사용자의 입력 또는 SQL Injection 공격툴에 의하여 입력되는 값을 실시간으로 실행계획을 분석하여 효과적으로 차단할 수 있음을 보여주었다.

개인정보보호 관점에서의 웹 트래픽 수집 및 분석 서비스에 대한 타당성 연구 (The Evaluation for Web Mining and Analytics Service from the View of Personal Information Protection and Privacy)

  • 강신범;심미나;방제완;이상진;임종인
    • 정보보호학회논문지
    • /
    • 제19권6호
    • /
    • pp.121-134
    • /
    • 2009
  • 소비자 중심 마케팅 성장과 더불어 확대되고 있는 웹 트래픽 수집 및 분석 서비스 시장에서는 이미 서비스 제공자와 사용자간 정보 활용과 정보보호의 치열한 공방이 시작되었고 보다 상세한 소비자 정보를 마케팅에 활용하고 싶은 욕구가 극대화되고 있다. 기업은 익명화된 개인정보의 마케팅활용을 정당화하고 개인은 잠재적 우려사항을 감수할 수밖에 없는 실정이다. 그러므로 본고에서는 국내의 웹 트래픽 수집 및 분석 서비스 산업에서 개인정보보호에 저해되는 프로세스를 검토하고 잠재적 우려사항을 밝히고자 한다. 국내 주요 상용서비스를 중심으로 개인정보보호정책 분석과 서비스과정의 고의 혹은 우연한 개인정보 수집행위 등 목적 외 범위 타당성을 검토하고, 역공학을 통해 서비스과정에서의 개인정보 수집 및 이용 범위를 분석하였다. 개인정보 추출 범위 확대와 침해 가능성 심화로 인해 현재 국내 서비스의 타당성 평가는 매우 중요하다. 웹 트래픽 수집 및 분석 행위로 인한 개인정보 침해의 잠재요인과 서비스 활용을 위한 개인정보보호의 요건을 명확히 밝히는 것은 웹 트래픽 분석산업과 개인정보보호의 균형 발전을 위해 매우 중요할 것이다.

온라인 게임 로그 데이터 클러스터링 기반 일일 단위 게임봇 판별 (Detecting Daily-Driven Game-Bot Based on Online Game Play Log Clustering)

  • 김주환;최진영
    • 정보보호학회논문지
    • /
    • 제31권6호
    • /
    • pp.1097-1104
    • /
    • 2021
  • 온라인 게임 봇은 이미 수 많은 방식을 통해 사람들에게 알려져 왔으며, 사용자의 게임 흥미 저하, 게임 내 경제 순환 파괴, 게임 컨텐츠 및 수명 단축 등 많은 문제점을 야기한다. 정상적이지 않은 게임 봇 운영을 방치하는 것은 장기적으로 게임 제작사와 게임 플레이어에게 모두 악영향을 미치게 되므로 이에 대한 탐지 및 제재는 필수가 되었다. 하지만 제재 단계에서 생기는 오인 제재의 딜레마를 피하기 쉽지 않다. 게임사 측에서 유저를 제재하기 위해서는 객관적인 분석 지표인 로그를 가지고 제재 여부를 판단해야 하며, 로그에서 추출한 정보를 근거로 확보해야 한다. 본 연구에서는 탐지 대상 기간의 로그에 대하여 이를 일일 단위로 나누어서 게임봇 유저 판별을 수행할 것이다. 일일 단위 탐지를 위해 탐지 기간을 하루 단위로 나누어 해당 일자에 대한 게임봇 여부를 우선 판별하고, 이후 최종 결과를 판단하였다. 제안한 방법론을 통해 일반 유저 스타일과 게임봇 유저 스타일이 섞여 있는 경우를 쉽게 탐지해 낼 수 있을 것이다. 본 논문에서 제안한 방법론으로 테스트한 결과, 분류 정확도를 확인할 수 있는 지표 중 하나인 F1-score가 0.898에서 0.945로 향상되었다.

머신러닝 기반의 뷰티 커머스 고객 세그먼트 분류 및 활용 방안: 언택트 서비스 중심으로 (A Study of the Beauty Commerce Customer Segment Classification and Application based on Machine Learning: Focusing on Untact Service)

  • 윤상혁;최윤진;이소현;김희웅
    • 경영정보학연구
    • /
    • 제22권4호
    • /
    • pp.75-92
    • /
    • 2020
  • 인구 및 세대 구조가 변화면서 점차 대면 관계를 꺼리는 고객의 태도 변화가 정보기술의 발달과 스마트폰의 확산으로 더욱 커지고 있다. 이는 정보기술에 익숙해진 현대 고객들의 소비패턴인 효율성 및 신속성과도 부합되는 것으로, 오프라인 망 중심의 유통회사들이 판매 및 서비스 방식을 언택트로 전환하려는 움직임이 활발해지고 있다. 최근 다양한 분야에서 언택트 서비스가 활성화되고 있지만, 뷰티 제품의 경우 고객의 피부타입 및 상태에 따라 제품 선택이 쉽지 않으므로 비대면을 통해 제품을 추천하기가 쉽지 않다. 이와 관련하여 온라인 뷰티 분야에서 제품 추천을 위한 추천시스템 개발 및 추천 관련 연구들이 수행되었지만, 대부분이 설문조사 방법이나 소셜 데이터를 이용하여 추천 알고리즘을 개발한 연구들이었다. 즉, 고객의 피부타입이나 제품 선호도 등의 실제 사용자 정보를 기반으로 세그먼트를 분류한 연구는 부족하였다. 그리하여, 본 연구에서는 뷰티 분야에서의 언택트 서비스 중의 하나인 모바일 애플리케이션의 고객 정보와 검색 로그 데이터를 기반으로 머신러닝 기법의 K-prototypes 알고리즘을 이용하여 고객 세그먼트를 새롭게 분류하고, 이를 기반으로 언택트 마케팅 전략 방안을 제안한다. 본 연구는 머신러닝 기법을 이용하여 새롭게 고객 세그먼트를 분류함으로써 관련 기존 문헌의 범위를 확장하였다. 더불어, 언택트 서비스라는 새로운 소비 트렌드를 반영하여 고객 세그먼트를 분류하고, 이를 기반으로 뷰티 분야의 언택트 서비스에 활용할 수 있는 구체적인 방안을 제시했다는 실무적 의의가 있다.

A Study on the Meaning and Strategy of Keyword Advertising Marketing

  • Park, Nam Goo
    • 유통과학연구
    • /
    • 제8권3호
    • /
    • pp.49-56
    • /
    • 2010
  • At the initial stage of Internet advertising, banner advertising came into fashion. As the Internet developed into a central part of daily lives and the competition in the on-line advertising market was getting fierce, there was not enough space for banner advertising, which rushed to portal sites only. All these factors was responsible for an upsurge in advertising prices. Consequently, the high-cost and low-efficiency problems with banner advertising were raised, which led to an emergence of keyword advertising as a new type of Internet advertising to replace its predecessor. In the beginning of 2000s, when Internet advertising came to be activated, display advertisement including banner advertising dominated the Net. However, display advertising showed signs of gradual decline, and registered minus growth in the year 2009, whereas keyword advertising showed rapid growth and started to outdo display advertising as of the year 2005. Keyword advertising refers to the advertising technique that exposes relevant advertisements on the top of research sites when one searches for a keyword. Instead of exposing advertisements to unspecified individuals like banner advertising, keyword advertising, or targeted advertising technique, shows advertisements only when customers search for a desired keyword so that only highly prospective customers are given a chance to see them. In this context, it is also referred to as search advertising. It is regarded as more aggressive advertising with a high hit rate than previous advertising in that, instead of the seller discovering customers and running an advertisement for them like TV, radios or banner advertising, it exposes advertisements to visiting customers. Keyword advertising makes it possible for a company to seek publicity on line simply by making use of a single word and to achieve a maximum of efficiency at a minimum cost. The strong point of keyword advertising is that customers are allowed to directly contact the products in question through its more efficient advertising when compared to the advertisements of mass media such as TV and radio, etc. The weak point of keyword advertising is that a company should have its advertisement registered on each and every portal site and finds it hard to exercise substantial supervision over its advertisement, there being a possibility of its advertising expenses exceeding its profits. Keyword advertising severs as the most appropriate methods of advertising for the sales and publicity of small and medium enterprises which are in need of a maximum of advertising effect at a low advertising cost. At present, keyword advertising is divided into CPC advertising and CPM advertising. The former is known as the most efficient technique, which is also referred to as advertising based on the meter rate system; A company is supposed to pay for the number of clicks on a searched keyword which users have searched. This is representatively adopted by Overture, Google's Adwords, Naver's Clickchoice, and Daum's Clicks, etc. CPM advertising is dependent upon the flat rate payment system, making a company pay for its advertisement on the basis of the number of exposure, not on the basis of the number of clicks. This method fixes a price for advertisement on the basis of 1,000-time exposure, and is mainly adopted by Naver's Timechoice, Daum's Speciallink, and Nate's Speedup, etc, At present, the CPC method is most frequently adopted. The weak point of the CPC method is that advertising cost can rise through constant clicks from the same IP. If a company makes good use of strategies for maximizing the strong points of keyword advertising and complementing its weak points, it is highly likely to turn its visitors into prospective customers. Accordingly, an advertiser should make an analysis of customers' behavior and approach them in a variety of ways, trying hard to find out what they want. With this in mind, her or she has to put multiple keywords into use when running for ads. When he or she first runs an ad, he or she should first give priority to which keyword to select. The advertiser should consider how many individuals using a search engine will click the keyword in question and how much money he or she has to pay for the advertisement. As the popular keywords that the users of search engines are frequently using are expensive in terms of a unit cost per click, the advertisers without much money for advertising at the initial phrase should pay attention to detailed keywords suitable to their budget. Detailed keywords are also referred to as peripheral keywords or extension keywords, which can be called a combination of major keywords. Most keywords are in the form of texts. The biggest strong point of text-based advertising is that it looks like search results, causing little antipathy to it. But it fails to attract much attention because of the fact that most keyword advertising is in the form of texts. Image-embedded advertising is easy to notice due to images, but it is exposed on the lower part of a web page and regarded as an advertisement, which leads to a low click through rate. However, its strong point is that its prices are lower than those of text-based advertising. If a company owns a logo or a product that is easy enough for people to recognize, the company is well advised to make good use of image-embedded advertising so as to attract Internet users' attention. Advertisers should make an analysis of their logos and examine customers' responses based on the events of sites in question and the composition of products as a vehicle for monitoring their behavior in detail. Besides, keyword advertising allows them to analyze the advertising effects of exposed keywords through the analysis of logos. The logo analysis refers to a close analysis of the current situation of a site by making an analysis of information about visitors on the basis of the analysis of the number of visitors and page view, and that of cookie values. It is in the log files generated through each Web server that a user's IP, used pages, the time when he or she uses it, and cookie values are stored. The log files contain a huge amount of data. As it is almost impossible to make a direct analysis of these log files, one is supposed to make an analysis of them by using solutions for a log analysis. The generic information that can be extracted from tools for each logo analysis includes the number of viewing the total pages, the number of average page view per day, the number of basic page view, the number of page view per visit, the total number of hits, the number of average hits per day, the number of hits per visit, the number of visits, the number of average visits per day, the net number of visitors, average visitors per day, one-time visitors, visitors who have come more than twice, and average using hours, etc. These sites are deemed to be useful for utilizing data for the analysis of the situation and current status of rival companies as well as benchmarking. As keyword advertising exposes advertisements exclusively on search-result pages, competition among advertisers attempting to preoccupy popular keywords is very fierce. Some portal sites keep on giving priority to the existing advertisers, whereas others provide chances to purchase keywords in question to all the advertisers after the advertising contract is over. If an advertiser tries to rely on keywords sensitive to seasons and timeliness in case of sites providing priority to the established advertisers, he or she may as well make a purchase of a vacant place for advertising lest he or she should miss appropriate timing for advertising. However, Naver doesn't provide priority to the existing advertisers as far as all the keyword advertisements are concerned. In this case, one can preoccupy keywords if he or she enters into a contract after confirming the contract period for advertising. This study is designed to take a look at marketing for keyword advertising and to present effective strategies for keyword advertising marketing. At present, the Korean CPC advertising market is virtually monopolized by Overture. Its strong points are that Overture is based on the CPC charging model and that advertisements are registered on the top of the most representative portal sites in Korea. These advantages serve as the most appropriate medium for small and medium enterprises to use. However, the CPC method of Overture has its weak points, too. That is, the CPC method is not the only perfect advertising model among the search advertisements in the on-line market. So it is absolutely necessary that small and medium enterprises including independent shopping malls should complement the weaknesses of the CPC method and make good use of strategies for maximizing its strengths so as to increase their sales and to create a point of contact with customers.

  • PDF

인구통계특성 기반 디지털 마케팅을 위한 클릭스트림 빅데이터 마이닝 (Clickstream Big Data Mining for Demographics based Digital Marketing)

  • 박지애;조윤호
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.143-163
    • /
    • 2016
  • 인구통계학적 정보는 디지털 마케팅의 핵심이라 할 수 있는 인터넷 사용자에 대한 타겟 마케팅 및 개인화된 광고를 위해 고려되는 가장 기초적이고 중요한 정보이다. 하지만 인터넷 사용자의 온라인 활동은 익명으로 행해지는 경우가 많기 때문에 인구통계특성 정보를 수집하는 것은 쉬운 일이 아니다. 정기적인 설문 조사를 통해 사용자들의 인구통계특성 정보를 수집할 수도 있지만 많은 비용이 들며 허위 기재 등과 같은 위험성이 존재한다. 특히, 모바일 환경에서는 대부분의 사용자들이 익명으로 활동하기 때문에 인구통계특성 정보를 수집하는 것은 더욱 더 어려워지고 있다. 반면, 인터넷 사용자의 온라인 활동을 기록한 클릭스트림 데이터는 해당 사용자의 인구통계학적 정보에 활용될 수 있다. 특히, 인터넷 사용자의 온라인 행위 특성 중 하나인 페이지뷰는 인구통계학적 정보 예측에 있어서 중요한 요인이 된다. 본 연구에서는 기존 선행 연구를 토대로 클릭스트림 데이터 분석을 통해 인터넷 사용자의 온라인 행위 특성을 추출하고 이를 해당 사용자의 인구통계학적 정보 예측에 사용한다. 또한, 1)의사결정나무를 이용한 변수 축소, 2)주성분분석을 활용한 차원축소, 3)군집분석을 활용한 변수축소의 방법을 제안하고 실험에 적용함으로써 많은 설명변수를 이용하여 예측 모델 생성 시 발생하는 차원의 저주와 과적합 문제를 해결하고 예측 모델의 정확도를 높이고자 하였다. 실험 결과, 범주의 수가 많은 다분형 종속변수에 대한 예측 모델은 모든 설명변수를 사용하여 예측 모델을 생성했을 때보다 본 연구에서 제안한 방법론들을 적용했을 때 예측 모델에 대한 정확도가 향상됨을 알 수 있었다. 본 연구는 클릭스트림 분석을 통해 추출된 인터넷 사용자의 온라인 행위는 해당 사용자의 인구통계학적 정보 예측에 활용 가능하며, 예측된 익명의 인터넷 사용자들에 대한 인구통계학적 정보를 디지털 마케팅에 활용 할 수 있다는데 의의가 있다. 또한, 제안 방법론들을 통해 어느 종속변수에 대해 어떤 방법론들이 예측 모델의 정확도를 개선하는지 확인하였다. 이는 추후 클릭스트림 분석을 활용하여 인구통계학적 정보를 예측할 때, 본 연구에서 제안한 방법론을 사용하여 보다 높은 정확도를 가지는 예측 모델을 생성 할 수 있다는데 의의가 있다.