• 제목/요약/키워드: Web Log Analysis

검색결과 160건 처리시간 0.028초

웹검색 트래픽 정보를 활용한 지능형 브랜드 포지셔닝 시스템 : 태블릿 PC 사례를 중심으로 (Intelligent Brand Positioning Visualization System Based on Web Search Traffic Information : Focusing on Tablet PC)

  • 전승표;박도형
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.93-111
    • /
    • 2013
  • 최근 독감 예측이나 부동산가격 예측 등 다양한 분야에서 웹검색 트래픽이나 소셜 네트워크 등의 방대한 고객 데이터를 통해 사회 현상, 소비 트렌드 등을 분석하고자 하는 시도가 증가하고 있다. 최근 구글이나 네이버 등의 인터넷 포털서비스 업체들은 온라인 사용자들의 웹검색 트래픽 정보를 구글 트렌드, 네이버 트렌드 등의 서비스로 공개하고 있는데, 이들이 제공하는 웹검색 트래픽 정보를 기반으로 온라인 사용자들의 정보 검색 행태에 대한 연구들이 학계 업계 등에서 주목받고 있다. 웹검색 정보를 기반으로 사회 현상이나, 소비 동향, 정치 투표 결과 등을 예측해 볼 수 있음을 실증하고 있는 분야는 많은 연구가 수행되고 있지만, 웹검색 트래픽 정보를 이용하여, 소비자의 제품에 대한 중요한 속성 도출 및 소비자의 기대 변화 관측 등의 온라인 사용자 행태에 초점을 맞추어 연구되고 있는 분야는 상대적으로 많은 연구가 수행되고 있지는 않다. 따라서, 본 연구에서는 구글이나 네이버가 제공하는 소비자의 웹검색 트래픽을 활용해서 소비자가 생각하는 제품 포지션을 가시화할 수 있는 방법을 제안한다. 브랜드 간의 관계를 확인하기 위해, 동시 검색 트래픽 정보를 활용하여 네트워크 모델링의 방법을 사용한 시스템을 제안하고 있으며, 이를 통해 소비자들이 제품 간의 유사성을 어떻게 인지하고 형성하며, 새로운 혁신 제품 카테고리 내에서 제품 브랜드들이 소비자의 마음 속에서 어떻게 자리 잡고 있는지의 브랜드 포지셔닝을 확인할 수 있는 방법론을 제안하였다. 또한 이를 태블릿 PC의 사례를 통해서, 미시적인 관점에서 소비자의 마음속에 위치한 태블릿 PC 개별 브랜드들의 위치 및 관계를 보여주었다. 기업은 소비자의 제품에 대한 인식 및 중요 속성 도출을 위해 많은 비용과 시간을 소요하여 소비자 조사를 행하게 되는데, 본 연구의 방법론을 활용하여 소비자의 제품에 대한 인식, 제품간 유사도, 제품에 대한 중요 속성의 변화 등을 일반에게 공개된 검색 트래픽 정보를 활용하여 비교적 쉽고 추가적인 비용 없이 도출할 수 있을 것이다.

Survey of Automatic Query Expansion for Arabic Text Retrieval

  • Farhan, Yasir Hadi;Noah, Shahrul Azman Mohd;Mohd, Masnizah
    • Journal of Information Science Theory and Practice
    • /
    • 제8권4호
    • /
    • pp.67-86
    • /
    • 2020
  • Information need has been one of the main motivations for a person using a search engine. Queries can represent very different information needs. Ironically, a query can be a poor representation of the information need because the user can find it difficult to express the information need. Query Expansion (QE) is being popularly used to address this limitation. While QE can be considered as a language-independent technique, recent findings have shown that in certain cases, language plays an important role. Arabic is a language with a particularly large vocabulary rich in words with synonymous shades of meaning and has high morphological complexity. This paper, therefore, provides a review on QE for Arabic information retrieval, the intention being to identify the recent state-of-the-art of this burgeoning area. In this review, we primarily discuss statistical QE approaches that include document analysis, search, browse log analyses, and web knowledge analyses, in addition to the semantic QE approaches, which use semantic knowledge structures to extract meaningful word relationships. Finally, our conclusion is that QE regarding the Arabic language is subjected to additional investigation and research due to the intricate nature of this language.

Exploring Online Learning Profiles of In-service Teachers in a Professional Development Course

  • PARK, Yujin;SUNG, Jihyun;CHO, Young Hoan
    • Educational Technology International
    • /
    • 제18권2호
    • /
    • pp.193-213
    • /
    • 2017
  • This study aimed to explore online learning profiles of in-service teachers in South Korea, focusing on video lecture and discussion activities. A total of 269 teachers took an online professional development course for 14 days, using an online learning platform from which web log data were collected. The data showed the frequency of participation and the initial participation time, which was closely related to procrastinating behaviors. A cluster analysis revealed three online learning profiles of in-service teachers: procrastinating (n=42), passive interaction (n=136), and active learning (n=91) clusters. The active learning cluster showed high-level participation in both video lecture and discussion activities from the beginning of the online course, whereas the procrastinating cluster was seldom engaged in learning activities for the first half of the learning period. The passive interaction cluster was actively engaged in watching video lectures from the beginning of the online course but passively participated in discussion activities. As a result, the active learning cluster outperformed the passive interaction cluster in learning achievements. The findings were discussed in regard to how to improve online learning environments through considering online learning profiles of in-service teachers.

웹 트래픽 분석을 통한 공공도서관 웹사이트 이용행태에 관한 연구 (A Study on the Usage Behavior of Public Library Website through an Analysis of Web Traffic)

  • 강문실;김성희
    • 한국비블리아학회지
    • /
    • 제32권4호
    • /
    • pp.189-212
    • /
    • 2021
  • 본 연구의 목적은 공공도서관 웹트래픽을 분석함으로써 공공도서관 웹사이트 이용행태를 분석하는 데 있다. 이를 위해 구글애널리틱스와 그로스해킹 기법을 이용하여 A 공공도서관 웹사이트 로그를 2021년 8월 1일부터 10월 31일까지 3개월간 웹 트래픽을 분석하였다. 연구결과 18-24세, 25-34세의 젊은 연령에서 신규회원 가입이 높은 결과를 기록하였고, 외부 유입에서는 SNS를 통한 유입율이 높은 것으로 나타났다. 요일 및 시간대별 접속율을 분석한 결과 가장 유입율이 많은 시간대는 수요일-금요일 사이의 오전 10시-11시 사이인 것으로 나타났다. 접속매체로는 모바일(64.90%)을 이용한 접속율이 상당히 높았지만 그와 동시에 이탈율(27.20%)이 평균(24.93%)보다 높고, 체류율(4분 33초)은 평균(5분 22초) 이하로 측정되었다. 마지막으로 도서관에서 주력하여 제작 및 홍보하고 있는 독서문화 행사나 온라인 북큐레이션의 이용율은 매우 저조한 것으로 나타났다. 이러한 연구결과는 미래의 공공도서관 웹사이트 개선을 위한 기초자료로 활용될 수 있을 것이다.

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

사회 네트워크 분석에 기반한 도서관 학술DB 이용 패턴 연구: K대학도서관 학술DB 이용 사례 (A Usage Pattern Analysis of the Academic Database Using Social Network Analysis in K University Library)

  • 최일영;이용성;김재경
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.25-40
    • /
    • 2010
  • 본 연구는 사회 네트워크 분석 기법을 통하여 K대학도서관의 학술DB 이용현황을 분석하고 이용자의 요구에 적합한 서비스를 개발 및 제공하고자 하는데 그 목적을 두고 있다. 이를 위하여 K대학 도서관의 학술DB 로그 데이터를 이용하여 학문분야별, 신분별, 학문분야 및 신분별 학술DB 네트워크를 구성하고 실증 분석하였다. 본 연구의 결과, 전임교원의 학술DB 네트워크와 박사과정의 학술DB 네트워크는 특화된 학술DB를 중심으로 강한 결속력을 보이고 있으며 다른 신분의 학술DB 네트워크보다 밀도, 연결정도 집중도 및 연결정도 중심성이 높게 나타났다.

전자 저널 구독 정보 및 웹 이용 로그를 활용한 참고문헌 기반 저널 추천 기법 (The Technique of Reference-based Journal Recommendation Using Information of Digital Journal Subscriptions and Usage Logs)

  • 이해성;김순영;김재훈;김정환
    • 인터넷정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.75-87
    • /
    • 2016
  • 전자 학술 정보 유통의 확대에 따라 날로 증가되는 학술 콘텐츠 서비스 수요에 부응하기 위하여 보다 효과적인 학술 콘텐츠 추천 시스템 개발이 요구된다. 학술 콘텐츠 추천 시스템은 정보 소비자의 과거 이용 내역을 기반으로 각 소비자 선호(preference)에 맞는 학술 콘텐츠를 제공함으로써 콘텐츠 이용성을 보다 효과적으로 향상 시킬 수 있다. 본 논문에서는 특정 기관에 소속된 사용자의 선호에 더욱 부합하는 학술 콘텐츠를 제공하기 위하여 기관의 전자 저널 구독 정보 및 웹 이용 로그를 활용한 저널 추천 기법을 제안한다. 제안하는 추천 기법에서는 기관 사용자의 저널 선호도를 효과적으로 예측하기 위하여 기관 유사도(Institution similarity), 그리고 참고문헌의 인용 관계 데이터를 기반으로 저널 유사도(Journal similarity) 및 저널 중요도(Journal importance)를 산출하여 최종적으로 기관 맞춤형 저널 추천 항목을 구성하게 된다. 또한, 제안하는 추천기법이 적용된 기관 맞춤형 저널 추천 시스템 프로토타입을 개발한다. 개발된 저널 추천 시스템은 각 기관의 저널 선호도 예측을 위하여 활용되는 웹 이용로그를 효과적으로 수집하고 이를 추천 기법에 활용하기 용이한 데이터로 가공 처리 하여 별도의 데이터베이스에 저장하여 추천 기법의 저널 선호도 예측을 위한 기반 데이터로 활용한다. 마지막으로 우리는 기존 추천 기법들과의 비교 성능 평가를 통해 제안 기법의 차별성과 우수성을 보인다.

실행계획 분석을 이용한 SQL Injection 공격 대응방안 (Counter Measures by using Execution Plan Analysis against SQL Injection Attacks)

  • 하만석;남궁정일;박수현
    • 전자공학회논문지
    • /
    • 제53권2호
    • /
    • pp.76-86
    • /
    • 2016
  • 최근 들어 급증하고 있는 보안 관련 사고들로 인하여 개인정보 및 기업정보의 관리에 대한 대책 마련이 시급한 가운데 있다. 보안 관련 사고 가운데 SQL Injection 공격은 가장 널리 악용되고, 오래된 전통적인 해킹 기법 중 하나이다. 최근까지도 웹 해킹을 시도하는 유형 중에서 높은 비중을 차지하고 있으며 그 공격 형태 또한 복잡해지고 있다. 많은 site에서 SQL Injection 공격에 대한 보완을 하여 이전보다 피해가 많이 줄어들기는 했으나 SQL Injection 공격에 의한 악의적인 관리자 권한 획득 및 비정상적인 로그인 등으로 인하여 여전히 많은 피해가 발생하고 있다. 더욱이 향후 사물인터넷 및 센서 빅데이터 환경이 널리 보급되면 수많은 디바이스들과 센서들이 연결되고 데이터의 양이 폭발적으로 증가하게 될 것이다. 그렇게 되면 현재보다 SQL Injection 공격에 의한 피해 규모는 더욱 커질 것이다. SQL Injection 공격에 대응하기 위해서는 많은 시간과 비용이 발생하게 되므로 시스템의 성능을 떨어뜨리지 않으면서도 신속정확하게 SQL Injection 공격을 판별하여 방어해야 할 것이다. 본 논문에서는 SQL Injection 공격에 대응하기 위하여 데이터 분석 및 기계학습을 통하여 웹로그 데이터를 검사하여 비정상적인 패턴의 입력값인 경우 SQL 명령어의 실행 계획을 분석하여 정상적인 SQL 명령어와 비정상적인 SQL 명령어를 판별하는 방안을 제시한다. 실험 및 성능 평가를 위해 사용자의 입력 또는 SQL Injection 공격툴에 의하여 입력되는 값을 실시간으로 실행계획을 분석하여 효과적으로 차단할 수 있음을 보여주었다.

A Study on the Meaning and Strategy of Keyword Advertising Marketing

  • Park, Nam Goo
    • 유통과학연구
    • /
    • 제8권3호
    • /
    • pp.49-56
    • /
    • 2010
  • At the initial stage of Internet advertising, banner advertising came into fashion. As the Internet developed into a central part of daily lives and the competition in the on-line advertising market was getting fierce, there was not enough space for banner advertising, which rushed to portal sites only. All these factors was responsible for an upsurge in advertising prices. Consequently, the high-cost and low-efficiency problems with banner advertising were raised, which led to an emergence of keyword advertising as a new type of Internet advertising to replace its predecessor. In the beginning of 2000s, when Internet advertising came to be activated, display advertisement including banner advertising dominated the Net. However, display advertising showed signs of gradual decline, and registered minus growth in the year 2009, whereas keyword advertising showed rapid growth and started to outdo display advertising as of the year 2005. Keyword advertising refers to the advertising technique that exposes relevant advertisements on the top of research sites when one searches for a keyword. Instead of exposing advertisements to unspecified individuals like banner advertising, keyword advertising, or targeted advertising technique, shows advertisements only when customers search for a desired keyword so that only highly prospective customers are given a chance to see them. In this context, it is also referred to as search advertising. It is regarded as more aggressive advertising with a high hit rate than previous advertising in that, instead of the seller discovering customers and running an advertisement for them like TV, radios or banner advertising, it exposes advertisements to visiting customers. Keyword advertising makes it possible for a company to seek publicity on line simply by making use of a single word and to achieve a maximum of efficiency at a minimum cost. The strong point of keyword advertising is that customers are allowed to directly contact the products in question through its more efficient advertising when compared to the advertisements of mass media such as TV and radio, etc. The weak point of keyword advertising is that a company should have its advertisement registered on each and every portal site and finds it hard to exercise substantial supervision over its advertisement, there being a possibility of its advertising expenses exceeding its profits. Keyword advertising severs as the most appropriate methods of advertising for the sales and publicity of small and medium enterprises which are in need of a maximum of advertising effect at a low advertising cost. At present, keyword advertising is divided into CPC advertising and CPM advertising. The former is known as the most efficient technique, which is also referred to as advertising based on the meter rate system; A company is supposed to pay for the number of clicks on a searched keyword which users have searched. This is representatively adopted by Overture, Google's Adwords, Naver's Clickchoice, and Daum's Clicks, etc. CPM advertising is dependent upon the flat rate payment system, making a company pay for its advertisement on the basis of the number of exposure, not on the basis of the number of clicks. This method fixes a price for advertisement on the basis of 1,000-time exposure, and is mainly adopted by Naver's Timechoice, Daum's Speciallink, and Nate's Speedup, etc, At present, the CPC method is most frequently adopted. The weak point of the CPC method is that advertising cost can rise through constant clicks from the same IP. If a company makes good use of strategies for maximizing the strong points of keyword advertising and complementing its weak points, it is highly likely to turn its visitors into prospective customers. Accordingly, an advertiser should make an analysis of customers' behavior and approach them in a variety of ways, trying hard to find out what they want. With this in mind, her or she has to put multiple keywords into use when running for ads. When he or she first runs an ad, he or she should first give priority to which keyword to select. The advertiser should consider how many individuals using a search engine will click the keyword in question and how much money he or she has to pay for the advertisement. As the popular keywords that the users of search engines are frequently using are expensive in terms of a unit cost per click, the advertisers without much money for advertising at the initial phrase should pay attention to detailed keywords suitable to their budget. Detailed keywords are also referred to as peripheral keywords or extension keywords, which can be called a combination of major keywords. Most keywords are in the form of texts. The biggest strong point of text-based advertising is that it looks like search results, causing little antipathy to it. But it fails to attract much attention because of the fact that most keyword advertising is in the form of texts. Image-embedded advertising is easy to notice due to images, but it is exposed on the lower part of a web page and regarded as an advertisement, which leads to a low click through rate. However, its strong point is that its prices are lower than those of text-based advertising. If a company owns a logo or a product that is easy enough for people to recognize, the company is well advised to make good use of image-embedded advertising so as to attract Internet users' attention. Advertisers should make an analysis of their logos and examine customers' responses based on the events of sites in question and the composition of products as a vehicle for monitoring their behavior in detail. Besides, keyword advertising allows them to analyze the advertising effects of exposed keywords through the analysis of logos. The logo analysis refers to a close analysis of the current situation of a site by making an analysis of information about visitors on the basis of the analysis of the number of visitors and page view, and that of cookie values. It is in the log files generated through each Web server that a user's IP, used pages, the time when he or she uses it, and cookie values are stored. The log files contain a huge amount of data. As it is almost impossible to make a direct analysis of these log files, one is supposed to make an analysis of them by using solutions for a log analysis. The generic information that can be extracted from tools for each logo analysis includes the number of viewing the total pages, the number of average page view per day, the number of basic page view, the number of page view per visit, the total number of hits, the number of average hits per day, the number of hits per visit, the number of visits, the number of average visits per day, the net number of visitors, average visitors per day, one-time visitors, visitors who have come more than twice, and average using hours, etc. These sites are deemed to be useful for utilizing data for the analysis of the situation and current status of rival companies as well as benchmarking. As keyword advertising exposes advertisements exclusively on search-result pages, competition among advertisers attempting to preoccupy popular keywords is very fierce. Some portal sites keep on giving priority to the existing advertisers, whereas others provide chances to purchase keywords in question to all the advertisers after the advertising contract is over. If an advertiser tries to rely on keywords sensitive to seasons and timeliness in case of sites providing priority to the established advertisers, he or she may as well make a purchase of a vacant place for advertising lest he or she should miss appropriate timing for advertising. However, Naver doesn't provide priority to the existing advertisers as far as all the keyword advertisements are concerned. In this case, one can preoccupy keywords if he or she enters into a contract after confirming the contract period for advertising. This study is designed to take a look at marketing for keyword advertising and to present effective strategies for keyword advertising marketing. At present, the Korean CPC advertising market is virtually monopolized by Overture. Its strong points are that Overture is based on the CPC charging model and that advertisements are registered on the top of the most representative portal sites in Korea. These advantages serve as the most appropriate medium for small and medium enterprises to use. However, the CPC method of Overture has its weak points, too. That is, the CPC method is not the only perfect advertising model among the search advertisements in the on-line market. So it is absolutely necessary that small and medium enterprises including independent shopping malls should complement the weaknesses of the CPC method and make good use of strategies for maximizing its strengths so as to increase their sales and to create a point of contact with customers.

  • PDF

오픈소스 프로젝트의 테스트 주도 개발 채택여부가 사용자만족도에 미치는 영향에 관한 연구 (Test-Driven Development Adoption influence to User Satisfaction on OpenSource Project development)

  • 손효정;이민규;성백민;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1075-1078
    • /
    • 2015
  • 애자일 개발방법론의 가치를 반영한 대표적인 관행으로 웹 2.0 협업도구를 이용한 의사소통, 테스트 주도 개발(TDD, Test-Driven Development)방법 채택, 리팩토링 등 3가지를 이전 연구에서 선정하였다. 본 연구에서는 테스트 주도개발을 채택한 오픈소스 프로젝트의 경우 프로젝트 사용자만족도가 높을 것이라는 가설을 설정해 연구하였다. 최대의 오픈소스 호스팅 사이트인 소스포지(sourceforge.net)에서 100개 프로젝트(개발자 7명이상, 발생 버그수 100개 이상, 2000년 이후 생성된 프로젝트)를 선정하고 CVS 및 SVN log분석을 통해 TDD의 자동화 개발툴인 xUnit의 이용여부를 확인하였다. FLOSSmole의 데이터를 이용해 해당 프로젝트의 사용자만족도를 평가하였다. 사용자만족도는 각 프로젝트의 Rating, 버그수정 주기, 다운로드수와 페이지뷰수 등 4가지이다. 이를 통해 TDD의 채택여부와 사용자만족도의 상관관계를 분석하여 기존의 오픈소스 개발방법론에서 애자일 관행을 반영한 프로젝트가 사용자만족도가 높음을 밝혀, 결과적으로 오픈소스 커뮤니티 성숙도를 높이는데 기여하고자 한다.

  • PDF