• 제목/요약/키워드: web usage mining

검색결과 58건 처리시간 0.02초

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

기업의 SNS 노출과 주식 수익률간의 관계 분석 (The Analysis on the Relationship between Firms' Exposures to SNS and Stock Prices in Korea)

  • 김태환;정우진;이상용
    • Asia pacific journal of information systems
    • /
    • 제24권2호
    • /
    • pp.233-253
    • /
    • 2014
  • Can the stock market really be predicted? Stock market prediction has attracted much attention from many fields including business, economics, statistics, and mathematics. Early research on stock market prediction was based on random walk theory (RWT) and the efficient market hypothesis (EMH). According to the EMH, stock market are largely driven by new information rather than present and past prices. Since it is unpredictable, stock market will follow a random walk. Even though these theories, Schumaker [2010] asserted that people keep trying to predict the stock market by using artificial intelligence, statistical estimates, and mathematical models. Mathematical approaches include Percolation Methods, Log-Periodic Oscillations and Wavelet Transforms to model future prices. Examples of artificial intelligence approaches that deals with optimization and machine learning are Genetic Algorithms, Support Vector Machines (SVM) and Neural Networks. Statistical approaches typically predicts the future by using past stock market data. Recently, financial engineers have started to predict the stock prices movement pattern by using the SNS data. SNS is the place where peoples opinions and ideas are freely flow and affect others' beliefs on certain things. Through word-of-mouth in SNS, people share product usage experiences, subjective feelings, and commonly accompanying sentiment or mood with others. An increasing number of empirical analyses of sentiment and mood are based on textual collections of public user generated data on the web. The Opinion mining is one domain of the data mining fields extracting public opinions exposed in SNS by utilizing data mining. There have been many studies on the issues of opinion mining from Web sources such as product reviews, forum posts and blogs. In relation to this literatures, we are trying to understand the effects of SNS exposures of firms on stock prices in Korea. Similarly to Bollen et al. [2011], we empirically analyze the impact of SNS exposures on stock return rates. We use Social Metrics by Daum Soft, an SNS big data analysis company in Korea. Social Metrics provides trends and public opinions in Twitter and blogs by using natural language process and analysis tools. It collects the sentences circulated in the Twitter in real time, and breaks down these sentences into the word units and then extracts keywords. In this study, we classify firms' exposures in SNS into two groups: positive and negative. To test the correlation and causation relationship between SNS exposures and stock price returns, we first collect 252 firms' stock prices and KRX100 index in the Korea Stock Exchange (KRX) from May 25, 2012 to September 1, 2012. We also gather the public attitudes (positive, negative) about these firms from Social Metrics over the same period of time. We conduct regression analysis between stock prices and the number of SNS exposures. Having checked the correlation between the two variables, we perform Granger causality test to see the causation direction between the two variables. The research result is that the number of total SNS exposures is positively related with stock market returns. The number of positive mentions of has also positive relationship with stock market returns. Contrarily, the number of negative mentions has negative relationship with stock market returns, but this relationship is statistically not significant. This means that the impact of positive mentions is statistically bigger than the impact of negative mentions. We also investigate whether the impacts are moderated by industry type and firm's size. We find that the SNS exposures impacts are bigger for IT firms than for non-IT firms, and bigger for small sized firms than for large sized firms. The results of Granger causality test shows change of stock price return is caused by SNS exposures, while the causation of the other way round is not significant. Therefore the correlation relationship between SNS exposures and stock prices has uni-direction causality. The more a firm is exposed in SNS, the more is the stock price likely to increase, while stock price changes may not cause more SNS mentions.

GIS기반 소수력 Package Tool 개발 (The Development of GIS-based Small Hydropower Package Tool)

  • 허준호;정상만;박완순;이철형
    • 한국태양에너지학회:학술대회논문집
    • /
    • 한국태양에너지학회 2009년도 춘계학술발표대회 논문집
    • /
    • pp.139-144
    • /
    • 2009
  • The generation of small hydropower as compared to other different developed environmental methods produces one of the clean energies. In such manner, various application system development through IT technique is being developed for an advanced small hydropower energy resources data mining. However, existing data analysis of New & Renewable Information System for small hydropower resources application is incomplete therefore it limits expressing these information on the Web. Thus for positive usage of small hydropower resources, a more systematic and precise analysis system should be built. This study seeks to develop a map of the domestic small hydropower resources problems to further improve small hydropower resources, developed through Package Tool which can accurately evaluate a wide range of small hydropower basin in a short period of time. Small hydropower Package Tool was calculated using existing Analysis System small hydropower resources which did not provide diverse capabilities resulting to 840 standard basin classified by A and facility capacity, etc., and to assume a 40% annual capacity, expected annual electricity production was calculated. Small hydropower for the national water system of small hydropower resources potential calculated in terms of resources for the development of small hydropower will be utilized as basic data.

  • PDF

전자상거래에서의 협업 추천을 위한 고객 프로필 모델 (A Customer Profile Model for Collaborative Recommendation in e-Commerce)

  • 이석기;조현;천성용
    • 한국콘텐츠학회논문지
    • /
    • 제11권5호
    • /
    • pp.67-74
    • /
    • 2011
  • 협업 추천은 전자상거래 기업들이 고객별로 개인화 된 상품추천을 하기 위하여 널리 활용하는 추천기법이다. 추천 행위는 고객들이 상품에 대해 가지고 있는 선호도를 분석하고 이를 프로필화 하는 것을 전제로 한다. 전통적인 명시적 평가법은 취급하는 상품이 매우 다양한 전자상거래 기업의 고객들에게 구매활동외에 추가적 부담을 준다는 점에서 한계를 가진다. 따라서 고객의 개입 없이 간접적으로 선호도를 파악할 수 있는 묵시적 평가법이 보다 바람직하다고 볼 수 있는데, 여기에도 추정된 선호도의 지표화에 주로 사용하는 카디널 척도가 추정 오차를 증가 시킨다는 점에서 문제점이 있다. 따라서 본 연구에서는 이러한 문제의 개선을 위해 웹 마이닝과 사전식 컨센서스 기법에 근간하여 서열 척도 기반의 고객 프로필을 생성, 활용하는 협업 추천 기법을 제안하고자 한다. 실제 온라인 쇼핑몰의 거래 데이터를 이용한 실험을 통해 제안된 기법의 우수성을 입증 하였다.

쇼핑 웹사이트 탐색 유형과 방문 패턴 분석 (Analysis of shopping website visit types and shopping pattern)

  • 최경빈;남기환
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.85-107
    • /
    • 2019
  • 온라인 소비자는 쇼핑 웹사이트에서 특정 제품군이나 브랜드에 속한 제품들을 둘러보고 구매를 진행할 수 있고, 혹은 단순히 넓은 범위의 탐색 반경을 보이며 여러 페이지들을 돌아보다 구매를 진행하지 않고 이탈할 수 있다. 이러한 온라인 소비자의 행동과 구매에 관련된 연구는 꾸준히 진행되어왔으며, 실무에서도 소비자들의 행동 데이터를 바탕으로 한 서비스 및 어플리케이션이 개발되고 있다. 최근에는 빅데이터 기술의 발달로 소비자 개인 단위의 맞춤화 전략 및 추천 시스템이 활용되고 있으며 사용자의 쇼핑 경험을 최적화하기 위한 시도가 진행되고 있다. 하지만 이와 같은 시도에도 온라인 소비자가 실제로 웹사이트를 방문해 제품 구매 단계까지 전환될 확률은 매우 낮은 실정이다. 이는 온라인 소비자들이 단지 제품 구매를 위해 웹사이트를 방문하는 것이 아니라 그들의 쇼핑 동기 및 목적에 따라 웹사이트를 다르게 활용하고 탐색하기 때문이다. 따라서 단지 구매가 진행되는 방문 외에도 다양한 방문 형태를 분석하는 것은 온라인 소비자들의 행동을 이해하는데 중요하다고 할 수 있다. 이러한 관점에서 본 연구에서는 온라인 소비자의 탐색 행동의 다양성과 복잡성을 설명하기 위해 실제 E-commerce 기업의 클릭스트림 데이터를 기반으로 세션 단위의 클러스터링 분석을 진행해 탐색 행동을 유형화하였다. 이를 통해 각 유형별로 상세 단위의 탐색 행동과 구매 여부가 차이가 있음을 확인하였다. 또한 소비자 개인이 여러 방문에 걸친 일련의 탐색 유형에 대한 패턴을 분석하기 위해 순차 패턴 마이닝 기법을 활용하였으며, 같은 기간 내에 제품 구매까지 완료한 소비자와 구매를 진행하지 않은 채 방문만 진행한 소비자들의 탐색패턴에 대한 차이를 확인할 수 있었다. 본 연구의 시사점은 대규모의 클릭스트림 데이터를 활용해 온라인 소비자의 탐색 유형을 분석하고 이에 대한 패턴을 분석해 구매 과정 상의 행동을 데이터 기반으로 설명하였다는 점에 있다. 또한 온라인 소매 기업은 다양한 형태의 탐색 유형에 맞는 마케팅 전략 및 추천을 통해 구매 전환 개선을 시도할 수 있으며, 소비자의 탐색 패턴의 변화를 통해 전략의 효과를 평가할 수 있을 것이다.

필터링에 기반한 고차원 색인구조의 동시성 제어기법의 설계 및 구현 (Design and Implementation of High-dimensional Index Structure for the support of Concurrency Control)

  • 이용주;장재우;김학영;김명준
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.1-12
    • /
    • 2003
  • 최근 이미지, 비디오와 같은 멀티미디어 데이터에 대한 효율적인 검색을 위해 많은 다차원 및 고차원 색인 구조들에 대한 연구가 활발히 진행되고 있다. 하지만 기존의 색인 구조의 연구 방향은 검색의 효율을 극대화 하는데 초점을 맞추어 왔으며 최근의 멀티미디어 데이터베이스나 데이터 마이닝 분야와 같은 다수 사용자 환경을 요구하는 환경에서는 부적합한 실정이다. 이에 본 논문에서는 기존의 제시된 차원이 증가하면서 급속하게 성능이 저하되는 문제를 특징 벡터의 시그니쳐를 구성하여 완화시킨 필터링에 기반한 고차원 색인 구조에 동시성 제어기법을 설계 및 구현하여 위스콘신 대학에서 개발한 지속성 객체 저장 시스템인 SHORE 하부저장 시스템과 밀결합 방식으로 통합하였다. 확장된 SHORE 하부저장 시스템은 고차원 데이터에 대한 효율적인 검색 뿐만 아니라 레코드 레벨의 색인 데이터에 대한 동시성 제어를 지원하며 시그니쳐 파일을 모두 메모리에 로딩하는 구조를 개선하여 페이지 레벨의 관리가 가능하다. 아울러 본 논문에서 제시한 확장된 SHOE 하부저장 시스템을 실제 응용 시스템에 적용하기 위해 플랫폼 독립적인 환경을 지원하는 자바 언어를 사용하여 미들웨어 구축 방안을 제시한다. 또한 구축된 미들웨어를 통해 쓰레드 별로 대표적인 내용기반 질의 형태인 포인트질의, 범위질의, k-최근접 질의에 대한 다수 사용자 환경에서의 성능 평가를 수행하였다.

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

구글맵리뷰 텍스트마이닝을 활용한 공원 이용자의 인식 및 평가 - 서울숲, 보라매공원, 올림픽공원을 대상으로 - (Perception and Appraisal of Urban Park Users Using Text Mining of Google Maps Review - Cases of Seoul Forest, Boramae Park, Olympic Park -)

  • 이주경;손용훈
    • 한국조경학회지
    • /
    • 제49권4호
    • /
    • pp.15-29
    • /
    • 2021
  • 본 연구의 목적은 Google Maps에서 제공하는 장소에 대한 리뷰를 활용하여 실제로 공원을 방문한 이용자의 인식과 평가를 파악하는 것이다. 구글맵리뷰는 Social Network Service(SNS)를 통해 장소에 대한 인식과 평가에 관한 정보를 얻는 온라인 리뷰이며, 일반 리뷰어와 구글맵의 회원으로 등록된 지역 가이드의 관점에서 장소에 대한 이해를 볼 수 있는 서비스이다. 본 연구에서는 구글맵리뷰 분석이 공원 관리에 필요한 이용자들의 인식과 평가를 추출하는데 활용될 수 있는지를 살펴보고자 하였다. 서로 다른 공간특징과 시설을 가지는 3개의 공원(서울숲, 보라매공원, 올림픽공원)을 대상으로 파이썬을 활용한 웹 크롤링을 통해서 구글맵리뷰 내용을 수집하였다. 그리고 텍스트 분석을 통해 공원별 주요 키워드 분석과 네트워크 구조에 따른 특성을 분석하고, 이와 함께 구글맵리뷰에서 제공하는 별점 평갓값과 외국인 리뷰 데이터에 대한 분석도 수행했다. 연구 결과, 3개의 공원에서 공통으로 나타나는 특성으로는 이용목적으로 '산책', '자전거', '휴식', '피크닉'이 있었으며, 동반유형으로 '가족', '아이', '애견'이, 인프라로는 '놀이터', '산책로'가 있었다. 공원별 특색을 보면 서울숲은 자연을 기반으로 하는 야외활동이 많이 나타났고 반면, 주차공간 부족과 주말 혼잡은 공원 이용자에게 부정적인 영향을 미치고 있었다. 보라매공원은 수많은 활동을 제공하는 다양한 시설을 갖춘 도시공원의 모습을 가지고 있었다. 리뷰어들은 반려견을 동반하는 이용자 그룹과 그렇지 않은 다른 이용자 그룹 간의 갈등과 공원의 복잡함에 대한 부정적인 측면을 언급했다. 올림픽공원에는 대형 복합시설이 있으며, 커뮤니티, 문화예술공연과 같은 대규모 문화 이벤트가 많이 언급되었고, 레크리에이션 기능이 강조되었다. 구글맵리뷰는 공원에 대한 이용자의 전반적 경험과 이미지에 대한 특징을 파악하는 유용한 자료라고 할 수 있다. 또한, 다른 소셜미디어 데이터와 비교할 때 특히 구글맵리뷰는 공원에 대한 이용자 평갓값과 만족 및 불만족 요인을 이해할 수 있는 데이터를 제공한다.