• 제목/요약/키워드: web data mining

검색결과 408건 처리시간 0.031초

2-계층 클러스터링을 사용한 웹 사용자 그룹의 행동규칙추출방법에 관한 연구 (A Study on Behavior Rule Induction Method of Web User Group using 2-tier Clustering)

  • 황준원;송두헌;이창훈
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.139-146
    • /
    • 2008
  • 유용한 웹 사용자 그룹을 파악하고 이들의 행동패턴을 찾는 것은 eCRM에서 매우 중요하다. 그러나 온라인 사용자 데이터에는 불확실한 정보가 많이 포함되어 있어 이를 바탕으로 유사한 성향을 가진 사용자 그룹을 생성하는 경우 신뢰성이 떨어지는 문제점이 있다. 본 논문에서는 불확실성이 포함된 사용자와 페이지의 서로 다른 두 데이터 계층의 상호작용을 통해 좀 더 신뢰성 있는 사용자 그룹을 생성하고 데이터에 내재된 이들의 행동패턴을 추출하는 방법을 제시하였다. 그리고 C4.5를 사용하여 생성된 행동규칙과의 비교를 통해 본 논문에서 제시하는 방법과의 비교분석을 실시하였다.

소셜 네트워크 분석을 이용한 4차 산업혁명 기술 분야의 연구 동향 분석 (The Analysis of Research Trends in Technology to the Fourth Industrial Revolution using SNA)

  • 김홍광;안종욱
    • 지적과 국토정보
    • /
    • 제49권1호
    • /
    • pp.113-121
    • /
    • 2019
  • 본 연구에서는 국내 외 4차 산업혁명 관련 기술 분야의 연구 동향을 분석하기 위해서 웹 기반의 텍스트 마이닝 및 소셜 네트워크 분석 기법을 이용하였다. 이를 위해 2014년 1월 1일부터 2018년 12월 31일까지 국내 외 4차 산업혁명 관련 기술에 대한 연구 논문 및 보고서의 제목 텍스트와 날짜를 대상으로 하여 텍스트 마이닝을 수행하였다. 이후 개념적인 차원에서의 키워드 간 연관성을 분석하기 위해서 형태소 분석을 통한 대표 키워드를 도출하였다. 이후 사회 연결망 분석을 활용하여 핵심 키워드 및 연관 키워드 등을 도출하였다. 그 결과, 우리나라에서는 4차 산업혁명 기술 관련 연구 개발 및 법 제도적 완화 등에 대한 초점을 두고 있다고 유추할 수 있다. 반면, 국외는 단위 서비스 형태로의 접근을 통해 도시에 대한 실질적 적용 기술에 초점을 두고 있음을 파악할 수 있었다.

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

Analysis on Review Data of Restaurants in Google Maps through Text Mining: Focusing on Sentiment Analysis

  • Shin, Bee;Ryu, Sohee;Kim, Yongjun;Kim, Dongwhan
    • Journal of Multimedia Information System
    • /
    • 제9권1호
    • /
    • pp.61-68
    • /
    • 2022
  • The importance of online reviews is prevalent as more people access goods or places online and make decisions to visit or purchase. However, such reviews are generally provided by short sentences or mere star ratings; failing to provide a general overview of customer preferences and decision factors. This study explored and broke down restaurant reviews found on Google Maps. After collecting and analyzing 5,427 reviews, we vectorized the importance of words using the TF-IDF. We used a random forest machine learning algorithm to calculate the coefficient of positivity and negativity of words used in reviews. As the result, we were able to build a dictionary of words for positive and negative sentiment using each word's coefficient. We classified words into four major evaluation categories and derived insights into sentiment in each criterion. We believe the dictionary of review words and analyzing the major evaluation categories can help prospective restaurant visitors to read between the lines on restaurant reviews found on the Web.

온톨로지와 텍스트 마이닝 기반 지능형 역사인물 검색 서비스 (Ontology and Text Mining-based Advanced Historical People Finding Service)

  • 정도헌;황명권;조민희;정한민;윤소영;김경선;김평
    • 인터넷정보학회논문지
    • /
    • 제13권5호
    • /
    • pp.33-43
    • /
    • 2012
  • 시맨틱 웹 기술은 특정 개체를 중심으로 의미적 연관 관계를 생성하고 연관 관계를 이용해서 다양한 지능형 정보 서비스를 구축하는데 활용되며, 텍스트 마이닝 기술은 비정형 데이터를 대상으로 의미 분석을 통해서 의미적 연관 관계를 생성하는데 활용될 수 있다. 본 연구에서는 역사인물을 중심으로 온톨로지 스키마, 인스턴스를 생성하는 가이드라인, 인스턴스 생성, 동명이인 해소를 위한 텍스트 마이닝, 추론을 활용한 지능화된 역사인물 검색서비스를 제안한다. 역사분야 전문가들이 생성한 역사적 사건, 기관, 인물 중심의 연관 관계와 국사편찬위원회에서 보유한 다양한 문헌들 간의 연계를 통해, 사용자들의 정보접근성을 향상시킴과 동시에 관계 정보에 기반한 새로운 역사인물 검색 서비스를 제안하였다. 새로운 역사인물 검색 서비스는 인물간의 소셜 네트워크를 사용하여 역사문헌에 나타난 동명이인을 해소함으로써 보다 정확한 검색서비스를 제공하는 것은 물론, 역사 인물 시소러스를 포함한 다양한 외부 정보와의 연계를 통해서 역사인물에 대한 고부가 정보를 제공하고 있다.

사이트간 웹 사용 마이닝을 위한 데이터 전처리의 성능 향상 (Performance Improvement of Data Preprocessing for Intersite Web Usage Mining)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.357-361
    • /
    • 2006
  • 매일 새롭게 생기는 웹 페이지 수가 수천만 개, 온라인 문서들의 수가 수십억 개에 이르게 되자, 웹 사이트를 설계함에 있어서 웹 서버 로그 파일에 기록된 사용자의 행동을 분석하는 것이 중요한 부분이 되어가고 있다. 분석가들은 전체 웹 사이트에서 사용자 행동의 완전한 개요를 알기 원하기 때문에 고객이 방문했던 모든 다른 웹 서버를 통하여 사용자의 패스(path)를 다시 수집해야만 한다. 본 연구에서는 모든 로그 파일을 연결해서 방문했던 곳을 재구성하는 향상된 데이터 전처리 방법에 의하여 실험을 하여 로그 파일 크기를 감소시키게 되어 데이터 전처리의 성능이 향상되었음을 보였다.

  • PDF

Travel Agency에서 CRM을 위한 DataMining, OLAP 적용 (Applying Datamining and OLAP for CRM to Travel Agency)

  • 김민정;박승수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.152-154
    • /
    • 2000
  • World Wide Web(WWW) 데이터가 폭발적으로 증가하고 있는 시점에서, WWW의 데이터로부터 유용한 정보를 찾아내고 분석하는 일이 필요해졌다. 또한 WWW의 데이터만으로는 얻을 수 없는 기업의 의사결정을 위한 정보를 얻기 위해, 웹 페이지 접근 기록에서 얻어진 웹 로그기록들과 기업의 판매 트랜잭션 데이터베이스, 광고 데이터베이스 그리고 고객 정보를 통합하여 데이터 웨어하우스를 구축한다. 이러한 과정은 기업활동의 결과로 축적된 데이터 자원과 WWW의 데이터를 통합하여 체계적인 정보기반을 구축하고, 이러한 자원을 전략적으로 재활용하는 것이 목적이다. 본 논문에서는 WWW의 데이터와 기업의 데이터베이스를 통합하여 웨어하우스를 설계하고 여기에 데이터마이닝, OLAP을 적용하여 CRM에 활용하는 방안을 제안하고자 한다.

  • PDF

웹 기반의 데이터 마이닝 솔루션 개발에 대하여 (The Development of Data Mining Solution based on Web)

  • 구자용;박헌진;최대우
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.301-306
    • /
    • 2000
  • 최근 데이터 웨어하우징의 활발한 구축과 우수고객 확보를 위한 치열한 경쟁으로 데이터 마이닝은 많은 업체의 큰 관심을 끌고있다. 본 연구는 풍부한 알고리즘과 과학적 그래프를 제공하여 사용자로 하여금 최상의 데이터 마이닝 효과를 거둘 수 있도록 Statserver를 핵심 엔진으로 사용한 인터넷 기반의 데이터 마이닝 솔루션 개발에 관한 편이다

  • PDF

인터넷 상점에서 개인화 광고를 위한 장바구니 분석 기법의 활용 (Application of Market Basket Analysis to Personalized advertisements on Internet Storefront)

  • 김종우;이경미
    • 경영과학
    • /
    • 제17권3호
    • /
    • pp.19-30
    • /
    • 2000
  • Customization and personalization services are considered as a critical success factor to be a successful Internet store or web service provider. As a representative personalization technique, personalized recommendation techniques are studied and commercialized to suggest products or services to a customer of Internet storefronts based on demographics of the customer or based on an analysis of the past purchasing behavior of the customer. The underlining theories of recommendation techniques are statistics, data mining, artificial intelligence, and/or rule-based matching. In the rule-based approach for personalized recommendation, marketing rules for personalization are usually collected from marketing experts and are used to inference with customers data. however, it is difficult to extract marketing rules from marketing experts, and also difficult to validate and to maintain the constructed knowledge base. In this paper, we proposed a marketing rule extraction technique for personalized recommendation on Internet storefronts using market basket analysis technique, a well-known data mining technique. Using marketing basket analysis technique, marketing rules for cross sales are extracted, and are used to provide personalized advertisement selection when a customer visits in an Internet store. An experiment has been performed to evaluate the effectiveness of proposed approach comparing with preference scoring approach and random selection.

  • PDF

Distributed and Scalable Intrusion Detection System Based on Agents and Intelligent Techniques

  • El-Semary, Aly M.;Mostafa, Mostafa Gadal-Haqq M.
    • Journal of Information Processing Systems
    • /
    • 제6권4호
    • /
    • pp.481-500
    • /
    • 2010
  • The Internet explosion and the increase in crucial web applications such as ebanking and e-commerce, make essential the need for network security tools. One of such tools is an Intrusion detection system which can be classified based on detection approachs as being signature-based or anomaly-based. Even though intrusion detection systems are well defined, their cooperation with each other to detect attacks needs to be addressed. Consequently, a new architecture that allows them to cooperate in detecting attacks is proposed. The architecture uses Software Agents to provide scalability and distributability. It works in two modes: learning and detection. During learning mode, it generates a profile for each individual system using a fuzzy data mining algorithm. During detection mode, each system uses the FuzzyJess to match network traffic against its profile. The architecture was tested against a standard data set produced by MIT's Lincoln Laboratory and the primary results show its efficiency and capability to detect attacks. Finally, two new methods, the memory-window and memoryless-window, were developed for extracting useful parameters from raw packets. The parameters are used as detection metrics.