• 제목/요약/키워드: Web Mining

검색결과 549건 처리시간 0.029초

효율적인 클러스터링을 이용한 관심 정보 추출을 위한 웹 마이닝 (Web Mining for Discovering Interesting Information using Effective Clustering)

  • 김성학;안병태
    • 디지털콘텐츠학회 논문지
    • /
    • 제9권2호
    • /
    • pp.251-260
    • /
    • 2008
  • 인터넷의 전자상거래에서 대규모 정보 저장소에 있는 원하는 정보를 신속하게 검색하기란 어렵다. 대부분의 전자상거래 사이트에 있어서 정보를 제공하는 방법으로는 통계적 분석이나 분류별 지향의 간단한 과정을 통해 생성된다. 그러나 이러한 것은 생성 정보들 사이의 다양한 상호관계를 표현할 수 없고 사용자의 정확한 구매 패턴을 반영하기 어렵다. 본 논문에서는 전자상거래에서 효과적인 클러스터링을 이용한 다양한 관심정보 추출을 위한 효율적인 웹 마이닝을 제안한다. 이러한 방법은 분류별 항목에서 순차 패턴과 상관 규칙을 이용하여 생성 정보들 사이의 보다 적합한 상관관계를 구성하고 제안된 방법을 통해 효율적인 실험 결과를 나타낸다. 그리고 효과적인 클러스터링을 이용하여 신속한 검색을 제안한다.

  • PDF

웹 스크래핑과 텍스트마이닝을 이용한 공공 및 민간공사의 사고유형 분석 (A Study on the Analysis of Accident Types in Public and Private Construction Using Web Scraping and Text Mining)

  • 윤영근;오태근
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.729-734
    • /
    • 2022
  • 건설업의 사고원인 파악을 위해 사고사례를 이용한 다양한 연구가 진행되고 있지만, 공공 및 민간공사의 차이점에 대한 연구는 미미한 실정이다. 본 연구에서는 발주 유형별 사고원인 분석을 위해 웹 스크래핑과 텍스트 마이닝 기술을 적용하였다. 수집된 10,000건 이상의 정형 및 비정형 데이터에 대한 통계분석과 워드클라우드 분석을 통해 공공 및 민간공사의 사고유형과 사고원인에 대한 차이가 확인되었다. 또한, 주요 사고원인들의 상관관계를 파악함으로써 향후 안전관리 대책 수립에 기여할 수 있다.

그래프마이닝을 활용한 빈발 패턴 탐색에 관한 연구 (A Methodology for Searching Frequent Pattern Using Graph-Mining Technique)

  • 홍준석
    • Journal of Information Technology Applications and Management
    • /
    • 제26권1호
    • /
    • pp.65-75
    • /
    • 2019
  • As the use of semantic web based on XML increases in the field of data management, a lot of studies to extract useful information from the data stored in ontology have been tried based on association rule mining. Ontology data is advantageous in that data can be freely expressed because it has a flexible and scalable structure unlike a conventional database having a predefined structure. On the contrary, it is difficult to find frequent patterns in a uniformized analysis method. The goal of this study is to provide a basis for extracting useful knowledge from ontology by searching for frequently occurring subgraph patterns by applying transaction-based graph mining techniques to ontology schema graph data and instance graph data constituting ontology. In order to overcome the structural limitations of the existing ontology mining, the frequent pattern search methodology in this study uses the methodology used in graph mining to apply the frequent pattern in the graph data structure to the ontology by applying iterative node chunking method. Our suggested methodology will play an important role in knowledge extraction.

웹2.0에서 의견정보의 실시간 모니터링을 위한 웹 콘텐츠 마이닝 시스템 (Web Contents Mining System for Real-Time Monitoring of Opinion Information based on Web 2.0)

  • 김영춘;주해종;최혜길;조문택;김영백;이상용
    • 한국지능시스템학회논문지
    • /
    • 제21권1호
    • /
    • pp.68-79
    • /
    • 2011
  • 본 연구에서 제안하는 시스템은 인터넷 상에 존재하는 여러 웹사이트들에 흩어져 있는 웹 콘텐츠에서 사용자 의견 정보들을 자동 추출 및 분석함으로써, 긍정/부정 의견별로 검색 및 통계를 확인할 수 있는 의견 검색 서비스를 제공한다. 그 결과 의견 검색 사용자들은 특정 키워드에 대하여 다른 사용자들의 의견을 손쉽게 한눈에 검색 및 모니터링하는 시스템을 용이하게 사용할 수 있으며, 웹 콘텐츠에서의 의견 추출 및 분석하는 기능을 제공받는다. 제안한 기법들은 다른 기법들과의 비교 실험을 수행하여 실제 성능이 우수함을 증명하였다. 성능 평가는 긍정/부정 의견 정보를 추출하는 기능의 성능 평가, 다국어 정보 검색을 위한 동적 윈도우 기법과 토크나이저 기법을 적용한 성능 평가, 그리고 정확한 다국어 음차표기를 추출 기법에 성능 평가를 실시하였다. 그 적용 사례로 대표적인 영화 리뷰 문장과 위키디피아 실험 데이터를 대상으로 실험하고 그 결과를 분석하였다.

Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색 (Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science)

  • 김한성
    • 컴퓨터교육학회논문지
    • /
    • 제22권3호
    • /
    • pp.67-78
    • /
    • 2019
  • 본 연구의 목적은 Web of Science(WoS)에서 제공하는 학술 빅데이터를 활용하여 정보윤리 이슈를 탐색하고 향후 정보과 정보윤리 교육을 위한 시사점을 제공하는 것에 있다. 이를 위해 WoS에서 제공하는 학술논문 중 정보윤리와 관련해 출판된 318편의 논문을 텍스트 마이닝 하였다. 구체적으로는 R을 활용해 주요키워드에 대한 빈도 분석(TF, DF, TF-IDF), 토픽 모델링 기반의 정보윤리 이슈 분석, 그리고 각 이슈에 대한 연도별 출연 빈도를 분석하여 정보윤리 연구의 경향성을 탐색하였다. 주요 결과를 살펴보면 다음과 같다. 첫째, TF-IDF를 통해 'digital', 'student', 'software', 'privacy' 등의 단어가 주요 키워드임을 확인하였다. 둘째, 토픽 모델링 분석 결과, 'Professional value', 'Cyber-bullying', 'AI and Social Impact' 등을 포함한 총 8개 이슈로 분석되었고, 그 중, 'Professional value'와 'Cyber-bullying' 이슈가 상대적으로 높은 비율을 차지하고 있었다. 본 연구는 이러한 분석 결과를 기초로 우리나라 정보윤리 교육을 시사점을 논의하였다.

확률 기반 웹 콘텐츠 마이닝 (Probabilistic based Web Contents Mining)

  • 윤보현;조광문
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.16-20
    • /
    • 2006
  • 웹문서에 대한 콘텐츠 마이닝에서 레이블이 없는 엔티티 인식과 하위정보 및 추출결과의 정보통합은 중요하다. 본 논문에서는 레이블이 없는 엔티티를 인식하기 위해 베이지언 모델에 기반한 확률 기반 인식 방법을 제안한다. 또한 웹문서에 존재하는 하위링크정보를 이용하고, 추출한 중복된 결과를 통합할 수 있는 방안을 제시한다. 실험결과, 확률기반 엔티티인식과 정보통합을 수행한 방법이 가장 우수한 성능을 보임을 알 수 있다.

  • PDF

웹마이닝과 상품계층도를 이용한 협업필터링 기반 개인별 상품추천시스템

  • 안도현;김재경;조윤호
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2004년도 춘계공동학술대회 논문집
    • /
    • pp.510-514
    • /
    • 2004
  • Recommender systems are a personalized information filtering technology to help customers find the products they would like to purchase. Collaborative filtering is known to be the most successful recommendation technology, but its widespread use has exposed some problems such as sparsity and scalability in the e-business environment. In this paper, we propose a recommendation methodology based on Web usage mining and product taxonomy to enhance the recommendation quality and the system performance of original CF-based recommender systems. Web usage mining populates the rating database by tracking customers' shopping behaviors on the Web, so leading to better quality recommendations. The product taxonomy is used to improve the performance of searching for nearest neighbors through dimensionality reduction of the rating database. Several experiments on real e-commerce data show that the proposed methodology provides higher quality recommendations and better performance than original collaborative filtering methodology.

  • PDF

특화된 웹2.0 여행사 시스템의 설계 및 구현 (Design and Implementation of specialized Web 2.0 Travel Agency System)

  • 김정숙;이야리;홍경표
    • 디지털산업정보학회논문지
    • /
    • 제5권1호
    • /
    • pp.9-22
    • /
    • 2009
  • This paper is an explanation of a design and an implementation of Web 2.0 online travel agency system for frequent decision-making. On the Web 2.0 travel agency system, optimized information is obtained by applying data mining technology such as association rules, decision trees, and neural networks, and this system is a unified system that consists of the block systems of hotels, ground traffic, and flights in tour packages of a travel agency system. Furthermore, it is implemented to manage the system that is not for the administrator of a travel agency system, but for users or communities that use the system need their own information. The expected effect of this system is to maximize the investment company's efficiency through a new-concept interest model created by B2C customers, and also B2B small and medium-sized travel agencies adopting the system. As a result, it is a system that stimulates dormant customer activity and prevents good customers from leaving by maximizing the merit and capacity of the existed web site for marketing. Moreover, this system is also a model for people who plan customized travel agency business, and will show a way for the domestic and international travel agency industry's globalization.

퍼지 연관규칙을 이용한 뉴스레터 시스템 설계 및 구현 (Design AND IMPLEMENTATION of A News letter system using fuzzy association rules)

  • 정연홍;박우수;박규석
    • 인터넷정보학회논문지
    • /
    • 제3권5호
    • /
    • pp.41-49
    • /
    • 2002
  • 웹 마이닝은 World Wide Web으로부터 유용한 정보를 발견하고 분석하는 일로 정의 할 수 있다. 본 논문에서는 이러한 웹 마이닝을 통하여, 사용자 접근 페이지(성향)를 분석하고, 사용자에게 유용한 정보를 제공할 수 있는 시스템을 구축 하였다. 제안 시스템은 웹 사이트를 방문한 사용자의 행동과 발송된 뉴스레터로부터의 행동에 따른 정보를 조사하고 필터링을 통해 카테고리별로 분류과정을 거친다. 이러한 과정을 통해 생성된 각 카테고리에 대해 최근에 접근한 사용자들에 퍼지 연관규칙 (fuzzy association rules)을 적용하며, 이렇게 생성된 집합과 각 사용자가 접근한 페이지들의 집합을 비교하여 각 사용자에게 적합한 뉴스레터를 발송할 수 있다.

  • PDF

빅데이터를 활용한 음식관광관련 의미연결망 분석의 탐색적 적용 (An Exploratory Study on the Semantic Network Analysis of Food Tourism through the Big Data)

  • 김학선
    • 한국조리학회지
    • /
    • 제23권4호
    • /
    • pp.22-32
    • /
    • 2017
  • The purpose of this study was to explore awareness of food tourism using big data analysis. For this, this study collected data containing 'food tourism' keywords from google web search, google news, and google scholar during one year from January 1 to December 31, 2016. Data were collected by using SCTM (Smart Crawling & Text Mining), a data collecting and processing program. From those data, degree centrality and eigenvector centrality were analyzed by utilizing packaged NetDraw along with UCINET 6. The result showed that the web visibility of 'core service' and 'social marketing' was high. In addition, the web visibility was also high for destination, such as rural, place, ireland and heritage; 'socioeconomic circumstance' related words, such as economy, region, public, policy, and industry. Convergence of iterated correlations showed 4 clustered named 'core service', 'social marketing', 'destinations' and 'social environment'. It is expected that this diagnosis on food tourism according to changes in international business environment by using these web information will be a foundation of baseline data useful for establishing food tourism marketing strategies.