• Title/Summary/Keyword: 빈발 항목

Search Result 99, Processing Time 0.023 seconds

Clustering XML Documents Considering The Weight of Large Items in Clusters (클러스터의 주요항목 가중치 기반 XML 문서 클러스터링)

  • Hwang, Jeong-Hee
    • The KIPS Transactions:PartD
    • /
    • v.14D no.1 s.111
    • /
    • pp.1-8
    • /
    • 2007
  • As the web document of XML, an exchange language of data in the advanced Internet, is increasing, a target of information retrieval becomes the web documents. Therefore, there we researches on structure, integration and retrieval of XML documents. This paper proposes a clustering method of XML documents based on frequent structures, as a basic research to efficiently process query and retrieval. To do so, first, trees representing XML documents are decomposed and we extract frequent structures from them. Second, we perform clustering considering the weight of large items to adjust cluster creation and cluster cohesion, considering frequent structures as items of transactions. Third, we show the excellence of our method through some experiments which compare which the previous methods.

Efficient Frequent Pattern Mining in Multiple Two-Dimensional Arrays (다수의 2 차원 배열에서 효율적인 빈발 패턴 탐색 기법)

  • Kim, Han-seul;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.326-329
    • /
    • 2021
  • 데이터베이스에서의 빈발 패턴 탐색은 일정 횟수 이상 같이 등장하는 항목들의 집합을 찾는 문제이다. 본 논문은 다수의 2 차원 배열들이 주어졌을 때, 이들 내부에서 빈번히 같이 등장하는 부분 구역들을 찾는 문제를 다룬다. 하지만 기존 빈발 패턴 탐색 기법들은 배열 내 원소들의 위치 관계까지 고려하지는 않기 때문에 본 문제에 바로 적용하기는 어렵다. 따라서 본 논문은 다수의 2 차원 배열 내에서 빈번히 같이 발생하는 부분 구역들을 효율적으로 찾는 기법을 제안한다. 본 논문의 선행 연구에서는 주어진 배열들을 두 번 스캔하여 빈발 부분 구역 집합을 찾는 기법을 제안하였다. 본 논문에서는 이를 개선하여 배열들을 한 번만 스캔하고도 빈발 부분 구역 집합을 찾는 효율적인 기법을 제안한다. 이를 위해 제안 방법은 지금까지 탐색된 부분 구역들에 대한 정보를 메모리에 효율적으로 유지한다. 실험결과 제안방법은 기존 방법에 비해 수행시간을 약 30% 단축함을 보였다.

Extraction of Optimal Moving Pattern using Maximum Frequent 2-Sequence (최대 빈발 2-시퀀스를 이용한 최적 이동 패턴 추출)

  • Lee, Yon-Sik;Ko, Hyun;Kim, Kwang-Jong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06d
    • /
    • pp.367-372
    • /
    • 2008
  • 최근 사용자들의 특성에 맞게 개인화되고 세분화된 위치 기반 서비스를 개발하기 위한 목적으로 이동 객체의 다양한 패턴들 중 의미있는 지식인 유용한 이동 패턴을 탐사하는 문제가 주요 이슈로 부각되고 있다. 이에 본 논문에서는 방대한 이동 객체의 이력 데이터 집합으로부터 특정 지점들 간의 최적 이동 경로나 정해진 시간내의 스케줄링 경로 탐색과 같이 복합적인 시간 및 공간 제약을 갖는 최적 이동 패턴을 탐사하는 문제에 대해 정의하고, 다양한 이동 패턴들 중 가장 빈발하게 발생하는 패턴이 최적의 비용을 소요할 것이라는 가정을 기반으로 최대 빈발 2-시퀀스를 추출하는 방법을 제안한다. 후보 시퀀스 집합으로부터 지지도 계산을 통해 추출되는 빈발 2-시퀀스들의 순차적인 조합은 패턴 탐사를 수행하는 각 패스 진행 시 후보 시퀀스 항목의 차수가 점차 감소하여 최적 이동 패턴 탐사 방법에 효과적으로 적용된다.

  • PDF

Efficient Mining E-Shopper's Purchase Behavior Based on Maximal Frequent Patterns (최대 빈발 패턴을 이용한 온라인 쇼핑객의 구매규칙에 대한 효율적인 마이닝)

  • Jo, Jae-Hyun;Karim, Md. Rezaul;Jeong, Byeong-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1357-1360
    • /
    • 2012
  • 온라인 쇼핑객의 구매 규칙을 예견하기 위해 기업은 데이터 마이닝 기법을 사용하는데, 최대 빈발 패턴은 특정한 고객의 구매 원칙을 드러내기 때문에, 최대 빈발 패턴에 대한 마이닝은 최근 시장 분석에서 핵심적 이슈가 되고 있다. 본 논문에서 우리는 오리지널 데이터세트로부터 널 트랜잭션(Null Transaction)을 제거한 후, 최대 빈발 패턴을 발생시키기 위한 BRE-트리(Bottom-up Row Enumeration Tree)를 적용시켰다. 다음으로 온라인 거래 데이터베이스에서 고객 구매 규칙의 마이닝을 위한 항목들 간의 거리를 계산하기 위해, SCL(Sequence Close Level)의 변형된 버전을 사용하였다. 실험결과는 합리적인 시간 내에 고객의 구매 규칙을 더 정확하게 예견할 수 있음을 보여준다.

Personalized Group Recommendation Using Collaborative Filtering and Frequent Pattern (협업 필터링과 빈발 패턴을 이용한 개인화된 그룹 추천)

  • Kim, Jung Woo;Park, Kwang-Hyun
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.41 no.7
    • /
    • pp.768-774
    • /
    • 2016
  • This paper deals with a method to recommend the combination of items as a group according to similarity to handle application area such as fashion and cooking, while the previous methods recommend single item such as a book, music or movie. Collaborative filtering is a method to recommend an item selected by users with similar tendency based on similarity between users. In this paper, the proposed method generates a set of frequent items based on collaborative filtering and association rules and recommends a group by similarity between groups. To show the validity of the proposed method, experiments are performed with purchase data collected from e-commerce for four months.

An Estimation of Driving Aptitude Effect on Traffic Safety (운전적성결손이 교통사고에 미치는 영향 연구)

  • 박영욱;전경수
    • Journal of Korean Society of Transportation
    • /
    • v.19 no.1
    • /
    • pp.139-148
    • /
    • 2001
  • 본 연구는 교통사고 야기 자들의 운전정밀적성검사기록과 해당 교통사고기록을 비교하여 특정 운전적성상의 결손이 교통사고와 특정유형의 교통사고에 미치는 영향을 계량적으로 분석하는 것을 목적으로 하였다. 본 연구를 위하여 우리나라에서 가장 빈발하는 인적요인에 의한 교통사고 유형 중에서 교통상충이 빈발하는 지점에서 발생하는 차-대-차 사고를 조사분석대상으로 삼았다. 이와 같이 분석대상사고를 선정한 이유는 교통상충이 교통사고로 발전하는 과정에서 사고 제1당사자의 운전적성의 역할을 파악하고자하는 목적에서이다. 따라서 본 연구의 대상이 되는 교통사고 유형을 1. 교차로 진입부에서의 추돌사고, 2. 교차로내 충추돌사고, 3. 단일로상의 추돌사고로 선정하였다. 판별력이 의문시되는 4개 항목을 제외한 조사분석결과에서 하나의 항목을 제외하고 사고 야기자와 일반인의 운전적성상에 통계적으로 분명한 차이가 있으며 각 항목의 결손자 집단에서의 사고자 비율이 일반운전자 집단에 비해 교통사고를 경험한 확률이 2배 내지 4배 가량 높았다. 또한 특정 유형 사고 야기자와 사고 야기자 전체, 일반운전자 집단간 비교에서도 항목별 결손율이 분명한 다른 형태를 갖고 있다는 사실을 확인했으며, 특정유형의 결손(조합)자 집합에서 특정 교통사고 유형을 야기시켰을 확률이 일반인 집단에 비해 많게는 13배 적게는 3, 4배 정도 높다고 추정되었다.

  • PDF

Memory Improvement Method for Extraction of Frequent Patterns in DataBase (데이터베이스에서 빈발패턴의 추출을 위한 메모리 향상기법)

  • Park, In-Kyu
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.19 no.2
    • /
    • pp.127-133
    • /
    • 2019
  • Since frequent item extraction so far requires searching for patterns and traversal for the FP-Tree, it is more likely to store the mining data in a tree and thus CPU time is required for its searching. In order to overcome these drawbacks, in this paper, we provide each item with its location identification of transaction data without relying on conditional FP-Tree and convert transaction data into 2-dimensional position information look-up table, resulting in the facilitation of time and spatial accessibility. We propose an algorithm that considers the mapping scheme between the location of items and items that guarantees the linear time complexity. Experimental results show that the proposed method can reduce many execution time and memory usage based on the data set obtained from the FIMI repository website.

Extracting Common Structure of Semistructured data Using mining frequent patterns (빈발 패턴 탐사 기법을 이용한 반구조적 데이터로부터의 공통구조 추출)

  • 이영언;문봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.302-304
    • /
    • 2000
  • 인터넷의 발달로 웹에는 엄청난 데이터가 존재하나, 불규칙적인 구조를 이루고 있는 반구조적 데이터가 대부분이다. 이러한 반구조적 데이터는 데이터들간의 어떤 정확하게 정해진 구조를 갖고 있진 않지만 불완전하고 불규칙한 구조 정보를 포함하고 있는 것으로, 데이터들 간의 관계를 규명할 수 있는 공통 구조 정보를 추출하여 효과적으로 구조화시킴으로써 정보로서의 가치를 높일 필요성이 대두되게 되었다. 또, 데이터 처리 과정에서 기존의 잘 정의된 구조를 가진 데이터베이스의 장점을 수용하기 위해서는 반구조적 데이터 집합의 불완전한 구조 정보로부터 공통 구조를 추출하는 것이 요구된다. 본 연구에서는 후보 항목 집합의 생성이 없는 빈발 패턴 탐사 기법을 사용하여 반구조적 데이터 집합으로부터 공통구조를 추출하고자 한다.

  • PDF

An Implementation and Performance Characteristics of the FP-tree Association Rules Mining Algorithm (FP-tree 연관 규칙 탐사 알고리즘의 구현 및 성능 특성)

  • Lee, Hyung-Bong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.337-340
    • /
    • 2006
  • FP-tree(Frequent Pattern Tree) 연관 규칙 탐사 알고리즘은 DB 스캔에 대한 부담을 획기적으로 절감시킴으로써 전체적인 성능을 향상시키고자 제안되었다. 그런데, FP-tree는 DB에 저장된 거래 내용중 빈발 항목을 포함하는 모든 거래를 트리에 저장해야 하기 때문에 그만큼 많은 메모리를 필요로 한다. 이 논문에서는 범용 운영체제인 유닉스 시스템을 사용해서 메모리 사용 측면에서 F.P. Tree 알고리즘의 타당성과 이에 따른 성능 특성을 관찰하였다. 그 결과, F.P. Tree 알고리즘은 현대 컴퓨터에서 보편화된 512MB${\sim}$1GB의 주메모리 시스템에서 무리는 없으나, 메모리 소요량이 DB의 크기나 빈발 항목 집합의 수 보다는 거래의 길이 등 DB의 특성에 따라 급격하게 증가하는 것으로 나타났다.

  • PDF

A Method for Frequent Itemsets Mining from Data Stream (데이터 스트림 환경에서 효율적인 빈발 항목 집합 탐사 기법)

  • Seo, Bok-Il;Kim, Jae-In;Hwang, Bu-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.19D no.2
    • /
    • pp.139-146
    • /
    • 2012
  • Data Mining is widely used to discover knowledge in many fields. Although there are many methods to discover association rule, most of them are based on frequency-based approaches. Therefore it is not appropriate for stream environment. Because the stream environment has a property that event data are generated continuously. it is expensive to store all data. In this paper, we propose a new method to discover association rules based on stream environment. Our new method is using a variable window for extracting data items. Variable windows have variable size according to the gap of same target event. Our method extracts data using COBJ(Count object) calculation method. FPMDSTN(Frequent pattern Mining over Data Stream using Terminal Node) discovers association rules from the extracted data items. Through experiment, our method is more efficient to apply stream environment than conventional methods.