• 제목/요약/키워드: Rule mining

검색결과 479건 처리시간 0.023초

The extension of the largest generalized-eigenvalue based distance metric Dij1) in arbitrary feature spaces to classify composite data points

  • Daoud, Mosaab
    • Genomics & Informatics
    • /
    • 제17권4호
    • /
    • pp.39.1-39.20
    • /
    • 2019
  • Analyzing patterns in data points embedded in linear and non-linear feature spaces is considered as one of the common research problems among different research areas, for example: data mining, machine learning, pattern recognition, and multivariate analysis. In this paper, data points are heterogeneous sets of biosequences (composite data points). A composite data point is a set of ordinary data points (e.g., set of feature vectors). We theoretically extend the derivation of the largest generalized eigenvalue-based distance metric Dij1) in any linear and non-linear feature spaces. We prove that Dij1) is a metric under any linear and non-linear feature transformation function. We show the sufficiency and efficiency of using the decision rule $\bar{{\delta}}_{{\Xi}i}$(i.e., mean of Dij1)) in classification of heterogeneous sets of biosequences compared with the decision rules min𝚵iand median𝚵i. We analyze the impact of linear and non-linear transformation functions on classifying/clustering collections of heterogeneous sets of biosequences. The impact of the length of a sequence in a heterogeneous sequence-set generated by simulation on the classification and clustering results in linear and non-linear feature spaces is empirically shown in this paper. We propose a new concept: the limiting dispersion map of the existing clusters in heterogeneous sets of biosequences embedded in linear and nonlinear feature spaces, which is based on the limiting distribution of nucleotide compositions estimated from real data sets. Finally, the empirical conclusions and the scientific evidences are deduced from the experiments to support the theoretical side stated in this paper.

Effectiveness of Repeated Examination to Diagnose Enterobiasis in Nursery School Groups

  • Remm, Mare;Remm, Kalle
    • Parasites, Hosts and Diseases
    • /
    • 제47권3호
    • /
    • pp.235-241
    • /
    • 2009
  • The aim of this study was to estimate the benefit from repeated examinations in the diagnosis of enterobiasis in nursery school groups, and to test the effectiveness of individual-based risk predictions using different methods. A total of 604 children were examined using double, and 96 using triple, anal swab examinations. The questionnaires for parents, structured observations, and interviews with supervisors were used to identify factors of possible infection risk. In order to model the risk of enterobiasis at individual level, a similarity-based machine learning and prediction software Constud was compared with data mining methods in the Statistica 8 Data Miner software package. Prevalence according to a single examination was 22.5%; the increase as a result of double examinations was 8.2%. Single swabs resulted in an estimated prevalence of 20.1% among children examined 3 times; double swabs increased this by 10.1%, and triple swabs by 7.3%. Random forest classification, boosting classification trees, and Constud correctly predicted about 2/3 of the results of the second examination. Constud estimated a mean prevalence of 31.5% in groups. Constud was able to yield the highest overall fit of individual-based predictions while boosting classification tree and random forest models were more effective in recognizing Enterobius positive persons. As a rule, the actual prevalence of enterobiasis is higher than indicated by a single examination. We suggest using either the values of the mean increase in prevalence after double examinations compared to single examinations or group estimations deduced from individual-level modelled risk predictions.

클라우드 시스템에서 소셜 시멘틱 웹 기반 협력 프레임 워크 (Collaboration Framework based on Social Semantic Web for Cloud Systems)

  • 마테오 로미오;양현호;이재완
    • 인터넷정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.65-74
    • /
    • 2012
  • 클라우드 서비스는 비즈니스 향상을 위해 사용되며, 특히, 고객 관리에서는 고객 서비스 향상을 위한 툴로서 소셜 네트워크를 사용한다. 그러나 대부분의 클라우드 시스템은 시멘틱 구조를 지원하지 않기 때문에 소셜 네트워크 사이트의 중요한 정보는 비즈니스 정책을 위해 처리 및 사용이 어렵다. 본 연구에서는 클라우드 시스템에서 소셜 시멘틱 웹에 기반을 둔 협력 프레임 워크를 제안한다. 제안한 프레임 워크는 클라우드 소비자와 서비스 제공자를 위한 효율적인 협력시스템을 제공하기 위해, 소셜 시멘틱 웹 지원을 위한 요소들로 구성된다. 지식획득모듈은 소셜 에이전트가 수집한 데이터로부터 규칙을 추출하며, 이 규칙들은 협력 및 경영정책에 사용된다. 본 논문은 제안한 시멘틱 모델에서 소셜 네트워크 사이트 데이터의 처리 및 효율적인 협력을 위한 클라우드 서비스 제공자의 가상 그룹핑을 위해 사용될 패턴 추출에 대한 구현 결과를 보여준다.

이동통신고객 분류를 위한 의사결정나무(C4.5)와 신경망 결합 알고리즘에 관한 연구 (A Study on the Combined Decision Tree(C4.5) and Neural Network Algorithm for Classification of Mobile Telecommunication Customer)

  • 이극노;이홍철
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.139-155
    • /
    • 2003
  • 본 논문은 결합된 의사결정 나무(C4.5)와 신경망기법을 적용함으로써 고객의 신용에 대한 예측을 높이기 위하여 이동통신 고객의 패턴을 분류하고, 분석하는 새로운 방법에 대하여 연구하였다. 의사 결정나무(C4.5)를 형성하여 선택된 결정변수와 함께 규칙을 생성함으로써, 신경망의 입력벡터 값을 정의하는 체계적인 방법을 제시하였다. 고객 관리측면에서 본 논문은 이동 통신 회사의 기존고객을 분류하여 패턴을 분석함으로써 우수한 고객의 지속적인 관리와 이탈 가능성이 많은 고객을 차별 관리하여 기업이익을 증대시킬 수 있을 것이다. 또한 이러한 분류를 통하여 신규 고객에 반영함으로써 고객의 향후 관리에도 기여할 수 있을 것이다. 실제 이동통신 고객데이터를 중심으로 연구의 결과는 예측의 정확도가 기존의 의사결정 트리 모델 (CART, C4.5), 회귀모형, 신경망 접근 방법과 기존에 연구되었던 결합모델(CART & 신경망)보다 훨씬 높게 연구되었다.

  • PDF

연관 규칙 기반의 상품 검색 데이터베이스 최적화 연구 (A Study on the Product Searching Database Optimization Based on Association Rules)

  • 황현숙;박규석
    • 한국멀티미디어학회논문지
    • /
    • 제7권2호
    • /
    • pp.145-155
    • /
    • 2004
  • 인터넷 쇼핑몰을 구성하는 관리자 입장에서는 사용자 중심의 편리한 검색 기능과 시스템 중심의 빠른 검색 기능을 가지는 것이 매우 중요하다. 전자는 사용자의 다양한 요구를 만족시킬 수 있는 최적화된 입력 매개 변수를 찾아내는 것이며, 후자는 속성이 다른 다양한 입력 변수들을 효과적으로 정규화 하여 빠른 검색 해를 찾아내는 것이다. 본 연구에서는 기본적으로 사용자의 다양한 요구를 최대한 반영하기 위해 다중 속성을 가진 검색 기능은 물론 보다 빠른 검색 기능을 가지기 위한 데이터베이스 최적화 구성에 초점을 두고 있다. 이를 위해 인터넷 쇼핑몰의 검색 특성을 반영할 수 있는 연관 규칙의 척도인 지지도와 신뢰도를 고려한 수정된 연관 알고리즘을 제시하며, 빠른 검색 기능을 가지기 위한 모델관리 시스템을 제안한다. 수행된 시뮬레이션 결과에 의하면 고객의 검색 트랜잭션 수가 증가할수록 전체 평균 검색 시간은 상대적으로 줄어든다.

  • PDF

형식개념분석기법을 이용한 사용자 질의 기반의 연관관계 추출 자동화지원도구의 개발 (On Development of an Automatic Tool for Extracting Association Rules of a user query using Formal Concept Analysis)

  • 김응희;황석형;김홍기
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.429-440
    • /
    • 2008
  • 형식개념분석기법(Formal Concept Analysis)은, 주어진 데이터로부터 공통속성을 갖는 객체들을 개념단위로 추출, 계층화하여 데이터에 내재된 개념들의 구조를 가시화 해주는 데이터분석기법으로써, 최근 다양한 분야에서 응용되고 있다. 본 연구에서는, 형식개념분석기법을 토대로, 사용자의 질의에 대한 함의관계(Implication)와 연관관계(Association rule)에 관한 정보추출과, 추출된 제반 정보들을 구조화하여 가시적으로 표현하기 위한 기법을 제안하고, 이를 지원하기 위하여, 함의/연관관계 추출 및 가시화 지원도구인 QAG-Wizard를 개발하였다. 본 연구결과는, 주어진 데이터의 속성을 기반으로 하는 사용자의 질의에 대하여, 데이터에 내재되어 있는 관계정보를 보다 다양하게 추출하고 직관적으로 표현 가능하므로, 데이터분석과 마이닝 뿐만 아니라, 질의기반의 정보검색분야 등에서 다양한 목적에 맞추어 활용될 수 있다.

하이브리드 의사결정나무와 인공신경망 모델을 이용한 방문학습지사의 고객세분화 (Customer Segmentation of a Home Study Company using a Hybrid Decision Tree and Artificial Neural Network Model)

  • 서광규;안범준
    • 한국산학기술학회논문지
    • /
    • 제7권3호
    • /
    • pp.518-523
    • /
    • 2006
  • 본 논문은 하이브리드 의사결정 나무(CART)와 인공신경망 모델을 개발하여 고객의 이탈에 대한 예측을 높이기 위하여 가정방문 학습지 고객의 패턴을 분류하고, 분석하는 새로운 방법에 대하여 연구하였다. 의사 결정나무(CART5)를 형성하여 선택된 결정변수들은 인공신경망의 입력벡터 값으로 선택되는 새로운 방법을 제시하였다. 고객 관리측면에서 본 논문은 가정방문 학습지 회사의 기존고객을 분류하여 패턴을 분석함으로써 우수한 고객의 지속적인 관리와 이탈 가능성이 많은 고객을 차별 관리하여 기업이익을 증대시킬 수 있을 것이다. 새롭게 제안한 하이브리드 모델은 기존의 의사결정트리모델(CART), 회귀모형, 인공신경망 모델과 비교한 결과 그 예측 정확성이 높음을 확인할 수 있었다.

  • PDF

고객의 동적 선호 탐색을 위한 순차패턴 분석: (주)더페이스샵 사례 (A Sequential Pattern Analysis for Dynamic Discovery of Customers' Preference)

  • 송기룡;노성호;이재광;최일영;김재경
    • 경영정보학연구
    • /
    • 제10권2호
    • /
    • pp.195-209
    • /
    • 2008
  • 고객의 니즈가 시시각각 변화하는 경영환경에서 획일화된 매장관리 방법으로 매장의 수익성을 증대시키기에는 한계가 있다. 따라서 고객의 선호 변화를 예측하여 각 매장에 적절한 상품을 추천할 필요가 있다. 본 연구에서는 판매 데이터 분석을 통해 시간 순서를 고려한 상품 추천 및 매장관리 방법을 제안한다. 즉 자기조직화지도(Self Organizing Map) 알고리즘을 이용하여 매장의 판매 프로파일을 군집화하고, 매장 궤적의 예측을 통해 목표 매장을 관리하는 방법을 제시한다. 본 연구의 방법론을 검증하기 위해 (주)더페이스샵 판매데이터를 적용하여 평가하였으며, 평가결과 제시한 방법론은 화장품처럼 유행에 민감하고 라이프사이클이 짧은 특징을 지닌 상품을 판매하는 매장의 수익성 증대에 기여할 수 있을 것으로 기대된다.

인터넷 문서빈도를 통해 본 도시순위규모에 관한 연구 -미국 10만 이상의 인구를 갖는 도시들을 사례로- (Rank-Size Distribution with Web Document Frequency of City Name : Case study with U.S incorporated places of 100,000 or more population)

  • 홍일영
    • 한국지역지리학회지
    • /
    • 제13권3호
    • /
    • pp.290-300
    • /
    • 2007
  • 본 연구는 인터넷 문서상에 나타나는 도시 지명의 문서 빈도를 통계량으로 도시규모에 대한 분석을 실시하였다. 검색어가 갖는 의미상의 차이에 따른 조건과 검색의 범위를 제약하면서 나타나는 유의적인 차이점들에 대해 분석하였고, 도시규모분포의 상관계수에 대한 분석을 통해 인구와 문서빈도와의 차이점을 분석하였다. 각 도시의 인구와 문서빈도와 상관관계 분석에서는 검색어의 종류를 보다 공간적의 의미로 제약할수록 더 높은 상관관계가 나타났고, 문서의 종류는 상용, 네트워크, 기관의 경우에 있어서 높은 상관관계가 나타났다. 그리고 인구와 문서빈도의 통계량을 이용한 군집분석을 통해서, 인구에 비해 더 많은 혹은 낮은 문서빈도를 보이는 도시들을 파악하였다. 이와 같은 분석은 웹 문서라는 정보통신사회 속에서 반영되는 각 도시의 특성을 분석하는 새로운 방안을 제시한다는 점에서 큰 의미를 갖는다고 할 수 있다.

  • PDF

빈발 항목의 탐색 시간을 단축하기 위한 알고리즘 (An Algorithm for reducing the search time of Frequent Items)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.147-156
    • /
    • 2011
  • 최근 정보시스템의 활용도가 높아짐에 따라, 많은 데이터를 이용하여 필요한 상품을 빠르게 추출하는 방법들에 대한 연구가 활발히 이루어지고 있다. 숨겨진 패턴을 탐색하는 연관 규칙 탐색 기법들이 많은 관심을 받고 있으며, Apriroi 알고리즘은 대표적인 기법이다. 그러나 Apriori 알고리즘은 반복적인 스캔으로 인한 탐색시간 증가 문제를 가지고 있다. 본 논문에서는 빈발항목의 탐색시간을 단축하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 트랜잭션 데이터베이스를 이용하여 매트릭스를 생성하고 매트릭스에서 트랜잭션들의 평균 항목 개수와 정의한 최소 지지도를 사용하여 빈발 항목을 탐색한다. 트랜잭션의 평균 항목 개수는 트랜잭션의 수를 줄이는데 사용되고 최소 지지도는 항목을 줄이는데 사용된다. 제안한 알고리즘의 성능 평가는 기존 알고리즘과의 탐색시간 비교와 정확도 비교로 이루어진다. 실험 결과는 제안한 알고리즘이 기존의 Apriori와 매트릭스 알고리즘보다 최종 빈발 항목의 추출에서 빠르고 효율적으로 탐색이 이루어지는 것을 확인하였다.