• 제목/요약/키워드: Association Rules Mining

검색결과 308건 처리시간 0.028초

데이터 마이닝 질의 처리를 위한 질의 처리기 설계 및 구현 (Design and Implementation of a Data Mining Query Processor)

  • 김충석;김경창
    • 정보처리학회논문지D
    • /
    • 제8D권2호
    • /
    • pp.117-124
    • /
    • 2001
  • 데이터 마이닝 시스템은 기본적으로 요약화, 연관화와 분류화 등 다양한 유형의 데이터 마이닝 기능을 포함한다. 이들 기능을 수행하기 위해서 포괄적으로 표현하기 위한 강력한 데이터 마이닝 질의 언어가 요구되며, 사용자에게 보다 친숙한 마이닝 환경을 제공하기 위해서 그래픽 사용자 인터페이스(GUI)를 이용한 데이터 마이닝 질의 언어의 개발이 중요하게 언급된다. 뿐만 아니라 데이터 마이닝 그 자체로서 독립적인 수행이 아니라 수많은 데이터를 포함하며, 의사결정에 적합한 구조로 설계되어 있는 데이터 웨어하우스와 연관된 데이터 마이닝 질의 처리가 필요하다. 본 논문에서는 먼저 GUI를 통하여 사용자가 쉽게 데이터 마이닝 질의를 수행할 수 있도록 한다. 또한 질의를 처리하기 위한 데이터 마이닝 질의 처리 프레임워크를 제시한다. 데이터마이닝 질의의 대상은 데이터 웨어하우스에 저장되어 있는 데이터이기 때문에 데이터 웨어하우스의 구축이 필요하다. 본 논문에서는 데이터 웨어하우스 구축에 필요한 스키마 생성을 위해서 스키마 생성기를 아울러 개발하여 이용한다. 마지막으로 연관 규칙 발견을 위한 데이터 마이닝 질의를 처리하기 위한 질의 처리기의 구현 내용을 보인다.

  • PDF

자유트리 기반의 그래프마이닝 기법 분석 (Analysis of Graph Mining based on Free-Tree)

  • 노영상;윤은일;류근호;김명준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.275-278
    • /
    • 2008
  • 데이터마이닝은 현재 매우 각광 받고 있는 분야다. 연관규칙탐사는 트랜잭션 데이터베이스에서 일정빈도 이상의 패턴을 찾아내는 작업을 말한다. 그중 빈발서브그래프패턴 마이닝은 최근 관심이 늘어나고 있으며, 그 활용도 또한 매우 높다. 그래프마이닝은 아이템셋마이닝보다 훨씬 더 많은 계산을 필요로 한다. 중복을 최소화 하는 방법이 필요하며, 그중 가장 좋은 성능을 보이는 GASTON 알고리즘을 분석한다.

프로세스 마이닝 기법을 활용한 고장 수리 프로세스 분석 (Analysis of a Repair Processes Using a Process Mining Tool)

  • 최상현;한관희;임건훈
    • 한국콘텐츠학회논문지
    • /
    • 제13권4호
    • /
    • pp.399-406
    • /
    • 2013
  • 최근 기업의 비즈니스 프로세스를 혁신하고 효율화하기 위한 다양한 연구가 활발히 진행되고 있는 가운데, 의미 있는 비즈니스 프로세스 모델을 생성하고 분석하는 프로세스 마이닝 연구 분야가 주목받고 있다. ERP (Enterprise Resource Planning) 시스템이나 BPM (Business Process Management) 시스템에서 발생되는 업무 처리 내역이나 이벤트 로그를 분석하여 의미 있는 정보나 규칙을 발견해 낼 수 있는 프로세스 마이닝 기법은 다양한 분야에서 적용되고 있다. 본 연구에서는 프로세스 마이닝 도구인 ProM 시스템을 실제 고장 수리 사례에 적용하여 고장 수리 프로세스를 분석하고 제품의 주요 고장 패턴을 발견하는 방법을 제시한다. 고장 수리 프로세스 분석 결과 단순 통계 분석 결과에서 발견할 수 없었던 연결된 흐름의 빈도 분석이 가능하였으며, 연결된 흐름들 중에서 문제가 되는 프로세스에 대한 업무 향상 방안을 제시할 수 있었다.

Association Rules of Comorbidities in Dementia by Using Korea National Hospital Discharge In-depth Injury Survey Data

  • Kim, Mijung
    • International journal of advanced smart convergence
    • /
    • 제11권1호
    • /
    • pp.127-133
    • /
    • 2022
  • This study aims to find out the associative relationship between dementia and comorbidities. To conduct this study, we used KNHDIS(Korea National Hospital Discharge In-depth Injury Survey) data from 2009 to 2018 provided by the KDCA(Korean Disease Control and Prevention Agency) annually. We used MySQL for data preprocessing and R for data analysis. As a result of applying the Apriori algorithm criteria of support(≥0.01), confidence(≥ 0.6), and lift(>1), seventeen rules related to dementia were discovered. The diseases associated with dementia were diabetes mellitus, hypertension, disorders of lipoprotein metabolism, glomerular disorders in diabetes mellitus, renal diseases, cardiovascular disease, cerebrovascular disease, and other urinary system disorders. This study can be utilized as primary data for the care of patients with dementia and provides implications for improving effective dementia prevention policies.

효율적인 연관규칙 감축을 위한 WT-알고리즘에 관한 연구 (A Study on WT-Algorithm for Effective Reduction of Association Rules)

  • 박진희;피수영
    • 한국산업정보학회논문지
    • /
    • 제20권5호
    • /
    • pp.61-69
    • /
    • 2015
  • 매일 각종 모바일 디바이스와 온라인, 소셜네트워크서비스 등에서 쏟아지는 데이터로 인해 정보의 홍수를 넘어 과부하 상태에 있다. 이미 생성되어 있는 기존 정보들도 있지만 시시각각 새롭게 생겨나고 있는 정보들이 헤아릴 수 없을 정도이다. 연관분석은 이러한 정보들 속에서 나타나는 항목의 발생 빈도수가 최소 지지도보다 큰 빈발항목집합(Frequent Item set)을 찾는 방법이다. 항목의 수가 많아짐에 따라 규칙의 수도 기하급수적으로 늘어나므로 원하는 정보를 찾기가 어려운 단점이 있다. 따라서 본 논문에서는 트랜잭션데이터 집합을 Boolean 변수 아이템으로 나타내었다. 논리함수를 간소화하는데 사용되는 Quine-McKluskey의 방법으로 알고리즘화하여 각 항목에 가중치를 부여한 WT-알고리즘을 제안한다. 제안한 알고리즘은 항목의 개수와 관계없이 간략화가 가능한 장점으로 인하여 불필요한 규칙을 감소시켜 데이터마이닝 효율을 향상시킬 수 있다.

실시간 검색어 연관 분석을 통한 핵심 이슈 선정 (Selecting a key issue through association analysis of realtime search words)

  • 정민영
    • 디지털융복합연구
    • /
    • 제13권12호
    • /
    • pp.161-169
    • /
    • 2015
  • 포털 사이트의 실시간 검색어는 현재 관심이 급상승하고 있는 이슈를 보여주기 위해 주로 검색횟수가 많은 순서에 따라 몇 초 간격으로 제공되고 있다. 그렇지만 너무 짧은 시간 내에 순위가 바뀌는 실시간 검색어의 특성 때문에 하루의 핵심 이슈를 비켜가는 문제가 발생한다. 본 논문에서 이러한 문제를 보완하기 위해 검색어들 사이의 연관 분석을 통하여 검색어들이 관련된 핵심 이슈를 도출하는 방법을 제안하고자 한다. 이를 위해 먼저 실시간 검색어를 순위와 상대적 관심도를 기반으로 점수화하여 집단별 기술통계를 통해 최상위 10개의 검색어를 도출한다. 그 다음으로 지지도와 신뢰도를 기반으로 연관 규칙을 추출하고 이를 가시화하는 그래프 결과를 바탕으로 핵심 이슈를 선정한다. 실험 결과는 단일 최상위 실시간 검색어보다 연관분석을 통해 높은 점수로 선정된 핵심 이슈가 더 큰 의미를 갖는다는 것을 보여준다.

다차원 스트림 데이터 환경에서 이벤트 가중치를 고려한 시간 관계 탐사 (Discovering Temporal Relation Considering the Weight of Events in Multidimensional Stream Data Environment)

  • 김재인;김대인;송명진;한대영;황부현
    • 한국콘텐츠학회논문지
    • /
    • 제10권2호
    • /
    • pp.99-110
    • /
    • 2010
  • 이벤트는 환자의 증상과 같은 시간 속성을 갖는 흐름을 의미하며 센서를 통하여 수집된 스트림 데이터는 시작과 종료 시점을 갖는 인터벌 이벤트로 요약 가능하다. 그러나 대부분의 시간 마이닝 기법은 빈발 이벤트만을 고려하며, 빈발하지 않는 이벤트는 중요하더라도 제외되는 문제가 있다. 이 논문에서는 다차원 스트림 데이터 환경에서 인터벌 이벤트에 기초하여 의미있는 시간 관계에 대한 연관 규칙 마이닝 기법을 제안한다. 제안 방법은 이벤트 가중치와 이상 이벤트가 감지된 시점의 스트림 데이터만 고려하여 이벤트의 발생 횟수에 상관없이 의미있는 시간 관계에 대한 연관 규칙을 탐사한다. 그리고 성능 평가를 통하여 제안 방법이 기존의 방법에 비하여 보다 유용한 지식을 탐사함을 보인다.

연관규칙 마이닝과 나이브베이즈 분류를 이용한 악성코드 탐지 (Detection of Malicious Code using Association Rule Mining and Naive Bayes classification)

  • 주영지;김병식;신주현
    • 한국멀티미디어학회논문지
    • /
    • 제20권11호
    • /
    • pp.1759-1767
    • /
    • 2017
  • Although Open API has been invigorated by advancements in the software industry, diverse types of malicious code have also increased. Thus, many studies have been carried out to discriminate the behaviors of malicious code based on API data, and to determine whether malicious code is included in a specific executable file. Existing methods detect malicious code by analyzing signature data, which requires a long time to detect mutated malicious code and has a high false detection rate. Accordingly, in this paper, we propose a method that analyzes and detects malicious code using association rule mining and an Naive Bayes classification. The proposed method reduces the false detection rate by mining the rules of malicious and normal code APIs in the PE file and grouping patterns using the DHP(Direct Hashing and Pruning) algorithm, and classifies malicious and normal files using the Naive Bayes.

국민건강영양조사 자료를 활용한 라이프스타일 위험요인과 다중이환간의 연관관계분석 (Assoication Rule Analysis between lifestyle risk behaviors and multimorbidity: Findings from KHANES)

  • 이현주;명성민
    • 한국학교ㆍ지역보건교육학회지
    • /
    • 제25권1호
    • /
    • pp.29-41
    • /
    • 2024
  • 목적: 본 논문에서는 대한민국 성인의 라이프스타일 위험요인과 복합만성질환간의 연관성 규칙을 탐색하여 보건교육프로그램에 필요한 방향성과 기초정보를 제공하는데 목적을 둔다. 방법: 제8기 국민건강영양조사 중 2019년부터 2020년까지 만 19세 이상 성인 7,609명을 대상으로 하였으며, 6개의 라이프스타일 위험요인과 11가지 이환질환에 대하여 R과 R 스튜디오를 이용하여 연관규칙마이닝을 수행하였다. 결과: 본 연구 결과를 통하여 연관규칙마이닝과 같은 데이터마이닝 기법을 통해 생활 습관 위험 요인의 중요성과 여러 만성 질환의 역할을 보여줬다는 점에서 의미가 있다. 결론: 상기 결과를 통하여 신체 활동 부족을 해결하기 위한 운동 프로그램, 부적절한 체중을 해결하기 위한 식이 중재, 부적절한 수면을 해결하기 위한 정신건강 교육프로그램과 같은 선택적이고 집중적인 건강교육 프로그램에 대한 개발의 필요성이 요구된다.