• 제목/요약/키워드: Emerging Pattern Mining

검색결과 10건 처리시간 0.022초

Sequential Pattern Mining for Intrusion Detection System with Feature Selection on Big Data

  • Fidalcastro, A;Baburaj, E
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.5023-5038
    • /
    • 2017
  • Big data is an emerging technology which deals with wide range of data sets with sizes beyond the ability to work with software tools which is commonly used for processing of data. When we consider a huge network, we have to process a large amount of network information generated, which consists of both normal and abnormal activity logs in large volume of multi-dimensional data. Intrusion Detection System (IDS) is required to monitor the network and to detect the malicious nodes and activities in the network. Massive amount of data makes it difficult to detect threats and attacks. Sequential Pattern mining may be used to identify the patterns of malicious activities which have been an emerging popular trend due to the consideration of quantities, profits and time orders of item. Here we propose a sequential pattern mining algorithm with fuzzy logic feature selection and fuzzy weighted support for huge volumes of network logs to be implemented in Apache Hadoop YARN, which solves the problem of speed and time constraints. Fuzzy logic feature selection selects important features from the feature set. Fuzzy weighted supports provide weights to the inputs and avoid multiple scans. In our simulation we use the attack log from NS-2 MANET environment and compare the proposed algorithm with the state-of-the-art sequential Pattern Mining algorithm, SPADE and Support Vector Machine with Hadoop environment.

A Post-analysis of the Association Rule Mining Applied to Internee Shopping Mall

  • Kim, Jae-Kyeong;Song, Hee-Seok
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 춘계정기학술대회
    • /
    • pp.253-260
    • /
    • 2001
  • Understanding and adapting to changes of customer behavior is an important aspect for a company to survive in continuously changing environment. The aim of this paper is to develop a methodology which detects changes of customer behavior automatically from customer profiles and sales data at different time snapshots. For this purpose, we first define three types of changes as emerging pattern, unexpected change and the added / perished rule. Then we develop similarity and difference measures for rule matching to detect all types of change. Finally, the degree of change is evaluated to detect significantly changed rules. Our proposed methodology can evaluate degree of changes as well as detect all kinds of change automatically from different time snapshot data. A case study for evaluation and practical business implications for this methodology are also provided.

  • PDF

심혈관계 질환 진단을 위한 복합 진단 지표와 출현 패턴 기반의 분류 기법 (Multi-parametric Diagnosis Indexes and Emerging Pattern based Classification Technique for Diagnosing Cardiovascular Disease)

  • 이헌규;노기용;류근호;정두영
    • 정보처리학회논문지D
    • /
    • 제16D권1호
    • /
    • pp.11-26
    • /
    • 2009
  • 심혈관계 질환의 진단 위해서 복합 진단 지표를 이용한 출현 패턴 기반의 분류 기법을 제안하였다. 복합 진단 지표 적용을 위해서 심박동변이도의 선형/비선형적 특징들을 세 가지 누운 자세에 대해 분석하였고 ST-segments로부터 4개의 진단 지표를 추출하였다. 이 논문에서는 질환진단을 위해서 필수 출현 패턴을 이용한 분류 모델을 제안하였다. 이 분류 기법은 환자 그룹의 질환 패턴들을 발견하며, 이러한 출현 패턴은 심혈관계 질환 환자들에서는 빈발하지만 정상인 그룹에서는 빈발하지 않는 패턴들이다. 제안된 분류 알고리즘의 평가를 위해서 120명의 협심증(AP: angina pectrois) 환자, 13명의 급성관상동맥증후군(ACS: acute coronary syndrome) 환자 그리고 128명의 정상인 데이터를 사용하였다. 실험 결과 복합 지표를 사용하였을 때, 세 그룹의 분류에 대한 정확도는 약 88.3%였다.

Media coverage of the conflicts over the 4th Industrial Revolution in the Republic of Korea from 2016 to 2020: a text-mining approach

  • Yang, Jiseong;Kim, Byungjun;Lee, Wonjae
    • Asian Journal of Innovation and Policy
    • /
    • 제11권2호
    • /
    • pp.202-221
    • /
    • 2022
  • The media has depicted an abrupt socio-technological change in the Republic of Korea with the 4th Industrial Revolution. Because technologies cannot realize their potential without social acceptance, studying conflicts incurred by such a change is imperative. However, little literature has focused on conflicts caused by technologies. Therefore, the current study investigated media coverage regarding conflicts related to the 4th Industrial Revolution from 2016 to 2020 in the Republic of Korea, applying text-mining techniques. We found that the overall amount and coverage pattern conforms to the issue attention cycle. Also, the three major topics ("SMEs & Startups," "Mobility Conflict," and "Human & Technology") indicate quarrels between conflicting social entities. Moreover, the temporal change in media coverage implies the political use of the term rather than technological. However, we also found the media's deliberative discussion on the socio-technological impact. This study is significant because we expanded the discussion on media coverage of technologies to the realm of social conflicts. Furthermore, we explored the news articles of the recent five years with a text-mining approach that enhanced the objectivity of the research.

EPs-TFP 마이닝 기법을 이용한 단백질 Disorder/Order 지역 분류 (Protein Disorder/Order Region Classification Using EPs-TFP Mining Method)

  • 이헌규;신용호
    • 한국산업정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.59-72
    • /
    • 2012
  • 단백질은 서열의 disorder 구역이 생물학적 반응을 일으켜 order로 변하는 과정에서 그 기능을 하게 되므로 서열 데이터에서 disorder 구역과 order 구역을 분리하는 것은 단백질의 3차 구조 및 특성을 예측하는데 반드시 필요하다. 따라서 이 논문에서는 효율적인 disorder와 order 구역 분류를 위해서 단백질의 특정 특징에 치우치지 않는 분류 결과를 얻으면서, 분류 속도를 향상 시킬 수 있도록 서열 데이터를 이용한 분류/예측 기법을 제안한다. 출현패턴 기반의 EPs-TFP 기법은 중복 출현패턴이 제거된 필수 출현패턴만을 이용하는 분류/예측 기법이다. 이 분류 기법은 disorder 구역의 서열 출현패턴들을 발견하며, 이러한 서열 출현패턴은 disorder 구역에서는 빈발하지만 order 구역에서는 상대적으로 빈발하지 않는 패턴들이다. 또한 제안 알고리즘의 성능 향상을 위해서 기존의 P-tree, T-tree 개념의 TFP 기법을 확장하여 분류/예측 기법으로 적용하였다. EPs-TFP 기법의 성능평가를 위해서 Disprot 4.9와 CASP 7 데이터를 활용하였고, disorder/order 구역을 분류한 결과, 민감도 73.6, 특이도 69.5, 정확도 74.2를 보였다.

A Post-Analysis of Decision Tree to Detect the Change of Customer Behavior on Internet Shopping Mall

  • Kim, Jae kyeong;Song, Hee-Seok;Kim, Tae-Sung
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.456-463
    • /
    • 2001
  • Understanding and adapting to changes of customer behavior in internet shopping mall is an important aspect to survive in continuously changing environment. This paper develops a methodology based on decision tree algorithms to detect changes of customer behavior automatically from customer profiles and sales data at different time snapshots. We first define three types of changes as emerging pattern, unexpected change and the added/perished rule. Then, it is developed similarity and difference measures for rule matching to detect all types of change. Finally, the degree of change is developed to evaluate the amount of change. A Korean internet shopping mall case is evaluated to represent the performance of our methodology. And practical business implications for this methodology are also provided.

  • PDF

생명정보학과 유전체의학 (Bioinformatics and Genomic Medicine)

  • 김주한
    • Journal of Preventive Medicine and Public Health
    • /
    • 제35권2호
    • /
    • pp.83-91
    • /
    • 2002
  • Bioinformatics is a rapidly emerging field of biomedical research. A flood of large-scale genomic and postgenomic data means that many of the challenges in biomedical research are now challenges in computational sciences. Clinical informatics has long developed methodologies to improve biomedical research and clinical care by integrating experimental and clinical information systems. The informatics revolutions both in bioinformatics and clinical informatics will eventually change the current practice of medicine, including diagnostics, therapeutics, and prognostics. Postgenome informatics, powered by high throughput technologies and genomic-scale databases, is likely to transform our biomedical understanding forever much the same way that biochemistry did a generation ago. The paper describes how these technologies will impact biomedical research and clinical care, emphasizing recent advances in biochip-based functional genomics and proteomics. Basic data preprocessing with normalization, primary pattern analysis, and machine learning algorithms will be presented. Use of integrated biochip informatics technologies, text mining of factual and literature databases, and integrated management of biomolecular databases will be discussed. Each step will be given with real examples in the context of clinical relevance. Issues of linking molecular genotype and clinical phenotype information will be discussed.

심근허혈 심전도 신호의 자동화된 예측을 위한 출현 패턴 마이닝 기반의 분류 방법 (An Emerging Pattern Mining based Classification Method for Automated Prediction of Myocardial Ischemia ECG Signals)

  • 이헌규;박명호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.19-22
    • /
    • 2008
  • 최근 서구화된 식생활 패턴과 흡연, 비만 등의 원인으로 인해 심근경색, 협심증과 같은 심근허혈(myocardial ischemia) 질환이 급증하고 있다. 이 논문에서는 심전도 신호로부터 허혈성 심장 질환 진단을 위해 출현 패턴 마이닝을 이용하여 심근경색 및 협심증의 진단 신호인 ischemia beat를 분류 하였다. 또한 기존의 출현 패턴 마이닝에 빠른 패턴 탐사와 저장 공간의 효율성을 고려하여 Apriori-T 빈발 패턴 탐사 알고리즘을 출현 패턴 생성이 가능하도록 확장하였다. PhysioNet의 ST-T 데이터베이스로부터 138개의 대조군(정상)과 ischemia beat 데이터에 제안된 분류 알고리즘을 실험한 결과 최소 75% 및 최대 95%의 예측 정확도를 보였다.

기대치-최대화 군집 알고리즘과 출현 패턴 마이닝을 이용한 전력 소비 패턴 분석 (Power Consumption Patterns Analysis Using Expectation-Maximization Clustering Algorithm and Emerging Pattern Mining)

  • 박진형;이헌규;신진호;류근호;김희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.261-264
    • /
    • 2008
  • 전력 회사의 효율적인 운용과 전력 시장에서의 경쟁을 위하여 고객의 전력 소비 패턴 분석 및 정확한 예측이 이루어져야 한다. 이를 위해서 이 논문에서는 원격 검침 시스템에 의한 전국의 고압 고객 데이터를 대상으로 고객의 전력 소비 패턴을 정확히 예측할 수 있는 마이닝 기법을 제안하였다. 먼저, 국내 계약종별 고객 특성에 맞는 부하 패턴의 정확한 구별을 위한 9가지의 특징 벡터를 추출하였고, 기대치-최대화 군집화 알고리즘을 사용하여 고객의 34개 대표 부하프로파일을 생성하였다. 마지막으로 추출된 특징 벡터로부터 각 대표 프로파일에 대한 출현 패턴 기반의 분류 모델을 구성하여 고객의 전력 소비 패턴을 분류하였다. 국내 원격 검침 시스템에 의해 측정된 총 3,895명의 고압 고객 데이터에 대한 실험 결과 약 91%의 분류 정확성을 보였다.

개인정보보호 관점에서의 웹 트래픽 수집 및 분석 서비스에 대한 타당성 연구 (The Evaluation for Web Mining and Analytics Service from the View of Personal Information Protection and Privacy)

  • 강신범;심미나;방제완;이상진;임종인
    • 정보보호학회논문지
    • /
    • 제19권6호
    • /
    • pp.121-134
    • /
    • 2009
  • 소비자 중심 마케팅 성장과 더불어 확대되고 있는 웹 트래픽 수집 및 분석 서비스 시장에서는 이미 서비스 제공자와 사용자간 정보 활용과 정보보호의 치열한 공방이 시작되었고 보다 상세한 소비자 정보를 마케팅에 활용하고 싶은 욕구가 극대화되고 있다. 기업은 익명화된 개인정보의 마케팅활용을 정당화하고 개인은 잠재적 우려사항을 감수할 수밖에 없는 실정이다. 그러므로 본고에서는 국내의 웹 트래픽 수집 및 분석 서비스 산업에서 개인정보보호에 저해되는 프로세스를 검토하고 잠재적 우려사항을 밝히고자 한다. 국내 주요 상용서비스를 중심으로 개인정보보호정책 분석과 서비스과정의 고의 혹은 우연한 개인정보 수집행위 등 목적 외 범위 타당성을 검토하고, 역공학을 통해 서비스과정에서의 개인정보 수집 및 이용 범위를 분석하였다. 개인정보 추출 범위 확대와 침해 가능성 심화로 인해 현재 국내 서비스의 타당성 평가는 매우 중요하다. 웹 트래픽 수집 및 분석 행위로 인한 개인정보 침해의 잠재요인과 서비스 활용을 위한 개인정보보호의 요건을 명확히 밝히는 것은 웹 트래픽 분석산업과 개인정보보호의 균형 발전을 위해 매우 중요할 것이다.