• Title/Summary/Keyword: 연관규칙 학습

Search Result 67, Processing Time 0.032 seconds

A New Importance Measure of Association Rules Using Information Theory (정보이론에 기반한 연관 규칙들의 새로운 중요도 측정 방법)

  • Lee, Chang-Hwan;Bae, Joohyun
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.3 no.1
    • /
    • pp.37-42
    • /
    • 2014
  • The abstract should concisely state what was done, how it was done, principal results, and their significance. It should be less than 300 words for all forms of publication. The abstract should be written as one paragraph and should not contain tabular material or numbered references. At the end of abstract, keywords should be given in 3 to 5 words or phrases.

Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data (교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교)

  • Kim, Jeongmin;Ryu, Kwang Ryel
    • Journal of Intelligence and Information Systems
    • /
    • v.21 no.4
    • /
    • pp.1-16
    • /
    • 2015
  • Traffic accident is one of the major cause of death worldwide for the last several decades. According to the statistics of world health organization, approximately 1.24 million deaths occurred on the world's roads in 2010. In order to reduce future traffic accident, multipronged approaches have been adopted including traffic regulations, injury-reducing technologies, driving training program and so on. Records on traffic accidents are generated and maintained for this purpose. To make these records meaningful and effective, it is necessary to analyze relationship between traffic accident and related factors including vehicle design, road design, weather, driver behavior etc. Insight derived from these analysis can be used for accident prevention approaches. Traffic accident data mining is an activity to find useful knowledges about such relationship that is not well-known and user may interested in it. Many studies about mining accident data have been reported over the past two decades. Most of studies mainly focused on predict risk of accident using accident related factors. Supervised learning methods like decision tree, logistic regression, k-nearest neighbor, neural network are used for these prediction. However, derived prediction model from these algorithms are too complex to understand for human itself because the main purpose of these algorithms are prediction, not explanation of the data. Some of studies use unsupervised clustering algorithm to dividing the data into several groups, but derived group itself is still not easy to understand for human, so it is necessary to do some additional analytic works. Rule based learning methods are adequate when we want to derive comprehensive form of knowledge about the target domain. It derives a set of if-then rules that represent relationship between the target feature with other features. Rules are fairly easy for human to understand its meaning therefore it can help provide insight and comprehensible results for human. Association rule learning methods and subgroup discovery methods are representing rule based learning methods for descriptive task. These two algorithms have been used in a wide range of area from transaction analysis, accident data analysis, detection of statistically significant patient risk groups, discovering key person in social communities and so on. We use both the association rule learning method and the subgroup discovery method to discover useful patterns from a traffic accident dataset consisting of many features including profile of driver, location of accident, types of accident, information of vehicle, violation of regulation and so on. The association rule learning method, which is one of the unsupervised learning methods, searches for frequent item sets from the data and translates them into rules. In contrast, the subgroup discovery method is a kind of supervised learning method that discovers rules of user specified concepts satisfying certain degree of generality and unusualness. Depending on what aspect of the data we are focusing our attention to, we may combine different multiple relevant features of interest to make a synthetic target feature, and give it to the rule learning algorithms. After a set of rules is derived, some postprocessing steps are taken to make the ruleset more compact and easier to understand by removing some uninteresting or redundant rules. We conducted a set of experiments of mining our traffic accident data in both unsupervised mode and supervised mode for comparison of these rule based learning algorithms. Experiments with the traffic accident data reveals that the association rule learning, in its pure unsupervised mode, can discover some hidden relationship among the features. Under supervised learning setting with combinatorial target feature, however, the subgroup discovery method finds good rules much more easily than the association rule learning method that requires a lot of efforts to tune the parameters.

Prediction of Yeast Protein-Protein Interactions by Neural Feature Association Rule (Neural Feature Association Rule을 이용한 효모 단백질-단백질 상호작용의 예측)

  • Eom Jae-Hong;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.277-279
    • /
    • 2005
  • 단백질들은 서로 다른 단백질들과 상호작용하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질들 간의 상호작용 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이터가 산출된 후게놈시대(post-genomic era)에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터들에서 속성들 간의 연관규칙 학습을 통해 잠재적 단백질 상호작용들을 예측하기 위한 연관규칙 기반의 상호작용 예측 방법을 제시한다. 단백질들 간의 상호작용 예측을 위해 고려되는 각 단백질의 다수의 속성차원은 정보이론 기반의 속성선택 알고리즘을 이용하여 효율적으로 줄이며 상호작용의 속성집합을 이용하여 신경망을 훈련시키고 이렇게 훈련된 신경망에서 속성들 간의 연관규칙을 디코딩하여 연관규칙 기반의 상호작용 예측에 활용한다. 연관속성 발굴을 통한 상호작용 예측을 위한 마이닝 방법으로는 연관규칙 발견 알고리즘을 사용하였으며 예측 정확도를 높이기 위하여 신경망 예측 모델의 학습 결과를 디코딩한 규칙들이 추가적으로 사용하였다. 논문에서 제안한 방법을 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 평균 약 $94.5\%$의 예측 정확도를 보였다.

  • PDF

Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm (연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

A study of Intrusion Detection System applying for association rule agent (연관규칙 에이전트를 적용한 침입 탐지 시스템에 관한 연구)

  • 박찬호;정종근
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.6 no.5
    • /
    • pp.684-688
    • /
    • 2002
  • One of the Problems, which the Intrusion Detection System has, is a False Positive. This False make to low condition of the Intrusion Detection System. The cause of the False Positive is that the learning is not enough during audit data learning steps. Therefore, in this paper, 1 propose the method of the Intrusion Detection System that be learnt audit data to agent with association rule.

Generating Technology of the Association Rule for Analysis of Audit Data on Intrusion Detection (침입탐지 감사자료 분석을 위한 연관규칙 생성 기술)

  • Soh, Jin;Lee, Sang-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11b
    • /
    • pp.1011-1014
    • /
    • 2002
  • 최근 대규모 네트워크 데이터에 대한 패턴을 분석하기 위한 연구에 대하여 관심을 가지고 침입탐지 시스템을 개선하기 위해 노력하고 있다. 특히, 이러한 광범위한 네트워크 데이터 중에서 침입을 목적으로 하는 데이터에 대한 탐지 능력을 개선하기 위해 먼저, 광범위한 침입항목들에 대한 탐지 적용기술을 학습하고, 그 다음에 데이터 마이닝 기법을 이용하여 침입패턴 인식능력 및 새로운 패턴을 빠르게 인지하는 적용기술을 제안하고자 한다. 침입 패턴인식을 위해 각 네트워크에 돌아다니는 관련된 패킷 정보와 호스트 세션에 기록되어진 자료를 필터링하고, 각종 로그 화일을 추출하는 프로그램들을 활용하여 침입과 일반적인 행동들을 분류하여 규칙들을 생성하였으며, 생성된 새로운 규칙과 학습된 자료를 바탕으로 침입탐지 모델을 제안하였다. 마이닝 기법으로는 학습된 항목들에 대한 연관 규칙을 찾기 위한 연역적 알고리즘을 이용하여 규칙을 생성한 사례를 보고한다. 또한, 추출 분석된 자료는 리눅스 기반의 환경 하에서 다양하게 모아진 네트워크 로그파일들을 분석하여 제안한 방법에 따라 적용한 산출물이다.

  • PDF

SCORM Based Recommendation of Learning Contents using Association Rule Mining (연관규칙을 응용한 SCORM 기반 학습 컨텐츠)

  • Hyun, Young-Soon;Cho, Dong-Sub
    • Proceedings of the KIEE Conference
    • /
    • 2005.07d
    • /
    • pp.2909-2911
    • /
    • 2005
  • 본 논문에서는 SCORM을 기반으로 하는 LMS 상에 수많은 컨텐츠들이 있을 경우, 적은 노력으로도 원하는 컨텐츠에 접근할 수 있도록 도움을 주는 컨텐츠 추천 기법을 제안하였다. 이 기법은 각 학습자별로 컨텐츠 이용도 성향을 분석한 후 분석된 결과를 바탕으로 사용자에게 현재 이용하고 있는 컨텐츠와 가장 연관성이 높다고 판단되는 컨텐츠를 연관규칙을 응용한 방법을 이용하여 추천한다.

  • PDF

A Measure for Improvement in Quality of Association Rules in the Item Response Dataset (문항 응답 데이터에서 문항간 연관규칙의 질적 향상을 위한 도구 개발)

  • Kwak, Eun-Young;Kim, Hyeoncheol
    • The Journal of Korean Association of Computer Education
    • /
    • v.10 no.3
    • /
    • pp.1-8
    • /
    • 2007
  • In this paper, we introduce a new measure called surprisal that estimates the informativeness of transactional instances and attributes in the item response dataset and improve the quality of association rules. In order to this, we set artificial dataset and eliminate noisy and uninformative data using the surprisal first, and then generate association rules between items. And we compare the association rules from the dataset after surprisal-based pruning with support-based pruning and original dataset unpruned. Experimental result that the surprisal-based pruning improves quality of association rules in question item response datasets significantly.

  • PDF

Design of Purchasing Pattern Classification System Using Nural Network and Multiple-Level Association Rules (신경망과 다단계 연관규칙을 이용한 구매 패턴 분류 시스템의 설계)

  • Lee, Jong-Min;Jung, Hong
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2000.05a
    • /
    • pp.203-206
    • /
    • 2000
  • 신경망을 이용해 고객집단을 분류하고 고객의 특성에 따라 세분화된 고객들에 대해 다단계 연관규칙을 적용해서 고객의 상품 구매패턴을 찾아 줌으로써 마케팅 전략 결정을 지원하는 구매패턴분류 시스템을 설계한다. 고객분류를 위한 신경망 시스템은 다층 퍼셉트론에 역전파 알고리즘을 이용한다. 주소, 구매금액, 구매횟수, 고객 구분, 상긴 등과 같은 고객정보를 입력층에 입력변수로 지정하고, 이에 따른 우량/일반고객을 출력변수로 지정한 후 신경망을 학습시키면, 실제의 우량/일반의 간과 예측되는 우량/일반의 값의 차이론 최소화시키면서 모형을 형성시켜 나가게 된다. 구매패턴 분류 시스템은 다단계 연관규칙을 이용한다. 고객분류 서브시스템을 통해 고객집단이 세분화되면 각각의 고객집단에 대해 TID와 품목 트랜잭션을 입력으로 cumulate 알고리즘과 개념계층을 이용해 일반화 과정을 수행하면서 빈발 항목을 찾게 되고 이론 근거로 항목간의 연관규칙을 찾아내게 된다.

  • PDF

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF