• 제목/요약/키워드: KDD

검색결과 122건 처리시간 0.031초

연관규칙 마이닝을 이용한 개인화된 추천시스템 (Personalized Recommand System Using Mining for the Association Rule)

  • 성창규;류길수;김태진
    • 한국마린엔지니어링학회:학술대회논문집
    • /
    • 한국마린엔지니어링학회 2005년도 전기학술대회논문집
    • /
    • pp.246-250
    • /
    • 2005
  • Recommand Systems are being used by an ever-increasing number of E-Commerce to help customers find products to purchase. Recommend Systems offer a technology that allows personalized recommendations of items of potential interest to users based on information about similarities and dissimilarities among different customers tastes. In this paper, we design and build a Recommend System using the historical customer movie purchase transactions and extracts the knowledge needed to make association recommendations to new customers.

  • PDF

SQL을 이용한 연관 규칙 탐사 시스템 (An Association Rules Mining System based-on SQL)

  • 전수정;김영지;우용태
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 2000년도 추계학술대회 E-Business와 정보보안
    • /
    • pp.89-94
    • /
    • 2000
  • 본 논문에서는 연관 규칙 탐사 시스템을 설계하고 구현하였다. 본 시스템은 관계형 데이터베이스의 표준 질의어를 이용하여 사용자가 제시한 질의 조건을 만족하는 항목집합에 대해 다양한 형태의 연관규칙을 탐사하기 위한 시스템이다. 질의처리 모듈에서는 사용자가 제시한 조건을 만족하는 질의를 동적으로 구성하여, 연관 규칙 탐사를 위해 사용되는 대상 트랜잭션 데이타베이스의 범위를 조절할 수 있다. 연관 규칙을 발견하기 위한 후보 항목집합을 생성하기 위해 연관 규칙 탐사 알고리즘을 사용하였다. 연관 규칙 알고리즘에서는 한 트랜잭션 데이타에 대해 생성될 수 있는 후보 항목집합을 배열을 이용하여 처리하는 효율적인 방법을 제안하였다.

  • PDF

A Study on a Statistical Matching Method Using Clustering for Data Enrichment

  • Kim Soon Y.;Lee Ki H.;Chung Sung S.
    • Communications for Statistical Applications and Methods
    • /
    • 제12권2호
    • /
    • pp.509-520
    • /
    • 2005
  • Data fusion is defined as the process of combining data and information from different sources for the effectiveness of the usage of useful information contents. In this paper, we propose a data fusion algorithm using k-means clustering method for data enrichment to improve data quality in knowledge discovery in database(KDD) process. An empirical study was conducted to compare the proposed data fusion technique with the existing techniques and shows that the newly proposed clustering data fusion technique has low MSE in continuous fusion variables.

지열 히트펌프 시스템의 데이터 마이닝 기반 성능 예측 기술 (Data Mining-Based Performance Prediction Technology of Geothermal Heat Pump System)

  • 황민혜;박명규;전인기;손병후
    • 대한기계학회논문집 C: 기술과 교육
    • /
    • 제4권1호
    • /
    • pp.27-34
    • /
    • 2016
  • 지열 시스템을 대상으로 데이터 마이닝 기반 성능 예측 모델을 구축하였다. 지열 시스템의 실시간 성능 분석과 예측에 필요한 데이터의 기본 조건을 검토한 후, 데이터베이스의 구조를 설계하였다. 먼저 시스템 성능계수(COP)와 전력 소비량을 분석 대상으로 설정한 후, 이들 물리량의 추출 주기(1분 5분 10분 30분 60분 간격)가 예측 결과에 미치는 영향을 분석하였다. 이어서 범주형과 수치형 의사결정나무 모델을 적용하여 시스템의 성능을 예측하였다. 범주형 의사결정나무 모델을 적용했을 때, 10분 주기의 예측 결과의 정확도는 97.7%로 가장 높았다. 또한 수치형 의사결정나무 분석 결과를 통해 COP가 변하는 순간의 임계값을 찾을 수 있었다. 본 논문에서 제안한 방법은 지열 시스템의 실시간 성능 분석과 운전 상태 등에 적용할 수 있을 것으로 판단된다.

하이브리드 다중 분류기시스템 (Hybrid Multiple Classifier Systems)

  • 김인철
    • 지능정보연구
    • /
    • 제10권2호
    • /
    • pp.133-145
    • /
    • 2004
  • 단일 분류기보다 우수한 성능을 얻기 위해 다수의 분류기들을 결합하는 방법은 폭 넓게 이용되어 오고 있는 기술이다. 하나의 다중 분류기 시스템(MCS)를 구축하는 일은 두 가지 해결해야 할 문제들을 가지고 있다. 하나는 다양한 기반-레벨의 분류기들을 어떤 방법으로 생성하느냐 하는 것이고, 다른 하나는 이들의 예측을 어떤 방법으로 결합하느냐 하는 것이다. 본 논문에서는 기존의 다중 분류기 시스템들인 bagging, boosting, 그리고 staking의 특징들을 살펴본 다음, 새로운 다중 분류기 시스템들인 stacked boosting, boosting, bagged stacking, 그리고 boosted stacking들을 제안한다. 이들은 기존의 다중 분류기 시스템들의 장점들을 결합한 일종의 하이브리드 다중 분류기 시스템들이다. 새로 제안한 다중 분류기 시스템들의 성능을 평가하기 위해, 본 논문에서는 UCI KDD 데이터 아카이브에서 제공되는 서로 다른 9가지의 실세계 데이터 집합들을 이용하여 실험들을 전개하였다. 실험 결과, 본 논문에서 제안한 하이브리드 다중 분류기 시스템들, 특히 bagged stacking과 boosted stacking이 기존의 다중 분류기 시스템들에 비해 우수한 성능을 보여 주었다.

  • PDF

LBG 알고리즘 기반 데이터마이닝을 이용한 네트워크 침입 탐지율 향상 (Improvement of Network Intrusion Detection Rate by Using LBG Algorithm Based Data Mining)

  • 박성철;김준태
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.23-36
    • /
    • 2009
  • 네트워크 침입 탐지는 데이터마이닝 기법을 활용하면서 지속적으로 발전하여 왔다. 데이터마이닝에 의한 침입 탐지 기법에는 클래스 레이블을 이용한 감독 학습과 클래스 레이블이 없는 비감독 학습 방법이 있다. 본 논문에서는 클래스 레이블이 없는 비감독 학습 방법인 LBG 클러스터링 알고리즘을 이용하여 네트워크 침입 탐지 정확도를 높이는 방법을 연구하였다. 임의의 초기 중심값들로 시작하여 유클리디언 거리 기반에 의해 클러스터링을 수행하는 K-means 방법은 잡음(noisy) 데이터와 이상치(outlier)에 대하여 취약하다는 단점이 있다. 비균일이진 분할에 의한 클러스터링 알고리즘은 초기값 없이 이진분할에 의해 클러스터링을 수행하며 수행 속도가 빠르다. 본 논문에서는 이 두 알고리즘의 장단점을 통합한 EM(Expectation Maximization) 기반의 LBG 알고리즘을 네트워크 침입 탐지에 적용하였으며, KDD 컵 데이터셋을 대상으로 한 실험을 통하여 LBG 알고리즘을 이용함으로써 침입 탐지의 정확도를 높일 수 있음을 보였다.

  • PDF

상대 복잡도를 이용한 네트워크 연결기반의 탐지척도 선정 (Selection of Detection Measures using Relative Entropy based on Network Connections)

  • 문길종;김용민;김동국;노봉남
    • 정보처리학회논문지C
    • /
    • 제12C권7호
    • /
    • pp.1007-1014
    • /
    • 2005
  • 최근 네트워크가 발전함에 따라 네트워크의 취약점을 이용한 침입과 공격이 많이 발생하고 있다. 네트워크에서 공격과 침입을 탐지하기 위해 규칙을 만들거나 패턴을 생성하는 것은 매우 어렵다. 대부분 전문가의 경험에 의해서 만들어지고, 많은 인력, 비용, 시간을 소비하고 있다. 본 논문에서는 전문가의 경험 없이 네트워크의 공격 행위를 효과적으로 탐지하기 위해서 네트워크 연결기반의 정보를 이용한 척도선정 기법과 탐지기법을 제안한다. 정상과 각 공격의 네트워크 연결 데이터를 추출하고, 상대 복잡도를 이용하여 복잡도의 임계값 설정함으로써 공격 탐지에 유용한 척도를 선정한다. 그리고 선정된 척도를 바탕으로 확률패턴을 생성하고 우도비 검증을 이용해 공격을 탐지한다. 이 탐지방법으로 임계값 조절에 따라 탐지율과 오탐율을 조절할 수 있었다. KDD CUP 99 데이터를 이용하여 공격행위를 분석, 분류하고, 결정트리 알고리즘의 규칙기반 탐지 결과와 비교함으로써 본 논문에서 제시한 기법이 유용함을 확인하였다.

데이터 마이닝을 이용한 공격 탐지 메커니즘의 실험적 비교 연구 (An Empirical Comparison Study on Attack Detection Mechanisms Using Data Mining)

  • 김미희;오하영;채기준
    • 한국통신학회논문지
    • /
    • 제31권2C호
    • /
    • pp.208-218
    • /
    • 2006
  • 본 논문에서는 최신의 공격 유형을 잘 분류해 내고, 기존 공격의 변형이나 새로운 공격에도 탐지 가능하도록 데이터 마이닝 기법을 이용한 공격 탐지 모델 생성 방법들을 소개하고, 다양한 실험을 통해 탐지율 및 탐지 시간 측면에서 이 모델들의 성능을 비교한다. 이러한 탐지 모델을 생성하는데 중요한 요소로 데이터, 속성, 탐지 알고리즘을 꼽을 수 있는데, 실제 네트워크에서 수집된 NetFlow 데이터와 대량의 KDD Cup 1999 데이터를 사용하였다. 또한 탐지 알고리즘으로서 단일 지도/비지도학습 데이터 마이닝 기법 및 결합된 방법을 이용하여 탐지 모델을 생성, 비교 실험하였다. 시험 결과, 결합된 지도학습 알고리즘을 사용한 경우 모델링 시간은 길었지만 가장 탐지율이 높았고, 모든 경우 탐지 시간이 1초 내외로 실시간 탐지 가능성을 입증할 수 있었다. 또한 새로운 공격에 대한 이상탐지 결과로도 92$\%$ 이상의 탐지율을 보임으로 탐지 가능성을 입증할 수 있었고, SOM 기법을 사용하는 경우에는 새로운 공격이 기존 어느 공격에 유사한 특성을 갖는지에 대한 부과적인 정보도 제공하였다.

실시간 네트워크 침입탐지 시스템을 위한 아웃라이어 클러스터 검출 기법 (An Outlier Cluster Detection Technique for Real-time Network Intrusion Detection Systems)

  • 장재영;박종명;김한준
    • 인터넷정보학회논문지
    • /
    • 제8권6호
    • /
    • pp.43-53
    • /
    • 2007
  • 최근의 네트워크 침입탐지 시스템은 기존의 시그너처(또는 패턴) 기반 탐지 기법에 비정상행위 탐지 기법이 새롭게 결합되면서 더욱 발전되고 있다. 일반적으로 시그너처 기반 침입 탐지 시스템들은 기계학습 알고리즘을 활용함에도 불구하고 사전에 이미 알려진 침입 패턴만을 탐지할 수 있었다. 이상적인 네트워크 침입탐지 시스템을 구축하기 위해서는 침입 패턴이 저장된 시그너처 데이터베이스를 항상 최신의 정보로 유지해야 한다. 따라서 시스템은 유입되는 네트워크 데이터를 모니터링하고 분석하는 과정에서 새로운 공격에 대한 시그너처를 생성할 수 있는 기능이 필요하다. 본 논문에서는 이를 위해 밀도(또는 영향력) 함수를 이용한 새로운 아웃라이어 클러스터 검출 알고리즘을 제안한다. 제안된 알고리즘에서는 네트워크 침입 패턴을 하나의 객체가 아닌 유사 인스턴스들의 집합 형태인 아웃라이어 클러스터로 가정하였다. 본 논문에서는 KDD 1999 Cup 침입탐지 데이터 집합을 이용한 실험을 수행하여, 침입이 자주 발생하는 상황에서 본 논문의 방법이 유클리디언 거리를 이용한 기존의 아웃라이어 탐지 기법에 비해서 좋은 성능을 보임을 증명하였다.

  • PDF

국내 우수 연구자의 글로벌 공동연구 활동도 분석 연구 : 신산업 분야를 중심으로

  • 유화선;김윤명;양치승
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 추계학술대회 논문집
    • /
    • pp.1167-1188
    • /
    • 2017
  • 최근 4차 산업혁명 등 대외적 R&D 환경의 급속한 변화와 이로 인한 과학기술의 융 복합 및 첨단화가 가속화됨에 따라 이에 대응하기 위해 신산업분야를 중심으로 국가 간 공동협력이 점차 활발해짐에도 불구하고, 우리나라는 연구개발 주체의 연구역량 열위, 연구주체의 폐쇄성, 국가 R&D 제도적 미흡 등으로 인해 국가 간 공동연구 활동도가 매우 미흡한 편이다. 2016년 국가과학 기술혁신역량평가 국제협력 항목에서도 우리나라의 국제협력 항목지수는 0.206으로 2015년(0.182) 대비 0.024p 상승하였으나, 여전히 OECD 30개국 중 16위에 머무르는 것으로 나타났으며, 국제협력 상위 3개국에 대한 상대수준에서도 평균 10.3% 수준에 불과하여 국제 공동연구 활동도를 높이기 위한 다각적인 개선방안 확립에 대한 요구가 점차 증대되고 있는 실정이다. 이에 본 연구에서는 2015년 연구에 이어 미래 신산업 분야에서 우리나라와 해외 주요국의 국제 공동연구 현황을 중심으로 핵심연구자 간(연구 활동도 상위 5위 이하) 국제공동연구에 대한 활동도 비교 분석을 통해 정확한 현황을 진단하고, 향후 우리나라 연구주체의 연구개발 개방화, 국제 협력 전략적 분야 및 대상 발굴, 국제공동연구 활성화 등에 대한 발전방안을 고찰하고자 하였다. 국내 및 글로벌 핵심 연구자 간 글로벌 공동연구 현황을 분석하기 위해서 KDD/KM 방법론을 활용한 공동연구자 분석(Co-author analysis)네트워크 기법을 활용하였으며, 동 방법론의 활용을 통해서 신산업 분야 중 가사로봇분야의 상위 10개 국가, 기관, 연구자에 대해 분석하고, 논문 활동도가 높은 글로벌 및 한국의 상위 5위까지의 핵심 연구자를 대상으로 연구자 간 국제공동연구에 대한 현황 및 활동도에 대한 공동연구 네트워크 분석을 수행하였다.

  • PDF