• Title/Summary/Keyword: 빈발패턴 마이닝

검색결과 94건 처리시간 0.04초

빈발 항목의 탐색 시간을 단축하기 위한 알고리즘 (An Algorithm for reducing the search time of Frequent Items)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.147-156
    • /
    • 2011
  • 최근 정보시스템의 활용도가 높아짐에 따라, 많은 데이터를 이용하여 필요한 상품을 빠르게 추출하는 방법들에 대한 연구가 활발히 이루어지고 있다. 숨겨진 패턴을 탐색하는 연관 규칙 탐색 기법들이 많은 관심을 받고 있으며, Apriroi 알고리즘은 대표적인 기법이다. 그러나 Apriori 알고리즘은 반복적인 스캔으로 인한 탐색시간 증가 문제를 가지고 있다. 본 논문에서는 빈발항목의 탐색시간을 단축하기 위한 알고리즘을 제안한다. 제안한 알고리즘은 트랜잭션 데이터베이스를 이용하여 매트릭스를 생성하고 매트릭스에서 트랜잭션들의 평균 항목 개수와 정의한 최소 지지도를 사용하여 빈발 항목을 탐색한다. 트랜잭션의 평균 항목 개수는 트랜잭션의 수를 줄이는데 사용되고 최소 지지도는 항목을 줄이는데 사용된다. 제안한 알고리즘의 성능 평가는 기존 알고리즘과의 탐색시간 비교와 정확도 비교로 이루어진다. 실험 결과는 제안한 알고리즘이 기존의 Apriori와 매트릭스 알고리즘보다 최종 빈발 항목의 추출에서 빠르고 효율적으로 탐색이 이루어지는 것을 확인하였다.

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

네트워크 침입 탐지를 위한 사례 기반 학습 방법 (Instance-Based Learning for Intrusion Detection)

  • 박미영;이도헌;원용관
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.172-174
    • /
    • 2001
  • 침입 탐지란 컴퓨터와 네트워크 지원에 대한 유해한 침입 행동을 식별하고 대응하는 과정이다. 점차적으로 시스템에 대한 침입 유형들이 복잡해지고 전문적으로 이루어지면서 빠르고 정확한 대응을 할 수 있는 시스템이 요구되고 있다. 이에 따라, 대용량의 데이터를 지능적으로 분석하여 의미있는 정보를 추출하는 데이터 마이닝 기법을 적용함으로써 지능적이고 자동화된 탐지를 수행할 수 있도록 한다. 본 논문에서는 학습 데이터를 각각 사례로 데이터베이스에 저장한 후, 실험 데이터가 입려되면 가장 가까운 거리에 있는 학습 데이터의 크래스로 분류하는 사례 기반 학습을 이용하여 빠르게 사용자의 이상 행위에 대해 판정한다. 그러나 많은 사례로 인해 기억 공간이 늘어날 경우 시스템의 성능이 저하되는 문제점을 고려하여, 빈발 에피소드 알고리즘을 수행하여 발견한 순차 패턴을 사례화하여 정상 행위 프로파이로 사용하는 순차패턴에 대한 사례 기반 학습을 제안한다. 이로써, 시스템 성능의 저하율을 낮추고 빠르며 정확하게 지능적인 침입 탐지를 수행할 수 있다.

  • PDF

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

침입탐지시스템의 경보데이터 분석을 위한 데이터 마이닝 프레임워크 (An Alert Data Mining Framework for Intrusion Detection System)

  • 신문선
    • 한국산학기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.459-466
    • /
    • 2011
  • 이 논문에서는 침입 탐지시스템의 체계적인 경보데이터관리 및 경보데이터 상관관계 분석을 위하여 데이터 마이닝 기법을 적용한 경보 데이터 마이닝 프레임워크를 제안한다. 적용된 마이닝 기법은 속성기반 연관규칙, 속성기반 빈발에피소드, 오경보 분류, 그리고 순서기반 클러스터링이다. 이들 구성요소들은 각각 대량의 경보 데이터들로부터 알려지지 않은 패턴을 탐사하여 공격시나리오를 유추하거나, 공격 순서를 예측하는 것이 가능하며, 데이터의 그룹화를 통해 고수준의 의미를 추출할 수 있게 해준다. 실험 및 평가를 위하여 제안된 경보데이터 마이닝 프레임워크의 프로토타입을 구축하였으며 프레임워크의 기능을 검증하였다. 이 논문에서 제안한 경보 데이터 마이닝 프레임워크는 기존의 경보데이터 상관관계분석에서는 해결하지 못했던 통합적인 경보 상관관계 분석 기능을 수행할 뿐만 아니라 대량의 경보데이터에 대한 필터링을 수행하는 장점을 가진다. 또한 추출된 규칙 및 공격시나리오는 침입탐지시스템의 실시간 대응에 활용될 수 있다.

이동 객체의 패턴 탐사를 위한 시공간 데이터 일반화 기법 (KISS Korea Computer Congress 2007)

  • 고현;김광종;이연식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.153-158
    • /
    • 2007
  • 사용자들의 특성에 맞게 개인화되고 세분화된 위치 기반 서비스를 제공하기 위해서는 방대한 이동 객체의 위치 이력 데이터 집합으로부터 유용한 패턴을 추출하여 의미 있는 지식을 탐사하기 위한 시공간 패턴 탐사가 필요하다. 현재까지 다양한 패턴 탐사 기법들이 제안되었으나 이동 패턴들 중 단순히 시공간 제약이 없는 빈발 패턴만을 추출하기 때문에 한정된 시간 범위와 제한적인 영역 범위 내에서의 빈발 패턴을 탐사하는 문제에는 적용하기 어렵다. 또한 패턴 탐사 수행 시 데이터베이스를 반복 스캔하여 탐사 수행시간이 많이 소요되는 문제를 포함하거나 메모리상에 탐사 대상인 후보 패턴 트리를 생성하는 방법을 통해 탐사 시간을 줄일 수는 있으나 이동 객체 수나 최소지지도 등에 따라 트리를 구성하고 유지하는데 드는 비용이 커질 수 있다. 따라서 이러한 문제를 해결하기 위한 효율적인 패턴 탐사 기법의 개발이 요구됨으로써 선행 작업으로 본 논문에서는 상세 수준의 객체 이력 데이터들의 시간 및 공간 속성을 의미 있는 시간영역과 공간영역 정보로 변환하는 시공간 데이터 일반화 방법을 제안한다. 제안된 방법은 공간 개념 계층에 대한 영역 정보들을 영역 Grid 해쉬 테이블(AGHT:Area Grid Hash Table)로 생성하여 공간 인덱스트리인 R*-Tree의 검색 방법을 이용해 이동 객체의 위치 속성을 2차원 공간영역으로 일반화하고, 시간 개념 계층을 생성하여 이동 객체의 시간적인 속성을 시간 영역으로 일반화함으로써 일반화된 데이터 집합을 형성하여 효율적인 이동 객체의 시간 패턴 마이닝을 유도할 수 있다.의 성능을 기대할 수 있을 것이다.onium sulfate첨가배지(添加培地)에서 가장 저조(低調)하였다. vitamin중(中)에서는 niacin과 thiamine첨가배지(添加培地)에서 근소(僅少)한 증가(增加)를 나타내었다.소시켜 항이뇨 및 Na 배설 감소를 초래하는 작용과, 둘째는 신경 경로를 통하지 않고, 아마도 humoral factor를 통하여 신세뇨관에서 Na 재흡수를 억제하는 작용이 복합적으로 나타내는 것을 알 수 있었다.으로 초래되는 복합적인 기전으로 추정되었다., 소형과와 기형과는 S-3에서 많이 나왔다. 이상 연구결과에서 입도분포가 1.2-5mm인 것이 바람직한 것으로 나타났다.omopolysaccharides로 확인되었다. EPS 생성량이 가장 좋은 Leu. kimchii GJ2의 평균 분자량은 360,606 Da이었으며, 나머지 두 균주에 대해서는 생성 EPS 형태와 점도의 차이로 미루어 보아 생성 EPS의 분자구조와 분자량이 서로 다른 것으로 판단하였다.TEX>개로 통계학적으로 유의한 차이가 없었다. Heat shock protein-70 (HSP70)과 neuronal nitric oxide synthase (nNOS)에 대한 면역조직화학검사에서 실험군 Cs2군의 신경세포가 대조군 12군에 비해 HSP70과 nNOS의 과발현을 보였으며, 이는 통계학적으로 유의한 차이를 보였다(p<0.05). nNOS와 HSP70의 발현은 강한 연관성을 보였고(상관계수 0.91, p=0.000), nNOS를 발현하는 세포가 동시에 HSP70도 발현함을 확인할 수 있었다. 결론: 우리는

  • PDF

사용자 로그의 분석을 통한 실시간 비정상행위 탐지 기술 (An Anomaly Intrusion Detection Method using Multiple System Log)

  • 김명수;신종철;정재명;고유선;이원석
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2009년도 춘계학술대회
    • /
    • pp.361-364
    • /
    • 2009
  • 침입의 방법이 점차 치밀해지고 다양해짐에 따라 새로운 방식의 침입 탐지 기법 역시 지속적으로 요구되어진다. 기존의 오용 탐지 방법론은 탐지율은 뛰어나지만 새로운 침입형태에 대한 대응 능력이 부족하다. 이러한 단점을 보완하고자 등장한 것이 비정상 행위 탐지 방법론이다. 하지만 현재까지의 연구는 네트워크나 서버 OS, 데이터베이스 등 각 개별 분야에 대해서만 진행되고 있어 그 탐지 능력에 한계가 있다. 본 논문에서는 이러한 한계를 극복하고자 사용자의 네트워크 및 운영체제 로그를 통합 하고, 데이터마이닝 기법 중 빈발 패턴 마이닝 기법을 이용한 보다 정확한 비정상 행위 탐지 기술을 제안한다.

  • PDF

그래프마이닝을 활용한 빈발 패턴 탐색에 관한 연구 (A Methodology for Searching Frequent Pattern Using Graph-Mining Technique)

  • 홍준석
    • Journal of Information Technology Applications and Management
    • /
    • 제26권1호
    • /
    • pp.65-75
    • /
    • 2019
  • As the use of semantic web based on XML increases in the field of data management, a lot of studies to extract useful information from the data stored in ontology have been tried based on association rule mining. Ontology data is advantageous in that data can be freely expressed because it has a flexible and scalable structure unlike a conventional database having a predefined structure. On the contrary, it is difficult to find frequent patterns in a uniformized analysis method. The goal of this study is to provide a basis for extracting useful knowledge from ontology by searching for frequently occurring subgraph patterns by applying transaction-based graph mining techniques to ontology schema graph data and instance graph data constituting ontology. In order to overcome the structural limitations of the existing ontology mining, the frequent pattern search methodology in this study uses the methodology used in graph mining to apply the frequent pattern in the graph data structure to the ontology by applying iterative node chunking method. Our suggested methodology will play an important role in knowledge extraction.

효과적인 이메일 분류를 위한 빈발 항목집합 기반 최적 이메일 폴더 추천 기법 (A proper folder recommendation technique using frequent itemsets for efficient e-mail classification)

  • 문종필;이원석;장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.33-46
    • /
    • 2011
  • 이메일이 중요한 정보 전달과 의사소통의 수단으로 널리 활용된 이래 사람들은 이메일을 내용에 따라 적절하게 분류하는 작업에 많은 노력을 기울려 왔다. 이메일은 문서의 길이나 문체가 다양하며 사용되는 단어들이 비정규적이다. 또한 이메일 분류 기준은 일반적으로 해당 이메일 사용자의 주관에 따라 정의된다. 따라서 기존의 일반적인 문서분류 기법으로는 이메일을 효율적으로 분류하는데 어려움이 있다. 상업용 이메일 프로그램에서 제공되는 분류 기능은 메일 클라이언트에서 지원하는 텍스트 필터링을 이용한다. 한편 이메일의 자동 분류에 관한 연구는 확률 기반의 나이브 베이지안 기법을 응용하여 정확도를 높일 수 있는 연구가 주로 진행되어 왔으며, 대부분 영문 이메일에 대한 연구이다. 본 논문에서는 빈발 패턴 마이닝 기법을 적용하여 한글 이메일에 대한 개인 맞춤형 폴더 추천기법을 제시한다. 이메일의 맞춤형 폴더 추천 기법은 이메일에 대한 전처리 과정과 빈발 항목집합을 이용한 메일 폴더의 프로파일 생성과정으로 구성된다. 생성된 프로파일은 분류 대상이 되는 각 메일이 개인별 맞춤형 기준에 따라 가장 적합한 이메일 폴더로 효과적으로 분류되는데 활용된다. 또한 제안된 기법을 적용한 이메일 분류 시스템을 구현한다.

데이타마이닝 기법을 이용한 경보데이타 분석기 구현 (Implementation of Analyzer of the Alert Data using Data Mining)

  • 신문선;김은희;문호성;류근호;김기영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.1-12
    • /
    • 2004
  • 최근 네트워크 구성이 복잡해짐에 따라 정책기반의 네트워크 관리기술에 대한 필요성이 증가하고 있으며, 특히 네트워크 보안관리를 위한 새로운 패러다임으로 정책기반의 네트워크 관리 기술이 도입되고 있다. 보안정책 서버는 새로운 정책을 입력하거나 기존의 정책을 수정, 삭제하는 기능과 보안정책 결정 요구 발생시 정책결정을 수행하여야 하는데 이를 위해서는 보안정책 실행시스템에서 보내온 경보 메시지에 대한 분석 및 관리가 필요하다. 따라서 이 논문에서는 정책기반 네트워크 보안관리 프레임워크의 구조 중에서 보안정책 서버의 효율적인 보안정책 수립 및 수행을 지원하기 위한 경보데이타 분석기를 설계하고 구현한다. 경보 데이타 저장과 분석을 위해서 데이타베이스 스키마를 설계하고 저장된 경보데이타를 분석하는 모듈을 구현하며 경보데이타 마이닝 엔진을 구현하여 경보데이타를 효율적으로 분석하고 이를 통해 경보들의 새로운 유사패턴그룹이나 공격시퀀스를 유추하여 능동적인 보안정책관리를 지원할 수 있도록 한다.