• 제목/요약/키워드: 빈발 패턴

검색결과 128건 처리시간 0.022초

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

비트 클러스터링을 이용한 빈발 패턴 탐사의 성능 개선 방안 (Advanced Improvement for Frequent Pattern Mining using Bit-Clustering)

  • 김의찬;김계현;이철용;박은지
    • 한국공간정보시스템학회 논문지
    • /
    • 제9권1호
    • /
    • pp.105-115
    • /
    • 2007
  • 데이터마이닝은 데이터베이스에 저장되어 있는 많은 일반적인 정보들을 가지고 의미있는 정보를 찾아내는 것이다. 많은 데이터 마이닝 기법들 중에 클러스터링과 연관규칙을 다루는 연구가 많이 이뤄지고 있다. 클러스터링 기법에는 공간데이터를 다루거나 속성데이터(비공간 데이터)를 다루는 많은 기법들이 연구되고 있고, 연관규칙 또한 빈발 패턴을 찾아내는 연구가 활발히 진행되고 있다. 기존의 연구 중 apriori 연관규칙 알고리즘을 개선하는 방법으로 비트 클러스터링을 이용하는 방법이 있다. 우리는 apriori 연관규칙 보다 더 나은 성능을 나타내는 FP-Growth에 대해 살펴보고 FP-Growth의 문제점을 찾아 이를 해결하기 위한 방법으로 비트 클러스터링을 이용하여 해결할 수 있는지에 대해 연구하였다. 본 논문에서는 전체 데이터베이스를 비트 클러스터링을 통해 몇 개의 클러스터로 나누어 FP-Growth 방법에 사용할 것을 제안하였다. 이렇게 하면 기존의 FP-Growth 방법보다 더 나은 성능을 가질 수 있으며 이를 증명하기 위한 실험을 수행하였다. 실험은 패턴 마이닝 연구에서 사용하는 chess 데이터를 이용하였으며, 최소지지도를 다르게 적용하면서 FP-Tree를 생성하는 실험을 하였다. 최소지지도가 높은 경우에는 기존의 방법과 비슷한 결과를 얻었지만 그 외 경우에는 기존의 방법보다 본 논문에서 제안하는 방법이 더 우수한 결과를 얻을 수 있었다. 본 논문의 주요 결론으로서 비트 클러스터링을 이용한 방법이 상대적으로 우수한 데이터 마이닝 방법임을 정리하였으며, 아울러 GML 데이터를 위한 비트 클러스터링의 적용방법론에 대하여도 논의하였다.적 성분으로 평가된다. 이러한 잠재적 추적자들에 근거할 때, 한국 서남해에 발달하고 있는 니질 퇴적대의 전퇴적물은 한국과 중국의 혼합 기원으로 해석되나, 실트와 점토 구간의 퇴적물로 나누어 볼 때 그기원이 각각 다르게 나타났다. 즉, 점토 퇴적물은 한국과 중국의 혼합 기원으로, 실트 퇴적물은 한국 기원이 우세한 것으로 해석된다. 과립에 황금입자가 표지되었다. 따라서 1일 동안 배설되는 분비배설항원은 선모충 유충의 표피와 stichocyte의 ${\alpha}_0\;{\alpha}_1$ 과립에서 유도되는 반면에 3일 동안 배설되는 분비배설항원은 표피와 stichocyte의 ${\alpha}_0$ 과립에서 유도되고, 선모충유충 감염후 1주, 4주에 실험쥐에서 형성되는 감염항체는 선모충의 표피와 기저층 그리고 EIM에서 분비되는 항원에 의하여 생성된다. 이상의 결과로 선모충의 분비배설항원과 감염항원은 선모충 유충의 표피와 EIM및 stichocyte의 ${\alpha}_0\;{\alpha}_1$ 과립에서 유도되며 이들은 45 kDa 단백을 포함하고 있는 것으로 생각된다.성하고 있는 세포들에는 세포질이 어두운 세포와 밝은 세포가 있었으며, 세포질내에는 전자밀도가 높은 분비과립이 관찰되었다. 전체적인 특징은 눈물샘분비세포 중 장액세포의 것과 비슷하였으나, 과립의 크기는 작았다. 분비관을 구성하는 세포들 사이에도 연접복합체가 매우 잘 발달되어 있었다. 샘포에서 사이관으로 이행되는 곳에서도 샘포세포와 사이관세포 사이에서도 연접복합체가 관찰되었다. 분비관세포의 분비과립 가운데는 중심부분에 전자밀도가

  • PDF

침입탐지시스템의 경보데이터 분석을 위한 데이터 마이닝 프레임워크 (An Alert Data Mining Framework for Intrusion Detection System)

  • 신문선
    • 한국산학기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.459-466
    • /
    • 2011
  • 이 논문에서는 침입 탐지시스템의 체계적인 경보데이터관리 및 경보데이터 상관관계 분석을 위하여 데이터 마이닝 기법을 적용한 경보 데이터 마이닝 프레임워크를 제안한다. 적용된 마이닝 기법은 속성기반 연관규칙, 속성기반 빈발에피소드, 오경보 분류, 그리고 순서기반 클러스터링이다. 이들 구성요소들은 각각 대량의 경보 데이터들로부터 알려지지 않은 패턴을 탐사하여 공격시나리오를 유추하거나, 공격 순서를 예측하는 것이 가능하며, 데이터의 그룹화를 통해 고수준의 의미를 추출할 수 있게 해준다. 실험 및 평가를 위하여 제안된 경보데이터 마이닝 프레임워크의 프로토타입을 구축하였으며 프레임워크의 기능을 검증하였다. 이 논문에서 제안한 경보 데이터 마이닝 프레임워크는 기존의 경보데이터 상관관계분석에서는 해결하지 못했던 통합적인 경보 상관관계 분석 기능을 수행할 뿐만 아니라 대량의 경보데이터에 대한 필터링을 수행하는 장점을 가진다. 또한 추출된 규칙 및 공격시나리오는 침입탐지시스템의 실시간 대응에 활용될 수 있다.

데이타마이닝 기법을 이용한 경보데이타 분석기 구현 (Implementation of Analyzer of the Alert Data using Data Mining)

  • 신문선;김은희;문호성;류근호;김기영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권1호
    • /
    • pp.1-12
    • /
    • 2004
  • 최근 네트워크 구성이 복잡해짐에 따라 정책기반의 네트워크 관리기술에 대한 필요성이 증가하고 있으며, 특히 네트워크 보안관리를 위한 새로운 패러다임으로 정책기반의 네트워크 관리 기술이 도입되고 있다. 보안정책 서버는 새로운 정책을 입력하거나 기존의 정책을 수정, 삭제하는 기능과 보안정책 결정 요구 발생시 정책결정을 수행하여야 하는데 이를 위해서는 보안정책 실행시스템에서 보내온 경보 메시지에 대한 분석 및 관리가 필요하다. 따라서 이 논문에서는 정책기반 네트워크 보안관리 프레임워크의 구조 중에서 보안정책 서버의 효율적인 보안정책 수립 및 수행을 지원하기 위한 경보데이타 분석기를 설계하고 구현한다. 경보 데이타 저장과 분석을 위해서 데이타베이스 스키마를 설계하고 저장된 경보데이타를 분석하는 모듈을 구현하며 경보데이타 마이닝 엔진을 구현하여 경보데이타를 효율적으로 분석하고 이를 통해 경보들의 새로운 유사패턴그룹이나 공격시퀀스를 유추하여 능동적인 보안정책관리를 지원할 수 있도록 한다.

웹 문서와 접근로그의 하이퍼링크 추출을 통한 웹 구조 마이닝 (Web Structure Mining by Extracting Hyperlinks from Web Documents and Access Logs)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권11호
    • /
    • pp.2059-2071
    • /
    • 2007
  • 웹 사이트의 구조가 정확하게 주어진다면, 정보 제공자의 입장에서는 사용자의 행위 패턴이나 특성을 효과적으로 파악할 수 있어 보다 나은 서비스를 제공할 수 있고, 사용자의 입장에서는 더욱 쉽고 정확하게 유용한 정보를 찾을 수 있을 것이다. 하지만 웹상의 문서들은 빈발하게 수정되기 때문에 웹 사이트의 구조를 정확하게 추출하는 것은 상당한 어려움이 있다. 본 논문에서는 이러한 웹 사이트의 구조를 자동으로 추출하는 알고리즘을 제안한다. 제안하는 알고리즘은 두 단계로 구성된다. 첫 번째 단계는 웹 문서를 분석하여 그들 간의 하이퍼링크를 추출하고 이를 웹 사이트의 구조를 나타내는 방향 그래프로 표현한다. 하지만 플래시나 자바 애플릿에 포함된 하이퍼링크는 추출할 수 없는 한계가 있다. 두 번째 단계에서는 이러한 숨겨진 하이퍼링크를 추출하기 위하여 웹 사이트의 접근로그를 이용한다. 즉, 접근로그로부터 각 사용자의 클릭스트림을 추출한 후, 첫 번째 단계에서 생성한 그래프와 비교하여 숨겨진 하이퍼링크를 추출한다. 본 논문에서 제안한 알고리즘의 성능을 평가하기 위하여 다양한 실험을 수행하였고, 이러한 실험을 통하여 웹 사이트의 구조를 보다 정확하게 추출할 수 있음을 확인하였다.

ASEAN국가 현지맞춤형 인공지능 하천수위예측 모형 개발 (Development of locally customized river level prediction model based on AI for ASEAN countries)

  • 김수영;정재원;이승호;윤광석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.333-333
    • /
    • 2023
  • 기후변화로 인해 전지구적인 이상기후현상이 빈번하게 발생하고 있으며 지구온도와 해수면상승과 더불어 강우패턴의 변화가 세계적인 문제로 대두되고 있다. 특히 아세안 국가의 경우 태풍 및 집중호우에 대한 침수피해의 빈발로 2,000만명 이상이 피해를 입은 것으로 나타났다. 이러한 윈인으로는 자연재해에 의한 인명 및 재산피해관련 대응기술의 개발 및 대응조직의 전문성이 미흡하다는 것이 가장 큰 원인으로 제시되고 있다. 이에 많은 국가 및 기관에서 재난 대응 기술을 ODA사업을 통해 지원하고 있다. 우리나라에서도 지속적인 ODA사업으로 재난 대응 기술, 그 중에서도 홍수대응 기술을 적극적으로 보급하고 있다. 본 연구에서는 ASEAN국가 현지 맞춤형 인공지능 하천수위예측 모형을 개발하여 ASEAN국가의 홍수대응 능력을 향상시키고자 하였다. 연구대상으로는 관측데이터의 수집이 용이하고 양질의 관측자료를 장기간 확보할 수 있는 필리핀의 Montalban 관측소를 대상으로 하였다. Montalban 수위관측소는 마닐라를 관통하는 마리키나 강의 상류에 위치하고 있다. 주변에는 상류쪽에 Mt. Oro 강우관측소가 있으며 해당 관측소의 강우자료와 Montalban 관측소의 수위자료를 입력자료로 활용하여 최대 3시간까지 수위를 예측하였다. 예측수위에 대한 적합도 지표로 NSE(Nash-Sutcliffe model efficiency coefficient)를 사용하였으며 2시간 예측까지는 0.8이상의 유의미한 결과를 나타내 홍수예보에 활용할 수 있을 것으로 판단되나, 3시간 예측결과는 홍수예보에 활용하기 어려운 것으로 판단하였다. 이는 Mt. Oro관측소에 내린 강우가 Montalban 관측소에 도달하기까지 소요되는 시간이 3시간 이내이기 때문으로 판단된다. 관측소의 수위자료와 상류에 위치한 강우관측소의 장기간 고품질의 관측자료가 존재한다면 높은 정확도의 예측결과를 도출 할 수 있을 것으로 판단된다.

  • PDF

ROCH: 워게임 모의개체 간 역할기반 협력 구현 방안 연구 (Implementation of Role-based Command Hierarchy Model for Actor Cooperation)

  • 김정윤;김희수;이상진
    • 한국시뮬레이션학회논문지
    • /
    • 제24권4호
    • /
    • pp.107-118
    • /
    • 2015
  • 군 워게임 분야에서 많은 에이전트 협력과 관련된 연구들이 제시되었고, 그러한 연구들은 주어진 목표를 달성하기 위해 존재하는 한 팀을 이루는 모의개체간 협업을 위한 기법들을 다루고 있다. 급격히 변화하는 전장을 모의하기 위해서, 실제 전장상황에서 빈발하는 임무 인계를 반영하기 위해 하나의 모의개체는 다른 개체의 역할을 인계 받을 수 있어야 하며, 이를 위해 개체는 자신의 과업과 느슨하게 연결되어 있어야 한다. 이 요건을 만족함으로써 모의상황에서 파괴된 개체가 자신의 과업을 수행하지 못할 경우 다른 개체에게 자신의 과업을 전달하는 것을 가능케 한다. 그러나 개체와 과업간의 긴밀한 연결은 긴박한 전장상황에서의 임무 승계를 반영하는 것을 저해한다. 기존의 문제점으로서, 기존의 연구 및 워게임들은 설계단계에서 과업을 개체에 엄격하게 지정함으로써 그러한 느슨한 연계를 어렵게 한다. 이 결함을 극복하기 위해 역할기반명령계층(ROCH) 모델은 실행상태에서 개체의 주변 상황에 근거하여 역할을 동적으로 할당한다. 이 모델에서 역할(Role)은 개체와 과업을 분리한다. 본 논문에서는 하나의 개체와 다른 부하 개체들 간의 역할과의 연결이 긴밀하지 않도록 출판/구독(publish/subscribe)패턴을 활용하여 ROCH 모델을 하나의 컴포넌트로 구현한다.

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.