• 제목/요약/키워드: 연관규칙분석

검색결과 346건 처리시간 0.024초

데이터 카디널리티에 따른 FP-Growth 알고리즘의 효율성 분석 (Analysis of efficiency of FP-Growth algorithm based on data cardinality)

  • 김진형;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.33-35
    • /
    • 2019
  • 서로 다른 아이템 집합의 연관성을 분석하는 것을 연관규칙분석이라 한다. 대표적인 알고리즘으로 Apriori 알고리즘이 있지만 DB스캔 횟수가 많아질 수 있고 후보 집합 생성으로 인해서 속도가 느려질 수 있다는 단점이 있다. 이를 효율적으로 개선한 FP-Growth 알고리즘을 구현하여 임의의 데이터를 이용하여 알고리즘의 속도에 대해 연구한다.

데이터 스트림 시스템에서 이상 이벤트에 대한 연관 규칙 마이닝 (Mining Association Rule for the Abnormal Event in Data Stream Systems)

  • 김대인;박준;황부현
    • 정보처리학회논문지D
    • /
    • 제14D권5호
    • /
    • pp.483-490
    • /
    • 2007
  • 최근에 데이터 스트림을 분석하여 잠재되어 있는 지식을 발견하기 위한 마이닝 방법에 대한 연구가 진행되고 있다. 그러나 대부분의 지지도 기반의 마이닝 방법들은 일정 주기 동안에 미리 정의된 지지도 이상의 발생 빈도를 갖는 이벤트만을 고려함으로써 발생 빈도에 비하여 중요도가 높은 이벤트를 간과하는 문제점을 가지고 있다. 본 논문에서는 이상 이벤트에 대한 연관 규칙을 탐사할 수 있는 SM-AF 방법을 제안한다. SM-AF 방법은 이상 이벤트가 감지된 윈도우만 고려하여 연관 정보를 탐사함으로써 자주 발생하지 않더라도 중요도가 높은 이벤트에 대한 연관 정보를 탐사할 수 있다. 또한 SM-AF 방법은 이상 이벤트에 대한 의미 있는 희소 항목 집합과 주기적인 이벤트 집합도 탐사한다. 그리고 다양한 실험을 통하여 SM-AF 방법이 기존의 연관 규칙 방법들에 비하여 우수함을 확인하였다.

다크웹 아동 음란물 추적을 위한 연관규칙 기반 키워드 수집체계 (Keyword Collection System based on Association Rules to Track Pornography of Children on Dark Webs)

  • 김진경;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.207-208
    • /
    • 2023
  • 다크웹을 통한 마약, 금융거래, 해킹 등 사이버 범죄가 증가하면서 다크웹 상의 범죄 추적을 위한 사이버 수사 필요성이 증대되고 있다. Tor와 같은 다크웹 접속 브라우저는 강력한 익명성을 제공하기 때문에 주로 다크웹 운영상의 취약점 분석, 악성코드를 활용한 함정수사 기법이 실효성 높은 다크웹 수사 기술로 간주된다. 그러나 사이트 개설 및 폐쇄가 빈번하게 발생하는 다크웹의 특성상 최신 범죄 정보를 수집하기 위해서는 방대한 다크웹 정보를 실시간 수집하고, 능동적으로 검색 키워드를 확장할 수 있는 고도화된 크롤러 기술 개발이 필요하다. 본 논문은 다양한 다크웹 사이트 중, 아동 음란물 사이트를 크롤링을 통해 수집하고, 수집된 텍스트의 연관 분석을 통해 검색 키워드를 확장하는 수집 체계를 제안한다.

  • PDF

연관규칙 흥미성 척도의 실용성 향상을 위한 장바구니 크기 효과 반영 방안 (Utilizing the Effect of Market Basket Size for Improving the Practicality of Association Rule Measures)

  • 김원서;정승렬;김남규
    • 정보처리학회논문지D
    • /
    • 제17D권1호
    • /
    • pp.1-8
    • /
    • 2010
  • 연관규칙 마이닝은 물품들 간의 동시 구매 패턴 파악에 사용되는 대표적 마이닝 기법 중 하나로, 카탈로그 설계, 교차판매, 매장배치 등 다양한 마케팅 전략 수립에 활용된다. 방대한 데이터로부터 도출된 많은 연관규칙 중 수익성이 있는 규칙만을 식별해 내는 작업은 지나치게 많은 시간 및 비용을 필요로 한다. 따라서 연관규칙들의 흥미성 평가 과정을 신속하고 체계적으로 수행하기 위해 다양한 흥미성 척도들이 고안되어 왔다. 하지만 신뢰도와 지지도를 비롯한 대다수의 척도들은 대상 물품들의 발생 빈도수에만 근거하여 도출되므로, 실제 판매 현상을 정확하게 반영하지 못한다는 한계를 갖는다. 예를 들어, 기존의 척도는 매우 큰 장바구니에서 동시 구매된 한 건의 거래와 작은 크기의 장바구니에서 동시 구매된 한 건의 거래를 동일한 빈도로 측정한다. 그런데 매우 큰 장바구니에서는 서로 연관관계가 없는 물품들이 우연히 동시에 존재할 가능성이 크므로, 이에 대한 보정이 이루어지는 것이 타당하다. 기존의 척도들과 달리, 본 논문에서는 장바구니 크기 효과를 반영한 흥미성 척도를 새롭게 소개한다. 제안하는 척도는 큰 바구니에서 발생한 패턴과 작은 바구니에서 발생한 패턴에 대해 상이한 가중치를 부여하는 방식으로 계산됨으로써, 우연히 발생한 패턴으로 인해 결과가 왜곡되는 현상을 최소화할 수 있을 것으로 기대된다. 또한, 시뮬레이션 데이터 및 실 데이터에 대한 실험을 통해 제안하는 척도와 기존 척도가 다양한 환경 하에서 보이는 정확성과 일관성을 분석하고 그 결과를 제시하였다.

인과적 확인 측도에 의한 연관성 규칙 탐색 (Proposition of causally confirmed measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권4호
    • /
    • pp.857-868
    • /
    • 2014
  • 대량의 데이터로부터 과거에 알려지지 않았던 유용한 정보를 발견하는 기술인 데이터 마이닝 기법은 오늘날 빅 데이터 시대에 가장 대표적인 분석 기법이라고 할 수 있다. 이들 중에서도 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 흥미도 측도를 기반으로 하여 항목들 간의 관련성을 찾아내는 것이다. 그러나 기본적인 연관성 평가 기준만으로는 두 항목 간의 인과관계를 설명할 수 없을 뿐만 아니라 연관성의 방향도 파악할 수 없다. 본 논문에서는 이러한 문제를 해결하기 위해 인과적 확인 연관성 평가 기준을 제안하는 동시에, 제안한 평가 기준들이 흥미도 측도의 조건을 충족하는지의 여부를 점검하였다. 본 논문에서 제안한 인과적 확인 향상도는 세 가지 조건 모두를 만족하는 것으로 입증되었다. 인과적 확인 지지도와 인과적 확인 신뢰도는 동시 발생 확률의 값에 따라 단조 증가하는 조건과 각 항목의 주변 확률의 값에 따라 단조 감소하는 조건은 만족하였다. 또한 예제를 통해 기본적인 연관성 평가 기준과 인과적 연관성 평가 기준, 그리고 인과적 확인 연관성 평가 기준을 비교해 본 결과, 본 논문에서 제안하는 인과적 확인 측도들이 다른 평가 기준에 비해 가장 바람직한 측도라는 사실을 파악하였다.

XOnto-Apriori: 확장된 온톨로지 추론 기반의 연관 규칙 마이닝 알고리즘 (XOnto-Apriori: An eXtended Ontology Reasoning-based Association Rule Mining Algorithm)

  • 이종현;김장원;정동원;이석훈;백두권
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.423-432
    • /
    • 2011
  • 이 논문에서는 연관 규칙 마이닝 알고리즘의 정확도를 향상시키기 위하여 기존 Onto-Apriori 알고리즘을 확장한 XOnto-Apriori 알고리즘을 제안한다. 기존 알고리즘은 트랜잭션 항목의 식별자만을 비교하여 지지도를 계산하기 때문에 유사한 속성을 가진 항목들간의 관계를 분석하지 못하는 문제점을 지닌다. 이러한 문제점을 해결하기 위해 제안 알고리즘은 온톨로지 추론 기반의 속성 비교를 통해 같은 식별자를 지니지 않는 항목들간의 관계성도 지지도 계산에 반영할 수 있도록 한다. 제안 알고리즘의 규칙 생성 과정을 명확히 서술하기 위해 스마트폰 어플리케이션 추천 시스템을 설계하였으며 이 시스템은 기존 알고리즘 기반의 시스템에 비해 보다 나은 속도와 정확도를 보였다.

고속연관규칙을 이용한 문맥광고에서의 콘텐츠 추천 (Content Recommendation Using High-Speed Association Rule Generation for Contextual Advertisement)

  • 김성민;이성진;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.362-365
    • /
    • 2006
  • 인터넷 사용자가 급증함에 따라 온톨로지를 이용한 지능형 웹이나 인터넷 사용자에게 개인 맞춤형 서비스를 제공하기 위한 다양한 연구가 진행되고 있다. 대표적인 예로 문맥광고는 인터넷 사용자들이 뉴스나 커뮤니티 사이트에서 콘텐츠를 조회하고, 해당 콘텐츠와 일치하거나 관련성이 높은 제품 또는 서비스 정보를 제공하는 광고기법이다. 그러나 문맥 광고는 사용자에게 다양한 콘텐츠 및 사이트 추천 서비스를 제공하지 못하고 있다. 따라서 다양한 콘텐츠 및 사이트 추천 서비스를 제공하기 위해 본 논문에서는 사용자가 조회한 콘텐츠의 내용을 대표할 수 있는 중요 키워드를 선정하고, 콘텐츠 내에서 추출된 키워드간의 연관성을 분석하여 관련 콘텐츠 및 사이트를 추천하는 방법에 대해 제안한다. 또한 연관키워드리스트 생성방법을 고속연관규칙을 이용하여 처리속도를 줄이고, 사용자가 선호할 만한 다양한 콘텐츠와 관련된 사이트를 제공하는 방법에 대해 제안한다.

  • PDF

한국농수산대학 신입생 자기소개서의 텍스트 마이닝과 연관규칙 분석 (1) (Text Mining and Association Rules Analysis to a Self-Introduction Letter of Freshman at Korea National College of Agricultural and Fisheries (1))

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제22권1호
    • /
    • pp.113-129
    • /
    • 2020
  • 본 연구는 2020년 한농대 입학생의 비정형 텍스트인 자소서에서 의미 있는 정보 혹은 규칙을 추출하기 위하여 고교 재학 중 '학업 및 학습경험'과 '교내 활동'을 기술한 두 개 문항에 대하여 텍스트 마이닝에 의한 토픽 분석과 연관성 분석을 하였다. 모집 전형을 구분하지 않은 텍스트 마이닝 분석 결과에서 '학업 및 학습 경험' 항목과 관련된 주요 키워드는 '공부', '생각', '노력', '문제', '친구' 등의 순으로 많이 나타났으며, '교내 활동' 항목과 관련된 주요 키워드는 '활동', '생각', '친구', '동아리', '학교' 등의 순으로 빈도가 높게 나타났다. 그러나 도시 인재 전형과 농수산 인재 전형 신입생들의 키워드 빈도 순위는 두 항목 모두 전형 특성에 따른 약간의 차이를 나타냈다. 빈도 분석에 결과는 빈도수 상위 50위까지의 키워드를 워드 클라우드로 시각화하여 키워드를 알기 쉽게 표현하였다. 연관 분석은 apriori() 함수를 사용하였으며 적정한 계산을 위하여 support(지지도)와 confidence(신뢰도)의 기준값을 항목별로 설정하였다. 먼저 '학업' 항목에 대한 연관 규칙은 46개를 추출하였으며, 그 가운데 {공부} => {생각}, {성적} => {공부} 및 {과목} => {공부} 등의 규칙에서 높은 연관성을 볼 수 있었다. 이 규칙을 바탕으로 매개체 역할의 키워드를 평가하는 관계 중심성 평가와 노드에 연결된 edge의 수에 따라 중요도를 파악하는 연결 중심성 평가에서는 '생각', '공부', '노력', '시간' 등의 키워드가 중심적인 역할을 하는 정보를 획득하였다. 다음으로 '교내 활동' 항목에서는 45개의 연관 규칙을 생성하여 {활동} => {생각}, {동아리} => {활동} 등의 규칙에서 높은 연관성을 볼 수 있었으며, 관계 중심성 평가와 연결 중심성 평가에서는 '생각', '활동', '학교', '시간', '친구' 등의 키워드가 중심 키워드라는 결과를 얻었다. 다음 연구에서는 자소서의 나머지 두 개의 문항 '배려·나눔·협력·갈등관리' 항목과 한농대 '지원동기와 향후 진로계획' 항목을 분석한다. 분석에는 '키워드의 빈도'에 '문서 빈도의 역수'를 곱하여 주로 다량의 문서에서 핵심어를 추출하는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 추가한다.

점진적 연관 규칙을 이용한 침입탐지 시스템의 오 경보 패턴 분석 프레임워크 설계 (A design of framework for false alarm pattern analysis of intrusion detection system using incremental association rule mining)

  • 전원용;김은희;신문선;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.307-309
    • /
    • 2004
  • 침입탐지시스템에서 발생되는 오 경보는 false positive 와 false negative 로 구분된다. false positive는 실제적인 공격은 아니지만 공격이라고 오인하여 경보를 발생시켜 시스템의 효율성을 떨어뜨리기 때문에 false positive 패턴에 대한 분석이 필요하다. 오 경보 데이터는 시간이 지남에 따라 데이터의 양뿐만 아니라 데이터 패턴의 특성 또한 변하게 된다 따라서 새로운 데이터가 추가될 때마다 오 경보 데이터의 패턴을 분석할 수 있는 도구가 필요하다. 이 논문에서는 오 경보 데이터로부터 false positive 의 패턴을 분석할 수 있는 프레임워크에 대해서 기술한다. 우리의 프레임워크는 시간이 지남에 따라 변하는 데이터의 패턴 특성을 분석할 수 있도록 하기 위해 점진적 연관규칙 기법을 적용한다. 이 프레임워크를 통해서 false positive 패턴 특성의 변화를 효율적으로 관리 할 수 있다.

  • PDF

'규칙따르기 역설'에 대한 크립키 논증의 비판적 분석

  • 박만엽
    • 논리연구
    • /
    • 제9권1호
    • /
    • pp.97-136
    • /
    • 2006
  • 비트겐슈타인의 규칙따르기 개념에 대한 올바른 이해는 그의 후기 철학의 궤적을 살피는데 있어서 중요하다. 비트겐슈타인의 규칙따르기 문제에 대해 회의적 해석으로 유명한 크립키는 "탐구"의 201절을 문제 삼으며 '역설'의 문제를 새로운 형식의 철학적 회의주의로 간주했다. 본 논문은 규칙의 역설에 대한 크립키의 논증이 비트겐슈타인의 관점과 무엇 때문에 충돌하는지를 밝히면서 그와 함께 비트겐슈타인이 '규칙의 역설'을 제시한 궁극적 이유를 규명하는데 있다. 규칙의 역설에 대한 크립키 논증의 의의와 한계를 비판적으로 다룸으로서 필자는 다음과 같은 점을 주장할 것이다. 비트겐슈타인에게 있어서 규칙은 우리들의 행동을 이끄는 지침의 역할을 하며, 규칙의 문제를 추론과 연관시켜 수학이 엄격한 규칙을 따르는 인간의 지적 활동이며, 규칙에 대한 비트겐슈타인의 관점은 귀납적 회의주의와 무관하다. 이런 맥락에서 비트겐슈타인을 회의주의자 혹은 상대주의자로 평가하는 것은 문제가 있다. 그런 점에서 비트겐슈타인은 오히려 어떤 이론이나 선입견에 사로잡히지 않은 봄의 방식을 강조한 철학자로 평가하는 것이 옳다.

  • PDF