• 제목/요약/키워드: 빈발 패턴 성장

검색결과 6건 처리시간 0.022초

민감한 빈발 항목집합 숨기기 위한 확장 빈발 패턴 트리 (An Extended Frequent Pattern Tree for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제18D권3호
    • /
    • pp.169-178
    • /
    • 2011
  • 최근 기업 간 또는 기관 사이의 데이터 공유는 업무 협력을 위해서 필요한 사안이 되고 있다. 이 과정에서 기업이 데이터베이스를 계열회사에 공개했을 때 민감한 정보가 유출되는 문제점이 발행할 수도 있다. 이런 문제를 해결하기 위해서 민감한 정보를 데이터베이스로부터 숨기는 일이 필요하게 되었다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 최소화하는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 FP-Tree(Frequent Pattern Tree)기반의 확장 빈발 패턴트리(Extended Frequent Pattern Tree, eFP-Tree)를 제안한다. eFP-Tree의 노드 구성은 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 최소화하기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 eFP-Tree를 적용한 결과, 손실 항목을 평균 10%이하로 최소화하여 기존 방법들에 비해 효과적임을 증명하였고, 데이터베이스의 품질을 최적으로 유지할 수가 있었다.

민감한 빈발항목집합을 숨기기 위한 경계기반 HSFI 알고리즘 (Border-based HSFI Algorithm for Hiding Sensitive Frequent Itemsets)

  • 이단영;안형근;고재진
    • 한국멀티미디어학회논문지
    • /
    • 제14권10호
    • /
    • pp.1323-1334
    • /
    • 2011
  • 민감한 정보 숨기기 알고리즘은 민감한 정보를 보호하기 위하여 트랜잭션 데이터베이스를 삭제한다. 데이터 변경은 삭제 접근 방법들 중 하나이다. 민감한 정보를 숨기는 이전 연구들은 결과 데이터베이스의 품질을 유지하기 위해 서로 다른 휴리스틱 알고리즘을 적용했다. 그러나 민감한 정보를 숨기는 과정에서 변경되는 항목집합에 대한 영향을 평가하거나 숨겨지는 항목을 감소시키는 연구들은 미흡하였다. 본 논문에서는 민감한 빈발 항목집합을 숨기기 위하여 경계기반의 HSFI(Hiding Sensitive Frequent Itemsets) 알고리즘을 제안한다. 본 알고리즘에서 FP-Tree의 노드 정보는 기존과는 다르게 빈발 항목집합 생성단계에서 트랜잭션 정보와 민감 정보, 경계 정보를 모두 구성하며, 숨기는 과정에서 비민감한 빈발 항목집합의 영향을 줄이기 위하여 경계를 사용하였다. 본 논문의 예시 트랜잭션 데이터베이스에 HSFI를 적용한 결과, 손실 항목을 크게 감소시킴으로써 기존 방법들에 비해 효과적임을 증명하였고, 보다 개선된 데이터베이스의 품질을 유지할 수가 있었다.

빈발 순회패턴 탐사에 기반한 확장된 동적 웹페이지 추천 알고리즘 (An Extended Dynamic Web Page Recommendation Algorithm Based on Mining Frequent Traversal Patterns)

  • 이근수;이창훈;윤선희;이상문;서정민
    • 한국멀티미디어학회논문지
    • /
    • 제8권9호
    • /
    • pp.1163-1176
    • /
    • 2005
  • 웹은 가장 커다란 분산 정보저장소로서 빠른 속도로 성장했으나, 웹의 정보를 읽고 이해하는 데는 본질적으로 한계가 있다. 웹의 이러한 환경에서 사용자의 순회패턴(traversal Patterns)을 탐사하는 것은 시스템 설계나 정보서비스 제공 측면에서 중요한 문제이다. 본 논문에서는 세션에 나타나는 페이지들간의 연관성 정보를 활용하여 빈발 k-페이지집합을 탐사하여 추천 페이지집합을 생성함으로써 효율적인 웹 정보서비스를 제공할 수 있는 Web Page Recommend(WebPR) 알고리즘[11]을 화장한다. 화장된 내용은 WebPRl(A) 알고리즘을 추가하였으며, WebPR(T)에서 윈도우 개념을 도입한 새로운 winWebPR(T) 알고리즘을 제안하고 있다. 두개의 화장된 알고리즘을 포함하여 두개의 실제 웹로그(Weblog) 데이터에 대해 실험 결과에서 알 수 있듯이 윈도우 개념을 도입한 winWebPR(T) 알고리즘이 세션에 나타나는 페이지들간의 모든 연관성 정보를 활용함으로써 가장 우수한 성능을 보였다.

  • PDF

WebPR :빈발 순회패턴 탐사에 기반한 동적 웹페이지 추천 알고리즘 (WebPR : A Dynamic Web Page Recommendation Algorithm Based on Mining Frequent Traversal Patterns)

  • 윤선희;김삼근;이창훈
    • 정보처리학회논문지B
    • /
    • 제11B권2호
    • /
    • pp.187-198
    • /
    • 2004
  • 월드 와이드 웹(World-Wide Web)은 가장 커다란 분산된 정보저장소로서 계속하여 빠른 속도로 성장해왔다. 그러나 비록 웹이 빠른 속도로 성장하고 있다 할지라도, 웹의 정보를 읽고 이해하는 데는 본질적으로 한계가 있다. 웹 사용자 입장에서 보면 웹의 정보 폭발, 꾸준하게 변화하는 환경, 사용자 요구에 대한 이해 부족 둥으로 오히려 혼란을 겪을 수 있다. 웹의 이러한 환경에서 사용자의 순회패턴(traversal patterns)을 탐사하는 것은 시스템 설계나 정보서비스 제공 측면에서 중요한 문제이다. 순회패턴 탐사에 관한 기존의 연구들은 세션(sessions)에 나타나는 페이지들간의 연관성 정보를 충분히 활용하지 못한다. 본 논문에서는 세션에 나타나는 페이지들간의 연관성 정보를 활용하여 빈발 k-페이지집합을 탐사하고, 이를 기반으로 하여 추천 페이지집합을 생성함으로써 효율적인 웹 정보서비스를 제공할 수 있는 Web Page Recommend(WebPR) 알고리즘들을 제안한다. 제안한 WebPR 알고리즘은 웹 사이트를 방문한 사용자에게 추천 페이지집합을 포함하는 새로운 페이지뷰(pageview)를 제공함으로써 궁극적으로 찾고자하는 목표 페이지에 효과적으로 접근할 수 있도록 해준다. 기존 연구들과의 가장 큰 차이점은 페이지들간의 연관성 정보를 활용하는 방법들을 일관성 있게 고려하고 있다는 점과 가장 효율적인 트리모델을 제안한다는 점이다. 두개의 실제 웹로그(Weblog) 데이터에 대한 실험은 제안한 방법이 기존의 방법들보다 성능이 우수함을 보여준다.

가중치가 부여된 FP-tree를 이용한 여행지 추출 기법 (Mining Technique of Tour Destination by weighted FP-tree)

  • 김민주;이은주;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.233-236
    • /
    • 2008
  • 최근 컴퓨터와 통신의 기술이 빠르게 발달함에 따라 사회 각 부분은 그동안 경험하지 못했던 정보화라는 새로운 변화를 겪었다. 그 결과 정보화 수준이 점점 고도화 될수록 더욱 다양하고 방대한 데이터가 생성되어 데이터베이스를 이루게 되었다. 방대한 데이터에서 유용한 정보를 얻는 데이터마이닝 기법이 중요한 문제로 대두되었다. 데이터마이닝 기법은 점점 더 많은 분야에서 합리적인 선택을 위해 필수적으로 사용된다. 본 논문은 마이닝 기법을 적용하여 방대한 데이터베이스가 최적의 여행 경로 선택을 제공한다. 본 논문은 빈발 패턴 증가 기법에 가중치를 두어 여행자가 여행지를 선별하기 좋은 환경을 제공한다. 미래 산업 중 가장 중요한 산업 중 하나인 관광 산업은 계속적으로 성장하고 있으며 논문에서 제시하는 데이터 마이닝 기법으로 더 큰 발전을 기대한다.

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF