• 제목/요약/키워드: 빈발항목 집합

검색결과 61건 처리시간 0.026초

데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색 (Finding Frequent Itemsets based on Open Data Mining in Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.447-458
    • /
    • 2003
  • 기존의 데이터 마이닝 방법들은 기본적으로 지식 발견의 대상이 되는 데이터 집합이 마이닝 작업 시작 이전에 명확히 정의되는 것으로 가정하며 이러한 가정은 고정적으로 정의된 특정 데이터 집합에 내재된 정보 추출이 데이터 마이닝의 목적이 될 때 유효하다. 또한, 기존의 데이터 마이닝 방법들은 대용량의 데이터 집합에 대한 마이닝 결과를 얻는데 있어서 상당한 처리 시간을 요구한다. 따라서, 새로운 트랜잭션 데이터가 지속적으로 추가되는 데이터 스트림에서 추가된 트랜잭션의 정보들을 포함하는 최신의 마이닝 결과를 최대한 빠른 시간 안에 얻기를 기대하는 실시간 처리 환경에서는 기존의 데이터 마이닝 방법을 적용하는 것이 거의 불가능하다. 이러한 목적에 부합하기 위해서 본 논문에서는 새로운 데이터 마이닝 개념인 개방 데이터 마이닝을 제안한다. 개방 데이터 마이닝에서는 새로운 트랜잭션이 발생함에 따라 이전에 발생한 트랜잭션들에 대한 마이닝 결과가 새롭게 갱신되며 따라서 확장된 전체 트랜잭션 집합에 대한 마이닝 결과를 빠르게 얻을 수 있다. 이러한 방법을 효과적으로 구현하기 위해서는 새롭게 출현한 항목에 대한 지연추가와 이전 데이터 집합에 출현한 항목들 중에서 중요하지 않는 항목에 대한 전지작업이 병행되어야 한다. 논문에서 제안하는 알고리즘은 알고리즘의 특성을 파악하기 위한 일련의 다양한 실험을 통해서 검증된다.

최대 빈발 2-시퀀스를 이용한 최적 이동 패턴 추출 (Extraction of Optimal Moving Pattern using Maximum Frequent 2-Sequence)

  • 이연식;고현;김광종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (D)
    • /
    • pp.367-372
    • /
    • 2008
  • 최근 사용자들의 특성에 맞게 개인화되고 세분화된 위치 기반 서비스를 개발하기 위한 목적으로 이동 객체의 다양한 패턴들 중 의미있는 지식인 유용한 이동 패턴을 탐사하는 문제가 주요 이슈로 부각되고 있다. 이에 본 논문에서는 방대한 이동 객체의 이력 데이터 집합으로부터 특정 지점들 간의 최적 이동 경로나 정해진 시간내의 스케줄링 경로 탐색과 같이 복합적인 시간 및 공간 제약을 갖는 최적 이동 패턴을 탐사하는 문제에 대해 정의하고, 다양한 이동 패턴들 중 가장 빈발하게 발생하는 패턴이 최적의 비용을 소요할 것이라는 가정을 기반으로 최대 빈발 2-시퀀스를 추출하는 방법을 제안한다. 후보 시퀀스 집합으로부터 지지도 계산을 통해 추출되는 빈발 2-시퀀스들의 순차적인 조합은 패턴 탐사를 수행하는 각 패스 진행 시 후보 시퀀스 항목의 차수가 점차 감소하여 최적 이동 패턴 탐사 방법에 효과적으로 적용된다.

  • PDF

데이터 베이스 특성에 따른 효율적인 데이터 마이닝 알고리즘 (An Efficient Data Mining Algorithm based on the Database Characteristics)

  • 박지현;고찬
    • Journal of the Korean Society for Industrial and Applied Mathematics
    • /
    • 제10권1호
    • /
    • pp.107-119
    • /
    • 2006
  • 인터넷과 웹 기술 발전에 따라 데이터베이스에 축적되는 자료의 양이 급속히 늘어나고 있다. 데이터베이스의 응용 범위가 확대되고 대용량 데이터베이스로부터 유용한 지식을 발견하고자 하는 데이터 마이닝(Data Mining) 기술에 대한 연구가 활발하게 진행되고 있다. 기존의 알고리즘들은 대부분 후보 항목 집합들을 줄임과 동시에 데이터베이스의 크기를 줄이는 방법으로 발전해 오고 있다. 그러나 후보 항목집합들을 줄이는 노력이나 데이터베이스의 크기를 줄이는 방법들이 빈발 항목집합들을 생성하는 전 과정에서 필요로 하지는 않는다. 그러한 방법들이 어느 과정에서는 시간을 줄이는데 효과가 있지만 다른 과정에서는 오히려 그러한 방법들을 적용하는데 더 많은 시간이 소요되기 때문이다. 본 논문에서는 트랜잭션들의 길이가 짧거나 데이터베이스를 이루는 항목들의 수가 비교적 적은 트랜잭션 데이터베이스에서 해슁 기법을 사용하여 데이터베이스를 한 번 스캔하고 동시에 각 트랜잭션에서 발생 가능한 모든 부분집합들을 해쉬 테이블에 저장함으로써 최소 지지도에 영향을 받지 않고 기존의 알고리즘보다 더 짧은 시간에 빈발항목집합을 발견할 수 있는 효과적인 연관 규칙 탐사 알고리즘을 제안하고 실험하였다.

  • PDF

완전해싱을 위한 DHP 연관 규칙 탐사 알고리즘의 개선 방안 (Improvement of DHP Association Rules Algorithm for Perfect Hashing)

  • 이형봉
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권2호
    • /
    • pp.91-98
    • /
    • 2004
  • DHP 연관 규칙 탐사 알고리즘은 후보 빈발 항목 집합들에 대한 계수를 유지하기 위한 해쉬트리의 크기를 가능한 한 줄이기 위하여, 독립된 직접 해쉬 테이블을 미리 준비해 놓았다가 후보 빈발 항목 집합을 생성할 때 적용함으로써 전지 효과를 얻는다. 이 때 직접 해쉬 테이블의 크기가 클수록 전지효과는 커지며, 특히 길이 2인 후보 빈발 항목 집합을 생성하는 단계에서의 전지 효과는 알고리즘 전체의 성능을 좌우할 만큼 큰 영향을 발휘한다. 따라서 급속도로 보편화되고 있는 대용량 주기억장치 시스템 추세에 따라 단계 2에서의 직접 해쉬 테이블 크기의 극단적인 증가에 대한 시도가 이루어지고 있으며, 이러한 것 중의 하나가 완전 해쉬 테이블이다. 그러나 단계 2에서의 완전 해쉬 테이블을 사용할 경우, 이를 단순히 기존 DHP 알고리즘에 적용하여 버켓 크기(|H$_2$|)만을 재 설정하는 것 보다, DHP 알고리즘 자체를 조금 변경했을 때 약 20% 이상의 추가 성능 이득을 얻을 수 있음이 밝혀졌다. 이 논문에서는 단계 2에서의 완전 해쉬 테이블의 타당성을 조명해 본 후, 그 특성을 충분히 활용하도록 DHP를 개선한 PHP 알고리즘을 제안하며 그 결과를 실험적 환경에서 검증한다.

다차원 스트림 데이터의 연관 규칙 탐사 기법 (Mining Association Rules in Multidimensional Stream Data)

  • 김대인;박준;김홍기;황부현
    • 정보처리학회논문지D
    • /
    • 제13D권6호
    • /
    • pp.765-774
    • /
    • 2006
  • 연관 규칙 탐사는 데이터베이스를 분석하여 잠재되어 있는 지식을 발견하기 위한 기법으로 스트림 데이터 시스템에서 연관 규칙 탐사에 대한 연구가 활발하게 진행되고 있다. 그러나 대부분의 연구들은 센서에서 수집되는 단일 스트림 데이터에 관한 것이며 다차원 스트림 데이터간의 연관 정보는 간과하고 있다. 본 논문에서는 다차원 스트림 데이터간의 연관 규칙을 탐사할 수 있는 AR-MS 방법을 제안한다. AR-MS 방법은 한 번의 데이터 스캔으로 연관 규칙 탐사에 필요한 요약 정보를 구축함으로써 스트림 데이터의 특성을 반영하며, 자주 발생하지는 않지만 특정 이벤트와 빈번하게 발생하는 의미 있는 희소 항목 집합에 대한 연관 규칙을 탐사할 수 있다. 또한 AR-MS 방법은 구축된 요약 정보를 사용하여 다차원 스트림 데이터간의 최대 빈발 항목 집합에 대한 연관 규칙도 탐사한다. 그리고 다양한 실험을 통하여 제안하는 방법이 기존의 방법들에 비하여 우수함을 확인하였다.

저장공간 축소와 실행시간 개선을 고려한 연관규칙 마이닝 (Association Rule Mining for Space Reduction and Performance Improvement)

  • 한영우;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.337-339
    • /
    • 2002
  • 연관규칙 탐사기법은 거래(사건) 속에 포함된 품목(항목)간의 연관관계를 발견하고자 할 때 사용하는 기법이며, 독특한 형태의 자료구조를 사용하는 다양한 연관규칙 알고리즘들이 제안되었다. 다양한 특성을 갖는 대용량의 데이터에 대해 효율적으로 연관규칙 탐사를 수행하기 위해서는 저장공간과 실행시간을 모두 고려해야 한다. 본 논문에서는 후보항목집합 발생과정 없이 압축빈발항목집합과 동적링크집합을 이용하여 저장공간 축소와 실행시간 개선을 동시에 고려한 연관규칙 알고리즘을 제안하며, 그 우수성을 증명하기 위해 연관규칙 탐사의 대표적인 자료 구조인 FP-struct, H-Struct와의 저장공간 비교 및 이들 저장구조를 사용하는 FP-growth, H-mine 알고리즘과의 실행시간을 비교한다.

  • PDF

데이터 스트림 환경에서 효율적인 빈발 항목 집합 탐사 기법 (A Method for Frequent Itemsets Mining from Data Stream)

  • 서복일;김재인;황부현
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.139-146
    • /
    • 2012
  • 데이터 마이닝은 다양한 분야에서 축적된 데이터로부터 필요한 지식을 탐사하기 위하여 널리 이용되고 있다. 연관규칙을 탐사하기 위하여 이벤트의 빈발 횟수에 기반을 둔 많은 방법들이 존재하지만, 이들은 이벤트가 연속적으로 발생하는 스트림 환경에는 적합하지 않다. 또한 실시간으로 연관규칙을 탐사해야 하는 스트림 환경에 적용하기에는 많은 비용이 든다. 이 논문에서는 스트림 환경에서 연관규칙을 탐사하기 위한 새로운 방법을 제안한다. 제안하는 방법은 데이터 스트림에서 목적 이벤트의 발생 간격에 따른 가변 윈도우로부터 이벤트의 존재 유무에 근거한 COBJ(Count object) 계산법을 이용하여 데이터 항목을 추출한다. 추출된 데이터는 FPMDSTN(Frequent Pattern Mining over Data Stream using Terminal Node) 알고리즘을 통해 실시간으로 연관규칙을 탐사한다. 실험 결과를 통해 제안하는 방법이 기존의 방법에 비해 스트림 환경에 효율적임을 보인다.

FP-tree 연관 규칙 탐사 알고리즘의 구현 및 성능 특성 (An Implementation and Performance Characteristics of the FP-tree Association Rules Mining Algorithm)

  • 이형봉
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.337-340
    • /
    • 2006
  • FP-tree(Frequent Pattern Tree) 연관 규칙 탐사 알고리즘은 DB 스캔에 대한 부담을 획기적으로 절감시킴으로써 전체적인 성능을 향상시키고자 제안되었다. 그런데, FP-tree는 DB에 저장된 거래 내용중 빈발 항목을 포함하는 모든 거래를 트리에 저장해야 하기 때문에 그만큼 많은 메모리를 필요로 한다. 이 논문에서는 범용 운영체제인 유닉스 시스템을 사용해서 메모리 사용 측면에서 F.P. Tree 알고리즘의 타당성과 이에 따른 성능 특성을 관찰하였다. 그 결과, F.P. Tree 알고리즘은 현대 컴퓨터에서 보편화된 512MB${\sim}$1GB의 주메모리 시스템에서 무리는 없으나, 메모리 소요량이 DB의 크기나 빈발 항목 집합의 수 보다는 거래의 길이 등 DB의 특성에 따라 급격하게 증가하는 것으로 나타났다.

  • PDF

효과적인 이메일 분류를 위한 빈발 항목집합 기반 최적 이메일 폴더 추천 기법 (A proper folder recommendation technique using frequent itemsets for efficient e-mail classification)

  • 문종필;이원석;장중혁
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.33-46
    • /
    • 2011
  • 이메일이 중요한 정보 전달과 의사소통의 수단으로 널리 활용된 이래 사람들은 이메일을 내용에 따라 적절하게 분류하는 작업에 많은 노력을 기울려 왔다. 이메일은 문서의 길이나 문체가 다양하며 사용되는 단어들이 비정규적이다. 또한 이메일 분류 기준은 일반적으로 해당 이메일 사용자의 주관에 따라 정의된다. 따라서 기존의 일반적인 문서분류 기법으로는 이메일을 효율적으로 분류하는데 어려움이 있다. 상업용 이메일 프로그램에서 제공되는 분류 기능은 메일 클라이언트에서 지원하는 텍스트 필터링을 이용한다. 한편 이메일의 자동 분류에 관한 연구는 확률 기반의 나이브 베이지안 기법을 응용하여 정확도를 높일 수 있는 연구가 주로 진행되어 왔으며, 대부분 영문 이메일에 대한 연구이다. 본 논문에서는 빈발 패턴 마이닝 기법을 적용하여 한글 이메일에 대한 개인 맞춤형 폴더 추천기법을 제시한다. 이메일의 맞춤형 폴더 추천 기법은 이메일에 대한 전처리 과정과 빈발 항목집합을 이용한 메일 폴더의 프로파일 생성과정으로 구성된다. 생성된 프로파일은 분류 대상이 되는 각 메일이 개인별 맞춤형 기준에 따라 가장 적합한 이메일 폴더로 효과적으로 분류되는데 활용된다. 또한 제안된 기법을 적용한 이메일 분류 시스템을 구현한다.

협업 필터링과 빈발 패턴을 이용한 개인화된 그룹 추천 (Personalized Group Recommendation Using Collaborative Filtering and Frequent Pattern)

  • 김정우;박광현
    • 한국통신학회논문지
    • /
    • 제41권7호
    • /
    • pp.768-774
    • /
    • 2016
  • 본 논문에서는 개인화 서비스를 제공하기 위해 책, 음악, 영화 등과 같이 단일 항목을 추천하는 기존 방법의 한계를 극복하고, 패션, 요리 등과 같이 연관성에 따른 항목의 조합, 즉 그룹을 추천하는 방법을 다룬다. 협업 필터링은 사용자 간의 유사도를 측정하여 비슷한 성향의 사용자들이 선택한 항목을 추천하는 방법이며, 사용자의 성향을 예측할 수 있다는 장점이 있다. 본 논문에서는 이러한 협업 필터링과 연관 규칙을 바탕으로 빈발 항목 집합을 생성하고, 그룹 간의 유사도에 따라 그룹을 추천하는 알고리즘을 제안한다. 제안하는 방법의 타당성을 검증하기 위하여 의류 전자상거래에서 4개월 동안 소비자가 구매한 목록 데이터로 실험을 수행하였다.