• 제목/요약/키워드: incremental data mining

검색결과 29건 처리시간 0.022초

그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 인-메모리 압축 기법 (In-memory Compression Scheme Based on Incremental Frequent Patterns for Graph Streams)

  • 이현병;신보경;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.35-46
    • /
    • 2022
  • 최근 네트워크 기술 발전과 함께 IoT 및 소셜 네트워크 서비스의 활성화로 인해 많은 그래프 스트림 데이터가 생성되고 있다. 본 논문에서는 압축률 및 압축 시간에 대해 중점적으로 연구되던 기존의 압축 기법에 그래프 마이닝을 적용하여 스트림 그래프 환경을 함께 고려한 그래프 압축 기술을 제안한다. 또한, 최신 패턴을 유지하여 실시간으로 변화하는 스트림 그래프에서 압축 효율 및 처리속도를 향상시킨다. 본 논문에서는 그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 압축 기법을 제안하였다. 제안하는 기법의 우수성을 보이기 위해 압축률과 처리시간을 기존기법과 비교하여 성능평가를 수행한다. 제안하는 기법은 그래프 데이터의 크기가 커질 때 중복되는 데이터가 많아져 기존 기법보다 빠른 처리속도를 보인다. 따라서, 빠른 처리가 요구되는 스트림 환경에서 제안하는 기법을 활용할 수 있다.

빅데이터 마이닝을 위한 점진적 학습 기반 콘텐츠 큐레이션 시스템 설계 (Design of Contents Curation System Based on Incremental Learning Technology for Big Data Mining)

  • 민병원
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.421-422
    • /
    • 2017
  • 콘텐츠 큐레이션 서비스를 위해서 대용량 데이터를 학습하는 과정에서 발생하는 메모리부족 문제, 학습소요시간 문제 등을 해결하기 위한 "대용량 문서학습을 위한 동적학습 파이프라인 생성기술 중 빅데이터 마이닝을 위한 점진적 학습 모델" 기술이 필요하며, 본 논문에서 제안한 콘텐츠 큐레이션 서비스는 온라인상의 수많은 콘텐츠들 중 개인의 주관이나 관점에 따라 관련 콘텐츠들을 수집, 정리하고 편집하여 이용자와 관련이 있거나 좋아할 만한 콘텐츠를 제공하는 서비스이다. 큐레이션 서비스에서는 개인비서, 금융 분야의 투자, 자율주행, 저널리즘, 효율적인 업무 지시/감독, 제조업의 자동화 공정, 교육, 콘텐츠 유통, 학술정보 등에서 컴퓨터가 방대한 양의 데이터로 부터 학습하여 사람의 일을 대신 처리하거나 의사결정에 도움을 줌으로써 업무의 효율을 높여주는 서비스 산업에 활용이 가능하다.

  • PDF

대용량 데이터를 처리하기 위한 TFP-tree 기반의 점진적 빈발 패턴 마이닝 기법 (TFP-tree based Incremental Frequent Patterns mining Method for Handling Large Data Set)

  • 이종범;;신진호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.761-762
    • /
    • 2009
  • 이 논문에서는 점진적 마이닝 기법을 사용하여 대용량 전력 사용량 데이터로부터 빈발 패턴들을 찾아내고, 빈발 패턴들을 기반으로 하여 분류 작업을 효과적으로 완성하는데 목적을 두고 있다. 이를 위하여 본 논문에서는 TFP-tree를 기반으로 하는 점진적 빈발 패턴 마이닝 기법 및 분류 알고리즘에 대해서 설명한다.

지역적 컨셉트 적응형 IOLIN시스템을 사용한 데이터 스트림의 분류 (Data Streams classification using Local Concept-adapted IOLIN System)

  • 김재우;송재원;이주홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권1호
    • /
    • pp.37-44
    • /
    • 2008
  • 데이터 스트림은 시간이 경과함에 따라서 데이터의 패턴이 변화하는 특성이 있다. 데이터 스트림에 내재되어 있는 이러한 특성 (컨셉트 변화)은 분류 모델의 예측 성능을 감소시킨다. CVFDT와 IOLIN은 점진적인 분류모델의 갱신을 통해 컨셉트 변화를 해결하고자 하였다. 그러나 이러한 방법들은 작은 패턴의 변화가 전체 분류 결과에 영향을 주는 지역적 컨셉트 변화를 식별하지 못함으로써 모델을 재 구축하는 단점이 있다. 본 논문은 컨셉트변화 발생 시 지역적 컨셉트 변화를 찾음으로써 시스템의 예측성능을 향상시키는 적응형 IOLIN을 제안한다. 실험 결과는 제안 기법인 적응형 IOLIN기법이 IOLIN기법에 비해 정확률에서 약 2.8%, CVFDT기법보다 약 11.2%정도 우수하였다.

  • PDF

IRFP-tree(Intersection Rule Based FP-tree): 메모리 효율성을 향상시키기 위해 교집합 규칙 기반의 패러다임을 적용한 FP-tree (IRFP-tree: Intersection Rule Based FP-tree)

  • 이정훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권3호
    • /
    • pp.155-164
    • /
    • 2016
  • 대용량 데이터베이스의 빈도패턴 분석을 위해 기존의 Apriori 방식의 단점을 보완할 수 있는 새로운 트리 기반의 빈도 패턴 분석 알고리즘이 최근 다양하게 연구되고 있다. 그 중 FP-tree는 이러한 빈도 패턴을 분석하기 위해 빈도 패턴을 표현하는 트리 구조로 단 두 번의 전체 데이터베이스 스캔을 통해 빠르게 트리를 구성할 수 있으며 FP-grwoth를 통해 빈도 패턴을 분석할 수 있다. 이처럼 빈도 패턴 트리의 노드 수는 트리 자체의 메모리 할당량과도 연관이 있지만 그 후 growth의 메모리 자원 소비 및 처리 속도에도 영향을 미치게 된다. 따라서 빈도 패턴 트리의 노드 수의 감소는 트리 자체뿐만 아니라 빈도 패턴 분석에 있어서도 매우 중요하다. 하지만 FP-tree는 전체 아이템 수 라는 고정된 기준 문제로 인해 충분한 노드 수의 압축률을 갖지 못하고 있다. 본 논문에서는 이러한 FP-tree의 문제를 보완하여 좀 더 노드 수를 감소시킬 수 있도록 교집합 규칙이라는 새로운 패러다임을 적용한 빈도 패턴 트리인 IRFP-tree를 제시하고 실험을 통해 그 성능에 대해 증명하였다.

데이터 웨어하우스에서 점진적 뷰 유지를 위한 효율적인 알고리즘 (An Efficient Algorithm for Incremental View Maintenance In a Data Warehouse)

  • 이현창;김충석;김경창
    • 한국통신학회논문지
    • /
    • 제25권8A호
    • /
    • pp.1265-1272
    • /
    • 2000
  • 데이터 웨어하우스는 사용자의 의사 결정에 필요한 정보를 제공하여 효율적인 데이터 마이닝 질의 처리 및 그에 대한 응답을 이루도록 한다. 이를 위해서 데이터 웨어하우스는 소스 데이터로부터 유도된 실체 뷰를 저장하고 있다 특히 소스 데이터가 단일 소스 환경에서 잘 알려진 보상 알고리즘을 들수 있다 보상 알고리즘에서는 질의 평가 결과를 얻기 위해서 뷰와 관련된 갱신 발생이 많을수록 웨어하우스의 복잡성과 메시지 양이 증가하며 웨어하우스 내에 질의 관리 오보헤드가 발생되는 문제점이 있었다 본논문에서는 뷰유지를 위한 질의 관리 오버헤드를 감소시키며 정확성을 향상시킨 알고리즘을 제시한다 또한 메시지 전송과 데이터 전송 측면에서 제시 하고 있는 알고리즘을 보상 알고리즘 및 재 계산 알고리즘과 성능을 분석 비교하였다.

  • PDF

클러스터의 히스토그램을 이용한 XML 문서의 점진적 클러스터링 기법 (An Incremental Clustering Technique of XML Documents using Cluster Histograms)

  • 황정희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.261-269
    • /
    • 2007
  • 이 논문에서는 XML 문서에 대한 효율적인 검색과 통합을 위한 기초연구로써 XML 문서들에 대한 구조 중심의 클러스터링 기법을 제안한다. 기존 연구에서 문서간의 구조적 유사도를 기반으로 클러스터를 형성해 가는 것과는 다르게 많은 데이타를 빠르게 처리할 수 있는 트랜잭션 데이타를 취급하는 알고리즘을 변형하여 적용한다. 각 클러스터에 포함되어 있는 항목들에 대한 누적 분포를 나타내는 히스토그램을 이용하여 전체적인 클러스터링의 응집도를 고려하는 클러스터링을 수행한다. 기존 연구와의 실험을 통해 클러스터링 처리 시간의 향상과 양질의 클러스터를 생성하는 것을 알 수 있었다.

속성 값 빈도 기반의 전문가 다수결 분류기 (Committee Learning Classifier based on Attribute Value Frequency)

  • 이창환;정인철;권영식
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권4호
    • /
    • pp.177-184
    • /
    • 2010
  • 센서 정보, 물류/유통정보, 신용 정보, 주식 정보 등이 과거보다 다양하면서 대용량의 연속 발생 형태 데이터가 발생하고 있다. 이러한 데이터는 대용량의 특의 변화가 빠른 특징들을 가지고 있기 때문에 학습이 어렵다. 이러한 문제점을 해결하기 위해 일정 윈도우 크기의 최근 데이터를 연속적으로 학습시킴으로써 전체 모형을 새롭게 만들거나 모형의 일부분을 대체 하는 방법을 사용하여 왔다. 그러나 이러한 방법은 계속해서 새로운 학습모형을 만들어야 하므로 대용량의 연속 데이터를 학습시키는데 많은 시간과 비용이 든다. 따라서, 이러한 특성에 대비하기 위하여 추가적인 학습 데이터가 발생할 때 마다, 점진적이며 지속적으로 학습을 할 수 있는 학습 기법이 필요하다. 보다 빠른 속도로 학습 모형의 변화 없이 분류를 하기 위하여 대표적인 점진적 학습 방법으로 베이지안 분류기를 사용할 수 있지만, 사전확률을 알고 있다는 가정으로부터 시작을 하게 되어 일정량 이상의 학습데이터가 필요하다. 따라서 본 연구에서는 베이지안 분류기와 같이 점진적으로 학습을 할 수 있지만, 사전 확률을 알지 못하더라고 학습을 할 수 있는 새로운 점진적 학습 알고리즘을 제안하고자 한다. 본 연구에서 제안하는 알고리즘의 기본 개념은 여러 전문가의 의견을 종합하는 방식이다. 여기서는 속성값(attribute value)을 한명의 전문가로 보고 전문가 집단의 의사 결정이 맞을 경우에는 가점을 주고 틀릴 경우에는 감점을 하는 방식으로 학습을 하게 된다. 실험결과 이 방법은 의사결정나무나 베이지언 분류기와 비교해 비슷한 성능을 나타내었으며, 향후에 스트림 데이터 분석에 사용할 가능성을 보였다.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.