• 제목/요약/키워드: 희소데이타

검색결과 4건 처리시간 0.024초

상대 지지도를 이용한 의미 있는 희소 항목에 대한 연관 규칙 탐사 기법 (Mining Association Rules on Significant Rare Data using Relative Support)

  • 하단심;황부현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권4호
    • /
    • pp.577-586
    • /
    • 2001
  • 최근의 데이타베이스 연구 분야에서는 대규모의 데이타베이스에 저장된 데이타를 분석하여 데이타베이스에 존재하지만 쉽게 드러나지 않는 암시적인 지식을 탐사하는 기술인 데이타마이닝이 각광받 고 있다. 본 논문에서는 이러한 데이타 마이닝의 기법 중의 하나인 연관 규칙 탐사 기법온 연구하며 비록 데이타베이스에서 희소하게 나타나는 데이타이지만 임의의 데이타와 높온 비율로 동시에 나타나는 의미 있는 희소 데이타를 고려한 연관 규칙 탐사 기법을 제안한다. 또한 이러한 희소 항목의 탐사에 대하여 기 존의 연판 규칙 탐사 알고리즘과 제안한 알고리즘의 성능을 비교하여 평가한다.

  • PDF

다차원 대용량 저밀도 데이타 큐브에 대한 고밀도 서브 큐브 추출 알고리즘 (Dense Sub-Cube Extraction Algorithm for a Multidimensional Large Sparse Data Cube)

  • 이석룡;전석주;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권4호
    • /
    • pp.353-362
    • /
    • 2006
  • 데이타 웨어하우스는 기업이나 사회 전반에서 사용되는 방대한 데이타를 저장하고, 효율적인 분석을 가능하게 하는 데이타 저장소로써, 점점 그 활용도가 증가하고 있다. 본 연구에서는 이러한 데이타 웨어하우스 구축 기술의 핵심이 되는 다차원 데이타 큐브 (multidimensional data cube) 기술을 연구하는 데 목적이 있다. 고차원 데이타 큐브에는 필연적으로 내재하는 데이타의 희소성 (sparsity)에 의한 검색 오버헤드가 있다. 본 연구에서는 이러한 오버헤드를 현격하게 감소시키는 알고리즘을 제시함으로써, 데이타 웨어하우스의 효율을 높이는 데 기여한다. 즉, 고차원의 희소 데이타 큐브에서 데이타가 조밀하게 밀집된 영역들을 찾아 그 영역을 중심으로 서브 큐브를 구축하여, 데이타 검색 시에 전체의 데이타 큐브를 대상으로 하지 않고 해당 서브 큐브만으로 검색 대상을 제한시킴으로써 검색 효율을 높이는 알고리즘이다. 본 논문에서는 다 차원 대용량의 희소 데이타 큐브로부터 밀도가 높은 서브 큐브를 찾기 위하여 비트맵과 히스토그램에 기반한 알고리즘을 제안하며, 실험을 통하여 제안한 알고리즘의 효용성을 보여준다.

중요지지도를 고려한 연관규칙 탐사 알고리즘 (Algorithm mining Association Rules by considering Weight Support)

  • 김근형;황병웅;김민철
    • 정보처리학회논문지D
    • /
    • 제11D권3호
    • /
    • pp.545-552
    • /
    • 2004
  • 데이터마이닝 기법중의 하나인 연관규칙 탐사는 데이터베이스상에서 빈번하게 나타나는 데이터들 중 서로 연관성이 강한 데이터들을 탐색대상으로 한다. 그러나. 빈번하게 나타나지 않는 희소한 데이터들이라 할 지라도 가중치가 높은 중요한 데이터이면서 서로 연관성이 강할 경우 비즈니스정보로서 중요한 가치가 있다. 본 논문에서는 데이터베이스 상에서 희소하게 나타나지만 중요한 의미를 갖고 또한 서로 연관성이 높은 데이터들을 탐사할 수 있는 연관규칙 탐사 알고리즘을 제안한다. 제안한 알고리즘의 성능을 시뮬레이션을 통하여 평가한 결과 희소하면서도 중요한 데이터를 사이의 연간규칙을 효율적으로 탐사함을 알 수 없었다

희소행렬 기반 NetCDF 파일의 압축 방법 (Compressing Method of NetCDF Files Based on Sparse Matrix)

  • 최규연;허대영;황선태
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권11호
    • /
    • pp.610-614
    • /
    • 2014
  • 많은 과학 데이타처럼 화산재 확산 시뮬레이션 결과는 NetCDF 형식의 군집화된 희소행렬이다. 그리고 크기가 커서 저장과 전송에 많은 비용이 발생한다. 본 논문에서는 다차원 인덱스를 일차원으로 바꾸고 연속된 0을 그 시작점과 길이만을 기록하여 화산재 확산 시뮬레이션 데이터의 크기를 줄이는 방법을 제안한다. 이 방법은 기존의 ZIP 형식으로 압축한 것과 거의 같은 성능을 보이나 NetCDF의 구조는 손상하지 않는다. 제안된 방법에 의하면 데이터 크기가 줄어들어 저장공간의 효율이 높아지고 네트워크 전송시간이 줄어드는 효과를 기대할 수 있을 것이라 사료된다.