• Title/Summary/Keyword: 데이터 크기

Search Result 3,431, Processing Time 0.047 seconds

A Grid-based Clustering Method for a Data Stream (실시간 데이터 스트림 분석을 위한 클러스터링 기법)

  • Park, Nam-Hun;Lee, Won-Suk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.46-49
    • /
    • 2007
  • 데이터 스트림이란, 빠른 속도로 지속적으로 생성되는 무한한 크기의 방대한 양의 데이터 집합으로 정의된다. 본 연구에서는 데이터 스트림 분석을 위한 데이터 스트림 격자 기반 클러스터링 기법을 제시한다. 주어진 초기 격자셀에 대해, 데이터 객체의 빈도가 높은 범위를 반복적으로 보다 작은 크기의 격자셀로 분할하여 최소 크기의 격자셀, 단위 격자셀을 생성한다. 격자셀에서는 데이터 객체들의 분포에 대한 통계값만을 저장하여, 기존의 클러스터링 기법에 비해 데이터 객체에 대한 탐색없이 효율적으로 클러스터를 찾을 수 있다.

  • PDF

The broadcast Scheduling method supporting unequal size of data in mobile computing environment (이동 컴퓨팅 환경에서 다양한 데이터 크기를 지원하는 브로드캐스트 스케줄링 기법)

  • 신지현;이종환;이중화;이철숙;김경석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.244-246
    • /
    • 2001
  • 이동 컴퓨팅은 주로 서버에서 클라이언트로의 대역폭이 상대적으로 큰 비대칭적 환경에서 이루어진다. 비대칭적 판정에서 정보 전달은 브로드개스팅이 효과적이다. 기존의 많은 논문들이 서버가 전달하는 데이터의 크기가 같다고 가정하고 스케줄링 알고리즘을 제안하였지만 실제 데이터의 크기는 매우 다양하다 인기도가 비슷하더라도 데이터 크기가 다를 때 큰 데이터 대신 작은 데이터 여러 개를 전송하면 클라이언트의 평균 대기시간이 감소하여 성능이 향상될 수 있다. 따라서 본 논문에서는 대기시간을 최소화하기위해 인기도뿐만 아니라 데이터 크기도 함께 고려하는 스케줄링 기법을 제안하고 성능을 평가하였다.

  • PDF

Computing Average Iceberg Query by Dynamic Partition (동적 분할에 의한 평균 빙산 질의 처리)

  • 배진욱;이석호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.126-128
    • /
    • 1999
  • 평균 빙산 질의란 대용량의 데이터들에 의해 avg 집단 함수를 수행한 뒤 임계값 이상인 데이터들을 결과로 출력하는 연산을 의미한다. 이 때 데이터 도메인의 크기가 메모리에 생성할 수 있는 카운터의 수보다 크기 때문에 연산 처리가 어렵다. 지난 연구에서 빙산 질의에 대해 제안한 해시 카운터는 avg 연사의 경우 착오누락이 발생한다는 문제점이 존재한다. 그래서 이런 문제점들을 해결하며 효율적으로 연산을 수행하기 위해, 데이터베이스를 분할하며 카운터를 관리하는 '메모리 Full 분할', '후보 Full 분할'의 두 알고리즘을 제안한다. 실험결과 두 알고리즘은 메모리크기, 데이터 분포, 데이터 순서에 영향을 받았는데, 데이터들이 정렬이 되어 있거나 데이터분포가 정규분포를 이룰 때 우수한 성능을 보였다.

  • PDF

Adaptive Cache Management Scheme in HDFS (HDFS에서 적응형 캐시 관리 기법)

  • Choi, Hyoung-Rak;Yoo, Jae-Soo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.461-462
    • /
    • 2019
  • 스마트팩토리는 정보통신기술(ICT)를 이용한 공정의 모든 데이터를 수집, 분석하여 제어하고 있다. 기존보다 방대한 양의 데이터를 처리하기 위해 기업들은 하둡을 이용한다. 다양한 크기의 데이터가 나타나는 환경에서 HDFS을 효율적으로 관리하기 위한 적응형 캐시 관리 기법을 제안한다. 제안하는 기법은 데이터 노드의 로컬 디스크의 공간 이용 효율성을 높이고 평균 데이터 크기를 분석하여 데이터 노드 확장시 적합한 블록 크기를 적용할 수 있게 관리한다. 성능 평가를 통해 제안하는 기법의 데이터 노드에서 로컬 디스크 효율 향상과 읽기와 쓰기 속도의 속도에 효과를 보인다.

  • PDF

Selectivity Estimation using Kernel Method (커널 방법을 이용한 선택도 추정에 관한 연구)

  • 김학철;신명진;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.188-190
    • /
    • 1998
  • 데이터 베이스 관리 시스템에서는 질의 결과의 크기(selectivity)를 미리 예측하는 것이 필요하다. 질의 결과의 크기는 데이터의 분포 상태에 의해서 결정된다. 이러한 데이터의 분포 상태를 정확하게 예측하는 것이 매우 중요하다. 대부분의 데이터 베이스 관리 시스템에서는 이를 위하여 주기적으로 저장하고 있는 레코드에 대해서 히스토그램을 만들고 이용한다. 이 방법은 히스토그램의 저장공간이 적게 필요로 하고 선택도를 추정하는데 있어서 선택도 추정시 부가적인 계산이 필요하지 않은 장점이 있지만, 일정한 크기의 버켓내에서는 데이터들이 균일하게 분포한다는 가정을 함으로써 선택도 추정에 있어서 에러율이 높았다. 이에 본 논문에서는 커널 방법을 사용하여 버켓 내 데이터의 분포에 대하여 추정 함으로써 이를 해결하는 방법을 제시하였다.

Relationship of Pupil's Size and Gaze Frequency for Neuro Sports Marketing: Focusing on Sigma Analysis (뉴로 스포츠 마케팅을 위한 동공 확장과 주시빈도 간의 관계: 시그마 분석법을 적용하여)

  • Ko, Eui-Suk;Song, Ki-Hyeon;Cho, Soo-Hyun;Kim, Jong-Ha
    • Science of Emotion and Sensibility
    • /
    • v.20 no.3
    • /
    • pp.39-48
    • /
    • 2017
  • In order to verify the effectiveness of marketing in the basketball stadium, this study measured and analyzed the gaze frequency and interest when the pupil was expanded by using the eye-tracking technology among various neuro marketing techniques of marketing. To analyze the section where the pupil size get expanded, interval of pupil size was higher than 2.275% (2 sigma data) and higher than 0.135% high (3 sigma data). Overall the valid data was analyzed by inflection points according to gaze frequency. We also analyzed the correlation between overall valid data and the ranges where the pupil size was significantly increased. The result showed that the correlation between overall valid data and pupil size 2 sigma data showed the highest correlation with 0.805. The pupil size 2 sigma data and pupil size 3 sigma data showed a correlation with 0.781, overall the valid data and pupil size 2 sigma data showed a correlation with 0.683. Therefore, it is concluded that, the section where the pupil size was expanded and the section at which gaze frequency is higher in the eye-tracking data were similar. However, the correlation between data of pupil size is determined to be significantly expanded and overall the valid data is decreased.

A Study on Efficient Management of RAID Level 5 Cache in OLTP Environment under Linux Operating System (리눅스 운영체제하의 OLTP환경에서 RAID 레벨 5의 효율적인 캐쉬 운영 방안에 대한 연구)

  • 송자영;장태무
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.3-5
    • /
    • 2000
  • RAID 레벨 5는 쓰기 시에 패리티 갱신을 위한 4번의 디스크 접근으로 인하여 OLTP와 같이 상대적으로 빈번한 디스크 접근을 가지고 데이터 크기가 작으며 쓰기의 횟수가 많은 작업환경에서 성능이 떨어지게 된다. 데이터와 패리티에 대한 캐싱은 OLTP환경에서의 쓰기에 대한 문제를 해결하기 위한 기법이다. 본 논문에서는 리눅스 운영체제의 파일 데이터 구조에 변화를 주고, 커널에서 얻어진 정보를 디스크 캐쉬의 운영에 이용한다. 스트라입 크기(G)를 가지는 RAID 레벌 5에서 패리티 캐쉬의 크기가 전체 캐쉬 크기의 1/G 이하 일 경우 데이터 패리티 캐쉬 크기 변화에 영향을 받지 않고 캐쉬의 그룹 단위 운영과 그에 따른 패리티의 미리 읽기를 가능하게 하여 패리티에 대한 추가적인 읽기를 최소화하는 기법을 제안한다. 본 논문의 실험 결과는 초당 디스크에 도착하는 평균 디스크 접근 요구 개수에 변화를 주어 시뮬레이션 방법으로 입증하였으며, OLTP 환경에서 데이터와 패리티 캐쉬를 독립적으로 운영하는 일반적인 캐쉬 운영 방법에 비해 평균 응답시간을 단축시킬 수 있음을 알 수 있다.

  • PDF

A DNA Index Structure Using Signature by Weighted Number of Characters (가중치를 갖는 문자의 개수를 서명으로 이용한 DNA 인덱스 구조)

  • 김우철;민준기;박상현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.337-339
    • /
    • 2004
  • 우리는 대규모의 유전자 데이터베이스에서 원하는 패턴을 빠르고 정확하게 찾고 싶어한다 하지만 지금까지 나온 대부분의 검색방법들은 인덱스의 크기를 실제 데 이 터 보다 훨씬 크게 만들어 사용해왔다. 그런 방법들은 기하급수적으로 증가하고 있는 데 이 터를 처 리 하는 데는 비효율적이다. 따라서 인덱스 크기를 실제 데이터보다 작게 만들면서도 원하는 패턴을 빨리 찾을 수 있는 효율적 인 방법 이 필요하다. 이렇게 하기 위해서는 일정한 크기의 데이터를 작은 크기의 데이터로 줄인 후, 이 데이터를 이용하여 인덱스를 만들어야 한다. 이 논문에서는 일정한 크기의 문자열(=윈도우)을 작은 크기의 숫자들(=서명)로 표현해서 인덱스를 구축한 후, 이를 이용해 우리가 원하는 패턴을 최소한의 디스크 접근을 통해 빠르게 찾을 수 있는 방법을 제시한다.

  • PDF

Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization (공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할)

  • Whang, Whan-Kyu;Kim, Hyun-Guk
    • The KIPS Transactions:PartD
    • /
    • v.11D no.1
    • /
    • pp.23-30
    • /
    • 2004
  • In order to approximate the spatial query result size we partition the input rectangles into subsets and estimate the query result size based on the partitioned spatial area. In this paper we examine query result size estimation in skewed data. We examine the existing spatial partitioning techniques such as equi-area and equi-count partitioning, which are analogous to the equi-width and equi-height histograms used in relational databases, and examine the other partitioning techniques based on spatial indexing. In this paper we propose a new spatial partitioning technique based on the Hilbert space filling curve. We present a detailed experimental evaluation comparing the proposed technique and the existing techniques using synthetic as well as real-life datasets. The experiments showed that the proposed partitioning technique based on the Hilbert space filling curve achieves better query result size estimation than the existing techniques for space query size, bucket numbers, skewed data, and spatial data size.

Real-time data analysis technique using large data compression based spark (스파크 기반의 대용량 데이터 압축을 이용한 실시간 데이터 분석 기법)

  • Park, Soo-Yong;Shin, Yong-Tae
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.545-546
    • /
    • 2020
  • 스파크는 데이터 분석을 위한 오픈소스 툴이다. 스파크에서는 실시간 데이터 분석을 위하여 스파크 스트리밍이라는 기술을 제공한다. 스파크 스트리밍은 데이터 소스가 분석서버로 데이터 스트림을 전송한다. 이때 전송하는 데이터의 크기가 커질 경우 전송과정에서 지연이 발생할 수 있다. 제안하는 기법은 전송하고자 하는 데이터의 크기가 클 때 허프만 인코딩을 이용하여 데이터를 압축하여 전송시키므로 지연시간을 줄일 수 있다.

  • PDF