• Title/Summary/Keyword: 데이터 편중

Search Result 101, Processing Time 0.022 seconds

A Skewed Data Handling Method using Spatial Hash Join Algorithm (공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법)

  • 심영복;이종연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.19-21
    • /
    • 2004
  • 이 논문은 인덱스가 존재하지 않는 두 입력 테이블의 공간 조인 연산 과정 중 여과 단계 처리에 중점을 둔다. 관련 연구는 Spatial Hash Join(SHJ)과 Scalable Sweeping-Based Spatial Join(SSSJ) 알고리즘이 대표적이다. 하지만 조인을 위한 입력 테이블의 객체들이 편중 분포할 경우 성능이 급격히 저하되는 문제를 가지고 있다. 따라서, 이 논문에서는 이러한 문제를 해결하기 위해 기존 SHJ 알고리즘과 SSSJ 알고리즘의 특성을 이용한 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. 기존 SHJ 알고리즘과의 차이점은 입력 데이터 집합을 버킷에 할당할 때 버킷 용량에 제한을 두지 않는다는 점과 버킷의 조인 단계에서 I/O 성능의 향상을 위해 우수한 SSSJ 알고리즘을 사용한다는 것이다. 끝으로 이 논문에서 제안한 SHSJ 알고리즘의 성능은 실제 Tiger/line 데이터를 이용하여 실험한 결과 기존의 SHJ와 SSSJ 알고리즘 보다 편중된 입력 테이블의 조인 연산에 대해 월등히 우수함이 검증되었다.

  • PDF

Disk Load Balancing Scheme for High Speed Playback of Continuous Media in VOD Server (VOD서버에서 연속 매체의 고속 재생을 위한 디스크 부하 균형 정책)

  • Lee, Seung-Yong;Lee, Ho-Seok;Hong, Seong-Su
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.5
    • /
    • pp.1172-1181
    • /
    • 1997
  • A militimedia data is a data mixed of formatted data like an audio and video. Multimedia data has characteristics that it need large amount of storage,wide network bandwith andreal time responsibolity. Because of these characteristocs, the VOD server and continous media storage server have a disk stripe structure or disk stripe sructure or disk array structure(RAID).In the parallel disk access system,high-speed play-back of continous media using segment interleavung may not ensure Qos pf other cioents because of the concentrated load within some disks. The load concentration of disks is related to both the number of disks in the system and playback rate of contimous media.In this paper. we describe that high-speed playback scheme,which is independent of the number of disk and plyback rate can be achieved by technique of changing the in-teval of access to segnent location.We show the experimental result of this technique in this pater.

  • PDF

Performance Analysis of an Advanced Paralled Join Algorithm on Hypercube System (하이퍼큐브구조 시스템에서 향상된 병렬 결합 알고리즘의성능 분석)

  • Won, Yeong-Seon;Jo, Seok-Bong;Lee, Gyu-Ok;Jwa, Yong-Gwon;Hong, Man-Pyo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.26 no.6
    • /
    • pp.683-692
    • /
    • 1999
  • 관계형 데이터베이스 시스템에서 결합 연산자는 데이터베이스 질의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 소개되었다. 그 중 하이브리드 해쉬 결합 알고리즘은 가장 우수한 것으로 알려져왔다. 그러나 이 알고리즘은 여러 노드로 데이터를 분할하는 과정에서 데이터의 편중 문제가 발생하며, 이는 전체 시스템의 성능을 크게 저하시키게된다. 본 논문에서는 이러한 데이터 편중문제를 해결한 변형된 하이퍼퀵 정렬을 이용한 병렬 결합 알고리즘을 non-equijoin을 위한 알고리즘으로 확장하였다. 또한 T805로 연결된 하이퍼큐브 구조 시스템에서 시뮬레이션하여 얻은 결과를 수치 계산적 비용모델의 결과와 비교를 통해 변형된 하이퍼 퀵 정렬을 이용한 병렬 결합 알고리즘의 성능을 분석하고 , 비용모델의 타당성을 입증하였다.

Skewed Data Handling Technique Using an Enhanced Spatial Hash Join Algorithm (개선된 공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법)

  • Shim Young-Bok;Lee Jong-Yun
    • The KIPS Transactions:PartD
    • /
    • v.12D no.2 s.98
    • /
    • pp.179-188
    • /
    • 2005
  • Much research for spatial join has been extensively studied over the last decade. In this paper, we focus on the filtering step of candidate objects for spatial join operations on the input tables that none of the inputs is indexed. In this case, many algorithms has presented and showed excellent performance over most spatial data. However, if data sets of input table for the spatial join ale skewed, the join performance is dramatically degraded. Also, little research on solving the problem in the presence of skewed data has been attempted. Therefore, we propose a spatial hash strip join (SHSJ) algorithm that combines properties of the existing spatial hash join (SHJ) algorithm based on spatial partition for input data set's distribution and SSSJ algorithm. Finally, in order to show SHSJ the outperform in uniform/skew cases, we experiment SHSJ using the Tiger/line data sets and compare it with the SHJ algorithm.

Image Denoising using an Asymmetric Analysis Filter in the Wavelet Domain (비대칭 분해 필터를 통한 웨이블릿 영역에서의 영상 잡음 제거)

  • 오준환;최창렬;정제창;김영섭
    • Proceedings of the IEEK Conference
    • /
    • 2003.07e
    • /
    • pp.1723-1726
    • /
    • 2003
  • 본 논문에서는 상세 부밴드에서의 PSNR과 웨이블릿 계수의 계층적 데이터 구조 측면에 초점을 맞추어 웨이블릿 영역에서의 신호 해석을 통한 잡음 제거를 연구하였다. 제안된 방식은 기존의 방식들과는 달리 수직 또는 수평 방향의 고주파 성분에 의한 상세 부밴드에서의 에너지 편중을 고려하여 이들의 에너지의 편중에 따른 분해 필터를 적응적으로 설계하고 부밴드의 에너지를 재분배시켜 성능을 향상 시켰으며, 웨이블릿 계수의 상호 의존성을 고려한 지역윈도우 사용해 기존의 방식을 개선하였다.

  • PDF

Study of Aggregate Function for Spatiotemporal (시공간지원 집계 함수 연구)

  • Chung, Ji-Moon
    • 한국디지털정책학회:학술대회논문집
    • /
    • 2005.11a
    • /
    • pp.273-280
    • /
    • 2005
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간 데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

Fuzzy Clustering with Improving Gustafson-Kessel Algorithm (개선된 Gustafson-Kessel 알고리즘을 이용한 퍼지 클러스터링)

  • 김승석;곽근창;유정웅;전명근
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2003.05a
    • /
    • pp.239-242
    • /
    • 2003
  • 본 논문에서는 Gaussian Mixture Model을 이용한 Gustafson-Kessel 알고리즘의 성능을 개선하였다. 분포 및 밀도가 다른 데이터에 대하여 적절한 클러스터 파라미터를 추정함으로써 클러스터링의 성능을 개선한다. 일반적인 클러스터링 알고리즘의 경우, 데이터가 편중되거나 각 데이터의 밀도가 서로 틀린 경우 클러스터의 파라미터가 정확하게 클러스터를 표현하지 못하는 문제점을 가지고 있다. 제안된 방법에서는 Gustafson-Kessel 알고리즘을 이용하여 클러스터 파라미터를 추정하며 알고리즘내의 파라미터 일부를 Gaussian Mixture Model을 이용하여 동적으로 갱신하였다 시뮬레이션을 통하여 제안된 방법의 유용성을 보인다.

  • PDF

Methods of Korean Text Data Quality Assessment (한국어 텍스트 데이터의 품질 평가 요소 및 방법)

  • Kim, Jung-Wook;Hong, Cho-hee;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

A Physical Design Method of Storage Structures for MOLAP Systems of Data Warehouse (데이터 웨어하우스의 다차원 온라인 분석처리 시스템을 위한 저장구조의 물리적 설계기법)

  • Lee Jong-Hak
    • Journal of Korea Multimedia Society
    • /
    • v.8 no.3
    • /
    • pp.297-312
    • /
    • 2005
  • Aggregation is an operation that plays a key role in multidimensional OLAP (MOLAP) systems of data warehouse. Existing aggregation operations in MOLAP have been proposed for file structures such as multidimensional arrays. These tile structures do not work well with skewed distributions. This paper presents a physical design methodology for storage structures ni MOLAP that use the multidimensional tile organizations adapting to a skewed distribution. In uniform data distribution, we first show that the performance of multidimensional analytical processing is highly affected by the similarity of the shapes between query regions and page regions in the domain space of the multidimensional file organizations. And than, in skewed distributions, we reflect the effect of data distributions on the design by using the shapes of the normalized query regions that are weighted with data density of those query regions. Finally, we demonstrate that the physical design methodology theoretically derived is indeed correct in real environments. In the two-dimensional file organizations, the results of experiments indicate that the performance of the proposed method is enhanced by more than seven times over the conventional method. We expect that the performance will be more enhanced when the dimensionality is more than two. The result confirms that the proposed physical design methodology is useful in a practical way.

  • PDF

Development of empirical formula for imbalanced transverse dispersion coefficient data set using SMOTE (SMOTE를 이용한 편중된 횡 분산계수 데이터에 대한 추정식 개발)

  • Lee, Sunmi;Yoon, Taewon;Park, Inhwan
    • Journal of Korea Water Resources Association
    • /
    • v.54 no.12
    • /
    • pp.1305-1316
    • /
    • 2021
  • In this study, a new empirical formula for 2D transverse dispersion coefficient was developed using the results of previous tracer test studies, and the performance of the formula was evaluated. Since many tracer test studies have been conducted under the conditions where the width-to-depth ratio is less than 50, the existing empirical formulas developed using these imbalanced tracer test results have limitations in applying to rivers with a width-to-depth ratio greater than 50. Therefore, in order to develop an empirical formula for transverse dispersion coefficient using the imbalanced tracer test data, the Synthetic Minority Oversampling TEchnique (SMOTE) was used to oversample new data representing the properties of the existing tracer test data. The hydraulic data and the transverse dispersion coefficients in conditions of width-to-depth ratio greater than 50 were oversampled using the SMOTE. The reliability of the oversampled data was evaluated using the ROC (Receiver Operating Characteristic) curve. The empirical formula of transverse dispersion coefficient was developed including the oversampled data, and the performance of the results were compared with the empirical formulas suggested in previous studies using R2. From the comparison results, the value of R2 was 0.81 for the range of W/H < 50 and 0.92 for 50 < W/H, which were improved accuracy compared to the previous studies.