• 제목/요약/키워드: 데이터 편중

검색결과 101건 처리시간 0.025초

공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법 (A Skewed Data Handling Method using Spatial Hash Join Algorithm)

  • 심영복;이종연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.19-21
    • /
    • 2004
  • 이 논문은 인덱스가 존재하지 않는 두 입력 테이블의 공간 조인 연산 과정 중 여과 단계 처리에 중점을 둔다. 관련 연구는 Spatial Hash Join(SHJ)과 Scalable Sweeping-Based Spatial Join(SSSJ) 알고리즘이 대표적이다. 하지만 조인을 위한 입력 테이블의 객체들이 편중 분포할 경우 성능이 급격히 저하되는 문제를 가지고 있다. 따라서, 이 논문에서는 이러한 문제를 해결하기 위해 기존 SHJ 알고리즘과 SSSJ 알고리즘의 특성을 이용한 Spatial Hash Strip Join(SHSJ) 알고리즘을 제안한다. 기존 SHJ 알고리즘과의 차이점은 입력 데이터 집합을 버킷에 할당할 때 버킷 용량에 제한을 두지 않는다는 점과 버킷의 조인 단계에서 I/O 성능의 향상을 위해 우수한 SSSJ 알고리즘을 사용한다는 것이다. 끝으로 이 논문에서 제안한 SHSJ 알고리즘의 성능은 실제 Tiger/line 데이터를 이용하여 실험한 결과 기존의 SHJ와 SSSJ 알고리즘 보다 편중된 입력 테이블의 조인 연산에 대해 월등히 우수함이 검증되었다.

  • PDF

VOD서버에서 연속 매체의 고속 재생을 위한 디스크 부하 균형 정책 (Disk Load Balancing Scheme for High Speed Playback of Continuous Media in VOD Server)

  • 이승용;이호석;홍성수
    • 한국정보처리학회논문지
    • /
    • 제4권5호
    • /
    • pp.1172-1181
    • /
    • 1997
  • 멀티미디어 데이터는 텍스트 형식의 정형 데이터와 영상이나 음성 등의 비정형 데이터가 혼재한 형테의 데이터이다. 멀티미디어 데이터는 대용량의 특성과 큰 전송 대역폭의 요구 및 실시간 처리 등을 그 특성으로 한다. 이러한 멀티미디어 데이터의특성 때문에 VOD서버나 연속 매체 저장 서버(Continuous media storage server)는 여러 개 의 디스트를 배열의 구조로 하는 디스크 스트라이프 구조나 디스크 배열((RAID) 구조를 하고 있다.디스트의 병렬 접근 시스템에서 세그먼트 인터리빙 방식으로 저정된 연속 매체를 고속 재생하는 경우, 특정 디스크에 부하의 편중 현상을 유발하여 다른 서비스의 질을 보장하지 못하는 경우가 발생한다. 디스크 부하의 편중은 연속 매체의 고속 재싱의 배속과 시스템이 보유하는 디스크의 수에 따라 부하 편중 정도를 달리 한다.본 논문은 디스크의 수와 연속 매체의 고속 재생의 정도와 관계없이 세그먼트의 접근 간격을 변화 함으로써 디스크의 부하 편중을 감소시키는 고속 재생 기법을 제안한다.

  • PDF

하이퍼큐브구조 시스템에서 향상된 병렬 결합 알고리즘의성능 분석 (Performance Analysis of an Advanced Paralled Join Algorithm on Hypercube System)

  • 원영선;조석봉;이규옥;좌용권;홍만표
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권6호
    • /
    • pp.683-692
    • /
    • 1999
  • 관계형 데이터베이스 시스템에서 결합 연산자는 데이터베이스 질의를 구성하는 연산자들 중 가장 많은 처리시간을 요구한다. 따라서 이러한 결합연산자를 효율적으로 처리하기 위해 많은 병렬 알고리즘들이 소개되었다. 그 중 하이브리드 해쉬 결합 알고리즘은 가장 우수한 것으로 알려져왔다. 그러나 이 알고리즘은 여러 노드로 데이터를 분할하는 과정에서 데이터의 편중 문제가 발생하며, 이는 전체 시스템의 성능을 크게 저하시키게된다. 본 논문에서는 이러한 데이터 편중문제를 해결한 변형된 하이퍼퀵 정렬을 이용한 병렬 결합 알고리즘을 non-equijoin을 위한 알고리즘으로 확장하였다. 또한 T805로 연결된 하이퍼큐브 구조 시스템에서 시뮬레이션하여 얻은 결과를 수치 계산적 비용모델의 결과와 비교를 통해 변형된 하이퍼 퀵 정렬을 이용한 병렬 결합 알고리즘의 성능을 분석하고 , 비용모델의 타당성을 입증하였다.

개선된 공간 해쉬 조인 알고리즘을 이용한 편중 데이터 처리 기법 (Skewed Data Handling Technique Using an Enhanced Spatial Hash Join Algorithm)

  • 심영복;이종연
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.179-188
    • /
    • 2005
  • 지난 수년 동안 공간 데이터의 조인 연산에 대한 많은 연구가 진행되어 왔다. 본 논문에서는 공간 조인연산 시 인덱스가 존재하지 않을 경우, 후보 객체의 여과 단계 처리에 중점을 둔다. 이 분야에 대한 여러 알고리즘들이 제안되었으며 대부분의 경우 공간 데이터의 조인 연산 시 우수한 성능을 나타내고 있다. 하지만, 조인을 위한 입력 테이블의 객체들이 편중되어 분포할 경우 조인 성능이 급격히 저하되는 문제점을 가지고 있으며 이 문제를 해결하려는 연구는 미흡한 실정이다. 따라서, 본 논문에서는 공간 데이터의 편중 문제를 개선하기 위해 기존의 공간 조인 알고리즘 중 Spatial Hash Join 알고리즘과 SSSJ 알고리즘의 장점을 결합한 Spatial Hash Sip Join 알고리즘을 제안한다. 이 알고리즘을 SHJ 알고리즘의 객체 분포에 기반한 공간 분할 특성과 공간 조인 시 SSSJ 알고리즘의 우수한 I/O 특성을 이용한다. 본 논문에서 제안한 SHSJ 알고리즘의 성능 평가를 위해 Tiger/line 데이터를 사용하여 기존 SHJ 알고리즘과 성능을 비교 평가 하였으며 평가 결과 인덱스가 존재하지 않는 입력 테이블에 대한 공간 조인 연산 시 모든 평가 파라미터에 대해 기존의 SHJ 알고리즘보다 우수함이 검증되었다.

비대칭 분해 필터를 통한 웨이블릿 영역에서의 영상 잡음 제거 (Image Denoising using an Asymmetric Analysis Filter in the Wavelet Domain)

  • 오준환;최창렬;정제창;김영섭
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1723-1726
    • /
    • 2003
  • 본 논문에서는 상세 부밴드에서의 PSNR과 웨이블릿 계수의 계층적 데이터 구조 측면에 초점을 맞추어 웨이블릿 영역에서의 신호 해석을 통한 잡음 제거를 연구하였다. 제안된 방식은 기존의 방식들과는 달리 수직 또는 수평 방향의 고주파 성분에 의한 상세 부밴드에서의 에너지 편중을 고려하여 이들의 에너지의 편중에 따른 분해 필터를 적응적으로 설계하고 부밴드의 에너지를 재분배시켜 성능을 향상 시켰으며, 웨이블릿 계수의 상호 의존성을 고려한 지역윈도우 사용해 기존의 방식을 개선하였다.

  • PDF

시공간지원 집계 함수 연구 (Study of Aggregate Function for Spatiotemporal)

  • 정지문
    • 한국디지털정책학회:학술대회논문집
    • /
    • 한국디지털정책학회 2005년도 추계학술대회
    • /
    • pp.273-280
    • /
    • 2005
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간 데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

개선된 Gustafson-Kessel 알고리즘을 이용한 퍼지 클러스터링 (Fuzzy Clustering with Improving Gustafson-Kessel Algorithm)

  • 김승석;곽근창;유정웅;전명근
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.239-242
    • /
    • 2003
  • 본 논문에서는 Gaussian Mixture Model을 이용한 Gustafson-Kessel 알고리즘의 성능을 개선하였다. 분포 및 밀도가 다른 데이터에 대하여 적절한 클러스터 파라미터를 추정함으로써 클러스터링의 성능을 개선한다. 일반적인 클러스터링 알고리즘의 경우, 데이터가 편중되거나 각 데이터의 밀도가 서로 틀린 경우 클러스터의 파라미터가 정확하게 클러스터를 표현하지 못하는 문제점을 가지고 있다. 제안된 방법에서는 Gustafson-Kessel 알고리즘을 이용하여 클러스터 파라미터를 추정하며 알고리즘내의 파라미터 일부를 Gaussian Mixture Model을 이용하여 동적으로 갱신하였다 시뮬레이션을 통하여 제안된 방법의 유용성을 보인다.

  • PDF

한국어 텍스트 데이터의 품질 평가 요소 및 방법 (Methods of Korean Text Data Quality Assessment)

  • 김정욱;홍초희;이새벽
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

데이터 웨어하우스의 다차원 온라인 분석처리 시스템을 위한 저장구조의 물리적 설계기법 (A Physical Design Method of Storage Structures for MOLAP Systems of Data Warehouse)

  • 이종학
    • 한국멀티미디어학회논문지
    • /
    • 제8권3호
    • /
    • pp.297-312
    • /
    • 2005
  • 데이터 웨어하우스의 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 먼저, 균일분포를 갖는 데이터에 대해서 집계 연산처리 성능이 다차원 파일구조상의 질의 영역의 모양과 다차원 파일구조의 도메인 공간을 이루는 페이지 영역의 모양 사이의 유사성에 따라 크게 영향 받음을 보이고, 이러한 특성을 이용하여 다차원 파일구조를 설계함으로써 다차원 온라인 분석처리의 성능을 향상시킨다. 그리고 편중된 분포에 대해서는 질의 영역별로 가중치를 부여한 정규화된 질의 영역의 모양을 이용함으로써 데이터의 분포에 따른 영향을 설계에 반영한다. 또한 본 논문에서는 실험을 통하여 이론적으로 제안한 MOLAP 저장구조의 물리적 설계기법이 실제 환경에서 정확히 동작함을 보인다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상으로 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

SMOTE를 이용한 편중된 횡 분산계수 데이터에 대한 추정식 개발 (Development of empirical formula for imbalanced transverse dispersion coefficient data set using SMOTE)

  • 이선미;윤태원;박인환
    • 한국수자원학회논문집
    • /
    • 제54권12호
    • /
    • pp.1305-1316
    • /
    • 2021
  • 본 연구에서는 과거 추적자실험결과를 이용하여 2차원 횡분산계수에 대한 새로운 추정식을 개발하고 추정식을 이용한 횡 분산계수 산정결과의 정확도를 검증했다. 다수의 추적자실험이 하폭 대 수심비가 50보다 작은 조건에서 수행되었기 때문에 기존 추적자실험결과만을 이용하여 개발한 추정식은 하폭 대 수심비가 50보다 큰 조건의 하천에 적용하는데 한계를 보인다. 따라서 특정 수리조건에 편중된 횡 분산계수 자료로부터 횡 분산계수 추정식을 개발하기 위해 SMOTE (Synthetic Minority Oversampling TEchnique)를 적용하여 기존 자료의 특성을 반영한 새로운 데이터를 생성했다. SMOTE 기법으로 하폭 대 수심비가 50보다 큰 조건에 대한 수리량과 횡 분산계수 데이터를 생성하였으며, ROC (Receiver Operating Characteristic) 곡선으로부터 생성된 데이터의 신뢰성을 검증했다. 새롭게 생성된 데이터를 포함하여 횡 분산계수 추정식을 개발했고, 추정식을 이용하여 계산한 횡 분산계수의 R2(결정계수)를 계산하여 기존 연구에서 제안한 추정식과의 정확도를 비교했다. 그 결과, 본 연구에서 개발한 추정식을 이용하여 계산한 횡 분산계수의 R2가 W/H < 50인 조건에서 0.81, 50 < W/H 인 조건에서 0.92를 나타내어 기존 추정식과 비교하여 향상된 정확도를 나타냈다.