• Title/Summary/Keyword: 데이터 분할

Search Result 2,601, Processing Time 0.037 seconds

Effective Spatial Partitioning Technique for Query Result Size Estimation (질의 결과 크기 추정을 위한 효과적인 공간 분할 기법)

  • 김현국;김학자;황환규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.55-57
    • /
    • 2002
  • 공간 데이터베이스의 규모는 매우 방대하여 질의 처리에 많은 비용이 발생한다. 따라서 효율적인 질의 처리를 위해서는 질의 수행 결과의 예측이 필요하다. 이를 위해 실제 공간 데이터의 특성을 근접하게 나타내는 요약 데이터를 생성하여 그 결과를 통해 질의 결과의 크기를 추정하게 된다. 기존의 공간 데이터 요약 기법으로는 면적 균등 분할 기법, 개수 균등 분할 기법, 인덱스 분활 기법 등이 있다. 본 논문에서는 기존에 연구된 다양한 분말 기법에 대해 알아보고, 힐버트 공간 재움 곡선 방법에 개수 균등 분말 기법을 적용시킨 새로운 공간 분할 방법을 제안하여 기존의 방법과 새로운 방법의 성능을 비교한다.

  • PDF

Human Instance Segmentation using Video Data Augmentation (비디오 데이터 보강을 이용한 인물 개체 분할)

  • Chun, Hyun-Jin;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.532-534
    • /
    • 2022
  • 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 비디오 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오의 시공간적 맥락을 충분히 고려해서 부족한 인물 클래스의 훈련 비디오 데이터들을 추가 생성함으로써, 비디오 개체 분할 신경망 모델의 성능을 효과적으로 개선시킬 수 있다. 본 논문에서는 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 우수성을 입증한다.

A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data (대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법)

  • Kim, Cheon Jung;Kim, Ki Yeon;Yoo, Jong Hyeon;Lim, Jong Tae;Bok, Kyoung Soo;Yoo, Jae Soo
    • Journal of KIISE
    • /
    • v.41 no.12
    • /
    • pp.1126-1135
    • /
    • 2014
  • In recent years, RDF partitioning schemes have been studied for the effective distributed storage and management of large-scale RDF data. In this paper, we propose an RDF dynamic partitioning scheme to support load balancing in dynamic environments where the RDF data is continuously inserted and updated. The proposed scheme creates clusters and sub-clusters according to the frequency of the RDF data used by queries to set graph partitioning criteria. We partition the created clusters and sub-clusters by considering the workloads and data sizes for the servers. Therefore, we resolve the data concentration of a specific server, resulting from the continuous insertion and update of the RDF data, in such a way that the load is distributed among servers in dynamic environments. It is shown through performance evaluation that the proposed scheme significantly improves the query processing time over the existing scheme.

Graph-based Motion Segmentation using Normalized Cuts (Normalized Cuts을 이용한 그래프 기반의 모션 분할)

  • Yun, Sung-Ju;Park, An-Jin;Jung, Kee-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.522-526
    • /
    • 2008
  • 모션 캡쳐 장비는 사람의 자연스러운 행동이나 동작 정보를 정밀하게 얻기 위해 널리 사용되며, 영화나 게임과 같은 콘텐츠에서 자주 활용되고 있다. 하지만 모션 캡쳐 장비가 고가이기 때문에 한번 입력받은 데이터를 모션별로 분할하고 상황에 맞게 재결합하여 사용할 필요가 있으며, 입력 데이터를 모션별로 분할하는 것은 대부분 수동으로 이루어진다. 이 때문에 캡쳐된 데이터를 자동으로 분할하기 위한 연구들이 다양하게 시도되고 있다. 기존의 연구들은 크게 전역적 특성에 대한 고려없이 이웃하는 프레임만을 고려하는 온라인 방식과 데이터를 전역적으로 고려하나 이웃하는 프레임 사이의 관계를 고려하지 않는 오프라인 방식으로 나누어진다. 본 논문에서는 온라인과 오프라인 방식을 병합한 그래프 기반의 모션 분할 방법을 제안한다. 분할을 위해 먼저 모션데이터를 기반으로 그래프를 생성하며, 그래프는 이웃하는 각 프레임사이의 유사도뿐만 아니라 시간축을 기반으로 일정시간내의 프레임들의 유사도를 모두 고려하였다. 이렇게 생성된 그래프를 분할하기 위해 분할된 모션내의 유사도 합을 최소화하고 각 모션간의 유사도는 최대화할 수 있는 normalized cuts을 이용하였다. 실험에서 제안된 방법은 기존의 오프라인 방식 중 하나인 GMM과 온라인 방식 중 하나인 국부최소값 분할 방법보다 좋은 결과를 보였으며, 이는 각 프레임 사이의 유사도뿐만 아니라 일정시간내의 유사도를 전역적으로 고려하기 때문이다.

  • PDF

LD-based Algorithm for Haplotype Block Partitioning (Haplotype 블록 분할을 위한 LD 기반 알고리즘)

  • 나경락;김상준;여상수;김성권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.331-333
    • /
    • 2004
  • 본 연구는 Haplotype 데이터에서 나타나는 별개의 Haplotype의 수를 최소화하는 블록으로 분할하는 방법을 제안한다. Multi-population case인 Haplotype 데이터를 분석하기 위해 패턴의 개수를 최소한으로 줄이는 볼록 분할 방법은 전산학적인 최적해의 의미를 가지게 되며, 이와 더불어 생물학적인 의미를 가지는 블록 경계를 찾기 위해 |D'| 을 계산하고 LD를 분석하였다 분석된 LD는 블록 분할 알고리즘에서 블록 결정 함수로 사용하였으며, 이에 대한 검정은 X$^2$-test를 통해 이루어졌다. 많은 Sample로 구성된 Haplotype 데이터로부터 평균 패턴의 개수를 최소화하고 긴 블록 길이를 가지는 블록 분할의 결과를 얻었다.

  • PDF

A Study on the Improvement of Large-Volume Scalable Spatial Data for VWorld Desktop (브이월드 데스크톱을 위한 대용량 공간정보 데이터 지원 방안 연구)

  • Kang, Ji-Hun;Kim, Hyeon-Deok;Kim, Jung-Ok
    • Journal of Cadastre & Land InformatiX
    • /
    • v.45 no.1
    • /
    • pp.169-179
    • /
    • 2015
  • Recently, as the amount of data increases rapidly, the development of IT technology entered the 'Big Data' era, dealing with large-volume of data at once. In the spatial field, a spatial data service technology is required to use that various and big amount of data. In this study, firstly, we explained the technology of typical spatial information data services abroad, and then we have developed large KML data processing techniques those can be applied as KML format to VWorld desktop. The test was conducted using a large KML data in order to verify the development KML partitioned methods and tools. As a result, the index file and the divided files are produced and it was visible in VWorld desktop.

Splitting Policies of KDB-Tree for indexing of Moving Objects (이동체 색인을 위한 KDB-Tree 의 분할 정책)

  • 이창헌;임덕성;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.19-21
    • /
    • 2002
  • 최근 이동통신 및 GPS 기술의 발달로 위치기반서비스 요구가 점점 증가하고 있고, 대용량의 위치데이터가 저장되는 위치기반서비스의 구현을 위한 이동체외 저장 및 검색에 관한 연구가 활발하다. 이동체의 위치 정보를 점으로 모델링하여 색인 할 경우 KDB-Tree의 성능이 우수하다. 그러나 KDB-Tree는 시공간에서의 이동체 위치데이터 색인을 고려할 경우 시간 도메인의 특성으로 인해 성능 저하의 문제를 발생시킨다. 본 논문에서는 이동체 위치데이터의 색인을 위한 KDB-Tree의 사용에서 시간 도메인의 특성을 반영한 분할 도메인 선정 방법과 분할 정책을 제시한다. 새로운 분할 정책은 색인의 공간활용도를 높이고 색인의 크기를 작게 하여 검색의 성능을 높인 최근 시간 분할 기법과 LD(Last Division) 분할 정책이다. 본 논문에서는 KDB-Tree의 변경된 분할 정책을 구현하고 성능평가론 수행한다. 이 성능 평가 실험을 통해서 변경된 분할 정책을 사용한 KDB-Tree에서 공간활용도가 높고 검색 성능이 우수함을 보인다.

  • PDF

Spatial Partitioning using filbert Space Filling Curve for Spatial Query Optimization (공간 질의 최적화를 위한 힐버트 공간 순서화에 따른 공간 분할)

  • Whang, Whan-Kyu;Kim, Hyun-Guk
    • The KIPS Transactions:PartD
    • /
    • v.11D no.1
    • /
    • pp.23-30
    • /
    • 2004
  • In order to approximate the spatial query result size we partition the input rectangles into subsets and estimate the query result size based on the partitioned spatial area. In this paper we examine query result size estimation in skewed data. We examine the existing spatial partitioning techniques such as equi-area and equi-count partitioning, which are analogous to the equi-width and equi-height histograms used in relational databases, and examine the other partitioning techniques based on spatial indexing. In this paper we propose a new spatial partitioning technique based on the Hilbert space filling curve. We present a detailed experimental evaluation comparing the proposed technique and the existing techniques using synthetic as well as real-life datasets. The experiments showed that the proposed partitioning technique based on the Hilbert space filling curve achieves better query result size estimation than the existing techniques for space query size, bucket numbers, skewed data, and spatial data size.

A Novel Way of Context-Oriented Data Stream Segmentation using Exon-Intron Theory (Exon-Intron이론을 활용한 상황중심 데이터 스트림 분할 방안)

  • Lee, Seung-Hun;Suh, Dong-Hyok
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.16 no.5
    • /
    • pp.799-806
    • /
    • 2021
  • In the IoT environment, event data from sensors is continuously reported over time. Event data obtained in this trend is accumulated indefinitely, so a method for efficient analysis and management of data is required. In this study, a data stream segmentation method was proposed to support the effective selection and utilization of event data from sensors that are continuously reported and received. An identifier for identifying the point at which to start the analysis process was selected. By introducing the role of these identifiers, it is possible to clarify what is being analyzed and to reduce data throughput. The identifier for stream segmentation proposed in this study is a semantic-oriented data stream segmentation method based on the event occurrence of each stream. The existence of identifiers in stream processing can be said to be useful in terms of providing efficiency and reducing its costs in a large-volume continuous data inflow environment.

Data Segmentation System using Greedy Algorithm (Greedy 알고리즘을 사용한 데이터 분할 시스템)

  • Kim, Min-Woo;Kim, Se-Jun;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.211-212
    • /
    • 2018
  • 머신 러닝 환경에서 많은 양의 데이터를 한꺼번에 학습하게 되면 데이터 트래픽이 증가함에 따라 흐름 정체가 발생하고 학습 품질이 저하되며 학습속도 지연 등의 문제가 발생한다. 본 연구는 머신러닝 환경에서 빅 데이터 학습 데이터 분할을 위한 핵심 목표인 Greedy 알고리즘에 대해 설명하고 간단한 Greedy 알고리즘을 사용하여 각각의 데이터 파티션을 생성하여 학습 속도의 효율성을 향상시키는 방법을 제안한다.

  • PDF