• Title/Summary/Keyword: 데이터 분산

Search Result 3,180, Processing Time 0.037 seconds

An Allocation Methodology on Distributed Databases Using the Genetic Algorithmsplications (유전자 알고리즘을 이용한 분산 데이터베이스 할당 방법론)

  • 박성진;박화규;손주찬;박상봉;백두권
    • The Journal of Information Technology and Database
    • /
    • v.5 no.1
    • /
    • pp.1-12
    • /
    • 1998
  • 분산 환경에서 데이터의 할당(allocation)는 중요한 설계 이슈이다. 데이터의 할당은 분산 데이터에 대한 비용(cost) 감소, 성능(performance) 및 가용성(availability) 향상 등의 이점을 극대화할 수 있도록 최적화되어야 한다. 기존 연구들의 대부분은 트랜잭션의 수행 비용을 최소화하는 방향으로만 최적화된 데이터 할당 결과를 제시하고 있다. 즉, 비용, 성능 및 가용성을 모두 함께 고려하는 연구는 아직까지 제시된 결과가 없으며 이는 복잡한 모델에 대한 적절한 최적화 기법이 없기 때문이다. 본 연구에서는 분산 데이터의 이점들인 비용, 성능 및 가용성 등의 다중측면을 동시에 고려함으로써 데이터 할당에 대한 파레토 최적해를 제공하는 DAMMA (Data Allocation Methodology considering Multiple Aspects) 방법론을 제안하였다. DAMMA 방법론은 데이터 분할 과정을 통하여 생성된 최적의 단편들을 분산 시스템의 운용 비용, 수행 성능, 가용성 등의 요소를 고려하여 각 물리적 사이트에 중복 할당하는 파레토 최적해들을 생성해낼 수 있는 설계 방법론이다.

  • PDF

A Study on Data Storage and Recovery in Hadoop Environment (하둡 환경에 적합한 데이터 저장 및 복원 기법에 관한 연구)

  • Kim, Su-Hyun;Lee, Im-Yeong
    • KIPS Transactions on Computer and Communication Systems
    • /
    • v.2 no.12
    • /
    • pp.569-576
    • /
    • 2013
  • Cloud computing has been receiving increasing attention recently. Despite this attention, security is the main problem that still needs to be addressed for cloud computing. In general, a cloud computing environment protects data by using distributed servers for data storage. When the amount of data is too high, however, different pieces of a secret key (if used) may be divided among hundreds of distributed servers. Thus, the management of a distributed server may be very difficult simply in terms of its authentication, encryption, and decryption processes, which incur vast overheads. In this paper, we proposed a efficiently data storage and recovery scheme using XOR and RAID in Hadoop environment.

Distributed Data Processing for Bigdata Analysis in War Game Simulation Environment (워게임 시뮬레이션 환경에 맞는 빅데이터 분석을 위한 분산처리기술)

  • Bae, Minsu
    • The Journal of Bigdata
    • /
    • v.4 no.2
    • /
    • pp.73-83
    • /
    • 2019
  • Since the emergence of the fourth industrial revolution, data analysis is being conducted in various fields. Distributed data processing has already become essential for the fast processing of large amounts of data. However, in the defense sector, simulation used cannot fully utilize the unstructured data which are prevailing at real environments. In this study, we propose a distributed data processing platform that can be applied to battalion level simulation models to provide visualized data for command decisions during training. 500,000 data points of strategic game were analyzed. Considering the winning factors in the data, variance processing was conducted to analyze the data for the top 10% teams. With the increase in the number of nodes, the model becomes scalable.

  • PDF

A Study on Variance Change Point Detection for Time Series Data in Progress (진행중인 시계열데이터에서 분산 변화점 탐지에 관한 연구)

  • Choi Hyun-Seok;Kang Hoon-Kyu;Song Gyu-Moon;Kim Tae-Yoon
    • The Korean Journal of Applied Statistics
    • /
    • v.19 no.2
    • /
    • pp.369-377
    • /
    • 2006
  • This paper considers moving variance ratio (MVR) for valiance detection problem with time series data in progress. For testing purpose, parametric method based on F distribution and nonparametric method based on empirical distribution are compared via simulation study.

Data Synchronization of Distributed Monitoring and Control System (분산 감시 제어 시스템의 정보 동기화)

  • 배경호;김태완;이재하;장천현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.520-522
    • /
    • 2004
  • 분산 감시 제어 시스템은 산업분야에서 중요한 부분이다. 그러나 일반적인 분산 감시 제어 시스템의 응용 소프트웨어간이나 감시 장비간의 또는 응용 소프트웨어와 감시 장비간의 통신이 필요하다. 이러한 문제점은 통신의 과부하로 이어질 수 있다. 본 논문에서는 이러한 문제점을 해결하고 대규모 분산 감시 제어 시스템에서 사용할 수 있는 개발 환경을 제안한다. 이 시스템은 분산 시스템에서 정보를 동기화 하여 분산 환경하의 모든 응용 소프트웨어나 감시 장비가 공유 할 수 있도록 하는 정보 동기화 기술로 이루어져 있다 이 기술은 공유메모리를 사용하여 프로그램 코드와 데이터 구조를 분리하여 데이터 구조 및 데이터 값을 공유할 수 있게 하는 SDSL(Shared Data Structure Library)기법을 사용한다. 그리고 적시성을 보장해 주는 미들웨어인 TMO(Time-triggered Message-triggered Object)를 이용하여 실시간 성을 보장해 주는 한편 통신을 가능하게 해줌으로써 분산 시스템에서도 적용할 수 있다. 본 논문에서 제안하는 개발 환경은 데이터 구조를 동적으로 변화시켜주면서 대규모 분산 감시 제어 시스템에서 응용 프로그램을 보다 편하게 구현하고자 하는 산업 분야에 적용할 수 있다.

  • PDF

Priority based Load Shedding Method using Range Overlap of Spatial Queries on Data Stream (데이터 스트림에서 공간질의의 영역 겹침을 이용한 우선순위 기반의 부하 분산 기법)

  • Ho Kim;Sung-Ha Baek;Yan Li;Dong-Wook Lee;Weon-Il Chung;Hae-Young Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.401-404
    • /
    • 2008
  • u-GIS 환경에서 발생하는 시공간 데이터는 지속적으로 발생하는 데이터 스트림의 특성을 갖으며, 그런 특성으로 인하여 데이터 발생량이 급격히 증가함에 따라 데이터 손실 및 시스템 성능 저하현상이 발생한다. 이를 해결하기 위해 부하 분산 연구들이 활발히 진행되어 오고 있다. 그러나 기존의 연구 방식인 랜덤 부하 분산 방식과 의미적 부하 분산 방식은 현 u-GIS 환경에서 부하 분산 속도 및 질의 결과의 정확도 측면에 만족스럽지 못한 결과를 준다. 그래서 본 논문에서는 우선순위를 이용한 차등적 부하 분산(DLSM : Different Load Shedding using MAP table)기법을 제안한다. DLSM 기법은 등록된 공간질의의 공간연산을 통해 영역의 우선순위를 미리 부여하고, 데이터가 발생하여 질의 처리기로 유입되기 전 우선순위를 파악한다. 데이터는 우선순위 단계에 따라 유입량을 확인 후 삭제 여부가 결정된다. 결과적으로 부하 분산 속도와 질의 결과의 정확도를 향상시켰다.

Application of functional ANOVA and functional MANOVA (단변량 및 다변량 함수 데이터에 대한 분산분석의 활용)

  • Kim, Mijeong
    • The Korean Journal of Applied Statistics
    • /
    • v.35 no.5
    • /
    • pp.579-591
    • /
    • 2022
  • Functional data is collected in various fields. It is often necessary to test whether there are differences among groups of functional data. In this case, it is not appropriate to explain using the point-wise ANOVA method, and we should present not the point-wise result but the integrated result. Various studies on functional data analysis of variance have been proposed, and recently implemented those methods in the package fdANOVA of R. In this paper, I first explain ANOVA and multivariate ANOVA, then I will introduce various methods of analysis of variance for univariate and multivariate functional data recently proposed. I also describe how to use the R package fdANOVA. This package is used to test equality of weekly temperatures in Seoul and Busan through univariate functional data ANOVA, and to test equality of multivariate functional data corresponding to handwritten images using multivariate function data ANOVA.

The Design and Implementation of Update Protocol for Distributed Spatial Data based on Middleware (미들웨어 기반의 분산 공간 데이터 변경 프로토콜의 설계 및 구현)

  • 정민규;조대수;오병우;홍봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.104-106
    • /
    • 2000
  • 이 논문은 클라이언트에서 다수의 서버에 대한 공간 데이터의 변경 문제를 대상으로 한다. 분산 환경에서의 데이터 변경은 다음과 같은 요구조건을 가진다. 첫째, 분산 환경에서는 서로 다른 구조의 클라이언트 및 서버에 대해 확장성을 고려해야 한다. 둘째, 공간 데이터 간에는 공간 관련성이 존재하기 때문에, 서로 다른 서버에 분산 저장된 공간 데이터간의 공간 관련성을 유지해야 한다. 셋째, 한 클라이언트에서의 변경은 여러 서버 및 다른 클라이언트와의 협동 작업을 통해 수행되어야 한다. 이 논문에서는 클라이언트에서의 공간 데이터 변경을 처리하기 위해 서비스 제공자를 설계, 구현한다. 서비스 제공자는 미들웨어 컴포넌트로써 동일한 인터페이스를 제공하기 때문에, 클라이언트 및 서버의 확장이 용이한 장점을 갖는다. 이 논문에서 제공하는 서비스 제공자는 2PC 기반의 변경 프로토콜에 따라 분산된 서버간에 존재하는 공간 관련성을 유지하면서 공간 데이터의 변경을 수행한다. 즉, 서비스 제공자는 클라이언트에서 변경을 요청한 객체에 대해 공간 관련성 유무를 검사하고, 공간 관련성을 가진 객체를 포함한 서버에 변경 내용을 전파한 후, 협동 작업을 통해 변경을 확정하거나 취소하게 된다.

  • PDF

A Dynamic Prefetchiong Scheme for Handling Small Files based on Hadoop Distributed File System (하둡 분산 파일 시스템 기반 소용량 파일 처리를 위한 동적 프리페칭 기법)

  • Yoo, Sang-Hyun;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.329-332
    • /
    • 2014
  • 클라우드 컴퓨팅이 활성화 됨에 따라 기존의 파일 시스템과는 다른 대용량 파일 처리에 효율적인 분산파일시스템의 요구가 대두 되었다. 그 중에 하둡 분산 파일 시스템(Hadoop Distribute File System, HDFS)은 기존의 분산파일 시스템과는 달리 가용성과 내고장성을 보장하고, 데이터 접근 패턴을 스트리밍 방식으로 지원하여 대용량 파일을 효율적으로 저장할 수 있다. 이러한 장점 때문에, 클라우드 컴퓨팅의 파일시스템으로 대부분 채택하고 있다. 하지만 실제 HDFS 데이터 집합에서 대용량 파일 보다 소용량 파일이 차지하는 비율이 높으며, 이러한 다수의 소 용량 파일은 데이터 처리에 있어 높은 처리비용을 초래 할 뿐 만 아니라 메모리 성능에 악영향을 끼친다. 하지만 소 용량 파일을 프리패칭 함으로서 이러한 문제점을 해결 할 수 있다. HDFS의 데이터 프리페칭은 기존의 데이터 프리페칭의 기법으로는 적용하기 어려워 HDFS를 위한 데이터 프리패칭 기법을 제안한다.

  • PDF

Data Sampling Using Oversampling Technique for Estimating Two-Dimensional Dispersion Coefficients (2차원 분산계수 경험식 산정을 위한 오버샘플링 기법 활용 데이터 샘플링)

  • Lee, Sun Mi;Park, In Hwan
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.449-449
    • /
    • 2021
  • 하천 내 오염물질 유입원은 하수처리장과 같이 농도를 예측 가능한 점오염원이 일반적이지만, 수질오염사고와 같이 다량의 유해물질이 일시에 하천에 유입되는 경우도 발생하곤 한다. 특히 오염물질 유입지점과 취수장이 인접한 경우, 오염물질 혼합해석에 대한 이해가 오염사고 대응 및 수질 관리 측면에서 매우 중요하다. 자연하천에서는 사행에 따른 유속 구조의 불균일성 등으로 인하여 오염물질의 이송 및 분산 과정은 매우 복잡하게 나타난다. 이러한 하천의 지형적, 수리학적 특성이 오염물질의 혼합 거동에 미치는 영향을 정확하게 모의하기 위해서는 3차원 수치모형을 적용해야 한다. 그러나 대부분의 하천은 하폭 대 수심비가 매우 크기 때문에 2차원 이송-분산 방정식을 지배방정식으로 채택하는 2차원 수치 모형이 널리 사용되어왔다. 2차원 이송-분산 방정식의 해석결과는 입력된 종, 횡 분산계수의 값에 따라 변화하기 때문에 정확한 혼합해석을 위해 분산계수의 결정이 매우 중요하다. 과거 연구에서는 횡 분산계수의 결정을 위해 기본 수리량을 이용한 경험식을 활용하여 계산한 바 있다. 종 분산계수의 경우에는 경험식의 산정에 필요한 충분한 실험 자료가 축적되어 있지 않아 이상적 흐름 상태를 가정하여 유도된 Elder의 이론식(Elder, 1959)을 사용해왔다. 하지만 많은 연구에서 이러한 Elder의 이론식이 종 분산계수를 과소산정 할 우려가 있다고 제시했다. 따라서 하천의 전단류 분산특성을 나타낼 수 있는 데이터 확보를 통해 종 분산계수의 경험식 산정 및 횡 분산계수의 정확도 향상이 필요한 상황이다. 본 연구에서는 기존 선행 연구에서 수행된 2차원 추적자실험 데이터의 확장을 위해 오버샘플링 기법을 적용하였으며, 이를 통한 머신러닝을 통한 분산계수 산정 가능성을 분석하고자 한다. 부족한 추적자 실험 데이터를 확장하기 위해 오버샘플링 기법 중 SMOTE 기법을 활용했다. 오버샘플링 기법을 이용하여 생산된 데이터의 신뢰성을 검증하였으며, 추후 머신러닝을 이용한 2차원 종, 횡 분산계수 산정에 대한 활용 가능성을 분석했다.

  • PDF