• 제목/요약/키워드: Distributed Computing

검색결과 1,273건 처리시간 0.03초

CERES: 백본망 로그 기반 대화형 웹 분석 시스템 (CERES: A Log-based, Interactive Web Analytics System for Backbone Networks)

  • 서일현;정연돈
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.651-657
    • /
    • 2015
  • 웹 응용 프로그램의 급격한 증가와 함께 웹 트래픽이 증가하고 있다. 웹에 대한 요청과 그 응답에 대한 기록인 웹 로그 또한 폭발적으로 증가하고 있다. 웹 로그로부터 가치 있는 정보를 취득하기 위해서는 매우 큰 용량의 데이터를 효과적이고 다양한 방법으로 다룰 수 있는 시스템이 필요하다. 본 논문에서는 백본망 로그 기반 대화형 웹 분석 시스템인 CERES를 소개한다. 기존의 웹 분석 시스템들과 달리, CERES는 하나의 웹 서버에 대한 분석이 아닌 백본망에서 생성되는 모든 웹 로그의 분석을 목적으로 한다. CERES는 하둡 분산 파일 시스템 (HDFS)을 저장소로 하는 서버 클러스터에 배포되며, 대용량의 로그에 기반한 분석을 분산 처리를 통해 지원한다. CERES는 백본망에서 생성된 웹 로그 데이터를 관계형 데이터로 변환하고, 사용자는 변환된 관계형 데이터에 대해 SQL을 이용하여 질의를 요청할 수 있다. 내부적으로 CERES는 웹 로그의 통계적 분석에 대한 질의를 효과적으로 처리하기 위해 데이터 큐브를 활용한다. 또한, CERES는 다양한 통계적 분석을 지원하기 위해 대화형 SQL 질의 인터페이스를 포함한 세 가지 형태의 웹 인터페이스를 제공하며 사용자는 이를 통해 쉽게 질의를 요청할 수 있고 그 결과를 시각적으로 확인할 수 있다.

Hadoop 클러스터에서 네임 노드와 데이터 노드가 빅 데이터처리 성능에 미치는 영향에 관한 연구 (A Study on the Effect of the Name Node and Data Node on the Big Data Processing Performance in a Hadoop Cluster)

  • 이영훈;김용일
    • 스마트미디어저널
    • /
    • 제6권3호
    • /
    • pp.68-74
    • /
    • 2017
  • 빅 데이터 처리는 파일이나 이미지, 동영상 등 다양한 형태의 데이터를 처리하여 문제를 해결하고 통찰력 있는 유용한 정보를 제공한다. 현재 빅 데이터 처리를 위해 다양한 플랫폼이 사용되지만, 하둡이 가지는 단순성, 생산성, 확장성, 그리고 내고장성 때문에 많은 기관, 기업에서 빅 데이터 처리에 하둡을 사용하고 있다. 또한, 하둡은 다양한 하드웨어 플랫폼으로 클러스터를 구축할 수 있으며, 네임 노드(Master)와 데이터 노드(Slave)로 구분하여 빅 데이터를 처리한다. 본 논문에서는 실제 기관과 기업에서 사용하는 완전분산모드를 사용하였으며 원활한 테스트를 위해 저전력이고 저가인 싱글 보드를 사용하여 하둡 클러스터를 구축하였다. 네임 노드의 성능 영향 분석은 싱글 보드와 랩톱을 네임 노드로 사용하여 같은 데이터 처리를 통하여 비교하였으며 데이터 노드의 개수에 따른 영향 분석은 싱글 보드를 기존 클러스터의 개수에서 2배까지 늘려가며 데이터 노드가 미치는 영향을 분석하였다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

분산 UNIX 환경에서 Shared-Concurrent File System의 설계 및 구현 (Design and implementation of a Shared-Concurrent File System in distributed UNIX environment)

  • 장시웅;정기동
    • 한국정보처리학회논문지
    • /
    • 제3권3호
    • /
    • pp.617-630
    • /
    • 1996
  • 본 연구에서는 소규모 서버로 사용될 수 있는 Workstation Cluster환경에서 전통 적인 디스크들을 디스크 배열 처럼 사용할 수 잇는 병행 화일시스템(S-CFS)을 설계 하고 구현하였다. S-CFS는 범용의 UNIX 운영체제를 기반으로 구현되어서 융통성과 이식 성이 높으며 별도의 입출력 노드가 불필요하므로 시스템 자원을 효율적으로 사용한다. 성능 분석 결과에 위하며, 소규모 서버에서 디스크의 수가 충분 할 경우, 트랜잭션 처리 에서 병행 화일시스템의 성능은 CPU 계산 능력에 의하여제한받는 것으로 나타났으며 대용량 데이타 입출력에서는 성능이 버퍼 간의 데이타 복사시간에 의하여 제한받는 것으로 나다.Workstation Cluster 에서 구현된 병행 화일시스템은 8개의 디스크에서 트랜잭션 처리의 경우에는초당 388 트랜잭션의 처리율을 보였으며, 대용량 데이타의 경우에는 15.8 MBytes/sec 의 대역표을 보였다. 그리고 사용자가 병행 화일시스템의 병렬성을 제어할 수 있도록 설계함으로써 고속 입출력을 요구하는 사용자의 처리율을 높일 수 있도록 하였다.

  • PDF

Development of a software framework for sequential data assimilation and its applications in Japan

  • Noh, Seong-Jin;Tachikawa, Yasuto;Shiiba, Michiharu;Kim, Sun-Min;Yorozu, Kazuaki
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.39-39
    • /
    • 2012
  • Data assimilation techniques have received growing attention due to their capability to improve prediction in various areas. Despite of their potentials, applicable software frameworks to probabilistic approaches and data assimilation are still limited because the most of hydrologic modelling software are based on a deterministic approach. In this study, we developed a hydrological modelling framework for sequential data assimilation, namely MPI-OHyMoS. MPI-OHyMoS allows user to develop his/her own element models and to easily build a total simulation system model for hydrological simulations. Unlike process-based modelling framework, this software framework benefits from its object-oriented feature to flexibly represent hydrological processes without any change of the main library. In this software framework, sequential data assimilation based on the particle filters is available for any hydrologic models considering various sources of uncertainty originated from input forcing, parameters and observations. The particle filters are a Bayesian learning process in which the propagation of all uncertainties is carried out by a suitable selection of randomly generated particles without any assumptions about the nature of the distributions. In MPI-OHyMoS, ensemble simulations are parallelized, which can take advantage of high performance computing (HPC) system. We applied this software framework for several catchments in Japan using a distributed hydrologic model. Uncertainty of model parameters and radar rainfall estimates is assessed simultaneously in sequential data assimilation.

  • PDF

Ad-Hoc 네트워크에서 클러스터 수를 최소화하기 위한 방안 (A Method for Minimizing the Number of Clusters in Ad-Hoc Networks)

  • 방상원
    • 인터넷정보학회논문지
    • /
    • 제5권6호
    • /
    • pp.21-30
    • /
    • 2004
  • Ad-Hoc네트워크에서 클러스터 구조는 여러 채널을 효율적으로 사용 가능하게 하고 제어메시지의 교환수를 감소시키며 네트워크의 확장성을 증가시킨다. 또한 클러스터 구조는 Ad-Hoc 네트워크에서 방송되는 메시지의 수를 감소시키기 위해 사용된다. 이를 위해 임의의 클러스터 구조는 작은 수의 클러스터를 가지는 것이 바람직하다. 일반적으로 연결성 기반의 클러스터 구성방법은 다른 방법들에 비해 작은 수의 클러스터를 생성한다. 그러나 연결성 기반의 방법은 네트워크의 위상에 따라 연결성을 고려하지 않는 방법보다 더 많은 클러스터를 생성할 경우도 있다. 본 논문에서는 클러스터 구성을 2단계로 나누어 수행하는 클러스터 구성방법을 제안한다. 제안방법은 첫 번째 단계에서 최소연결성을 가진 노드가 클러스터 구성을 시작한다. 이때 최소연결성의 노드들을 가능한 많이 포함하는 작은 수의 클러스터를 생성하기 위하여 일련의 조정절차를 이용한다. 두 번째 단계에서는 첫 번째 단계에서 생성된 클러스터에 포함되지 않은 노드들을 대상으로 최대 연결성을 가진 노드가 클러스터 구성을 시작한다. 제안된 방법은 첫 번째 및 두 번째 단계를 거쳐서 기존 방법보다 더 작은 수의 클러스터를 완전히 분산된 방법으로 생성한다. 본 논문에서 제안한 방법은 실험결과에 의해 LIDCP(3)와 HCCP(3)보다 우수한 것으로 평가되었다.

  • PDF

무선 센서 네트워크에서 전력과 위치정보 기반 라우팅 프로토콜 디자인 (Power and Location Information based Routing Protocol Design in Wireless Sensor Networks)

  • 손병락;김중규
    • 한국산업정보학회논문지
    • /
    • 제11권2호
    • /
    • pp.48-62
    • /
    • 2006
  • 최근 분산 컴퓨팅과 임베디드 시스템을 위한 응용 영역이 급성장하고 무선 통신 기술과 컴퓨터 하드웨어의 발전으로 매우 작은 크기의 센서 노드로 이루어진 센서 네트워크를 구성하는 것이 가능해졌다. 하지만 센서 네트워크의 특징 때문에 기존 라우팅 프로토콜을 적용하기 어렵다. 본 논문에서는 센서 네트워크의 특징을 고려하여 에너지 효율적으로 동작할 수 있는 알고리즘을 제안한다. 먼저 센서 노드가 관찰한 데이터를 싱크로 전송할 때 센서 노드의 에너지의 상태를 고려한 라우팅 프로토콜을 제안한다. 둘째, 센서 노드의 상대 위치를 측정하여 인접 노드를 휴지 상태로 전환시켜 에너지 소모를 줄이는 기법을 제안한다. 센서 노드의 에너지 상태와 위치정보를 주기적으로 재설정하여 센서 네트워크의 서비스 시간을 향상시킨다. 제안하는 기법은 트리기반 라우팅 프로토콜에 비해 경로 유지 시간이 2배 이상 향상되고, 평균 에너지 소모율이 약 30% 줄어든다.

  • PDF

이동 애드혹 환경에서 빠른 복구를 지원하는 발행/구독 기법 (A Fast Recovery Publish/Subscribe Scheme in Mobile Ad-hoc Environments)

  • 문상철;고양우;이동만
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.186-190
    • /
    • 2008
  • 이 논문은 이동 애드혹 네트워크에서 발행/구독 기법에 대한 기존 연구를 이벤트 브로커간의 협동 방식에 따라 분석하고 그 결과로서 공공 장소에서 사람들이 다양한 개인화 서비스를 제공받는 시나리오에서는 이벤트 전달트리 방식이 가장 유용함을 보였다. 하지만 이 방식을 이용한 기존 연구는 각 노드가 독립적으로 메시지를 교환하므로 트리를 만드는 과정에서 최신의 토폴로지를 반영할 수 없다는 한계를 갖게 되며 이는 노드가 이동함에 따라 깨진경로를 빨리 복구하지 못하게 하여 결과적으로 낮은 이벤트 수신율을 보이게 된다. 이 논문은 트리의 루트로부터 경로 정보를 전파하게 하여 이벤트 전송 경로를 생성, 유지하게 하는 방식을 제안하며 이를 통하여 한 번의 주기 이내에 이벤트 전송 경로를 복구하게 한다. 실험을 통하여 제안된 방식이 더 낮은 부담으로 더 높은 이벤트 수신율을 달성할 수 있음을 보였다.

센서 네트워크에서 연속적인 개체 추적을 위한 동적 직사각형 영역 기반 협동 메커니즘 (Dynamic Rectangle Zone-based Collaboration Mechanism for Continuous Object Tracking in Wireless Sensor Networks)

  • 박보미;이의신;김태희;박호성;이정철;김상하
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권8호
    • /
    • pp.591-595
    • /
    • 2009
  • 센서 네트워크에서 개체 검출과 추적에 관한 기존 라우팅 프로토콜들은 사람, 동물, 차량 등과 같은 하나 또는 그 이상의 단일(individual) 개체들에 대한 검출과 추적을 하기 위한 방법에만 관심을 가질 뿐, 독가스, 생화학물질 등과 같은 연속적인 개체들을 검출하고 추적하는 프로토콜들은 많지 않다. 이러한 연속적인 개체들은 어느 지역에 계속적으로 분산되어 있고, 광범위한 지역을 차지한다는 점에서 단일 개체들과 차이가 있다. 따라서 많은 센서 노드들에 의해 검출되고 센싱되는 데이터들은 중복적이고 서로 깊이 관련되어 있다. 그러므로 지역적으로 센싱 데이터를 수집하고 통합하여 데이터를 보고하기 위한 효율적인 방안이 필요하다. 본 논문에서 우리는 연속적인 개체들을 검출, 추적하고 모니터링(monitoring)하기 위한 동적인 직사각형 영역에 기반한 연속적인 개체 추적 방안을 제안한다. 제안된 방안은 하나의 연속된 개체가 차지한 지역이 포함된 동적인 직사각형 영역을 구성하고, 영역에서 하나의 대표 노드가 연속된 개체를 검출하는 센서 노드들로부터 센싱 데이터를 수집하고 통합한다.

Big Data Processing and Performance Improvement for Ship Trajectory using MapReduce Technique

  • Kim, Kwang-Il;Kim, Joo-Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권10호
    • /
    • pp.65-70
    • /
    • 2019
  • 최근 선박자동식별장치의 도입으로, 육상에서 선박위치, 침로, 속력, 선박종류 등 선박 항적데이터 수집이 가능해 졌다. 본 연구는 맵리듀스 알고리즘을 분산처리 환경에 적용하여 선박 항적데이터를 효율적으로 처리하는 방법을 제안한다. 제안하는 방법은 데이터 전처리 단계, 맵핑 단계, 리듀싱 단계로 나뉘어져 있다. 데이터 전처리 단계는 선박의 동적 및 정적 데이터를 통합하고, 비관심지역의 선박정보는 필터링한다. 맵핑 단계는 선박 위치를 지오해시 코드로 변환하여 맵리듀스의 키 데이터로 할당하고, 선박의 ID는 값 데이터로 분리한다. 리듀싱 단계에서는 키 데이터가 같은 키-값 쌍 데이터를 추출하여 해당 그리드에서 선박의 수를 계산하여 시각화 한다. 제안한 방법은 항적데이터 분석에 있어서 기존 프로그램 성능에 비해 1~4배 성능 개선이 되었다.