• 제목/요약/키워드: distributed parallel processing

검색결과 258건 처리시간 0.023초

병렬 분산 처리 시스템에서 공간 연산을 위한 데이터 접근 방안 (A Method to Access Data for Spatial Operation in Parallel Distributed Processing System)

  • 김진덕
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.442-444
    • /
    • 2016
  • 과거에 비해 비약적으로 생산되는 공간 데이터에 대한 처리를 위한 공간 연산은 빠른 처리 응답성을 요구하는 경우가 많다. 그래서 최근 하둡(Hadoop)과 같은 빅데이터 처리 시스템을 이용하여 처리하고자 하는 시도가 많다. 한편, 공간 조인은 데이터 분할(Partitioning)과 공간 색인의 이용 여부, 여과 단계와 정제 단계를 거치는 등 그 복잡도가 강한 공간 연산이다. 그래서 빅데이터 처리 시스템을 이용한 공간 조인의 처리 방식은 매우 다양하다. 그러나 지금까지 이러한 공간 조인의 처리 방식에 다른 리소스 활용에 대한 비교는 거의 없다. 이 논문에서는 다양한 공간 연산의 수행 방법에 따른 빅데이터 시스템 클러스터에서 데이터 전송 방식을 고찰하고 데이터 전송에 따른 네트워크 리소스의 효율적인 사용 방안을 제안하고자 한다. 구체적으로 단일할당과 다중할당 색인 기법의 비교, 파티셔닝 방법의 비교, 맵리듀스 시스템의 태스크 할당 방법에 따른 비교를 통해 다양한 연산 유형에 따른 공간 조인의 처리 방안 선정에 고려 요소를 제시하고자 한다.

  • PDF

Scalable Prediction Models for Airbnb Listing in Spark Big Data Cluster using GPU-accelerated RAPIDS

  • Muralidharan, Samyuktha;Yadav, Savita;Huh, Jungwoo;Lee, Sanghoon;Woo, Jongwook
    • Journal of information and communication convergence engineering
    • /
    • 제20권2호
    • /
    • pp.96-102
    • /
    • 2022
  • We aim to build predictive models for Airbnb's prices using a GPU-accelerated RAPIDS in a big data cluster. The Airbnb Listings datasets are used for the predictive analysis. Several machine-learning algorithms have been adopted to build models that predict the price of Airbnb listings. We compare the results of traditional and big data approaches to machine learning for price prediction and discuss the performance of the models. We built big data models using Databricks Spark Cluster, a distributed parallel computing system. Furthermore, we implemented models using multiple GPUs using RAPIDS in the spark cluster. The model was developed using the XGBoost algorithm, whereas other models were developed using traditional central processing unit (CPU)-based algorithms. This study compared all models in terms of accuracy metrics and computing time. We observed that the XGBoost model with RAPIDS using GPUs had the highest accuracy and computing time.

COMPUTATION OF SOMBOR INDICES OF OTIS(BISWAPPED) NETWORKS

  • Basavanagoud, B.;Veerapur, Goutam
    • 충청수학회지
    • /
    • 제35권3호
    • /
    • pp.205-225
    • /
    • 2022
  • In this paper, we derive analytical closed results for the first (a, b)-KA index, the Sombor index, the modified Sombor index, the first reduced (a, b)-KA index, the reduced Sombor index, the reduced modified Sombor index, the second reduced (a, b)-KA index and the mean Sombor index mSOα for the OTIS biswapped networks by considering basis graphs as path, wheel graph, complete bipartite graph and r-regular graphs. Network theory plays a significant role in electronic and electrical engineering, such as signal processing, networking, communication theory, and so on. A topological index (TI) is a real number associated with graph networks that correlates chemical networks with a variety of physical and chemical properties as well as chemical reactivity. The Optical Transpose Interconnection System (OTIS) network has recently received increased interest due to its potential uses in parallel and distributed systems.

빅 데이터 처리 기법을 적용한 추천 시스템에 관한 연구 (Recommendation System Using Big Data Processing Technique)

  • 윤소영;윤성대
    • 한국정보통신학회논문지
    • /
    • 제21권6호
    • /
    • pp.1183-1190
    • /
    • 2017
  • 네트워크와 IT 기술의 발전으로 사용자들은 장소에 구애 받지 않고 어디서든 본인이 원하는 아이템을 검색하고 구매하고 있다. 이에 따라 추천시스템에서 급증하는 데이터로 인한 확장성 문제를 어떻게 해결할 것인가에 대한 연구들이 다양하게 진행되고 있다. 본 논문에서는 Tag 가중치를 적용한 아이템 기반 협업 필터링 기법과 분산 병렬 처리 방식인 MapReduce 방법을 적용한 추천 기법을 제안한다. 제안하는 기법은 속도 향상과 효율성을 위해 전처리 과정에서 아이템을 카테고리별로 분류하고 노드 수에 맞게 그룹지은 후 사용한다. 각 분산 노드에서 4번의 Map-Reduce 단계를 통해 데이터 처리를 진행하는데 사용자에게 더 나은 아이템을 추천하기 위해 유사도 계산에서 아이템 Tag 가중치를 사용한다. 마지막 Reduce 단계를 거쳐 출력된 예측값 중 상위 N개의 아이템을 추천에 사용한다. 실험을 통해 제안 하는 기법이 대량의 데이터를 효율적으로 처리하며 기존의 아이템 기반 기법보다 추천의 적합성도 향상되는 것을 확인하였다.

의료정보서비스 접근성 향상을 위한 개방형 플랫폼 구축방안 (Open Platform for Improvement of e-Health Accessibility)

  • 이현직;김윤호
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1341-1346
    • /
    • 2017
  • 본 논문에서는 개개인의 복합적 속성과 요구를 반영한 통합된 개인 맞춤형 서비스와 지능정보기술을 기반으로 의료서비스 접근성을 향상시킬 수 있는 개방형 서비스플랫폼의 구축방안에 대하여 설계하였다. 먼저, 데이터 수집 및 저장단계는 데이터 추출, 변환, 로딩을 반복하며 신속하고 정확하게 처리한다. ETL 모듈로부터 생성된 데이터는 분산 파일 시스템에 저장한다. 데이터 분석단계는 스토리지에 저장된 과거 의료 데이터들을 기반으로 기계학습과 데이터 마이닝 분야에서 사용되고 있는 분석 알고리즘을 적용하여 다양한 패턴들을 생성한다. 데이터 처리단계에서는 데이터를 신속히 처리해야 하므로 보통 작업을 병렬 및 분산 처리하여 성능을 향상시킨다. 데이터 제공방식은 디바이스별 운영하는 플랫폼에 독립적으로 동작해야 하며, 데이터 전송 시 네트워크 부하가 적고, 다양한 형태의 서비스를 제공하기 위하여 Open API 형태로 제공한다.

온톨로지 및 순서 규칙 기반 대용량 스트리밍 미디어 이벤트 인지 (Ontology and Sequential Rule Based Streaming Media Event Recognition)

  • 소치승;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.470-479
    • /
    • 2016
  • UCC(User Created Contents) 형태의 다양한 영상 미디어 데이터가 증가함에 따라 의미 있는 서비스를 제공하기 위해 많은 분야에서 활발한 연구가 진행 중이다. 그 중 시맨틱 웹 기반의 미디어 분류에 대한 연구가 진행되고 있지만 기존의 미디어 온톨로지는 메타 정보를 이용하기 때문에 정보의 부재에 따른 한계점이 있다. 따라서 본 논문에서는 영상에서 인지되는 객체를 정하고 그 조합으로 구성된 서술 논리 기반의 온톨로지를 구축하고 영상의 장면에 따른 순서 기반의 규칙을 정의하여 이벤트 인지에 대한 기틀을 제안한다. 또한 증가하는 미디어 데이터에 대한 처리를 위해 분산 인-메모리 기반 프레임워크인 아파치 스파크 스트리밍을 이용하여, 영상 분류를 병렬로 처리하는 방법에 대해 설명한다. 유튜브에서 추출한 영상을 대상으로 대용량 미디어 온톨로지 데이터를 생성하고, 이를 이용하여 제시된 기법에 대한 성능 평가를 진행하여 타당성을 입증한다.

A Walsh-Based Distributed Associative Memory with Genetic Algorithm Maximization of Storage Capacity for Face Recognition

  • Kim, Kyung-A;Oh, Se-Young
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.640-643
    • /
    • 2003
  • A Walsh function based associative memory is capable of storing m patterns in a single pattern storage space with Walsh encoding of each pattern. Furthermore, each stored pattern can be matched against the stored patterns extremely fast using algorithmic parallel processing. As such, this special type of memory is ideal for real-time processing of large scale information. However this incredible efficiency generates large amount of crosstalk between stored patterns that incurs mis-recognition. This crosstalk is a function of the set of different sequencies [number of zero crossings] of the Walsh function associated with each pattern to be stored. This sequency set is thus optimized in this paper to minimize mis-recognition, as well as to maximize memory saying. In this paper, this Walsh memory has been applied to the problem of face recognition, where PCA is applied to dimensionality reduction. The maximum Walsh spectral component and genetic algorithm (GA) are applied to determine the optimal Walsh function set to be associated with the data to be stored. The experimental results indicate that the proposed methods provide a novel and robust technology to achieve an error-free, real-time, and memory-saving recognition of large scale patterns.

  • PDF

클라우드 기반 센서 데이터 관리 시스템 설계 및 구현 (Design and Implementation of Cloud-based Sensor Data Management System)

  • 박경욱;김경옥;반경진;김응곤
    • 한국전자통신학회논문지
    • /
    • 제5권6호
    • /
    • pp.672-677
    • /
    • 2010
  • 최근 대규모 센서 네트워크의 구축이 증가하면서 대규모의 센서 데이터를 효율적으로 관리하는 시스템이 요구되고 있다. 본 논문에서는 저비용, 높은 확장성 그리고 고 효율성을 지닌 클라우드 기반의 센서 데이터 관리 시스템을 제안한다. 제안된 시스템에서는 센서 데이터는 클라우드 게이트웨이를 통해 클라우드로 전송되며 이때 이상상황 검출과 이벤트 처리가 수행된다. 클라우드로 전송된 센서 데이터는 분산 컬럼 지향 데이터 베이스인 하둡 HBase에 저장되며 맵리듀스 모델 기반의 질의처리 모듈을 통해 병렬 처리된다. 처리된 결과는 REST 기반의 웹서비스를 통해 제공되므로 다양한 플랫폼의 응용프로그램과 연동이 가능하다.

잉여수계를 이용한 역전파 신경회로망 구현 (The Implementation of Back Propagation Neural Network using the Residue Number System)

  • 홍봉화;이호선
    • 정보학연구
    • /
    • 제2권2호
    • /
    • pp.145-161
    • /
    • 1999
  • 본 논문에서는 캐리 전파가 없어 고속연산이 가능한 잉여 수 체계를 이용하여 고속으로 동작할 수 있는 역전파 신경회로망을 설계방법을 제안하였다. 설계된 신경회로망은 잉여수계를 이용한 MAC 연산기와 혼합계수 변환을 이용한 시그모이드 함수 연산 부로 구성되며, 설계된 회로는 VHDL로 기술하였고 Compass 툴로 합성하였다. 실험결과, 가장 나쁜 경로일 경우, 약 19nsec의 지연속도를 보였고, 기존의 실수 연산기에 비하여 약 40%정도 하드웨어 크기를 줄일 수 있었다. 본 논문에서 설계한 신경회로망은 실시간 처리를 요하는 병렬분산처리 시스템에 적용될 수 있을 것으로 기대된다.

  • PDF

Research on Big Data Integration Method

  • Kim, Jee-Hyun;Cho, Young-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.49-56
    • /
    • 2017
  • In this paper we propose the approach for big data integration so as to analyze, visualize and predict the future of the trend of the market, and that is to get the integration data model using the R language which is the future of the statistics and the Hadoop which is a parallel processing for the data. As four approaching methods using R and Hadoop, ff package in R, R and Streaming as Hadoop utility, and Rhipe and RHadoop as R and Hadoop interface packages are used, and the strength and weakness of four methods are described and analyzed, so Rhipe and RHadoop are proposed as a complete set of data integration model. The integration of R, which is popular for processing statistical algorithm and Hadoop contains Distributed File System and resource management platform and can implement the MapReduce programming model gives us a new environment where in R code can be written and deployed in Hadoop without any data movement. This model allows us to predictive analysis with high performance and deep understand over the big data.