• 제목/요약/키워드: 스파크R

검색결과 14건 처리시간 0.027초

스파크에서 스칼라와 R을 이용한 머신러닝의 비교 (Comparison of Scala and R for Machine Learning in Spark)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제18권1호
    • /
    • pp.85-90
    • /
    • 2023
  • 보건의료분야 데이터 분석 방법론이 기존의 통계 중심의 연구방법에서 머신러닝을 이용한 예측 연구로 전환되고 있다. 본 연구에서는 다양한 머신러닝 도구들을 살펴보고, 보건의료분야에서 많이 사용하고 있는 통계 도구인 R을 빅데이터 머신러닝에 적용하기 위해 R과 스파크를 연계한 프로그래밍 모델들을 비교한다. 그리고, R을 스파크 환경에서 수행하는 SparkR을 이용한 선형회귀모델 학습의 성능을 스파크의 기본 언어인 스칼라를 이용한 모델과 비교한다. 실험 결과 SparkR을 이용할 때의 학습 수행 시간이 스칼라와 비교하여 10~20% 정도 증가하였다. 결과로 제시된 성능 저하를 감안한다면 기존의 통계분석 도구인 R을 그대로 활용 가능하다는 측면에서 SparkR의 분산 처리의 유용성을 확인하였다.

실시간 데이터 처리를 위한 아파치 스파크 기반 기계 학습 라이브러리 성능 비교 (A Performance Comparison of Machine Learning Library based on Apache Spark for Real-time Data Processing)

  • 송준석;김상영;송병후;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제55차 동계학술대회논문집 25권1호
    • /
    • pp.15-16
    • /
    • 2017
  • IoT 시대가 도래함에 따라 실시간으로 대규모 데이터가 발생하고 있으며 이를 효율적으로 처리하고 활용하기 위한 분산 처리 및 기계 학습에 대한 관심이 높아지고 있다. 아파치 스파크는 RDD 기반의 인 메모리 처리 방식을 지원하는 분산 처리 플랫폼으로 다양한 기계 학습 라이브러리와의 연동을 지원하여 최근 차세대 빅 데이터 분석 엔진으로 주목받고 있다. 본 논문에서는 아파치 스파크 기반 기계 학습 라이브러리 성능 비교를 통해 아파치 스파크와 연동 가능한 기계 학습라이브러리인 MLlib와 아파치 머하웃, SparkR의 데이터 처리 성능을 비교한다. 이를 위해, 대표적인 기계 학습 알고리즘인 나이브 베이즈 알고리즘을 사용했으며 학습 시간 및 예측 시간을 비교하여 아파치 스파크 기반에서 실시간 데이터 처리에 적합한 기계 학습 라이브러리를 확인한다.

  • PDF

Apache Spark를 활용한 대용량 데이터의 처리 (Processing large-scale data with Apache Spark)

  • 고세윤;원중호
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1077-1094
    • /
    • 2016
  • 아파치 스파크는 빠르고 범용성이 뛰어난 클러스터 컴퓨팅 패키지로, 복구 가능한 분산 데이터셋이라는 새로운 추상화를 통해 데이터를 인메모리에 유지하면서도 결함 감내성을 얻을 수 있는 방법을 제공한다. 이러한 추상화는 하드디스크에 직접 데이터를 읽고 쓰는 방식으로 결함 감내성을 제공하는 기존의 대표적인 대용량 데이터 분석 기술인 맵 리듀스 프레임워크에 비해 상당한 속도 향상을 거두었다. 특히 로지스틱 회귀 분석이나 K-평균 군집화와 같은 반복적인 기계 학습 알고리즘이나 사용자가 실시간으로 데이터에 관한 질의를 하는 대화형 자료 분석에서 스파크는 매우 효율적인 성능을 보인다. 뿐만 아니라, 높은 범용성을 바탕으로 하여 기계 학습, 스트리밍 자료 처리, SQL, 그래프 자료 처리와 같은 다양한 고수준 라이브러리를 제공한다. 이 논문에서는 스파크의 개념과 프로그래밍 모형에 대해 소개하고, 이를 통해 몇 가지 통계 분석 알고리즘을 구현하는 방법에 대해 소개한다. 아울러, 스파크에서 제공하는 기계 학습 라이브러리인 MLlib과 R 언어 인터페이스인 SparkR에 대해 다룬다.

S-PARAFAC: 아파치 스파크를 이용한 분산 텐서 분해 (S-PARAFAC: Distributed Tensor Decomposition using Apache Spark)

  • 양혜경;용환승
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.280-287
    • /
    • 2018
  • 최근 추천시스템과 데이터 분석 분야에서 고차원 형태의 텐서를 이용하는 연구가 증가하고 있다. 이는 고차원의 데이터인 텐서 분석을 통해 더 많은 잠재 요소와 잠재 패턴을 추출가능하기 때문이다. 그러나 고차원 형태인 텐서는 크기가 방대하고 계산이 복잡하기 때문에 텐서 분해를 통해 분석해야한다. 기존 텐서 도구들인 rTensor, pyTensor와 MATLAB은 단일 시스템에서 작동하기 때문에 방대한 양의 데이터를 처리하기 어렵다. 하둡을 이용한 텐서 분해 도구들도 있지만 처리 시간이 오래 걸린다. 따라서 본 논문에서는 인 메모리 기반의 빅데이터 시스템인 아파치 스파크를 기반으로 하는 텐서 분해 도구인 S-PARAFAC을 제안한다. S-PARAFAC은 텐서 분해 방법 중 PARAFAC 분해에 초점을 맞춰 아파치 스파크에 적합하게 변형하여 텐서 분해를 빠르게 분산 처리가능 하도록 하였다. 본 논문에서는 하둡을 기반의 텐서 분해 도구와 S-PARAFAC의 성능을 비교하여 약 4~25배 정도의 좋은 성능을 보였다.

SparkR을 이용한 R 기반 빅데이터 분석의 분산 처리 (Distributed Processing of Big Data Analysis based on R using SparkR)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.161-166
    • /
    • 2022
  • 본 논문에서는 데이터 분석 도구인 R을 이용하여 빅데이터 분석을 수행할 때 발생하는 문제점을 분석하고, 빅데이터의 분산 처리를 효과적으로 지원하는 스파크와 R을 연계한 SparkR을 이용한 분석의 유용성을 제시하고자 한다. 먼저, 대량의 데이터를 로딩하고 연산을 수행할 때 발생하는 R의 메모리 할당 문제점과 R과 비교한 SparkR의 특징 및 프로그래밍 환경을 분석한다. 그리고, 선형 회귀 분석을 각각의 환경에서 수행할 때의 실행 성능을 비교 분석한다. 분석 결과 SparkR을 통해 추가적인 언어 학습 없이도 R을 그대로 이용하여 데이터 분석에 활용할 수 있음을 보였으며, SparkR을 이용하여 R로 작성된 코드를 클러스터 내 노드 수의 증가에 따라 효과적으로 분산 처리할 수 있었다.

저농도 바이오알코올 혼합에 따른 스파크 점화 엔진 청정 특성 연구 (A Study on the Characteristics of Spark Ignition Engine Cleanliness by Low Level Bio-Alcohol Blending)

  • 차규섭;노수영
    • 한국수소및신에너지학회논문집
    • /
    • 제30권5호
    • /
    • pp.428-435
    • /
    • 2019
  • A comparative evaluation of engine cleanliness was performed on the transport gasoline blended with bio- alcohols, and this study was considered to achieve the aim of greenhouse gas reduction in Korea. In particular, the fuel blended with bio-ethanol and bio-butanol showed the best engine cleaning performance both on combustion chamber deposits and intake valve deposits. The deposit control gasoline additive was effective to remove intake valve deposits. In contrast, the amount of combustion chamber deposits were tend to increase even though fuels blended with bio-alcohols were used. In overall, fuels blended with bio-alcohols, compared to fossil fuels, still showed outstanding performance in terms of engine cleanliness.

고속 단발 가시화 스파크 점화 엔진에서의 연소 특성에 대한 선회효과 연구 (Effects of Swirl on Flame Development and Late Combustion Characteristic in a High Speed Single-Shot Visualized SI Engine)

  • 김성수;김승수
    • 한국자동차공학회논문집
    • /
    • 제3권1호
    • /
    • pp.54-64
    • /
    • 1995
  • The effects of swirl on early flame development and late combustion characteristic were investigated using a high speed single-shot visualized 51 engine. LDV measurements were performed to get better understanding of the flow field in this combustion chamber. Spark plugs were located at half radius (R/2) and central location of bore. High speed schlieren photographs at 20,000 frames/sec were taken to visualize the detailed formation and development of the flame kernel with cylinder pressure measurements. This study showed that high swirl gave favorable effects on combustion-related performances in terms of the maximum cylinder pressure and flame growth rate regardless of spark position. However, at R/2 ignition the low swirl shown desirable effects at low engine speed gave worse performances as engine speed increased than without swirl. There were distinct signs of slow-down in flame growth during the period when the flame front expanded from 2.5mm in radius until it reached 5.0mm apparently due to the presence of ground electrode. There seemed to be heat transfer effect on the flame expansion speed which was evidenced in high swirl case by the slowdown of the late flame front presumably caused by relatively large heat loss from burned gas to wall compared with low- or no-swirl cases.

  • PDF

유성볼밀링 및 스파크 플라즈마 소결법으로 제조한 Mo-5~20 wt%. Cu 합금의 열적 특성 (Thermal Property of Mo-5~20 wt%. Cu Alloys Synthesized by Planetary Ball Milling and Spark Plasma Sintering Method)

  • 이한찬;문경일;신백균
    • 한국전기전자재료학회논문지
    • /
    • 제29권8호
    • /
    • pp.516-521
    • /
    • 2016
  • Mo-Cu alloys have been widely used for heat sink materials, vacuum technology, automobile, and many other applications due to their excellent physical and electric properties. Especially, Mo-Cu composites with 5 ~ 20 wt.% copper are widely used for the heavy duty service contacts due to their excellent properties like low coefficient of thermal expansion, wear resistance, high temperature strength, and prominent electrical and thermal conductivity. In most of the applications, highly-dense Mo-Cu materials with homogeneous microstructure are required for better performance. In this study, Mo-Cu alloys were prepared by PBM (planetary ball milling) and SPS (spark plasma sintering). The effect of Cu with contents of 5~20 wt.% on the microstructure and thermal properties of Mo-Cu alloys was investigated.

저농도 바이오알코올 혼합 연료가 스파크 점화 엔진 차량의 연비 및 배출가스에 미치는 영향 (Influence of Low Level Bio-Alcohol Fuels on Fuel Economy and Emissions in Spark Ignition Engine Vehicles)

  • 차규섭;노수영
    • 한국수소및신에너지학회논문집
    • /
    • 제31권2호
    • /
    • pp.250-258
    • /
    • 2020
  • This study was conducted to analyze the impact of low level bio-alcohols that can be applied without modification of vehicles to improve air quality in Korea. The emissions and fuel economy of low level bio-alcohols mixed gasoline fuels of spark ignition vehicles, which are direct injection and port fuel injection, were studied in this paper. As a result of the evaluation, the particle number (PN) was reduced in all evaluation fuels compared to the sub octane gasoline without oxygen, but the correlation with the PN due to the increase in the oxygen content was not clear. In the CVS-75 mode, emitted CO tended to decrease compared to sub octane gasoline, but no significant correlation was found between NMHC, NOx and fuel economy. In addition, it was found that the aldehyde increased in the oxygenated fuel, and there was no difference in terms of the amount of aldehyde generated among a series of bio-alcohol mixed fuels.

밀폐 공간내 Block에 의한 폭발특성 변화에 관한 연구 (A Study on the Variation of Explosion Characteristics by the Block in Closed Vessel)

  • 오규형;김종복;이성은;김홍;이영철;박승수
    • 한국가스학회지
    • /
    • 제3권3호
    • /
    • pp.23-28
    • /
    • 1999
  • 밀폐공간 내에 블록을 조합하여 부피와 표면적이 다르게 내용물을 채우고 용기 부피에 대한 내용물의 부피와 내용물의 표면적을 변화시키면서 LPG 또는 NG와 공기 혼합가스의 폭발특성을 측정하여 밀폐공간 내부에 있는 내용물의 부피와 표면적의 변화가 폭발특성에 미치는 영향을 해석하고자 하였다. 폭발용기는 가로 세로 높이가 각각 $100cm{\times}60cm{\times}45cm$인 부피 270리터의 금속 용기이며, 용기 내 가연성 혼합가스는 전기 스파크로 착화시켰고, strain형 압력센서로 폭발압력을 측정하였다. 실험 결과 부피봉쇄율이 증가할수록 폭발압력이 감소하였으며, 내용물의 표면적의 증가에 따라서도 폭발압력이 낮아졌으며, 이러한 폭발압력의 감소 경향은 표면적의 증가에 대한 영향보다 부피의 증가에 의한 영향이 더욱 크게 나타났다.

  • PDF