• 제목/요약/키워드: apache

검색결과 359건 처리시간 0.045초

하둡 분산 환경 기반의 데이터 수집 기법 연구 (A Study on the Data Collection Methods based Hadoop Distributed Environment)

  • 진고환
    • 한국융합학회논문지
    • /
    • 제7권5호
    • /
    • pp.1-6
    • /
    • 2016
  • 최근 빅데이터 활용과 분석기술의 발전을 위하여 많은 연구가 이루어지고 있고, 빅데이터를 분석하기 위하여 처리 플랫폼인 하둡을 도입하는 정부기관 및 기업이 점차 늘어가고 있는 추세이다. 이러한 빅데이터의 처리와 분석에 대한 관심이 고조되면서 그와 병행하여 데이터의 수집 기술이 주요한 이슈가 되고 있으나, 데이터 분석 기법의 연구에 비하여 수집 기술에 대한 연구는 미미한 상황이다. 이에 본 논문에서는 빅데이터 분석 플랫폼인 하둡을 클러스터로 구축하고 아파치 스쿱을 통하여 관계형 데이터베이스로부터 정형화된 데이터를 수집하고, 아파치 플룸을 통하여 센서 및 웹 애플리케이션의 데이터 파일, 로그 파일과 같은 비정형 데이터를 스트림 기반으로 수집하는 시스템을 제안한다. 이러한 융합을 통한 데이터 수집으로 빅데이터 분석의 기초적인 자료로 활용할 수 있을 것이다.

S-PARAFAC: 아파치 스파크를 이용한 분산 텐서 분해 (S-PARAFAC: Distributed Tensor Decomposition using Apache Spark)

  • 양혜경;용환승
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.280-287
    • /
    • 2018
  • 최근 추천시스템과 데이터 분석 분야에서 고차원 형태의 텐서를 이용하는 연구가 증가하고 있다. 이는 고차원의 데이터인 텐서 분석을 통해 더 많은 잠재 요소와 잠재 패턴을 추출가능하기 때문이다. 그러나 고차원 형태인 텐서는 크기가 방대하고 계산이 복잡하기 때문에 텐서 분해를 통해 분석해야한다. 기존 텐서 도구들인 rTensor, pyTensor와 MATLAB은 단일 시스템에서 작동하기 때문에 방대한 양의 데이터를 처리하기 어렵다. 하둡을 이용한 텐서 분해 도구들도 있지만 처리 시간이 오래 걸린다. 따라서 본 논문에서는 인 메모리 기반의 빅데이터 시스템인 아파치 스파크를 기반으로 하는 텐서 분해 도구인 S-PARAFAC을 제안한다. S-PARAFAC은 텐서 분해 방법 중 PARAFAC 분해에 초점을 맞춰 아파치 스파크에 적합하게 변형하여 텐서 분해를 빠르게 분산 처리가능 하도록 하였다. 본 논문에서는 하둡을 기반의 텐서 분해 도구와 S-PARAFAC의 성능을 비교하여 약 4~25배 정도의 좋은 성능을 보였다.

이동 평균과 3-시그마를 이용한 하둡 로그 데이터의 이상 탐지 (Anomaly Detection of Hadoop Log Data Using Moving Average and 3-Sigma)

  • 손시운;길명선;문양세;원희선
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.283-288
    • /
    • 2016
  • 최근 빅데이터 처리를 위한 연구들이 활발히 진행 중이며, 관련된 다양한 제품들이 개발되고 있다. 이에 따라, 기존 환경에서는 처리가 어려웠던 대용량 로그 데이터의 저장 및 분석이 가능해졌다. 본 논문은 다수의 서버에서 빠르게 생성되는 대량의 로그 데이터를 Apache Hive에서 분석할 수 있는 데이터 저장 구조를 제안한다. 그리고 저장된 로그 데이터로부터 특정 서버의 이상 유무를 판단하기 위해, 이동 평균 및 3-시그마 기반의 이상 탐지 기술을 설계 및 구현한다. 또한, 실험을 통해 로그 데이터의 급격한 증가폭을 나타내는 구간을 이상으로 판단하여, 제안한 이상 탐지 기술의 유효성을 보인다. 이 같은 결과를 볼 때, 본 연구는 하둡 기반으로 로그 데이터를 분석하여 이상치를 바르게 탐지할 수 있는 우수한 결과라 사료된다.

급성호흡곤란증후군 환자에 있어서 B-type Natriuretic Peptide의 유용성 (Utility of B-type Natriuretic Peptide in Patients with Acute Respiratory Distress Syndrome)

  • 이진국;주영빈;김석찬;박성학;이숙영;고윤석;김영균
    • Tuberculosis and Respiratory Diseases
    • /
    • 제62권5호
    • /
    • pp.389-397
    • /
    • 2007
  • 연구배경: B-type natriuretic peptide(BNP)는 심인성 및 다른 쇼크 상태를 포함하는 심혈관 질환에서 사망을 예측하는 좋은 인자 중의 하나로 알려져 있다. 그러나, 급성호흡곤란증후군환자에서 이런 관계가 잘 알려져 있지 않는 바, 저자들은 BNP가 급성호흡곤란증후군 환자에서 사망을 예측할 수 있는 지를 연구하였다. 방 법: 본 연구는 전향적 관찰로 시행되었다. 급성호흡곤란증후군으로 진단된 환자들에게 심초음파 검사를 시행한 후, 좌심실 구획률이 50% 미만이거나 확장성 심부전 양상을 보인 환자들을 제외하였다. 2003년 12월부터 2006년 2월까지 총 47명의 환자가 채택되었다. 등록된 환자들은 24시간 내로 BNP를 포함한 여러 검사실 수치를 얻었으며, APACHE(Acute Physiology and Chronic Health Evaluation) II 점수를 구하였다. 결 과: BNP와 APACHE II 점수 평균값은 생존자군과 사망자군에서 유의한 차의를 보였다(BNP: $219.5{\pm}57.7pg/mL$ vs $492.3{\pm}88.8pg/mL$; p=0.013, APACHE II 점수: $17.4{\pm}1.6$ vs $23.1{\pm}1.3$, p=0.009). BNP 는 혈중 크레아티닌 수치와 양의 상관관계를 보였으나(r=0.374, p=0.01), 좌심실 구획률과는 유의한 관계가 없었다. Receiver operating characteristic 곡선상, BNP 수치를 585 pg/mL로 잡았을 때 사망을 예측하는데 있어서 94%의 특이도를 보였으며, APACHE II 점수의 경우에는 15.5를 기준으로 하였을 때 87%의 민감도를 보였다. 이 두 요소를 결합하여 '아파치II 점수+$11{\times}logBNP$' 수치를 계산하여 기준점을 46.14로 했을 경우, 사망 예측에 있어서 민감도 63%, 특이도 82%의 결과를 얻을 수 있었다. 결 론: 좌심실 기능 부전을 보이지 않는 급성호흡곤란증후군 환자에서 BNP 수치는 생존자군과 사망자군에서 유의한 차이를 보였으며 사망을 예측할 수 있었다. 향후 급성호흡곤란증후군 환자에 있어서 BNP와 관련된 연구가 더 필요하다고 생각된다.

기계호흡환자의 기관절개 시행 시기에 따른 결과 분석 (Outcomes in Relation to Time of Tracheostomy in Patients with Mechanical Ventilation)

  • 신정은;신태림;박영미;남준식;천선희;장중현
    • Tuberculosis and Respiratory Diseases
    • /
    • 제47권3호
    • /
    • pp.365-373
    • /
    • 1999
  • 연구배경: 중환자실에서 기관절개의 적용은 보편화된 술기중의 하나이지만, 장기간의 기계 호흡으로 인한 기관삽관으로부터 기관절개로의 이행의 최적의 시기에 대해서는 아직 논란이 있다. 조기 기관절개는 기도 유지가 용이하며 구강 관리나 이동이 보다 자유로운 등의 장점이 있으나 병원내 감염이나 기도 협착의 위험을 증가시키는 단점을 갖고 있다. 이에 본 연구에서는 기관절개의 시행시기와 예후간의 관련성을 관찰하여 최적의 기관 절개의 시기를 알아 보고자 하였다. 방법: 본 연구는 후향적인 연구로서 35명의 내과계 및 15명의 외과계 환자를 대상으로 APACHE III 점수, 병원내 감염의 발생, 임상상의 변화에 대해 기관절개일로부터 28일간의 자료를 관찰하였다. 조기 및 후기 기관절개의 구분은 기관삽관시로부터 7 일을 기준으로 하였으며 각각 25명씩이었다. 결과: 조기 기관절개군과 후기 기관절개군은 각각 25명이었으며 평균연령은 각각 $48{\pm}18$세 및 $63{\pm}17$세로 조기 기관절개군에서 유의하게 낮았다. 기관절개까지 소요된 평균 시간은 조기 기관절개군과 후기 기관절개군에서 각각 3일과 13일이었다. 대상 환자의 원인 장기별 분포는 뇌 신경계 27례(54%), 호흡기계 14례(28%), 순환기계 4례(8%), 소화기계 4례(8%), 요로계 l례(2%)의 순이었고, 기관절개의 목적은 장기간 기계호흡이 필요하여 사행한 경우가 43례로 가장 많았고, 응급 기도확보가 5례, 그리고 분비물 제거를 위해 시행한 경우가 2례였으며, 조기 및 후기의 양환자군 사이의 기관절개 목적에 따른 통계학적 차이는 없었다. 기관삽관시, 기관절개시와 기관절개일로부터 7일간의 APACHE III 점수는 조기 및 후기군의 양군에서 유사하였다. 이를 다시 생존자군과 사망자군으로 나누어 분석했을 때도 양군간의 유의한 차이는 관찰되지 않았다. 병원내 감염의 발생, 기계호흡으로부터의 이탈과 사망률에 있어서도 가관절개일로부터 28일간을 관찰시 조기 및 후기 기관절개군간에 어떤 차이도 보이지 않았다. 사망률은 기관절개일부터 7일간 관찰기간중에 APACHE III 점수가 높을수록 증가하였다. 그러나, 기관절개의 시기와 기관절개 이전의 기계호흡 시행 일수 등에 따른 사망률의 증가는 없었다. 결론: 조기 기관절개는 병의 중증도, 원내 감염, 기계호흡의 지속 일수, 그리고 사망률에 있어 어떤 장점도 보이지 않았으며, 최적의 기관절개 시기는 개개의 임상적 판단에 따라야 할 것으로 사료되나 이에 대한 대규모 전향적인 연구가 필요할 것으로 생각된다.

  • PDF

OpenCL을 활용한 이기종 파이프라인 컴퓨팅 기반 Spark 프레임워크 (Spark Framework Based on a Heterogenous Pipeline Computing with OpenCL)

  • 김대희;박능수
    • 전기학회논문지
    • /
    • 제67권2호
    • /
    • pp.270-276
    • /
    • 2018
  • Apache Spark is one of the high performance in-memory computing frameworks for big-data processing. Recently, to improve the performance, general-purpose computing on graphics processing unit(GPGPU) is adapted to Apache Spark framework. Previous Spark-GPGPU frameworks focus on overcoming the difficulty of an implementation resulting from the difference between the computation environment of GPGPU and Spark framework. In this paper, we propose a Spark framework based on a heterogenous pipeline computing with OpenCL to further improve the performance. The proposed framework overlaps the Java-to-Native memory copies of CPU with CPU-GPU communications(DMA) and GPU kernel computations to hide the CPU idle time. Also, CPU-GPU communication buffers are implemented with switching dual buffers, which reduce the mapped memory region resulting in decreasing memory mapping overhead. Experimental results showed that the proposed Spark framework based on a heterogenous pipeline computing with OpenCL had up to 2.13 times faster than the previous Spark framework using OpenCL.

네트워크 성능향상을 위한 시스템 호출 수준 코어 친화도 (System-Call-Level Core Affinity for Improving Network Performance)

  • 엄준용;조중연;진현욱
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권1호
    • /
    • pp.80-84
    • /
    • 2017
  • 기존의 운영체제는 매니코어 시스템에서 코어 수의 증가에 따른 확장성 문제를 보였다. 특히 네트워크 I/O 관점에서 코어가 많아질수록 기존의 운영체제가 가지는 캐시 일관성 비용, lock 오버헤드 등의 문제들은 네트워크 성능을 저하시키는 주된 요인이 된다. 많은 연구들이 마이크로커널과 같은 새로운 운영체제 구조를 제안하거나 커널 수준의 변경을 통해 이러한 문제를 해결하고자 하였다. 그러나 이러한 해결책들은 이미 구현된 수많은 응용을 지원할 수 없다는 단점이 있다. 본 논문에서는 커널이나 응용 수준의 변경 없이 사용자 문맥과 시스템 호출 문맥을 분리시키고 코어 친화도를 적용하여 네트워크 성능을 향상시킬 수 있는 라이브러리를 제안한다. 구현된 시스템은 Apache를 통해 네트워크 처리량을 약 30% 향상시킬 수 있음을 보인다.

InfiniBand RDMA 기반 Apache Storm의 네트워크 구조 설계 (Design of InfiniBand RDMA-based Network Structure of Apache Storm)

  • 양석우;손시운;최성윤;최미정;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.679-681
    • /
    • 2017
  • Apache Storm은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이며, 이를 사용해 다수의 프로세스 및 스레드를 동시에 동작시킬 수 있다. 하지만, 이러한 멀티 프로세스 및 스레드 환경을 제공하는 Storm은 많은 네트워크 시스템 호출을 수행하고, 이는 잦은 문맥 전환(context switch), 운영체제로의 버퍼 복사, 운영체제 내의 버퍼 복사 등으로 인해 CPU 과부하 문제를 발생시킬 수 있다. 이러한 문제는 고성능 네트워크 장비인 InfiniBand의 IPoIB(IP over InfiniBand) 통신을 사용할 때, InfiniBand가 지원하는 대역폭(bandwidth) 대비 저용량 데이터의 송수신으로 인해 더 잦은 문맥 전환과 버퍼 복사가 발생하여 CPU 과부하 문제가 더욱 심각해진다. 따라서, 본 논문에서는 InfiniBand의 RDMA(Remote Direct Memory Access)를 Storm에 적용하는 설계안을 제시함으로써 CPU 과부하 문제를 해결한다.

다변량 데이터 스트림을 위한 아파치 스톰 기반 질의 필터링 시스템 (Apache Storm based Query Filtering System for Multivariate Data Streams)

  • 김영국;손시운;문양세
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.561-564
    • /
    • 2018
  • 최근 빠르게 발생하는 빅데이터 스트림이 다양한 분야에서 활용되고 있다. 이러한 빅데이터 전체를 수집하고 처리하는 것은 매우 비경제적이므로, 데이터 스트림 중 필요한 데이터를 걸러내는 필터링 과정이 필요하다. 본 논문에서는 아파치 스톰(Apache Storm)을 사용하여 데이터 스트림의 질의 필터링 시스템을 구축한다. 스톰은 대용량 데이터 스트림을 처리하기 위한 실시간 분산 병렬 처리 프레임워크이다. 하지만, 스톰은 입력 데이터 구조나 알고리즘 변경 시, 코드의 수정과 재배포, 재시작 등이 필요하다. 따라서, 본 논문에서는 이 같은 문제를 해결하기 위해 아파치 카프카(Apache Kafka)를 사용하여 데이터 수집 모듈과 스톰의 처리 모듈을 분리함으로써 시스템의 가용성을 크게 높인다. 또한, 시스템을 웹 기반 클라이언트-서버 모델로 구현하여 사용자가 언제 어디에서든 질의 필터링 시스템을 사용할 수 있게 하며, 웹 클라이언트를 통해 입력한 질의를 자동적 분석하는 쿼리 파서를 구현하여 별도의 프로그램의 수정 없이 질의 필터링을 적용할 수 있다.

빅데이터 분석을 위해 아파치 스파크를 이용한 원시 데이터 소스에서 데이터 추출 (Capturing Data from Untapped Sources using Apache Spark for Big Data Analytics)

  • ;구흥서
    • 전기학회논문지
    • /
    • 제65권7호
    • /
    • pp.1277-1282
    • /
    • 2016
  • The term "Big Data" has been defined to encapsulate a broad spectrum of data sources and data formats. It is often described to be unstructured data due to its properties of variety in data formats. Even though the traditional methods of structuring data in rows and columns have been reinvented into column families, key-value or completely replaced with JSON documents in document-based databases, the fact still remains that data have to be reshaped to conform to certain structure in order to persistently store the data on disc. ETL processes are key in restructuring data. However, ETL processes incur additional processing overhead and also require that data sources are maintained in predefined formats. Consequently, data in certain formats are completely ignored because designing ETL processes to cater for all possible data formats is almost impossible. Potentially, these unconsidered data sources can provide useful insights when incorporated into big data analytics. In this project, using big data solution, Apache Spark, we tapped into other sources of data stored in their raw formats such as various text files, compressed files etc and incorporated the data with persistently stored enterprise data in MongoDB for overall data analytics using MongoDB Aggregation Framework and MapReduce. This significantly differs from the traditional ETL systems in the sense that it is compactible regardless of the data formats at source.