• Title/Summary/Keyword: 아파치

Search Result 103, Processing Time 0.024 seconds

Improving Performance based on Processing Analysis of Big data log file (벅데이터 로그파일 처리 분석을 통한 성능 개선 방안)

  • Lee, Jaehan;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.539-541
    • /
    • 2016
  • 최근 빅데이터 분석을 위해 아파치 하둡(Apache Hadoop) 기반 에코시스템(Ecosystern)이 다양하게 활용되고 있다. 본 논문에서는 수집된 로그 데이터를 가공하여 데이터베이스에 로드하는 과정을 효율적으로 처리하기 위한 성능 평가를 수행한다. 이를 기반으로 텍스트 파일의 로그 데이터를 자바 코드로 개발된 프로그램에서 JDBC를 이용하여 오라클(Oracle) 데이터베이스에 삽입(Insert)하는 과정의 성능을 개선하기 위한 방안을 제안한다. 대용량 로그 파일의 효율적인 처리를 위해 하둡 에코시스템을 이용하여 처리 속도를 개선하고, 최근 인메모리(In-Mernory) 처리 방식으로 빠른 처리 속도로 인해 각광받고 있는 아파치 스파크(Apache Spark)를 이용한 처리와의 성능 평가를 수행한다. 이 연구를 통해 최적의 로그데이터 처리 시스템의 구축 방안을 제안한다.

Apache Spark and Map Reduce with Performance Analysis using K-Means (K-means를 이용한 아파치 스파크 및 맵 리듀스 성능 분석)

  • Jung, Young-Gyo;Jung, Dong-Young;Song, Jun-Seok;You, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.77-78
    • /
    • 2016
  • 빅 데이터의 데이터 수집 및 분석 기술에 대한 연구는 컴퓨터 과학 분야에서 각광 받고 있다. 또한 소셜 미디어로 인한 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 그러나 빅 데이터 개념을 기반으로 하는 하둡과 스파크는 유즈케이스에 따라 성능이 크게 달라진다는 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 하둡의 맵리듀스를 줄이고 아파치 스파크를 이용한 빅 데이터 분석을 위하여 머신러닝 알고리즘인 K-Means 알고리즘을 이용하여 프로세싱 모델의 성능을 비교한다.

  • PDF

A Study for Big Data Analytics Platform with Raspberry Pi Cluster and Apache Spark (라즈베리 파이 클러스터와 아파치 스파크를 활용한 빅데이터 분석 플랫폼 연구)

  • Kim, Young-Sun;Park, Ji-Young;Yoon, Bo-Ram;Lee, Jung-Hyun;Yong, Hwan-Seung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1272-1275
    • /
    • 2015
  • 최근 관심이 증대되고 있는 빅데이터 분석 및 처리를 위한 병렬분산처리 시스템은 대용량 서버가 필요하고 인프라 구축을 위해 고비용을 지불해야 한다. 이를 해결하기 위해 본 연구에서는 저렴한 라즈베리 파이로 클러스터를 구성하고, 하둡보다 빠른 속도의 처리를 제공하는 아파치 스파크를 분석 솔루션으로 하는 빅데이터 분석 플랫폼을 구축하였다. 구축한 플랫폼이 빅데이터 활용을 위해 적절한 성능을 보이는지 확인하기 위해 텍스트 마이닝을 수행하였고, 분석 결과 유효한 성능을 보였다. 적절한 비용으로 빅데이터 분석이 가능해지면서 중소기업과 개인, 교육 기관에서도 빅데이터 활용이 가능해지면서 활용 분야가 크게 확대될 것으로 보인다.

Design of a Large-Scale Qualitative Spatial Reasoner Based on Hadoop Clusters (하둡 클러스터 기반의 대용량 정성 공간 추론기의 설계)

  • Kim, Jonghwan;Kim, Jonghoon;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1316-1319
    • /
    • 2015
  • 본 논문에서는 대규모 분산 병렬 컴퓨팅 환경인 하둡 클러스터 시스템을 이용하여, 공간 객체들 간의 위상 관계를 효율적으로 추론하는 대용량 정성 공간 추론기를 제안한다. 본 논문에서 제안하는 공간 추론기는 추론 작업의 순차성과 반복성을 고려하여, 작업들 간의 디스크 입출력을 최소화할 수 있는 인-메모리 기반의 아파치 스파크 프레임워크를 이용하여 개발하였다. 따라서 본 추론기에서는 추론의 대상이 되는 대용량 공간 지식들을 아파치 스파크의 분산 데이터 집합 형태인 PairRDD와 RDD로 변환하고, 이들에 대한 데이터 오퍼레이션들로 추론 작업들을 구현하였다. 또한, 본 추론기에서는 추론 시간의 많은 부분을 차지하는 이행 관계 추론에 필요한 조합표를 효과적으로 축소함으로써, 공간 추론 작업의 성능을 크게 향상시켰다. 대용량의 공간 지식 베이스를 이용한 성능 분석 실험을 통해, 본 논문에서 제안한 정성 공간 추론기의 높은 성능을 확인할 수 있었다.

Analysis of a Security Vulnerability of URL Attack on Apache Web Server (아파치 웹서버의 URL 공격에 대한 보안취약성 분석)

  • Choi, Jong-Cheon;Choi, Jin-Woo;Cho, Seong-Je
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.1027-1030
    • /
    • 2004
  • 본 논문에서는 기계어 프로그램만 주어진 환경에서 디버깅 및 역공학 도구를 사용하여 소프트웨어 보안취약성을 분석하는 방법에 대한 연구를 수행하였다. 즉, MS사의 윈도우즈 2000 서버 운영체제 상에서 아파치(Apache) 웹서버를 대상으로, URL 공격에 대한 한 취약성을 재연하고, 취약점이 있는 코드 부분을 추출하였다. 이는 기계어 프로그램을 실행하면서 보안 취약성 분석 절차를 이해하고 보안 결함을 발견해 내는 기반 자료로 활용될 수 있을 것이다.

  • PDF

An Apache-based WebDAV Server Supporting Reliable Reliable Resource Management (아파치 기반의 신뢰성 있는 자원관리를 지원하는 웹데브 서버)

  • Jung, Hye-Young;Ahn, Geon-Tae;Park, Yang-Soo;Lee, Myung-Joon
    • The KIPS Transactions:PartC
    • /
    • v.11C no.4
    • /
    • pp.545-554
    • /
    • 2004
  • WebDAV is a protocol to support collaboration among the workers in geographically distant locations through the Internet. WebDAV extends the web communication protocol HTTP/1.1 to provide a standard infrastructure for supporting asynchronous collaboration for various contents across the Internet. To provide the WebDAV functionality in legacy applications such as web-based collaborative systems or document management systems, those systems need to be implemented additionally to handle the WebDAV methods and headers information. In this paper, we developed an Apache-based WebDAV server, named DAVinci(WebDAV Is New Collaborative web-authoring Innovation)which supports the WebDAV specification. DAVinci was implemented as a form of service provider on a mod_dav Apache module. Mod_day, which is an Apache module, is an open source module to provide WebDAV capabilities in an Apache web server. We used a file system for storing resources and the PostgreSQL database for their properties. In addition, the system provides a consistency manager to guarantee that both resources and properties are maintained without inconsistency between resources and their properties.

Implementation and Optimization of Distributed Deep learning based on Multi Layer Neural Network for Mobile Big Data at Apache Spark (아파치 스파크에서 모바일 빅 데이터에 대한 다계층 인공신경망 기반 분산 딥러닝 구현 및 최적화)

  • Myung, Rohyoung;Ahn, Beomjin;Yu, Heonchang
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.201-204
    • /
    • 2017
  • 빅 데이터의 시대가 도래하면서 이전보다 데이터로부터 유의미한 정보를 추출하는 것에 대한 연구가 활발하게 진행되고 있다. 딥러닝은 텍스트, 이미지, 동영상 등 다양한 데이터에 대한 학습을 가능하게 할 뿐만 아니라 높은 학습 정확도를 보임으로써 차세대 머선러닝 기술로 각광 받고 있다. 그러나 딥러닝은 일반적으로 학습해야하는 데이터가 많을 뿐만 아니라 학습에 요구되는 시간이 매우 길다. 또한 데이터의 전처리 수준과 학습 모델 튜닝에 의해 학습정확도가 크게 영향을 받기 때문에 활용이 어렵다. 딥러닝에서 학습에 요구되는 데이터의 양과 연산량이 많아지면서 분산 처리 프레임워크 기반 분산 학습을 통해 학습 정확도는 유지하면서 학습시간을 단축시키는 사례가 많아지고 있다. 본 연구에서는 범용 분산 처리 프레임워크인 아파치 스파크에서 데이터 병렬화 기반 분산 학습 모델을 활용하여 모바일 빅 데이터 분석을 위한 딥러닝을 구현한다. 딥러닝을 구현할 때 분산학습을 통해 학습 속도를 높이면서도 학습 정확도를 높이기 위한 모델 튜닝 방법을 연구한다. 또한 스파크의 분산 병렬처리 효율을 최대한 끌어올리기 위해 파티션 병렬 최적화 기법을 적용하여 딥러닝의 학습속도를 향상시킨다.

  • PDF

Video Big Data Processing Scheme for Spatio-Temporal Analysis of Moving Objects (움직이는 물체의 시공간 분석을 위한 동영상 빅 데이터 처리 방안)

  • Jung, Seungwon;Kim, Yongsung;Jung, Sangwon;Kim, Yoonki;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.833-836
    • /
    • 2017
  • 최근 블랙박스 및 CCTV 같은 영상 촬영 장치가 보편화되면서, 방대한 양의 영상 데이터가 실시간으로 생성되고 있다. 만약 이 대용량 데이터 안의 차량 정보를 추출할 수 있다면 범죄 차량 추적, 교통 혼잡도 측정 등의 활용이 가능할 것이다. 이를 구현하기 위해서는 수많은 자동차에서 실시간으로 생성되는 영상 데이터를 처리할 수 있는 시스템이 필수적이나, 이러한 시스템을 찾기 힘든 것이 현실이다. 이를 위해 이 논문에서는 아파치 카프카, Hbase를 이용한 영상 빅데이터 처리 시스템을 제안한다. 아파치 카프카는 시스템 내에서 영상 손실이 없는 전송과 영상 처리 노드의 스케줄링을 수행하며, Hbase는 처리된 데이터를 테이블로 저장하고 사용자가 보낸 쿼리를 처리한다. 더불어, Hbase에 인덱스를 구성하여 빠른 쿼리 처리가 가능하도록 만든다. 실험 결과, 제안된 시스템은 인덱스가 없을 때보다 뛰어난 쿼리 처리 성능을 보이는 것을 확인할 수 있었다.

Group Management System based on Apache Web Server and Android App (Apache 웹서버와 Android 앱 기반의 동호회 관리 시스템)

  • Eun, Jong-Min;Oh, Jae-Kon;Kim, Jeong-Joon
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.18 no.2
    • /
    • pp.141-147
    • /
    • 2018
  • The group is one of the hobbies and other life groups, and each person in the group directly attends the meeting and works on the topic of the group. In this paper, we implemented voting, announcements, surveys, and suggestions, which are necessary functions for similar groups including group. We also provide web sites based on Apache web server for convenience of Android smartphone applications, OS except Android, Group management can be managed by using the manager's website which can manage the whole group management. It is designed with Apache web server, web communication language PHP, MySQL database, and Android.

Message Latency-based Load Shedding Mechanism in Apache Kafka (아파치 카프카의 메시지 지연시간 기반 로드 쉐딩 메커니즘)

  • Kim, Hajin;Bang, Jiwon;Son, Siwoon;Choi, Mi-Jung;Moon, Yang-Sae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.573-576
    • /
    • 2018
  • 아파치 카프카(Apache Kafka)는 데이터 스트림을 실시간 전달하는 분산 메시지 큐잉 플랫폼이다. 카프카는 대다수의 실시간 처리 응용에 사용되는데, 흔히 데이터 스트림의 발생지와 실시간 처리 시스템 사이(입력) 또는 실시간 처리 시스템과 처리 결과의 목적지 사이(출력)에 배치된다. 분산 기술을 도입한 카프카는 다른 메시지 큐잉 기술에 비해 대용량 데이터 스트림을 더욱 빠르게 전달 할 수 있다는 장점을 갖는다. 하지만, 카프카에 적재되는 데이터 스트림의 양과 실시간 처리 응용의 수가 증가할수록 메시지 지연시간은 매우 높아질 수 밖에 없다. 본 논문은 이러한 카프카의 메시지 지연 문제를 해결하고자 카프카의 로드 쉐딩 엔진을 제안한다. 로드 쉐딩의 세 가지 필수적인 결정에 따라, 제안하는 로드 쉐딩 엔진은 카프카의 프로뷰서에서 지연시간이 기준치를 초과할 경우 일부 메시지 전송을 제한하여 지연시간을 줄인다. 실제 실시간 처리 응용으로 실험한 결과, 단일/다중 데이터 스트리 모두 로드 쉐딩이 바르게 작동하여 지연시간이 지속적으로 증가하지 않고 오르내림이 반복되는 추세를 보였다. 본 연구는 데이터 스트림의 입출력을 카프카로 관리하는 실시간 처리 응용에 로드 쉐딩 기법을 적용한 첫 번째 시도로서, 앞으로 데이터 스트림 처리에 사용될 의미 있는 연구라 사료된다.