• Title/Summary/Keyword: HADOOP

Search Result 398, Processing Time 0.028 seconds

A Webtoon Recommendation System Using Personal Propensity in Hadoop (하둡에서 개인 성향을 이용한 웹툰 추천 시스템)

  • Lee, Keon-Ho;Yoon, Won-Tak;Hwang, Dong-Hyun;Park, Doo-Soon
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.408-411
    • /
    • 2016
  • 최근 국내의 콘텐츠 생산률이 증가함에 따라, 많은 사람들이 즐길 수 있는 콘텐츠들이 많아 졌다. 하지만 사람들은 많아진 콘텐츠로 인해, 오히려 원하는 정보를 빠른 시간에 얻는 것이 힘들어졌다. 이러한 문제를 해결하기 위해 다양한 방식의 새로운 서비스들이 제공 되고 있다. 추천 시스템 중에서 웹툰을 추천해주는 알고리즘으로 협업필터링 방법이 가장 많이 사용되고 있다. 협업필터링 방법에는 희박성과 확장성, 투명성의 문제점들을 가지고 있다. 따라서 본 논문에서는 협업 필터링 방법의 희박성 문제를 보완하고자 개인의 성향을 반영하여 효율이 좋은 웹툰 추천 시스템을 제안하고, 하둡 시스템에서 구현한다.

An Efficient Data Distribution Store Schemes for Hadoop Distributed File System (하둡 분산 파일 시스템을 위한 효율적인 데이터 분산 저장 기법)

  • Choi, Sung-Jin;Jeon, Dae-Seuk;Bae, Dae-Keuk;Choi, Bu-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06d
    • /
    • pp.163-166
    • /
    • 2011
  • 클라우드 컴퓨팅이란 인터넷 기술을 활용하여 모든 인프라 자원(소프트웨어, 서버, 스토리지, 네트워크 등)을 서비스화(as a Service)하여, 언제, 어디서든, 장치에 독립적으로 네트워크를 통해 사용하고, 사용한 만큼 비용을 지불하는 컴퓨팅으로써, 대표적인 서비스 업체로는 구글과 아마존이 있다. 최근 아파치 재단에서는 구글의 GFS와 동일 또는 유사한 시스템을 만들기 위해 HDFS 오픈소스 프로젝트를 진행하고 있다. HDFS는 빈번한 하드웨어 고장에도 원본 데이터를 복구할 수 있는 가용성을 보장하기 위해 파일 데이터를 블록 단위로 나누어, 다시 datanode에 복제하여 저장한다. 이 기법은 복제가 많아 질수록 가용성은 높아지나 스토리지가 증가한다는 단점을 가지고 있다. 따라서 본 논문에서는 이러한 문제점을 해결하기 위해 행렬의 특성을 이용한 새로운 분산 저장 기법을 제안한다.

Study on Methods to Improve Performance of Contents Delivery Service (콘텐츠 전송 서비스의 성능향상을 위한 방법 고찰)

  • Sim, Byeong-Ryeol;Lee, Yeon-Hee;Kang, Won-Chul;Lee, Young-Seok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06d
    • /
    • pp.263-266
    • /
    • 2011
  • P2P 및 스트리밍 서비스를 포함한 콘텐츠의 전송은 인터넷 트래픽의 80% 이상을 차지한다. 인터넷 사용자들은 보다 빠르게 콘텐츠를 받고 싶어하고, 이러한 요구를 수용하기 위하여 빠른 콘텐츠 전송을 위한 다양한 방법들이 제시되었다. 본 논문에서는 현재 콘텐츠 전송을 위해 사용되고 있는 CDN 방식과 P2P 방식을 비교한다. 동시에 파일 복구에 강한 Hadoop에서 사용하는 HDFS를 적용한 파일 전송 방식에 대해서 다운로드 속도, 전체 네트워크 트래픽 양과 희소 콘텐츠에 대한 파일 전송 방식을 비교하고, 이를 통해 콘텐츠 전송을 위한 보다 나은 서비스 방식을 제안한다.

Real-time log analysis system for detecting network attacks in a MapReduce environment (MapReduce 환경에서 네트워크 공격 탐지를 위한 실시간 로그 분석 시스템 개발)

  • Chang, Jin-Su;Shin, Jae-Hwan;Chang, Jae-Woo
    • Annual Conference of KIPS
    • /
    • 2017.11a
    • /
    • pp.37-40
    • /
    • 2017
  • 네트워크 기술의 발전으로 인터넷의 보급률이 증가함에 따라, 네트워크 사용량 또한 증가하고 있다. 그러나 네트워크 사용량이 증가함에 따라 악의적인 네트워크 접근 또한 증가하고 있다. 이러한 악의적인 접근은 네트워크에서 발생하는 보안 로그를 분석함으로써 탐지가 가능하다. 그러나 대규모의 네트워크 트래픽이 발생함에 따라, 보안 로그의 처리 및 분석에 많은 시간이 소요된다. 본 논문에서는 MapReduce 환경에서 네트워크 공격 탐지를 위한 실시간 로그 분석 시스템을 개발한다. 이를 위해, Hadoop의 MapReduce를 통해 보안 로그의 속성을 추출하고 대용량의 보안 로그를 분산 처리한다. 아울러 처리된 보안 로그를 분석함으로써 실시간으로 발생하는 네트워크 공격 패턴을 탐지하고, 이를 시각적으로 표현함으로써 사용자가 네트워크 상태를 보다 쉽게 파악할 수 있도록 한다.

Big Numeric Data Classification Using Grid-based Bayesian Inference in the MapReduce Framework

  • Kim, Young Joon;Lee, Keon Myung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • v.14 no.4
    • /
    • pp.313-321
    • /
    • 2014
  • In the current era of data-intensive services, the handling of big data is a crucial issue that affects almost every discipline and industry. In this study, we propose a classification method for large volumes of numeric data, which is implemented in a distributed programming framework, i.e., MapReduce. The proposed method partitions the data space into a grid structure and it then models the probability distributions of classes for grid cells by collecting sufficient statistics using distributed MapReduce tasks. The class labeling of new data is achieved by k-nearest neighbor classification based on Bayesian inference.

Kerberos Authentication Deployment Policy of US in Big data Environment (빅데이터 환경에서 미국 커버로스 인증 적용 정책)

  • Hong, Jinkeun
    • Journal of Digital Convergence
    • /
    • v.11 no.11
    • /
    • pp.435-441
    • /
    • 2013
  • This paper review about kerberos security authentication scheme and policy for big data service. It analyzed problem for security technology based on Hadoop framework in big data service environment. Also when it consider applying problem of kerberos security authentication system, it analyzed deployment policy in center of main contents, which is occurred in commercial business. About the related applied Kerberos policy in US, it is researched about application such as cross platform interoperability support, automated Kerberos set up, integration issue, OPT authentication, SSO, ID, and so on.

Distributed Cache for High-Performance in real time cloud (실시간 클라우드 환경에서 HDFS의 고 성능을 위한 분산캐시)

  • Choi, Ji Hyeon;Youn, Hee Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.351-352
    • /
    • 2014
  • 분산 파일시스템은 서로 분산된 여러 서버들을 가지고 파일 시스템을 구성함으로써 높은 확장성과 고가용성을 지원한다. HDFS는 대용량 데이터 저장장치로 처리되고 있지만 실시간 파일 접근에 관한 고려는 부족하다. 파일을 읽을 때 네임노드와 데이터 노드는 상호 작용을 하지만 엄청난 대용량의 데이터 그리고 동시작업량이 많을 때 접근수행속가 급격하게 감소하게 된다. 따라서 실시간 클라우드 서비스 환경에서 HDFS 파일 접근 수행속도를 향상시키기 위한 연구가 이슈이다. 본 논문에서는 HDFS의 위에 분산 캐시를 둔 새로운 캐시시스템을 제안한다.

  • PDF

Current Status of Educational Big Data Research (교육 빅데이터 관련 연구 동향)

  • Lee, Eun-young;Park, Do-oung;Choi, In-ong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.175-176
    • /
    • 2014
  • 본고에서는 교육 빅데이터의 개념, 가치, 처리 기술 및 분석 방법 등을 탐색하였다. '온라인과 오프라인 교수 학습 활동의 투입, 과정, 산출을 통해 생산되는 국가, 지역, 학교, 교사, 학생 수준의 자료'로 정의할 수 있는 교육 빅데이터는 Hadoop으로 대표되는 분산 컴퓨팅 기술을 통해 효율적으로 처리할 수 있다. 대규모 교육 자료에서 의미있고 유용한 결과를 도출하기 위해 주로 사용되는 분석 방법에는 교육 데이터 마이닝, 학습 분석학과 시각 자료 분석학이 있다. 교육 데이터 마이닝은 학생과 교사, 학교의 다양한 수준에서 자료를 폭넓게 분석하는 측면이 강한 반면에 학습 분석학은 학생 수준에서의 자료 분석에 더 초점을 맞추는 경향이 있으며, 시각 자료 분석학은 자료에 대한 분석 자체보다는 분석 결과를 효과적으로 표현하는 방식에 초점이 주어져 있다.

  • PDF

Dynamic Replication Management Scheme based on AVL Tree for Hadoop Distributed File System (하둡 분산 파일 시스템 기반의 AVL트리를 이용한 동적 복제 관리 기법)

  • Ryu, Yeon-Joong;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.07a
    • /
    • pp.337-340
    • /
    • 2014
  • 클라우드 시스템이 큰 이슈로 떠오르면서 그 기반이 되는 분산 파일 시스템에 관한 연구가 계속되고 있다. 최근 제안된 분산파일 시스템은 대부분 확장 가능하며 신뢰성이 있는 시스템으로 구성되어 있으며 내고장성(Fault tolerance)과 높은 가용성을 위해 데이터 복제 기법을 사용하며 하둡 분산 파일 시스템에서는 블락의 복제수를 기본3개로 지정한다. 그러나 이 정책은 복제수가 많아지면 많아질수록 가용성은 높아지지만 스토리지 또한 증가한다는 단점이 있다. 본 논문에선 이러한 문제점을 해결하기 위해 최소한의 블락 복제수와 복제된 블락을 효율적으로 배치하여 더 좋은 성능과 부하분산(Load Balancing)하기 위한 기법을 제안한다.

  • PDF