• 제목/요약/키워드: hadoop

검색결과 397건 처리시간 0.024초

Predictive Analysis of Financial Fraud Detection using Azure and Spark ML

  • Priyanka Purushu;Niklas Melcher;Bhagyashree Bhagwat;Jongwook Woo
    • Asia pacific journal of information systems
    • /
    • 제28권4호
    • /
    • pp.308-319
    • /
    • 2018
  • This paper aims at providing valuable insights on Financial Fraud Detection on a mobile money transactional activity. We have predicted and classified the transaction as normal or fraud with a small sample and massive data set using Azure and Spark ML, which are traditional systems and Big Data respectively. Experimenting with sample dataset in Azure, we found that the Decision Forest model is the most accurate to proceed in terms of the recall value. For the massive data set using Spark ML, it is found that the Random Forest classifier algorithm of the classification model proves to be the best algorithm. It is presented that the Spark cluster gets much faster to build and evaluate models as adding more servers to the cluster with the same accuracy, which proves that the large scale data set can be predictable using Big Data platform. Finally, we reached a recall score with 0.73, which implies a satisfying prediction quality in predicting fraudulent transactions.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

SSQUSAR : Apache Spark SQL을 이용한 대용량 정성 공간 추론기 (SSQUSAR : A Large-Scale Qualitative Spatial Reasoner Using Apache Spark SQL)

  • 김종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권2호
    • /
    • pp.103-116
    • /
    • 2017
  • 본 논문에서는 Apache Spark SQL을 이용하여 임의의 두 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 새로운 정성 공간 지식을 효율적으로 추론해내는 대용량 정성 공간 추론기의 설계와 구현에 대해 소개한다. Apache Spark SQL은 Hadoop 클러스터 컴퓨터 시스템에서 다양한 데이터들 간의 매우 효율적인 조인 연산과 질의 처리 기능을 제공하는 분산 병렬 프로그래밍 환경이다. 본 공간 추론기에서는 정성 공간 추론의 전체 과정을 지식 인코딩, 역 관계 추론, 동일 관계 추론, 이행 관계 추론, 관계 정제, 지식 디코딩 등 크게 총 6개의 작업들로 나누고, 논리적 인과관계와 계산 효율성을 고려하여 작업들 간의 처리 순서를 결정하였다. 지식 인코딩 작업에서는 추론의 전처리 과정으로서 XML/RDF 형태의 입력 지식을 보다 간략한 내부 형태로 변환함으로써, 추론 대상인 지식 베이스의 크기를 축소시켰다. 일반적으로 이행 관계 추론 작업과 관계 정제 작업의 반복은 정성 공간 추론에 필요한 가장 많은 계산 시간과 기억 공간을 소모한다. 이 작업들을 효율화하기 위해 본 공간 추론기에서는 공간 추론에 필요한 최소한의 이접 관계들을 찾아내고, 이들을 기반으로 이행 관계 추론을 위한 조합표를 큰 폭으로 축소하고 관계 정제 작업도 최적화하였다. 대규모 벤치마킹 공간 지식 베이스를 이용한 실험을 통해, 본 논문에서 제안하는 대용량 정성 공간 추론기의 높은 추론 성능과 확장성을 확인하였다.

분산 클러스터 메모리 기반 대용량 OWL Horst Lite 온톨로지 추론 기법 (A Scalable OWL Horst Lite Ontology Reasoning Approach based on Distributed Cluster Memories)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.307-319
    • /
    • 2015
  • 현재 대용량 온톨로지를 추론하기 위해 하둡 기반의 분산 클러스터 환경을 구축한 후, 맵-리듀스 알고리즘을 기반으로 추론을 수행하는 방식이 활발히 연구되고 있다. 그러나 본 논문에서는 분산 클러스터의 메모리 환경에서 대용량 OWL Horst Lite 온톨로지 추론을 위한 기법을 제안한다. 대용량 온톨로지 추론에 사용되는 규칙 기반 추론 방식은 데이터가 더 이상 추론 되지 않을 때까지 트리플 형식으로 표현된 온톨로지에 추론 규칙을 반복적으로 수행한다. 따라서 컴퓨터 디스크에 적재된 대용량의 온톨로지를 대상으로 추론을 수행하면 추론 시스템의 성능이 상당히 저하된다. 이러한 단점을 극복하기 위해서 본 논문에서는 메모리 기반의 분산 클러스터 프레임워크인 Spark를 기반으로 온톨로지를 메모리에 적재한 후, 추론을 수행하는 기법을 제안한다. Spark에 적합한 OWL Horst Lite 온톨로지 추론 시스템을 구현하기 위해서 대용량 온톨로지를 적절한 크기의 블록으로 분할한 후, 각각의 블록을 분산 클러스터를 구성하는 각 노드의 메모리에 분산 적재하여 작업을 수행하는 방법론을 제안하였다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험하였다. 대표적인 맵-리듀스 기반 온톨로지 추론 엔진인 WebPIE와 비교 실험한 결과, LUBM8000(11억개 트리플, 155GB)에 대해서 WebPIE의 추론 처리량이 19k/초보다 3.2배 개선된 62k/초의 성능 향상이 있었다.

SPQUSAR : Apache Spark를 이용한 대용량의 정성적 공간 추론기 (SPQUSAR : A Large-Scale Qualitative Spatial Reasoner Using Apache Spark)

  • 김종환;김종훈;김인철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권12호
    • /
    • pp.774-779
    • /
    • 2015
  • 본 논문에서는 단위 추론 작업들 간의 순차 처리와 반복 처리에 효과적인 인-메모리 방식의 고속 클러스터 컴퓨팅 환경인 Apache Spark을 이용한 대용량의 정성적 공간 추론기의 설계와 구현에 관해 소개한다. 본 논문에서 제안하는 공간 추론기는 매우 효율적인 방법으로, 공간 객체들 간의 위상 관계와 방향 관계를 나타내는 대규모 공간 지식베이스의 무결성을 검사할 수 있을 뿐만 아니라, 주어진 공간 지식베이스로부터 새로운 사실들을 유도해냄으로써 지식베이스를 확장할 수도 있다. 일반적으로 공간 객체들 간의 위상 관계와 방향 관계에 관한 정성적 추론은 이접 관계들 간의 많은 조합 연산들을 포함한다. 본 추론기에서는 공간 추론에 필요한 최소한의 이접 관계 집합을 찾아내고 이들만을 포함하도록 조합 표를 축소함으로써, 추론의 효율성을 크게 개선시켰다. 또한, 본 추론기에서는 추론 성능 향상을 위해 Hadoop 클러스터 시스템에서 분산 추론 작업이 진행되는 동안 디스크 입출력을 최소화하도록 설계하였다. 대용량의 가상 및 실제 공간 지식베이스를 이용한 실험들에서, 본 논문에서 제안하는 Apache Spark 기반의 정성적 공간 추론기가 MapReduce 기반의 기존 추론기보다 더 높은 성능을 보여주었다.

빅데이터 플랫폼에서 이종 서비스간 성능 간섭 현상 제어에 관한 연구 (Research of Performance Interference Control Technique for Heterogeneous Services in Bigdata Platform)

  • 진기성;이상민;김영균
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권6호
    • /
    • pp.284-289
    • /
    • 2016
  • Hadoop 기반의 빅데이터 분석 모델에서는 원시 데이터를 생산하는 응용계 시스템과 이를 분석하기 위한 분석계 시스템간의 데이터 이동이 불가피하다. 이에 따라, 응용 서비스와 분석 서비스를 하나의 플랫폼에서 동시에 지원할 수 있는 유니파이드 빅데이터 파일시스템 기술이 소개되고 있다. 그러나, 단일 플래폼 운영에 따른 경제성, 자원 효율성 등 다양한 측면에서의 장점에도 불구하고 현재 기술 수준에서는 응용 서비스와 분석 서비스의 상호 간섭에 의한 성능 저하 현상을 극복하는 것이 가장 큰 당면 과제로 남아있다. 본 논문에서는 이를 해결하기 위한 일차적 단계로 두 서비스에 대해 실서비스 수준 시뮬레이션을 통해 시스템 자원의 활용률, 워크로드 특성, 입출력 불균형의 세 가지 관점에서 관찰한 후 성능 간섭 문제의 근본적인 원인을 도출하였다. 또한 이를 해결하기 위한 방법으로 첫째, 데이터 서버의 입출력 경로를 분리하여 응용 서비스와 분석 서비스 각각 독립적인 입출력 계층을 구성하는 구조적인 해결책과, 둘째, 순차 읽기 특성을 가지는 분석 서비스 입출력 특성의 효과를 극대화하기 위한 선제적 미리 읽기 기법의 기술적 해결책을 제안한다. 한편, 논문에서 제안한 방법의 효과를 검증하기 위해 시뮬레이션과 동일한 방법의 시험을 기존 시스템과 제안한 시스템 각각에 대해 수행한 결과 기존 시스템 대비 우수한 성능을 확인할 수 있었다.

빅데이터 기반 환자 간병 방법 분석 연구 (A Study on Big Data Based Method of Patient Care Analysis)

  • 박지훈;황승연;윤범식;최수길;이돈희;김정준;문진용;박경원
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.163-170
    • /
    • 2020
  • 정보통신기술의 발전과 함께 데이터의 생산량이 기하급수적으로 증가하면서 빅데이터에 대한 관심이 높아지고 있다. 빅데이터 관련 기술들도 발전함에 따라 여러 분야에서 빅데이터가 수집, 저장, 처리, 분석, 활용되고 있다. 특히 보건의료 분야에서의 빅데이터 분석은 사회경제적으로도 큰 영향력을 발휘할 수 있기 때문에 큰 주목을 받고 있다. 빅데이터 기술을 환자 진단 데이터 분석에 활용하여 간단한 병원 진료에 투여되는 막대한 비용을 절감할 수 있을 것으로 전망된다. 따라서 본 논문에서는 환자 데이터를 분석하여 병원에 가기 어려운 환자나 의학적인 전문 지식이 없는 간병인들에게 의사의 진단과 가까운 간병 가이드 정보를 제시하고자 한다. 먼저 수집된 환자 데이터를 HDFS에 저장하고, 하둡 환경에서 빅데이터 처리 및 분석 도구인 R을 이용하여 데이터를 처리한 후 분류분석을 한다. R의 다양한 기능들을 웹에 구현하기 위해 활용되는 R Shiny를 이용하여 웹 서버에 시각화를 한다.

Spark 기반 공간 분석에서 공간 분할의 성능 비교 (Performance Comparison of Spatial Split Algorithms for Spatial Data Analysis on Spark)

  • 양평우;유기현;남광우
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.29-36
    • /
    • 2017
  • 본 논문은 인 메모리 시스템인 Spark에 기반 한 공간 빅 데이터 분석 프로토타입을 구현하고, 이를 기반으로 공간 분할 알고리즘에 따른 성능을 비교하였다. 클러스터 컴퓨팅 환경에서 빅 데이터의 컴퓨팅 부하를 균형 분산하기 위해, 빅 데이터는 일정 크기의 순차적 블록 단위로 분할된다. 기존의 연구에서 하둡 기반의 공간 빅 데이터 시스템의 경우 일반 순차 분할 방법보다 공간에 따른 분할 방법이 효과적임이 제시되었다. 하둡 기반의 공간 빅 데이터 시스템들은 원 데이터를 그대로 공간 분할된 블록에 저장한다. 하지만 제안된 Spark 기반의 공간 분석 시스템에서는 검색 효율성을 위해 공간 데이터가 메모리 데이터 구조로 변환되어 공간 블록에 저장되는 차이점이 있다. 그러므로 이 논문은 인 메모리 공간 빅 데이터 프로토타입과 공간 분할 블록 저장 기법을 제시하였다, 또한, 기존의 공간 분할 알고리즘들을 제안된 프로토타입에서 성능 비교를 하여 인 메모리 환경인 Spark 기반 빅 데이터 시스템에서 적합한 공간 분할 전략을 제시하였다. 실험에서는 공간 분할 알고리즘에 대한 질의 수행 시간에 대하여 비교를 하였고, BSP 알고리즘이 가장 좋은 성능을 보여주는 것을 확인할 수 있었다.

대용량 경로데이터 분류에 기반한 경험적 최선 경로 추천 (Recommendation of Best Empirical Route Based on Classification of Large Trajectory Data)

  • 이계형;조영훈;이태호;박희민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.101-108
    • /
    • 2015
  • 위치를 수집할 수 있는 모바일 기기의 확산에 따라 다양한 위치기반서비스들이 개발되어 사용되고 있다. 본 논문에서는 위치기반서비스가 일반화됨에 따라 수집되고 저장되는 경로 데이터의 양이 기하급수적으로 커지고 결국 빅데이터가 될 것이기 때문에 수집된 대용량 경로데이터에서 최선 경로를 찾아 추천해주는 시스템을 제안한다. 대용량 경로 데이터에서 실제 운행 시간 등의 정보를 바탕으로 기존 내비게이션보다 좋은 경로를 추천할 수 있게 된다. 대용량 경로 데이터 처리를 위해 하둡 맵리듀스를 이용해서 분류하고 분류된 경로를 데이터베이스에 저장하여 사용자의 요청에 빠르게 반응할 수 있도록 하였다. 사용자의 요청에 지도상의 최단 경로가 아닌 수집된 경로 기록을 바탕으로 최선 경로를 찾게 되는 것이다. 구현된 전체 시스템은 1) 실제 경로를 수집하기 위한 안드로이드 응용프로그램, 2) 하둡 맵리듀스를 이용해 수집된 경로를 미리 분류해 놓기 위한 분류 엔진, 3) 사용자의 출발지-도착지 요청에 따라 분류된 경로에서 최선 경로를 찾아 사용자에게 돌려주는 웹서버와 안드로이드 클라이언트 서비스 시스템이다. 실제운행 실험을 제안한 방법과 시스템이 실효성이 있음을 보인다.

온라인 리뷰 데이터의 오피니언마이닝을 통한 콘텐츠 만족도 분석 시스템 설계 (A Design of Satisfaction Analysis System For Content Using Opinion Mining of Online Review Data)

  • 김문지;송은정;김윤희
    • 인터넷정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.107-113
    • /
    • 2016
  • 소셜 네트워크 서비스(SNS)의 활성화로 웹상에는 방대한 양의 온라인 리뷰들이 생산되고 있으며, 이러한 온라인 리뷰들은 다양한 콘텐츠들에 대한 의견 데이터로써 콘텐츠 이용자와 제공자들에게 가치 있는 정보로 활용되고 있다. 한편, 온라인 리뷰에 대한 중요도가 높아짐에 따라 온라인 리뷰를 분석하여 글쓴이의 의견이나 평가, 태도, 감정 등을 추출해 내는 오피니언마이닝에 대한 연구가 활발하게 진행되고 있다. 그러나 기존의 오피니언마이닝 연구들에서는 리뷰의 의견 분류에만 초점을 맞추어 감성 분석 기법을 설계하였기 때문에 리뷰 속에 내포되어있는 작성자의 자세한 만족도까지는 알 수 없었으며, 감성 분석 기법이 특정 콘텐츠에 한정되어있어 도메인이 같지 않은 다른 콘텐츠들에는 적용될 수 없다는 문제점이 있었다. 이에 본 연구에서는 기존 의견 분류 방법에 강도를 주어 좀 더 세밀한 감성 분석을 수행하고, 이 결과를 통계적 척도에 적용하여 리뷰에 내포되어 있는 작성자의 자세한 만족도를 도출 할 수 있는 감성 분석 기법을 제안한다, 그리고 제안한 기법을 바탕으로 도메인에 상관없이 다양한 콘텐츠에 적용되어 콘텐츠의 만족도를 분석 할 수 있는 시스템을 설계하였다. 또한 방대한 양의 리뷰 데이터들을 빠르고 효율적으로 처리하기 위해 빅 데이터 처리도구인 하둡을 기반으로 시스템을 구축하였다. 본 시스템을 통해 콘텐츠 이용자는 보다 효율적인 의사결정을, 제공자들은 빠른 반응분석을 할 수 있어 본 시스템은 사용자의 의견을 필요로 하는 다양한 분야에 매우 실용적으로 활용 될 것으로 기대한다.