• 제목/요약/키워드: Big data, Hadoop

검색결과 200건 처리시간 0.052초

하둡과 의미특징을 이용한 문서요약 (Document Summarization using Semantic Feature and Hadoop)

  • 김철원
    • 한국정보통신학회논문지
    • /
    • 제18권9호
    • /
    • pp.2155-2160
    • /
    • 2014
  • 본 논문은 하둡 기반의 분산병렬처리에 의한 문서의 의미특징을 추출하고, 추출된 의미특징을 이용하여 문서를 요약하는 새로운 방법을 제안한다. 제안된 방법은 문서요약에 비음수 분해된 문서의 의미특징을 이용함으로써 문서의 내부 구조를 잘 표현 할 수 있다. 또한 하둡을 이용하여 빅데이터의 문서를 요약할 수 있다. 실험결과 제안방법이 단일 컴퓨터 환경에서 처리할 수 없는 대용량의 문서를 요약할 수 있음을 보인다.

한국 보건의료 빅데이터 플랫폼에서 웹 기반 OLAP 서버 구현 (An Implementation of Web-Enabled OLAP Server in Korean HealthCare BigData Platform)

  • ;김진혁;정승현;이경희;조완섭
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.33-34
    • /
    • 2017
  • In 2015, Ministry of Health and Welfare of Korea announced a research and development plan of using Korean healthcare data to support decision making, reduce cost and enhance a better treatment. This project relies on the adoption of BigData technology such as Apache Hadoop, Apache Spark to store and process HealthCare Data from various institution. Here we present an approach a design and implementation of OLAP server in Korean HealthCare BigData platform. This approach is used to establish a basis for promoting personalized healthcare research for decision making, forecasting disease and developing customized diagnosis and treatment.

  • PDF

학교폭력과 자살사고를 예방하기 위한 감성분석 시스템의 설계 (Design of a Sentiment Analysis System to Prevent School Violence and Student's Suicide)

  • 김영택
    • 컴퓨터교육학회논문지
    • /
    • 제17권6호
    • /
    • pp.115-122
    • /
    • 2014
  • 현 청소년들의 학교내 생활환경에서 문제점으로 대두되는 폭력 및 자살사고 발생률 증가에 대한 예방차원의 빅 데이터 처리 분석 시스템을 목표로 연구하였고 설계의 경제성과 용이성, 적용의 신속성 등을 고려해서 많은 이용률을 가지고 있는 오픈 소스인, 하둡 시스템(Hadoop system)의 맵리듀스(MapReduce) 알고리즘과 분산 병렬 환경을 위한 HDFS(Hadoop Distibuted File System) 구성을 사용하여 실험하였다. 연구에서 사용된 분석기법은 기존의 통계적인 분석기법들이 가지는 난이도를 피하기 위해 상업적인 사회 망의 비정형 대화 자료를 이용해서 폭력성 어휘에 대한 단어 수(word count) 분석을 적용하여 폭행, 자살사고를 사전에 감지하여 예방하는 감성분석(sentiment analysis) 시스템을 텍스트 마이닝 관점에서 제안하여 실험하였다.

  • PDF

클라우드 기반의 공개의료 빅데이터 분석을 통한 삶의 질에 영향을 미치는 요인분석 (An Analysis of Factors Affecting Quality of Life through the Analysis of Public Health Big Data)

  • 김민경;조영복
    • 한국정보통신학회논문지
    • /
    • 제22권6호
    • /
    • pp.835-841
    • /
    • 2018
  • 본 연구에서 공개 의료 빅데이터 분석을 지역사회건강조사 2012~2014년 자료를 이용해 개인의 건강관련 삶의 질 차이와 삶의 질에 영향을 미치는 요인을 분석하였다. 제안논문에서는 공개의료 빅데이터 분석을 위해 Hadoop 기반의 Spack을 이용해 병렬처리 지원을 위한 클라우드 메니저를 구성하고 개인의 삶의 질에 영향을 미치는 요인을 하드웨어의 제약없이 빠르게 분석하였다. 건강관련 삶의 질에 미치는 영향을 개인적 특성과 지역사회 특성으로 구분하여 단계별 다수준 회귀분석(ANOVA, t-test)을 실시하였다. 연구결과 개인별 삶의 질에 영향을 미치는 요인으로는 남자 평균 73.8점, 여자 평균 70.0점으로 남자가 여자보다 건강관련 삶의 질이 높은 것으로 나타났다.

로렌츠 커브를 이용한 하둡 플랫폼의 최적화 지수 (Measuring Hadoop Optimality by Lorenz Curve)

  • 김우철;백창룡
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.249-261
    • /
    • 2014
  • 최근 큰 관심을 받는 빅데이터는 분산처리를 통해서만 효과적으로 처리할 수 있다. 분산처리란 주어진 쿼리를 여러 대의 컴퓨터로 분할하고 각 분할된 데이터의 계산 결과를 취합하는 과정으로, 주어진 하드웨어 리소스를 효과적으로 최대한 사용하는 것이 중요하다. 하둡은 이러한 분산처리를 가능하게 하는 플랫폼 중의 하나로 분산처리에 사용된 컴퓨터의 개수만큼 성능 향상을 기대할 수 있는 확장성을 최대한 보장하는 매우 성공적인 플랫폼이다. 이 논문에서는 하둡 플랫폼이 얼마나 최적화 되어있는지에 대한 객관적이고 계량적인 지수를 제공함으로써 주어진 하둡 플랫폼의 효율성을 측정한다. 방법론적으로는 로렌츠 커브를 이용하여 하드웨어 리소스들이 얼마나 잘 균등히 배분되어 있는지 살펴보고 CPU, 디스크 일기/쓰기 및 네트워크 병목현상에 따른 비용을 감안한 최적화된 로렌츠 커브를 찾음으로써 최적화 지수를 산출한다. 바꾸어 말하면, 이러한 최적화 지수는 주어진 하둡 플랫폼이 얼마만큼의 성능 향상이 가능한지 알려주는 척도로 오랜 시간을 필요로 하는 빅테이터의 처리 속도 개선을 위한 중요한 정보를 제공한다. 실험 자료 및 모의실험을 통해 본 논문에서 제안된 방법을 검증하였다.

Sequential Pattern Mining for Intrusion Detection System with Feature Selection on Big Data

  • Fidalcastro, A;Baburaj, E
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.5023-5038
    • /
    • 2017
  • Big data is an emerging technology which deals with wide range of data sets with sizes beyond the ability to work with software tools which is commonly used for processing of data. When we consider a huge network, we have to process a large amount of network information generated, which consists of both normal and abnormal activity logs in large volume of multi-dimensional data. Intrusion Detection System (IDS) is required to monitor the network and to detect the malicious nodes and activities in the network. Massive amount of data makes it difficult to detect threats and attacks. Sequential Pattern mining may be used to identify the patterns of malicious activities which have been an emerging popular trend due to the consideration of quantities, profits and time orders of item. Here we propose a sequential pattern mining algorithm with fuzzy logic feature selection and fuzzy weighted support for huge volumes of network logs to be implemented in Apache Hadoop YARN, which solves the problem of speed and time constraints. Fuzzy logic feature selection selects important features from the feature set. Fuzzy weighted supports provide weights to the inputs and avoid multiple scans. In our simulation we use the attack log from NS-2 MANET environment and compare the proposed algorithm with the state-of-the-art sequential Pattern Mining algorithm, SPADE and Support Vector Machine with Hadoop environment.

분산 하둡 시스템의 성능 비교 분석 (Performance Analysis of Distributed Hadoop Systems)

  • 배병진;김영주;김영국
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.479-482
    • /
    • 2014
  • 오늘날 급증하는 빅데이터를 효율적으로 관리하기 위해 오픈소스인 하둡을 많이 사용한다. 하둡은 분산 파일 처리 시스템인 HDFS(Hadoop Distributed File System)와 분산 병렬 처리 시스템인 맵리듀스(MapReduce)로 구성되어 있다. 하둡의 맵리듀스 프레임워크에서는 빅데이터를 HDFS에서 읽어들이고 분석 처리된 결과를 다시 HDFS에 쓴다. 이러한 분산 병렬 처리 방식은 하둡 버전에 따라 다른 시스템 구조를 가진다. 따라서 본 논문에서는 하둡 버전에 따른 빅데이터 처리 시에 동작하는 하둡시스템들의 내부 성능을 비교 분석한다. 이를 위해서 하둡 시스템을 감시할 수 있는 방법을 고안하여 내부적으로 생성되는 프로세스 및 스레드들과 변수들의 발생빈도를 측정하여 분석 지표로 사용한다.

  • PDF

Study on Data Processing of the IOT Sensor Network Based on a Hadoop Cloud Platform and a TWLGA Scheduling Algorithm

  • Li, Guoyu;Yang, Kang
    • Journal of Information Processing Systems
    • /
    • 제17권6호
    • /
    • pp.1035-1043
    • /
    • 2021
  • An Internet of Things (IOT) sensor network is an effective solution for monitoring environmental conditions. However, IOT sensor networks generate massive data such that the abilities of massive data storage, processing, and query become technical challenges. To solve the problem, a Hadoop cloud platform is proposed. Using the time and workload genetic algorithm (TWLGA), the data processing platform enables the work of one node to be shared with other nodes, which not only raises efficiency of one single node but also provides the compatibility support to reduce the possible risk of software and hardware. In this experiment, a Hadoop cluster platform with TWLGA scheduling algorithm is developed, and the performance of the platform is tested. The results show that the Hadoop cloud platform is suitable for big data processing requirements of IOT sensor networks.

Access efficiency of small sized files in Big Data using various Techniques on Hadoop Distributed File System platform

  • Alange, Neeta;Mathur, Anjali
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.359-364
    • /
    • 2021
  • In recent years Hadoop usage has been increasing day by day. The need of development of the technology and its specified outcomes are eagerly waiting across globe to adopt speedy access of data. Need of computers and its dependency is increasing day by day. Big data is exponentially growing as the entire world is working in online mode. Large amount of data has been produced which is very difficult to handle and process within a short time. In present situation industries are widely using the Hadoop framework to store, process and produce at the specified time with huge amount of data that has been put on the server. Processing of this huge amount of data having small files & its storage optimization is a big problem. HDFS, Sequence files, HAR, NHAR various techniques have been already proposed. In this paper we have discussed about various existing techniques which are developed for accessing and storing small files efficiently. Out of the various techniques we have specifically tried to implement the HDFS- HAR, NHAR techniques.

특허분석을 통한 빅데이터 분석 플랫폼 기술 개발 동향 (Big Data Analysis Platform Technology R&D Trend through Patent Analysis)

  • 노승민
    • 디지털융복합연구
    • /
    • 제12권9호
    • /
    • pp.169-175
    • /
    • 2014
  • 모바일 SNS, 스마트 기기의 급성장과 ICT(통신기술) 패러다임의 변화는 라이프 스타일의 변화와 함께 데이터가 폭발적으로 증가하는 결과를 초래하였다. 한편, 대용량의 데이터의사용은 비용이나 기술적 측면에서 많은 어려움을 초래하였다. 그러나, 빅데이터는 하둡과 같은 효율적인 빅데이터 처리 플랫폼 기술의 등장으로 주목을 받기 시작하였다. 본 논문에서는 주요 시장 국의 특허 분석을 통해 빅데이터 플랫폼 연구 및 개발 동향을 살펴보고자 한다. 특히, 2010년 12월을 기준으로 4개국에 출원 및 등록되어 있는 2,568건을 대상으로 분석을 진행하였다.