• 제목/요약/키워드: hadoop

검색결과 395건 처리시간 0.023초

루씬 기반의 최저가 상품 검색 시스템 설계 (Design of Search System Based on Lucene for Minimum Price Products)

  • 김아용;정대진;계민석;김창수;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 추계학술대회
    • /
    • pp.603-605
    • /
    • 2014
  • 인터넷 이용률 증가와 스마트 기기의 대중화로 인해 소비자는 매장에서 구매하던 비용을 온라인 쇼핑 시장으로 전환하고 있다. 이로 인해 사용자의 소비패턴과 소비문화도 변화하고 있다. 오픈 마켓은 웹과 모바일을 통해 유통 채널을 확장하고 소비자의 유치를 위해 다양한 이벤트와 최저가 정책, 안전 거래 등을 제공한다. 본 논문에서는 오픈 마켓에서 판매하는 상품의 정보를 수집하고 분석하여 사용자에게 최저가 상품 정보를 제공하는 검색 시스템을 설계한다.

  • PDF

스파크를 이용한 머신러닝의 분산 처리 성능 요인 (Performance Factor of Distributed Processing of Machine Learning using Spark)

  • 류우석
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.19-24
    • /
    • 2021
  • 본 논문에서는 아파치 스파크를 이용하여 머신러닝을 분산 처리할 때의 성능 요인을 분석하고 효율적인 분산 처리를 위한 실행 환경을 실험을 통해 제시한다. 먼저, 분산 클러스터 환경에서 머신러닝을 수행할 때 고려해야 하는 성능 요인으로 클러스터의 성능, 데이터의 규모, 스파크 엔진의 속성으로 구분하여 분석한다. 그리고 하둡 클러스터에서 동작하는 스파크 MLlib을 이용하여 회귀분석을 수행할 때 노드의 구성과 스파크 Executor의 설정을 변화하면서 성능을 측정한다. 실험 결과 최적의 Executor 개수는 데이터의 블록의 수에 영향을 받으나 클러스터 규모에 따라 최대값, 최소값은 각각 코어의 수, 워커 노드의 수로 제한됨을 실증하였다.

Big IoT Healthcare Data Analytics Framework Based on Fog and Cloud Computing

  • Alshammari, Hamoud;El-Ghany, Sameh Abd;Shehab, Abdulaziz
    • Journal of Information Processing Systems
    • /
    • 제16권6호
    • /
    • pp.1238-1249
    • /
    • 2020
  • Throughout the world, aging populations and doctor shortages have helped drive the increasing demand for smart healthcare systems. Recently, these systems have benefited from the evolution of the Internet of Things (IoT), big data, and machine learning. However, these advances result in the generation of large amounts of data, making healthcare data analysis a major issue. These data have a number of complex properties such as high-dimensionality, irregularity, and sparsity, which makes efficient processing difficult to implement. These challenges are met by big data analytics. In this paper, we propose an innovative analytic framework for big healthcare data that are collected either from IoT wearable devices or from archived patient medical images. The proposed method would efficiently address the data heterogeneity problem using middleware between heterogeneous data sources and MapReduce Hadoop clusters. Furthermore, the proposed framework enables the use of both fog computing and cloud platforms to handle the problems faced through online and offline data processing, data storage, and data classification. Additionally, it guarantees robust and secure knowledge of patient medical data.

지역 스마트팜 데이터 연계 및 서비스 활용에 대한 연구 (Research on Regional Smart Farm Data Linkage and Service Utilization)

  • 이원구;구현정;채철주
    • 현장농수산연구지
    • /
    • 제26권2호
    • /
    • pp.14-24
    • /
    • 2024
  • To enhance the usability of smart agriculture, methods for utilizing smart farm data are required. Therefore, this study proposes a scheme for utilizing regional smart farm data by linking it to services. The current status of domestic and foreign smart farm data collection and linkage services is analyzed. To collect and link regional smart farm data, necessary data collection, data cleaning, data storage structure and schema, and data storage and linkage systems are proposed. Based on the standards currently being implemented for regional smart farm internal data storage, a farm schema, environmental information schema, facility control information schema, and growth information schema are designed by extending the crop schema and crop main environmental factor information database schema. A data collection and management system structure based on the Hadoop Ecosystem is designed for data collection and management at regional smart farm data centers. Strategies are proposed for utilizing regional smart farm data to provide smart farm productivity improvement and revenue optimization services, image-based crop analysis services, and virtual reality-based smart farm simulation services.

Crowd Psychological and Emotional Computing Based on PSMU Algorithm

  • Bei He
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권8호
    • /
    • pp.2119-2136
    • /
    • 2024
  • The rapid progress of social media allows more people to express their feelings and opinions online. Many data on social media contains people's emotional information, which can be used for people's psychological analysis and emotional calculation. This research is based on the simplified psychological scale algorithm of multi-theory integration. It aims to accurately analyze people's psychological emotion. According to the comparative analysis of algorithm performance, the results show that the highest recall rate of the algorithm in this study is 95%, while the highest recall rate of the item response theory algorithm and the social network analysis algorithm is 68% and 87%. The acceleration ratio and data volume of the research algorithm are analyzed. The results show that when 400,000 data are calculated in the Hadoop cluster and there are 8 nodes, the maximum acceleration ratio is 40%. When the data volume is 8GB, the maximum scale ratio of 8 nodes is 43%. Finally, we carried out an empirical analysis on the model that compute the population's psychological and emotional conditions. During the analysis, the psychological simplification scale algorithm was adopted and multiple theories were taken into account. Then, we collected negative comments and expressions about Japan's discharge of radioactive water in microblog and compared them with the trend derived by the model. The results were consistent. Therefore, this research model has achieved good results in the emotion classification of microblog comments.

MapReduce와 시공간 데이터를 이용한 빅 데이터 크기의 이동객체 갱신 횟수 감소 기법 (Update Frequency Reducing Method of Spatio-Temporal Big Data based on MapReduce)

  • 최용권;백성하;김경배;배해영
    • Spatial Information Research
    • /
    • 제20권2호
    • /
    • pp.137-153
    • /
    • 2012
  • 지금까지 대규모의 이동객체 관리를 위해 갱신 비용을 감소시킬 수 있는 인덱스 기법들이 제안되었다. 이동객체 인덱스는 빈번하게 위치정보가 변화하는 이동객체를 관리하기 위해 주기적으로 갱신 되어야 하기 때문이다. 그러나 이러한 기법들은 이동객체의 수가 현저히 증가하는 경우 인덱스의 갱신 가능범위를 초과하는 부하가 발생한다. 본 논문에서는 이처럼 기존의 처리 가용량을 초과하는 빅 데이터 크기의 이동객체에서 발생하는 갱신요청들을 MapReduce와 기존 인덱스기법을 조합하여 감소시키는 기법을 제안한다. 이 기법에서는 수많은 이동객체에서 발생하는 갱신요청들을 MapReduce를 이용하여 각각의 이동객체 별로 그룹화하는 방법을 사용한다. 각 이동객체 별로 그룹화 데이터들의 최신의 데이터와 가장 오래된 데이터를 비교하여 갱신여부를 판단하고 최신의 요청만 갱신하도록 하여 전체 갱신 횟수를 크게 감소시킨다. 갱신이 지연된 경우 기존의 갱신요청들을 가지고 있는 해시 테이블에 일정기간 보관하여 지연된 갱신요청이 분실되지 않고 지속적으로 갱신되도록 한다. 실험을 통해 제안한 기법을 적용한 경우와 적용하지 않은 경우를 비교해 전체 갱신 횟수 및 갱신 비용이 감소되는 것을 알 수 있다.

R을 이용한 사회연결망 분석에 대한 고찰 (A reviews on the social network analysis using R)

  • 최경호;유진아
    • 한국융합학회논문지
    • /
    • 제6권1호
    • /
    • pp.77-83
    • /
    • 2015
  • 최근 들어 사회연결망분석을 이용한 연구가 정치학, 언론학, 행정학 등의 사회과학 영역은 물론이고 나아가 자연과학 영역에 이르기까지 여러 분야에서 다양하게 이루어지고 있음에도 불구하고, 분석 도구의 소개에 대한 연구는 많지 않은 실정이다. 즉 사회연결망분석을 수행하기 위해서는 목적에 맞는 자료의 수집과 함께 분석 도구를 이용한 통계값 도출 및 시각화된 결과가 있어야 가능하지만, 아직까지 이를 체계적으로 설명한 연구는 부족한 실정이다. 이에 본 연구에서는 향후 사회연결망분석을 이용하여 연구를 수행하려는 연구자들에게 도움을 주고자, 무료 분석도구인 R프로그램을 이용한 분석과정을 자료입력부터 해석에 이르기까지를 실증자료를 이용하여 소개하고자 한다. 본 연구에서 활용되는 실증자료는 '한국학술지인용색인 DB'에서 제공하는 자료 중, 식품관련 국내학술지의 피인용자료이다. 연구방법론으로서의 사회연결망분석은 통계분석의 보완인 동시에 기존 연구방법을 대체하는 새로운 패러다임인 바, 본 고찰연구는 사회연결망분석의 활성화에 기여할 것이다.

빅데이터 로그를 이용한 실시간 예측분석시스템 설계 및 구현 (Real time predictive analytic system design and implementation using Bigdata-log)

  • 이상준;이동훈
    • 정보보호학회논문지
    • /
    • 제25권6호
    • /
    • pp.1399-1410
    • /
    • 2015
  • 기업들은 다가오는 데이터 경쟁시대를 이해하고 이에 대비해야 한다며 가트너는 기업의 생존 패러다임에 많은 변화를 요구하고 있다. 또한 통계 알고리즘 기반의 예측분석을 통한 비즈니스 성공 사례들이 발표되면서, 과거 데이터 분석에 따른 사후 조치에서 예측 분석에 의한 선제적 대응으로의 전환은 앞서가고 있는 기업의 필수품이 되어 가고 있다. 이러한 경향은 보안 분석 및 로그 분석 분야에도 영향을 미치고 있으며, 실제로 빅데이터화되고 있는 대용량 로그에 대한 분석과 지능화, 장기화되고 있는 보안 분석에 빅데이터 분석 프레임워크를 활용하는 사례들이 속속 발표되고 있다. 그러나 빅데이터 로그 분석 시스템에 요구되는 모든 기능 및 기술들을 하둡 기반의 빅데이터 플랫폼에서 수용할 수 없는 문제점들이 있어서 독자적인 플랫폼 기반의 빅데이터 로그 분석 제품들이 여전히 시장에 공급되고 있다. 본 논문에서는 이러한 독자적인 빅데이터 로그 분석 시스템을 위한 실시간 및 비실시간 예측 분석 엔진을 탑재하여 사이버 공격에 선제적으로 대응할 수 있는 프레임워크를 제안하고자 한다.

전자조달공고 분석지원 시스템 개발 (Development of Procurement Announcement Analysis Support System)

  • 임일권;박동준;조한진
    • 한국융합학회논문지
    • /
    • 제9권8호
    • /
    • pp.53-60
    • /
    • 2018
  • 국내 공공전자조달은 국내외에 우수성을 인정받고 있다. 하지만 수요기관이 발주 시 조달업체가 관련 공고를 일일이 확인하거나, 전체 조달공고현황을 한눈에 파악하기에는 어려움이 있다. 그에 따라 본 논문에서는 효과적인 전자조달시스템의 활용을 위해 빅데이터 기술인 HDFS와 아파치 스파크 기술, 협업필터링 기술을 이용하여, 조달공고 추천서비스와 조달공고 계약 트렌드 분석 서비스 구현을 통한 전자조달공고 분석지원 시스템을 개발하였다. 조달공고 추천서비스는 조달업체의 특성과 성격에 맞는 공고를 추천함에 따라 조달업체가 일일이 공고를 검색하는 수고를 덜어 줄 수 있으며, 조달 공고 계약 트렌드 분석 서비스는 조달 공고/계약 정보를 시각화하여 조달업체와 수요기관에게 전자조달의 분석정보를 한눈에 확인할 수 있도록 구현하였다.

스마트팩토리를 위한 운영빅데이터 분석 플랫폼 (Operational Big Data Analytics platform for Smart Factory)

  • 배혜림;박상혁;최유림;주병준;리스카;풀샤시;푸트라;타오픽;이상화;원석래
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.9-19
    • /
    • 2016
  • ICT 융합에 대한 관심이 높아진 가운데 독일의 Industry 4.0을 시작으로 제조업과 ICT 융합에 대한 연구가 활발하게 진행되고 있다. 이를 통해 전통적인 제조업의 제조단가를 낮추고 극적인 품질향상을 기대할 수 있게 되었다. 최근 정부의 제조업 3.0 전략 등에 힘입어 국내에서도 제조업에 대한 고도화가 진행되고 있으며, 이러한 추세에 발맞추어 제조업 운영에서 발생하는 빅데이터에 대한 주문맞춤형 분석 플랫폼을 개발하고 이를 통해 제조 현장의 경쟁력을 높이고자 한다. 주문맞춤형 분석 플랫폼은 확장성을 고려하여 스프링 프레임워크를 기반으로 웹에서 실행되도록 설계되었으며, 제조업 현장에서 발생하는 다량의 데이터를 빠르게 처리하기 위하여 스파크와 하둡 파일 시스템을 이용한다. 실시간으로 스트리밍 된 데이터를 프로세스 마이닝 기반 알고리즘을 통해 처리하고 공장의 현황을 분석하여 제조업 현장의 문제를 파악하고 신속한 의사결정을 지원할 수 있다.

  • PDF