• 제목/요약/키워드: Hadoop Server

검색결과 28건 처리시간 0.021초

웹 컨텐츠 선호도 측정을 위한 대용량 웹로그 분석기 구현 (Implementation of big web logs analyzer in estimating preferences for web contents)

  • 최은정;김명주
    • 디지털산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.83-90
    • /
    • 2012
  • With the rapid growth of internet infrastructure, World Wide Web is evolving recently into various services such as cloud computing, social network services. It simply go beyond the sharing of information. It started to provide new services such as E-business, remote control or management, providing virtual services, and recently it is evolving into new services such as cloud computing and social network services. These kinds of communications through World Wide Web have been interested in and have developed user-centric customized services rather than providing provider-centric informations. In these environments, it is very important to check and analyze the user requests to a website. Especially, estimating user preferences is most important. For these reasons, analyzing web logs is being done, however, it has limitations that the most of data to analyze are based on page unit statistics. Therefore, it is not enough to evaluate user preferences only by statistics of specific page. Because recent main contents of web page design are being made of media files such as image files, and of dynamic pages utilizing the techniques of CSS, Div, iFrame etc. In this paper, large log analyzer was designed and executed to analyze web server log to estimate web contents preferences of users. With mapreduce which is based on Hadoop, large logs were analyzed and web contents preferences of media files such as image files, sounds and videos were estimated.

맵리듀스 기반 대용량 개인정보 분산 암호화 처리 시스템 (The Distributed Encryption Processing System for Large Capacity Personal Information based on MapReduce)

  • 김현욱;박성은;어성율
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.576-585
    • /
    • 2014
  • 대량의 개인정보가 수집되어 활용됨에 따라 개인정보 유출 등의 보안 문제가 발생하고 있다. 이에 최근에는 수집된 개인정보를 암호화 하여 저장하고 활용하는 방법이 사용되고 있다. 본 논문에서는 기존에 수집된 대량의 개인정보를 단시간에 암호화하기 위한 방법으로 맵리듀스 기반의 분산 암호화 처리 방법을 제안하고, 시스템을 설계하고 구현하였다. 또한 맵리듀스 기반의 분산 암호화 처리 방법의 성능을 검증을 위해 테스트 환경을 구축하여 비교 실험을 진행하였다. 실험 결과 토큰 서버의 암호화 처리 시간이 순차처리 대비 평균 시간 효율이 약 15.3% 정도 향상 하였으며, 병렬처리대비 약 3.13%정도 향상되는 것을 확인 하였다.

빅데이터 기반 환자 간병 방법 분석 연구 (A Study on Big Data Based Method of Patient Care Analysis)

  • 박지훈;황승연;윤범식;최수길;이돈희;김정준;문진용;박경원
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.163-170
    • /
    • 2020
  • 정보통신기술의 발전과 함께 데이터의 생산량이 기하급수적으로 증가하면서 빅데이터에 대한 관심이 높아지고 있다. 빅데이터 관련 기술들도 발전함에 따라 여러 분야에서 빅데이터가 수집, 저장, 처리, 분석, 활용되고 있다. 특히 보건의료 분야에서의 빅데이터 분석은 사회경제적으로도 큰 영향력을 발휘할 수 있기 때문에 큰 주목을 받고 있다. 빅데이터 기술을 환자 진단 데이터 분석에 활용하여 간단한 병원 진료에 투여되는 막대한 비용을 절감할 수 있을 것으로 전망된다. 따라서 본 논문에서는 환자 데이터를 분석하여 병원에 가기 어려운 환자나 의학적인 전문 지식이 없는 간병인들에게 의사의 진단과 가까운 간병 가이드 정보를 제시하고자 한다. 먼저 수집된 환자 데이터를 HDFS에 저장하고, 하둡 환경에서 빅데이터 처리 및 분석 도구인 R을 이용하여 데이터를 처리한 후 분류분석을 한다. R의 다양한 기능들을 웹에 구현하기 위해 활용되는 R Shiny를 이용하여 웹 서버에 시각화를 한다.

대용량 경로데이터 분류에 기반한 경험적 최선 경로 추천 (Recommendation of Best Empirical Route Based on Classification of Large Trajectory Data)

  • 이계형;조영훈;이태호;박희민
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.101-108
    • /
    • 2015
  • 위치를 수집할 수 있는 모바일 기기의 확산에 따라 다양한 위치기반서비스들이 개발되어 사용되고 있다. 본 논문에서는 위치기반서비스가 일반화됨에 따라 수집되고 저장되는 경로 데이터의 양이 기하급수적으로 커지고 결국 빅데이터가 될 것이기 때문에 수집된 대용량 경로데이터에서 최선 경로를 찾아 추천해주는 시스템을 제안한다. 대용량 경로 데이터에서 실제 운행 시간 등의 정보를 바탕으로 기존 내비게이션보다 좋은 경로를 추천할 수 있게 된다. 대용량 경로 데이터 처리를 위해 하둡 맵리듀스를 이용해서 분류하고 분류된 경로를 데이터베이스에 저장하여 사용자의 요청에 빠르게 반응할 수 있도록 하였다. 사용자의 요청에 지도상의 최단 경로가 아닌 수집된 경로 기록을 바탕으로 최선 경로를 찾게 되는 것이다. 구현된 전체 시스템은 1) 실제 경로를 수집하기 위한 안드로이드 응용프로그램, 2) 하둡 맵리듀스를 이용해 수집된 경로를 미리 분류해 놓기 위한 분류 엔진, 3) 사용자의 출발지-도착지 요청에 따라 분류된 경로에서 최선 경로를 찾아 사용자에게 돌려주는 웹서버와 안드로이드 클라이언트 서비스 시스템이다. 실제운행 실험을 제안한 방법과 시스템이 실효성이 있음을 보인다.

아파치 스파크 기반 검색엔진의 설계 및 구현 (Design and Implementation of a Search Engine based on Apache Spark)

  • 박기성;최재현;김종배;박제원
    • 한국정보통신학회논문지
    • /
    • 제21권1호
    • /
    • pp.17-28
    • /
    • 2017
  • 최근 데이터의 활용가치가 높아지면서 데이터에 관한 연구가 활발히 진행되고 있다. 데이터의 수집, 저장, 활용을 위한 대표적인 프로그램으로 웹 크롤러, 데이터베이스, 분산처리 등이 있으며, 최근에는 웹 크롤러가 다양한 분야에 활용할 수 있는 유용성으로 인해 크게 각광받고 있는 실정이다. 웹 크롤러란 자동화된 방법으로 웹서버를 순회하여 웹 페이지를 분석하고 URL을 수집하는 도구라고 정의할 수 있다. 인터넷 사용량의 증가로 매일 대량으로 생성되는 웹 페이지의 처리를 위해 하둡의 맵리듀스를 기반으로 하는 분산 웹 크롤러가 많이 사용되고 있다. 그러나 맵리듀스는 사용이 어렵고 성능에 제약이 있는 단점이 있다. 이러한 맵리듀스의 한계를 보완하여 제시된 인메모리 기반 연산 플랫폼인 아파치 스파크가 그 대안이 되고 있다. 웹 크롤러의 주요용도 중 하나인 검색엔진은 웹 크롤러로 수집한 정보 중 특정 검색어에 맞는 결과를 보여준다. 검색엔진을 기존 맵리듀스 기반의 웹 크롤러 대신 스파크 기반 웹 크롤러로 구현할 경우 더욱 빠른 데이터 수집이 가능할 것이다.

교통 빅데이터의 효율적 저장 및 검색 기술의 설계와 구현 (Design and Implementation of Efficient Storage and Retrieval Technology of Traffic Big Data)

  • 김기수;이재진;김홍회;장유림;함유근
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.207-220
    • /
    • 2019
  • 최근 정보통신기술의 발달은 센서를 바탕으로 수많은 데이터를 구축하고 이를 이용하여 실시간 서비스를 제공할 수 있게 한다. 교통안전공단에서는 디지털 운행기록계를 통해 전국의 상용차의 운행 정보를 수집하고 있다. 전국 상용자의 운행 정보는 교통 분야에서 다방면으로 활용이 가능하다. 그 중 특히 자율주행 분야에서는 실시간으로 운행정보를 분석하여 위험 운전에 대응을 하거나 방지하는데 도움을 줄 수 있다. 그러나 전통적인 데이터베이스 시스템을 이용하여 대용량의 데이터를 실시간 서비스에 적합한 수준의 성능으로 처리하는 데는 한계가 존재한다. 특히 국내에서는 이와 같은 기술적인 문제로 상용차 운행정보의 실시간 분석을 위한 대규모 교통 빅데이터의 처리가 이전에 시도된 적이 없다. 이런 문제를 해결하기 위해 본 연구에서는 새로운 방식의 데이터베이스 서버 시스템 최적화를 진행하였고 실시간 서비스가 가능한 수준임을 확인하였다. 구축된 데이터베이스 시스템을 이용하여 디지털 트윈, 자율주행환경을 마련하기 위한 기반 데이터를 확보할 수 있을 것으로 기대된다.

  • PDF

빅데이터 및 고성능컴퓨팅 프레임워크를 활용한 유전체 데이터 전처리 과정의 병렬화 (Parallelization of Genome Sequence Data Pre-Processing on Big Data and HPC Framework)

  • 변은규;곽재혁;문지협
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권10호
    • /
    • pp.231-238
    • /
    • 2019
  • 차세대 염기 서열 분석법이 생성한 유전체 원시 데이터를 기존의 방식대로 하나의 서버에서 분석하기 위해서는 데이터 크기에 따라 수십 시간이 필요할 수 있다. 그러나 응급 환자의 진단처럼 수 시간 내에 결과를 알아야 하는 상황이 존재하기 때문에 단일 유전체 분석의 성능을 향상시킬 필요가 있다. 본 연구에서는 빅데이터 기술의 병렬화 기법과 고속의 네트워크로 연결되고 병렬파일시스템을 공유하는 고성능컴퓨팅 클러스터를 적극적으로 활용하여 분석 시간을 크게 단축시킬 수 있는 유전체 데이터 분석의 전처리 프로세스의 병렬화 방법을 제안한다. 분석 데이터의 신뢰성을 위해 기존의 검증된 분석 도구 및 알고리즘을 새로운 환경에 맞게 병렬화 하는 전략을 선택하였다. 프로세스의 병렬화, 데이터의 분배 및 병렬 병합 기법을 개발하였고 실험을 통해 성능 향상을 확인하였다.

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.