• 제목/요약/키워드: Big Data Clustering

검색결과 146건 처리시간 0.024초

금융 상품 추천에 관련된 빅 데이터 활용을 위한 개발 방법 (A study on development method for practical use of Big Data related to recommendation to financial item)

  • 김석수
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권8호
    • /
    • pp.73-81
    • /
    • 2014
  • 본 연구에서는 활용 기술로 데이터 저장 레이어, 데이터 처리 레이어, 데이터 분석 레이어, 시각화 레이어 등의 빅 데이터 기술을 활용한 개발 방법을 제안한다, 각 단계에서 저장, 처리, 분석된 데이터는 시각화를 통하여 볼 수 있게 하였다. Hadoop을 통하여 데이터를 처리한 후 처리된 데이터를 Mahout으로 실행하여 분석 결과를 시각화 하였다. 이 과정을 통해서 금융 상품에 가입된 고객의 여러 특성을 파악하였고, 각 고객에 따른 금융 상품의 추천을 적시에 수행할 수 있었다. 본 연구에서는 빅 데이터의 배경 및 문제점을 소개하고, 빅 데이터가 새로운 비즈니스 기회를 어떻게 창출하는지 금융상품 추천 사례를 중심으로 개발 방법과 사례 연구를 논의한다.

KNIME 분석 플랫폼 기반 스마트 미터 빅 데이터 클러스터링 (Clustering of Smart Meter Big Data Based on KNIME Analytic Platform)

  • 김용길;문경일
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.13-20
    • /
    • 2020
  • 빅 데이터 관련 주요 논제 중의 하나는 방대한 시간 기반 또는 원격 측정 데이터의 가용성에 관한 문제이다. 현재 저비용 획득 및 저장 장치의 등장은 더 세밀한 분석에 사용될 상세한 시간 데이터를 얻을 수 있어서 배후 시스템에 대해 여러 가지 지식을 갖거나 미래의 이벤트를 더 정확히 예측할 수 있다. 특히, 스마트 미터가 설치된 수많은 가정 및 기업 등을 대상으로 전기 사용에 관한 고객 맞춤형 계약을 정의하는 것은 다른 무엇보다도 중요한 문제이다. 수많은 스마트 미터 데이터를 바탕으로 공통적인 전력 소비 형태를 몇 가지 그룹으로 구분할 필요가 있다. 이에 본 연구에서는 스마트 미터 측정 관련 공개 데이터와 자바 기반 공개 소스인 KNIME 플랫폼을 사용하여 스마트 미터 관련 빅 데이터 변환과 클러스터링을 나타낸다. 빅 데이터 구성 요소는 공개 소스는 아니지만, 시험판으로 사용할 수 있다. 스마트 미터 빅 데이터를 가져오고, 정리하고, 변환한 후 전력 사용량 행위와 관련된 각 미터 ID의 해석과 클러스터링에 적합한 DTW 접근 방식을 통해 전력 사용 행위에 관한 스마트 계약을 정의할 수 있다.

빅데이터 수집 처리를 위한 분산 하둡 풀스택 플랫폼의 설계 (Design of Distributed Hadoop Full Stack Platform for Big Data Collection and Processing)

  • 이명호
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.45-51
    • /
    • 2021
  • 급속한 비대면 환경과 모바일 우선 전략에 따라 해마다 많은 정형/비정형 데이터의 폭발적인 증가와 생성은 모든 분야에서 빅데이터를 활용한 새로운 의사 결정과 서비스를 요구하고 있다. 그러나 매년 급속히 증가하는 빅데이터를 활용하여 실무 환경에서 적용 가능한 표준 플랫폼으로 빅데이터를 수집하여 적재한 후, 정재한 빅데이터를 관계형 데이터베이스에 저장하고 처리하는 하둡 에코시스템 활용의 참조 사례들은 거의 없었다. 따라서 본 연구에서는 스프링 프레임워크 환경에서 3대의 가상 머신 서버를 통하여 하둡 2.0을 기반으로 쇼셜 네트워크 서비스에서 키워드로 검색한 비정형 데이터를 수집한 후, 수집된 비정형 데이터를 하둡 분산 파일 시스템과 HBase에 적재하고, 적재된 비정형 데이터를 기반으로 형태소 분석기를 이용하여 정형화된 빅데이터를 관계형 데이터베이스에 저장할 수 있게 설계하고 구현하였다. 향후에는 데이터 심화 분석을 위한 하이브나 머하웃을 이용하여 머신 러닝을 이용한 클러스터링과 분류 및 분석 작업 연구가 지속되어야 할 것이다.

Data-Compression-Based Resource Management in Cloud Computing for Biology and Medicine

  • Zhu, Changming
    • Journal of Computing Science and Engineering
    • /
    • 제10권1호
    • /
    • pp.21-31
    • /
    • 2016
  • With the application and development of biomedical techniques such as next-generation sequencing, mass spectrometry, and medical imaging, the amount of biomedical data have been growing explosively. In terms of processing such data, we face the problems surrounding big data, highly intensive computation, and high dimensionality data. Fortunately, cloud computing represents significant advantages of resource allocation, data storage, computation, and sharing and offers a solution to solve big data problems of biomedical research. In order to improve the efficiency of resource management in cloud computing, this paper proposes a clustering method and adopts Radial Basis Function in order to compress comprehensive data sets found in biology and medicine in high quality, and stores these data with resource management in cloud computing. Experiments have validated that with such a data-compression-based resource management in cloud computing, one can store large data sets from biology and medicine in fewer capacities. Furthermore, with reverse operation of the Radial Basis Function, these compressed data can be reconstructed with high accuracy.

불확실성을 고려한 퍼지 클러스터링 기반 퍼지뉴럴네트워크 설계 (Design of Fuzzy Neural Networks Based on Fuzzy Clustering with Uncertainty)

  • 박건준;김용갑;황근창
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권1호
    • /
    • pp.173-181
    • /
    • 2017
  • 산업이 발달함에 따라서 빅데이터가 무수히 생산되고 있으며 이에 따라서 데이터에 내재된 불확실성도 증가하고 있다. 본 논문에서는 데이터에 내재된 불확실성을 다루기 위해 interval type-2 퍼지 클러스터링 방법을 제안하고 이를 이용하여 퍼지뉴럴네트워크를 설계하고 최적화한다. 제안한 클러스터링 방법을 이용하여 퍼지 규칙을 설계하고 학습을 수행한다. 최적화하는 방법으로서 유전자 알고리즘을 이용하고 모델 파라미터들을 최적 탐색한다. 실험에서는 두 가지 패턴 분류를 시행하였으며 두 가지 실험 모두 우수한 패턴 인식 결과를 보여준다. 제안한 네트워크는 증가하는 불확실성을 다룰 수 있는 방법을 제공할 수 있을 것이다.

공간빅데이터를 위한 정보 시각화 방법 (Information Visualization Process for Spatial Big Data)

  • 서양모;김원균
    • Spatial Information Research
    • /
    • 제23권6호
    • /
    • pp.109-116
    • /
    • 2015
  • 본 연구에서는 공간빅데이터의 개념과 특징을 정의하고 데이터에 대한 통찰력을 높일 수 있는 정보 시각화 방법론을 조사하였다. 또한 시각화 과정에서 발생할 수 있는 문제점 및 해결방법을 제시하였다. 공간빅데이터를 공간정보의 정량적인 확장의 결과와 빅데이터의 정성적인 확장의 결과로 정의하였다. 공간빅데이터는 6V(Volume, Variety, Velocity, Value, Veracity, Visualization)의 특징을 갖고 있으며, 최근 활용 서비스 측면이 이슈화 되면서 공간빅데이터에 대한 통찰력을 제공하여 데이터의 활용 가치를 높이기 위해 공간빅데이터의 시각화가 주목받고 있다. 정보 시각화의 방법은 Matthias, Ben, 정보디자인교과서 등을 통하여 다양한 방법으로 정의 되어 있으나 공간빅데이터의 시각화는 방대한 양의 원시 데이터를 대상으로 하기 때문에 데이터의 조직화 과정을 거쳐야 하며 이를 통해 사용자에게 전달하려는 정보를 추출해야 하는 차이점이 있다. 추출된 정보는 특성에 따른 적합한 시각적 표현 방법을 사용해야 하며, 많은 양의 데이터를 시각적으로 표현하는 것은 사용자에게 정확한 정보를 제공 할 수 없으므로 필터링, 샘플링, 데이터 비닝, 클러스터링 등을 이용하여 데이터를 축소하여 표현하는 방법이 필요하다.

맵리듀스를 사용한 디컴바인드 분산 VQ 코드북 생성 방법 (Decombined Distributed Parallel VQ Codebook Generation Based on MapReduce)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권3호
    • /
    • pp.365-371
    • /
    • 2014
  • 빅 데이터(Big Data)시대로 접어들면서 기존의 IT 환경에서 만들어진 알고리즘들은 하둡과 같은 분산 아키텍처에 그대로 적용할 수 없거나 효율이 떨어진다. 따라서, 맵리듀스와 같은 분산 프레임워크를 적용한 새로운 알고리즘들이 필요하다. 벡터 양자화에 많이 사용되는 Lloyd의 알고리즘도 맵리듀스를 사용하여 개발이 이루어지고 있다. 본 논문에서는 기존의 맵리듀스를 사용한 분산 VQ 코드북 생성 알고리즘을 수정하여 좀 더 빠른 분석 결과를 보일 수 있는 디컴바인드 분산 VQ 코드북 생성 알고리즘을 제안하였다. 제안하는 알고리즘을 빅 데이터에 적용한 결과 기존 방법보다 높은 성능을 보인 것을 확인할 수 있었다.

특허분석을 통한 빅 데이터의 시각화 기술 분석 (Analysis of Big Data Visualization Technology Based on Patent Analysis)

  • 노승민;최용수
    • 전자공학회논문지
    • /
    • 제51권7호
    • /
    • pp.149-154
    • /
    • 2014
  • 현대 데이터 컴퓨팅의 발전은 그래픽 기능의 향상을 이끌고 데이터 디스플레이를 위한 많은 가능성을 가지고 있다. 시각화는 방대한 양의 데이터에서 중요한 정보를 나타내줄 뿐만 아니라 복잡한 분석 방식에 효율적임이 증명되었다. 빅 데이터 분석과 발견은 컴퓨터 그래픽과 시각화 커뮤니티에서 새로운 연구 기회로 제시되고 있다. 본 논문에서는 주요 시장 국의 특허 분석을 통해 빅 데이터의 시각화 기술 개발 동향을 살펴보고자 한다. 특히, 2012년 11월을 기준으로 4개국에 출원 및 등록되어 있는 160건을 대상으로 분석을 진행하였다. 분석결과에 따르면 텍스트 클러스터링, 2D 시각화 분야의 기술개발이 중요하며 이에 대한 시급한 개발을 지향할 필요가 있다. 특히, 국내에서 다양한 스마트 디바이스의 증가와 소셜 네트워크 사용 증대로 인해 빅 데이터 입체 시각화 기술 개발이 매우 시급함을 알 수 있다.

대구광역시 교통약자 보행자 교통사고 공간 군집 분석 (Spatial clustering of pedestrian traffic accidents in Daegu)

  • 황영은;박성희;최화빈;윤상후
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.75-83
    • /
    • 2022
  • OECD 국가 중 보행자 사망 비율이 가장 높은 대한민국은 보행자 중심으로 법령이 제정하면서 안전한 보행환경 개선을 위해 노력하고 있다. 이 연구는 노인 인구와 학원이 밀도가 높은 대구광역시를 대상으로 보행자 교통사고 클러스터를 포아송분포를 이용한 스캔통계량으로 파악하고자 한다. 어린이와 노인에 관한 교통사고의 대중 인식을 수집하여 워드클라우드로 살펴본 결과 어린이는 정부와 기업인의 캠페인을 중심으로 노출되고 있고, 노인은 사고감소를 위한 정책연구를 중심으로 노출되고 있었다. 어린이 보행자 교통사고의 상대적 위험성은 공단이 많은 평리·내당·용산동에서 높았고, 학원 밀집도가 높은 만촌·봉무·범어동에서 낮았다. 노인 보행자 교통사고의 상대적 위험성은 도심에 가까운 용산·죽전·두류·내당동에서 높았고, 범어·삼덕·팔공·봉무동에서 낮았다. 대구광역시 내당동과 용산동은 어린이와 노인 보행사고 위험성이 높아 보행 안전 취약지역으로 파악되었다. 이는 스캔통계량이 교통사고 위험 지역 탐색에 효과적임을 의미한다.

기계학습 클러스터링을 이용한 승하차 패턴에 따른 서울시 지하철역 분류 (Classification of Seoul Metro Stations Based on Boarding/ Alighting Patterns Using Machine Learning Clustering)

  • 민미경
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.13-18
    • /
    • 2018
  • 본 연구에서는 기계학습을 이용하여 서울시 지하철역의 승하차 패턴에 따라 지하철역을 분류한다. 대상 데이터는 공공데이터 포탈에서 제공하는 2008년부터 2017년까지 서울 지하철 233개 역에서의 매일 매시간별 승차객 숫자와 하차객 숫자이다. 기계학습 기법으로는 가우시안 혼합 모델(GMM)과 K-평균 클러스터링을 사용한다. 이용객의 승차시간과 하차시간의 분포는 가우시안 혼합 모델로 모델링할 수 있으며, 이를 K-평균 클러스터링을 이용하여 비지도 학습시킨다. 학습결과 서울시 지하철역은 승하차 패턴에 따라 4개의 그룹으로 분류되었다. 본 연구의 결과는 서울시 지하철역의 특성을 파악하여 경제, 사회, 문화적으로 분석하기 위한 주요 기반 지식으로 활용될 수 있다. 본 연구의 방법은 클러스터링이 필요한 모든 공공데이터나 빅데이터에 적용할 수 있다.