• Title/Summary/Keyword: 빅데이터 알고리즘

Search Result 458, Processing Time 0.026 seconds

Partition-based Big Data Analysis and Visualization Algorithm (빅데이터 분석을 위한 파티션 기반 시각화 알고리즘)

  • Hong, Jun-Ki
    • The Journal of Bigdata
    • /
    • v.5 no.1
    • /
    • pp.147-154
    • /
    • 2020
  • Today, research is actively being conducted to derive meaningful results from big data. In this paper, we propose a partition-based big data analysis algorithm that can analyze the correlation between variables by setting the data areas of big data as partitions and calculating the representative values of each partition. In this paper, the analyzed visualization results are compared according to the partition size of a proposed partition-based big data analysis (PBDA) algorithm that can control the size of the partition. In order to verify the proposed PBDA algorithm, the big data of 'A' is analyzed, and meaningful results are obtained through the analysis of changes in sales volume of products according to changes in temperature and sales price.

Adaptive User and Topic Modeling based Automatic TV Recommender System for Big Data Processing (빅 데이터 처리를 위한 적응적 사용자 및 토픽 모델링 기반 자동 TV 프로그램 추천시스템)

  • Kim, EunHui;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.195-198
    • /
    • 2015
  • 최근 TV 서비스의 가입자 및 TV 프로그램 콘텐츠의 급격한 증가에 따라 빅데이터 처리에 적합한 추천 시스템의 필요성이 증가하고 있다. 본 논문은 사용자들의 간접 평가 데이터 기반의 추천 시스템 디자인 시, 누적된 사용자의 과거 이용내역 데이터를 저장하지 않고 새로 생성된 사용자 이용내역 데이터를 학습하는 효율적인 알고리즘이면서, 시간 흐름에 따라 사용자들의 선호도 변화 및 TV 프로그램 스케줄 변화의 추적이 가능한 토픽 모델링 기반의 알고리즘을 제안한다. 빅데이터 처리를 위해서는 분산처리 형태의 알고리즘을 피할 수 없는데, 기존의 연구들 중 토픽 모델링 기반의 추론 알고리즘의 병렬분산처리 과정 중에 핵심이 되는 부분은 많은 데이터를 여러 대의 기계에 나누어 병렬분산 학습하면서 전역변수 데이터를 동기화하는 부분이다. 그런데, 이러한 전역데이터 동기화 기술에 있어, 여러 대의 컴퓨터를 병렬분산처리하기위한 하둡 기반의 시스템 및 서버-클라이언트간의 중재, 고장 감내 시스템 등을 모두 고려한 알고리즘들이 제안되어 왔으나, 네트워크 대역폭 한계로 인해 데이터 증가에 따른 동기화 시간 지연은 피할 수 없는 부분이다. 이에, 본 논문에서는 빅데이터 처리를 위해 사용자들을 클러스터링하고, 클러스터별 제안 알고리즘으로 전역데이터 동기화를 수행한 것과 지역 데이터를 활용하여 추론 연산한 결과, 클러스터별 지역별 TV프로그램 시청 토큰 별 은닉토픽 할당 테이블을 유지할 때 추천 성능이 더욱 향상되어 나오는 결과를 확인하여, 제안된 구조의 추천 시스템 디자인의 효율성과 합리성을 확인할 수 있었다.

  • PDF

The Effect of AI and Big Data on an Entry Firm: Game Theoretic Approach (인공지능과 빅데이터가 시장진입 기업에 미치는 영향관계 분석, 게임이론 적용을 중심으로)

  • Jeong, Jikhan
    • Journal of Digital Convergence
    • /
    • v.19 no.7
    • /
    • pp.95-111
    • /
    • 2021
  • Despite the innovation of AI and Big Data, theoretical research bout the effect of AI and Big Data on market competition is still in early stages; therefore, this paper analyzes the effect of AI, Big Data, and data sharing on an entry firm by using game theory. In detail, the firms' business environments are divided into internal and external ones. Then, AI algorithms are divided into algorithms for (1) customer marketing, (2) cost reduction without automation, and (3) cost reduction with automation. Big Data is also divided into external and internal data. this study shows that the sharing of external data does not affect the incumbent firm's algorithms for consumer marketing while lessening the entry firm's entry barrier. Improving the incumbent firm's algorithms for cost reduction (with and without automation) and external data can be an entry barrier for the entry firm. These findings can be helpful (1) to analyze the effect of AI, Big Data, and data sharing on market structure, market competition, and firm behaviors and (2) to design policy for AI and Big Data.

A Study on Routing Message Retransmission Scheme for Big data (빅데이터를 위한 라우팅 메시지 재전송 기법 연구)

  • Lee, Byung-Jun;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.395-396
    • /
    • 2014
  • 최근 소셜 네트워크 서비스로 대표되는 정보유통 매체의 급격한 발전으로 인해 데이터 빅뱅(Data Big Bang)이라 할 수 있는 데이터의 폭발적인 증가 현상에 따라 빅데이터에 대한 관심이 급격히 증대되고 있다. 빅데이터 관련 기술들은 기본적으로 대용량 데이터를 하나의 노드로 관리하는 것이 아닌 여러 노드를 연결하기 때문에 효율적인 데이터 관리를 위해서 노드 간 연결을 담당하는 라우팅 알고리즘의 중요성 역시 대두되고 있다. 본 논문에서 대용량 데이터를 위한 효율적 라우팅 알고리즘을 위해 새로운 라우팅 메시지 재전송 기법을 위한 혼잡 확률 연산 알고리즘을 제안한다.

  • PDF

Understanding Child Abuse Based on Big Data Analysis -A Basic Study on the Development of Machine Learning Algorithm- (빅데이터 분석에 기반한 아동학대의 이해 -머신러닝 알고리즘 개발 기초연구-)

  • Bae, Jungho;Burm, Eunae
    • Journal of Internet of Things and Convergence
    • /
    • v.8 no.4
    • /
    • pp.57-63
    • /
    • 2022
  • The purpose of this study is to provide basic data on policy development using big data analysis and machine learning algorithms as part of preparing measures to prevent child abuse. In order to analyze big data for developing machine learning algorithms to prevent child abuse, frequency analysis, related word analysis, and emotional analysis were performed after defining academic databases and social network service data as big data. related words, and emotional analysis were conducted. As a result of the study, a preventive child abuse algorithm can be developed by preparing a data collection and sharing network system to prevent child abuse from the perspective of children affected by child abuse, perpetrators, and government authorities. Although it will be possible by institutionalizing infant self-esteem, depression, and anxiety tests with clues that depression and anxiety appear due to a decrease in self-concept in the characteristics of children affected by child abuse. We suggest that continuous progress of big data collection and analysis and algorithm development research to prevent child abuse, and expects that effective policies to prevent child abuse will be realized to eradicate child abuse crimes.

A Study on Modified PBFT Study for Effective Convergence of IoT Big Data and Blockchain Technology (IoT 빅데이터와 블록체인 기술의 효과적 융합을 위한 수정된 PBFT연구)

  • Baek, Yeong-Tae;Min, Youn-A
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.01a
    • /
    • pp.193-194
    • /
    • 2020
  • 블록체인의 활용이 다양해지며 블록체인을 통한 산업, 정부의 기술적용이 확산되고 있다. 특히 사물인터넷 등 빅데이터 관리를 위한 방법으로 블록체인과의 융합도 적지 않게 거론되고 있다. 사물인터넷과 같은 빅데이터를 효과적으로 관리하기 위해서는 수집 및 저장과정과 더불어 투명하고 정확한 신뢰기반의 데이터 관리가 필요하다. 현재 블록체인의 프라이빗 블록체인 플랫폼에서 가장 많이 제시되고 활용되는 합의알고리즘은 PBFT이다. PBFT의 경우 노드 증가에 따른 연산알고리즘의 과중으로 인한 속도저하가 문제가 될 수 있다. 본 논문에서는 PBFT의 합의과정에 대한 알고리즘을 수정하여 노드 증가 시에도 복잡도를 낮출 수 있는 방법을 제안하였다. 본 논문에서는 시뮬레이션을 통하여 노드 개수를 변형하며 기존 PBFT알고리즘 대비 제안 알고리즘의 우수성을 증명한다.

  • PDF

온라인 유통사의 자체 브랜드, 왜 문제가 되고 어떻게 접근해야 하나?

  • Kim, Tae-Gyeong;Kim, Seong-Su;Lee, Gyu-Hyeon
    • 한국벤처창업학회:학술대회논문집
    • /
    • 2022.04a
    • /
    • pp.215-219
    • /
    • 2022
  • 디지털 플랫폼을 기반으로 한 벤처를 성공적으로 육성하려면 빅데이터와 인공지능 알고리즘을 바탕으로 한 비즈니스 모델이 사회적으로 적합한 형태로 수용되어야 한다. 그러나 디지털 벤처가 데이터와 알고리즘 활용에 있어 공정한가에 대한 의구심과 도전이 지속되고 있으며 이와 관련된 연구 노력도 부족한 실정이다. 본 연구는 온라인 유통 플랫폼 벤처로 급격히 성장한 쿠팡이 직면한 도전을 통해 빅데이터와 알고리즘 기반의 비즈니스 수행에 따른 어려움과 이에 대한 이론적 고찰을 시도했다. 쿠팡의 도전을 알고리즘, 빅데이터, 자동 최저가 매칭 시스템, 그리고 오프라인 업체의 비교 데이터 활용에 관한 문제로 정리했다. 이들 각각에 대하여 의무 범위론의 관점에서 문제 해결의 실마리를 제시하였다. 본 연구는 쿠팡의 자체 브랜드 출시를 배경으로 디지털 플랫폼 기반의 벤처 기업이 성장하면서 제기되는 사회적 도전 과제들을 검토함으로써 지속가능성을 유지하기 위한 전략적 고민과 실천적 연구 노력이 뒤따를 필요성을 환기시킨다.

  • PDF

Analysis of Encryption Algorithm Performance by Workload in BigData Platform (빅데이터 플랫폼 환경에서의 워크로드별 암호화 알고리즘 성능 분석)

  • Lee, Sunju;Hur, Junbeom
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.29 no.6
    • /
    • pp.1305-1317
    • /
    • 2019
  • Although encryption for data protection is essential in the big data platform environment of public institutions and corporations, much performance verification studies on encryption algorithms considering actual big data workloads have not been conducted. In this paper, we analyzed the performance change of AES, ARIA, and 3DES for each of six workloads of big data by adding data and nodes in MongoDB environment. This enables us to identify the optimal block-based cryptographic algorithm for each workload in the big data platform environment, and test the performance of MongoDB by testing various workloads in data and node configurations using the NoSQL Database Benchmark (YCSB). We propose an optimized architecture that takes into account.

Current Issues with the Big Data Utilization from a Humanities Perspective (인문학적 관점으로 본 빅데이터 활용을 위한 당면 문제)

  • Park, Eun-ha;Jeon, Jin-woo
    • The Journal of the Korea Contents Association
    • /
    • v.22 no.6
    • /
    • pp.125-134
    • /
    • 2022
  • This study aims to critically discuss the problems that need to be solved from a humanities perspective in order to utilize big data. It identifies and discusses three research problems that may arise from collecting, processing, and using big data. First, it looks at the fake information circulating with regard to problems with the data itself, specifically looking at article-type advertisements and fake news related to politics. Second, discrimination by the algorithm was cited as a problem with big data processing and its results. This discrimination was seen while searching for engineers on the portal site. Finally, problems related to the invasion of personal related information were seen in three categories: the right to privacy, the right to self-determination of information, and the right to be forgotten. This study is meaningful in that it points out the problems facing in the aspect of big data utilization from the humanities perspective in the era of big data and discusses possible problems in the collection, processing, and use of big data, respectively.

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF