• 제목/요약/키워드: 빅데이터 알고리즘

검색결과 472건 처리시간 0.025초

빅데이터 분석을 위한 파티션 기반 시각화 알고리즘 (Partition-based Big Data Analysis and Visualization Algorithm)

  • 홍준기
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.147-154
    • /
    • 2020
  • 오늘날 빅데이터로부터 유의미한 결과를 도출하는 연구가 활발히 진행되고 있다. 본 논문에선 빅데이터의 데이터의 영역들을 파티션(partition)으로 설정하고 각 파티션들의 대표 값을 계산하여 변수들 사이의 상관관계를 분석 할 수 있는 파티션 기반 빅데이터 분석 알고리즘을 제안한다. 본 논문에선 파티션의 크기조절이 가능한 파티션 기반 빅데이터 분석 알고리즘의 파티션 크기 변화에 따른 시각화 결과를 비교분석하였다. 제안한 파티션 기반 빅데이터 분석 알고리즘을 검증하기 위해 의류 회사 'A'의 빅데이터를 분석하여 온도와 판매 가격 변화에 따른 상품의 판매량 변화를 분석하고 시각화하여 유의미한 결과를 얻을 수 있었다.

빅 데이터 처리를 위한 적응적 사용자 및 토픽 모델링 기반 자동 TV 프로그램 추천시스템 (Adaptive User and Topic Modeling based Automatic TV Recommender System for Big Data Processing)

  • 김은희;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.195-198
    • /
    • 2015
  • 최근 TV 서비스의 가입자 및 TV 프로그램 콘텐츠의 급격한 증가에 따라 빅데이터 처리에 적합한 추천 시스템의 필요성이 증가하고 있다. 본 논문은 사용자들의 간접 평가 데이터 기반의 추천 시스템 디자인 시, 누적된 사용자의 과거 이용내역 데이터를 저장하지 않고 새로 생성된 사용자 이용내역 데이터를 학습하는 효율적인 알고리즘이면서, 시간 흐름에 따라 사용자들의 선호도 변화 및 TV 프로그램 스케줄 변화의 추적이 가능한 토픽 모델링 기반의 알고리즘을 제안한다. 빅데이터 처리를 위해서는 분산처리 형태의 알고리즘을 피할 수 없는데, 기존의 연구들 중 토픽 모델링 기반의 추론 알고리즘의 병렬분산처리 과정 중에 핵심이 되는 부분은 많은 데이터를 여러 대의 기계에 나누어 병렬분산 학습하면서 전역변수 데이터를 동기화하는 부분이다. 그런데, 이러한 전역데이터 동기화 기술에 있어, 여러 대의 컴퓨터를 병렬분산처리하기위한 하둡 기반의 시스템 및 서버-클라이언트간의 중재, 고장 감내 시스템 등을 모두 고려한 알고리즘들이 제안되어 왔으나, 네트워크 대역폭 한계로 인해 데이터 증가에 따른 동기화 시간 지연은 피할 수 없는 부분이다. 이에, 본 논문에서는 빅데이터 처리를 위해 사용자들을 클러스터링하고, 클러스터별 제안 알고리즘으로 전역데이터 동기화를 수행한 것과 지역 데이터를 활용하여 추론 연산한 결과, 클러스터별 지역별 TV프로그램 시청 토큰 별 은닉토픽 할당 테이블을 유지할 때 추천 성능이 더욱 향상되어 나오는 결과를 확인하여, 제안된 구조의 추천 시스템 디자인의 효율성과 합리성을 확인할 수 있었다.

  • PDF

인공지능과 빅데이터가 시장진입 기업에 미치는 영향관계 분석, 게임이론 적용을 중심으로 (The Effect of AI and Big Data on an Entry Firm: Game Theoretic Approach)

  • 정직한
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.95-111
    • /
    • 2021
  • 인공지능과 빅데이터의 기술혁신에도 인공지능과 빅데이터가 시장경쟁 영향에 대한 이론연구들은 아직 초기이다. 따라서 본 논문은 인공지능, 빅데이터, 데이터 공유가 신규 진입기업에 미치는 영향을 게임이론을 활용하여 분석하였다. 먼저 기업의 경영환경을 내부와 외부로 구분하였다. 이후 인공지능 알고리즘을 (1) 고객마케팅, (2) 비용 절감, (3) 비용 절감을 위한 자동화 알고리즘으로 구분하였다. 또한 빅데이터를 외부 및 내부 데이터로 구분하였다. 분석 결과 외부 데이터의 공유는 기존 기업의 고객마케팅 알고리즘에는 영향이 없고 신규 기업의 진입장벽을 완화했다. 하지만 기존 기업의 비용 절감 알고리즘들과 내부 빅데이터의 개선은 신규기업의 시장진입 장벽이 될 수 있다. 이러한 시사점들은 (1) 인공지능, 빅데이터, 데이터 공유에 따른 시장구조, 경쟁, 기업행태 영향분석과 (2) 인공지능과 빅데이터 정책수립 시 이바지할 수 있다.

빅데이터를 위한 라우팅 메시지 재전송 기법 연구 (A Study on Routing Message Retransmission Scheme for Big data)

  • 이병준;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.395-396
    • /
    • 2014
  • 최근 소셜 네트워크 서비스로 대표되는 정보유통 매체의 급격한 발전으로 인해 데이터 빅뱅(Data Big Bang)이라 할 수 있는 데이터의 폭발적인 증가 현상에 따라 빅데이터에 대한 관심이 급격히 증대되고 있다. 빅데이터 관련 기술들은 기본적으로 대용량 데이터를 하나의 노드로 관리하는 것이 아닌 여러 노드를 연결하기 때문에 효율적인 데이터 관리를 위해서 노드 간 연결을 담당하는 라우팅 알고리즘의 중요성 역시 대두되고 있다. 본 논문에서 대용량 데이터를 위한 효율적 라우팅 알고리즘을 위해 새로운 라우팅 메시지 재전송 기법을 위한 혼잡 확률 연산 알고리즘을 제안한다.

  • PDF

빅데이터 분석에 기반한 아동학대의 이해 -머신러닝 알고리즘 개발 기초연구- (Understanding Child Abuse Based on Big Data Analysis -A Basic Study on the Development of Machine Learning Algorithm-)

  • 배정호;범은애
    • 사물인터넷융복합논문지
    • /
    • 제8권4호
    • /
    • pp.57-63
    • /
    • 2022
  • 본 연구의 목적은 아동학대 예방을 위한 방안 마련의 일환으로 빅데이터 분석과 머신러닝 알고리즘을 활용한 정책개발의 기초자료를 제공하는데 있다. 아동학대 예방을 위한 머신러닝 알고리즘 개발을 위한 빅데이터 분석을 위해 학술데이터베이스와 사회관계망서비스 자료를 빅데이터로 정의하고 빈도, 연관어, 감성분석을 시행하였다. 연구결과 예방적 아동학대 알고리즘은 학술빅데이터 분석에 나타난 아동학대 관련 세 주체 피해아동, 가해양육자, 정부당국의 관점에서 아동학대 예방을 위한 데이터 수집 및 공유 네트워크 시스템 마련을 통해 개발이 가능할 것이다. 또한 아동학대 피해아동의 특성에서 자아개념 저하 등으로 우울 및 불안이 나타남을 단서로 영유아 자아존중감 및 우울, 불안 검사를 제도화함으로써 가능할 것이다. 아동학대 예방을 위한 빅데이터 수집 및 분석, 알고리즘 개발 연구의 지속적 진행을 제안하며 아동학대 예방을 위한 실효적 정책 마련이 실현되어 아동학대범죄가 근절되기를 기대한다.

IoT 빅데이터와 블록체인 기술의 효과적 융합을 위한 수정된 PBFT연구 (A Study on Modified PBFT Study for Effective Convergence of IoT Big Data and Blockchain Technology)

  • 백영태;민연아
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.193-194
    • /
    • 2020
  • 블록체인의 활용이 다양해지며 블록체인을 통한 산업, 정부의 기술적용이 확산되고 있다. 특히 사물인터넷 등 빅데이터 관리를 위한 방법으로 블록체인과의 융합도 적지 않게 거론되고 있다. 사물인터넷과 같은 빅데이터를 효과적으로 관리하기 위해서는 수집 및 저장과정과 더불어 투명하고 정확한 신뢰기반의 데이터 관리가 필요하다. 현재 블록체인의 프라이빗 블록체인 플랫폼에서 가장 많이 제시되고 활용되는 합의알고리즘은 PBFT이다. PBFT의 경우 노드 증가에 따른 연산알고리즘의 과중으로 인한 속도저하가 문제가 될 수 있다. 본 논문에서는 PBFT의 합의과정에 대한 알고리즘을 수정하여 노드 증가 시에도 복잡도를 낮출 수 있는 방법을 제안하였다. 본 논문에서는 시뮬레이션을 통하여 노드 개수를 변형하며 기존 PBFT알고리즘 대비 제안 알고리즘의 우수성을 증명한다.

  • PDF

온라인 유통사의 자체 브랜드, 왜 문제가 되고 어떻게 접근해야 하나?

  • 김태경;김성수;이규현
    • 한국벤처창업학회:학술대회논문집
    • /
    • 한국벤처창업학회 2022년도 춘계학술대회
    • /
    • pp.215-219
    • /
    • 2022
  • 디지털 플랫폼을 기반으로 한 벤처를 성공적으로 육성하려면 빅데이터와 인공지능 알고리즘을 바탕으로 한 비즈니스 모델이 사회적으로 적합한 형태로 수용되어야 한다. 그러나 디지털 벤처가 데이터와 알고리즘 활용에 있어 공정한가에 대한 의구심과 도전이 지속되고 있으며 이와 관련된 연구 노력도 부족한 실정이다. 본 연구는 온라인 유통 플랫폼 벤처로 급격히 성장한 쿠팡이 직면한 도전을 통해 빅데이터와 알고리즘 기반의 비즈니스 수행에 따른 어려움과 이에 대한 이론적 고찰을 시도했다. 쿠팡의 도전을 알고리즘, 빅데이터, 자동 최저가 매칭 시스템, 그리고 오프라인 업체의 비교 데이터 활용에 관한 문제로 정리했다. 이들 각각에 대하여 의무 범위론의 관점에서 문제 해결의 실마리를 제시하였다. 본 연구는 쿠팡의 자체 브랜드 출시를 배경으로 디지털 플랫폼 기반의 벤처 기업이 성장하면서 제기되는 사회적 도전 과제들을 검토함으로써 지속가능성을 유지하기 위한 전략적 고민과 실천적 연구 노력이 뒤따를 필요성을 환기시킨다.

  • PDF

빅데이터 플랫폼 환경에서의 워크로드별 암호화 알고리즘 성능 분석 (Analysis of Encryption Algorithm Performance by Workload in BigData Platform)

  • 이선주;허준범
    • 정보보호학회논문지
    • /
    • 제29권6호
    • /
    • pp.1305-1317
    • /
    • 2019
  • 공공기관 및 기업의 빅데이터 플랫폼 환경에서 데이터 보호를 위한 암호화는 필수적인 요소이나 실제 빅데이터 워크로드를 고려한 암호화 알고리즘에 대한 성능 검증 연구는 많이 진행되지 않았다. 본 논문에서는 몽고 DB(MongoDB) 환경에서 데이터와 노드를 추가하여 빅데이터의 6가지 워크로드별로 AES, ARIA, 3DES별로 성능 변화 추이를 분석하였다. 이를 통해 빅데이터 플랫폼 환경에서 각 워크로드 별 최적의 블록기반 암호 알고리즘이 무엇인지 확인하고, NoSQL 데이터베이스 벤치마크(YCSB)를 사용하여 데이터와 노드 구성환경에서 다양한 워크로드별로 테스트를 통해 MongoDB의 성능을 고려한 최적화된 아키텍처를 제안한다.

인문학적 관점으로 본 빅데이터 활용을 위한 당면 문제 (Current Issues with the Big Data Utilization from a Humanities Perspective)

  • 박은하;전진우
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.125-134
    • /
    • 2022
  • 이 연구는 인문학적 관점에서 빅데이터를 활용하기 위해 현재 해결해야 할 과제는 무엇인지를 비판적으로 고찰하고자 하였다. 이를 위해 빅데이터를 활용함에 있어서 빅데이터를 수집할 때, 처리할 때, 그리고 사용할 때 발생할 수 있는 문제를 세 가지로 제시하고 논의하였다. 그 첫 번째로 데이터 자체의 문제점을 지닐 것으로 보이는 가짜 정보를 지적하고 기사형 광고와 정치 관련 가짜 뉴스를 살펴보았다. 두 번째는 빅데이터 처리과정과 그 결과의 문제점으로 알고리즘에 의한 차별을 들었다. 포털 사이트에서 엔지니어를 검색한 결과를 분석함으로써 알고리즘에 의한 차별이 존재함을 확인하였다. 마지막으로 사람과 관련한 개인 정보를 사용함에 있어서, 이에 대한 문제점을 프라이버시권, 정보자기결정권, 잊힐 권리 세 가지로 나누어 논의하였다. 이 연구는 빅데이터 시대에 인문학적 관점에서 빅데이터 활용 측면의 당면한 문제를 지적한 점과 빅데이터의 활용 과정인 수집, 처리, 사용에서 일어날 수 있는 문제점을 각각 논의한 점에서 의미가 있다고 본다.

대용량 네트워크 압축 기반 클러스터링 알고리즘 개발 (Development of Clustering Algorithm based on Massive Network Compression)

  • 서동민;유석종;이민호
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF