• 제목/요약/키워드: Big data Problem

검색결과 574건 처리시간 0.023초

비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구 (A Study on Word Cloud Techniques for Analysis of Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.715-720
    • /
    • 2020
  • 빅데이터 분석에서 텍스트 데이터는 대부분 비정형이고 대용량으로 분석 기법이 정립되지 않아 분석에 어려움이 많았다. 따라서 텍스트 데이터 분석 기법의 하나인 빅데이터 워드클라우드 기법의 실무 적용시 문제점과 유용성 검증을 통한 상용화 가능성을 위해 본 연구를 수행하였다. 본 논문에서는 R 프로그램 워드클라우드 기법을 이용하여 "대통령 UN연설문"을 시각화 분석을 하고 이 기법의 한계와 문제점을 도출한다. 그리고 이를 해결하기 위한 개선된 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다.

A Study on the Recognition for Food Caused by Broadcasting, through Big Data Analysis - Based on the incident of Giant Castella

  • Cho, Myunggeun;Oh, Jungjoo;Jung, Hyun;Lee, Hwansoo
    • Agribusiness and Information Management
    • /
    • 제9권1호
    • /
    • pp.23-36
    • /
    • 2017
  • The incidents of garbage dumplings in 2004 and the report on giant castella are the examples that shows how big the influence of broadcasting on the industry is. There were discussions on the importance of securing the objectivity of broadcasting, however, the existing related researches have lacked the analysis of actual proof for the influence of broadcasting contents, and as that of the law and system was confined to theoretical arguments, there were not enough suggestions for realistic alternatives. In this paper, we will examine the influence of broadcasting contents on the food industry through an analysis of actual proof, and propose alternatives in terms of the law and policy for securing the objectivity and fairness of broadcasting, to solve this problem.

교통 빅데이터의 효율적 저장 및 검색 기술의 설계와 구현 (Design and Implementation of Efficient Storage and Retrieval Technology of Traffic Big Data)

  • 김기수;이재진;김홍회;장유림;함유근
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.207-220
    • /
    • 2019
  • 최근 정보통신기술의 발달은 센서를 바탕으로 수많은 데이터를 구축하고 이를 이용하여 실시간 서비스를 제공할 수 있게 한다. 교통안전공단에서는 디지털 운행기록계를 통해 전국의 상용차의 운행 정보를 수집하고 있다. 전국 상용자의 운행 정보는 교통 분야에서 다방면으로 활용이 가능하다. 그 중 특히 자율주행 분야에서는 실시간으로 운행정보를 분석하여 위험 운전에 대응을 하거나 방지하는데 도움을 줄 수 있다. 그러나 전통적인 데이터베이스 시스템을 이용하여 대용량의 데이터를 실시간 서비스에 적합한 수준의 성능으로 처리하는 데는 한계가 존재한다. 특히 국내에서는 이와 같은 기술적인 문제로 상용차 운행정보의 실시간 분석을 위한 대규모 교통 빅데이터의 처리가 이전에 시도된 적이 없다. 이런 문제를 해결하기 위해 본 연구에서는 새로운 방식의 데이터베이스 서버 시스템 최적화를 진행하였고 실시간 서비스가 가능한 수준임을 확인하였다. 구축된 데이터베이스 시스템을 이용하여 디지털 트윈, 자율주행환경을 마련하기 위한 기반 데이터를 확보할 수 있을 것으로 기대된다.

  • PDF

낸드 플래시 메모리기반 저장 장치에서 다양한 초과 제공을 통한 성능 분석 및 예측 (Performance analysis and prediction through various over-provision on NAND flash memory based storage)

  • 이현섭
    • 디지털융복합연구
    • /
    • 제20권3호
    • /
    • pp.343-348
    • /
    • 2022
  • 최근 급격한 기술의 발달로 다양한 시스템에서 발생하는 데이터양이 증가하고 있으며, 많은 양의 빅데이터(big data)를 처리해야 하는 엔터프라이즈 서버(enterprise server)와 데이터 센터(data center)의 경우 비용이 증가하더라도 높은 안정성과 고성능의 저장 장치를 적용하는 것이 필요하다. 이러한 시스템에서는 고성능의 읽기/쓰기 성능을 제공하는 SSD(solid state disk)를 저장 장치로 사용하는 경우가 많다. 그러나, 페이지 단위로 읽기 쓰기를 하고 블록단위로 지우기 연산을 해야하고 쓰기 전 지우기 연산을 수행해야 하는 특징 때문에 중복 쓰기가 다발할 경우 성능이 저하되는 문제가 있다. 따라서 이러한 성능 저하 문제를 지연시키기 위해 SSD의 내부적으로 초과 제공(over-provision) 기술을 적용하고 있다. 그러나 초과 제공 기술은 성능 대신 많은 저장공간의 비용을 소모하는 단점이 있기 때문에 적정 성능 이상의 비효율적인 기술의 적용은 과대한 비용을 지불하게 만드는 문제가 있다. 본 논문에서는 SSD에서 다양한 초과 제공을 적용하였을 때 발생하는 성능과 비용을 측정하고, 이를 기반으로 시스템에 최적화된 초과 제공 비율을 예측하는 방법을 제안했다. 본 연구를 통해 빅데이터를 처리하는 시스템에서 성능의 요구사항을 만족하기 위한 비용과의 절충점(trade-off)를 찾을 수 있을 것으로 기대한다.

빅데이터 연구동향 분석: 토픽 모델링을 중심으로 (Research Trends Analysis of Big Data: Focused on the Topic Modeling)

  • 박종순;김창식
    • 디지털산업정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.1-7
    • /
    • 2019
  • The objective of this study is to examine the trends in big data. Research abstracts were extracted from 4,019 articles, published between 1995 and 2018, on Web of Science and were analyzed using topic modeling and time series analysis. The 20 single-term topics that appeared most frequently were as follows: model, technology, algorithm, problem, performance, network, framework, analytics, management, process, value, user, knowledge, dataset, resource, service, cloud, storage, business, and health. The 20 multi-term topics were as follows: sense technology architecture (T10), decision system (T18), classification algorithm (T03), data analytics (T17), system performance (T09), data science (T06), distribution method (T20), service dataset (T19), network communication (T05), customer & business (T16), cloud computing (T02), health care (T14), smart city (T11), patient & disease (T04), privacy & security (T08), research design (T01), social media (T12), student & education (T13), energy consumption (T07), supply chain management (T15). The time series data indicated that the 40 single-term topics and multi-term topics were hot topics. This study provides suggestions for future research.

Access efficiency of small sized files in Big Data using various Techniques on Hadoop Distributed File System platform

  • Alange, Neeta;Mathur, Anjali
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.359-364
    • /
    • 2021
  • In recent years Hadoop usage has been increasing day by day. The need of development of the technology and its specified outcomes are eagerly waiting across globe to adopt speedy access of data. Need of computers and its dependency is increasing day by day. Big data is exponentially growing as the entire world is working in online mode. Large amount of data has been produced which is very difficult to handle and process within a short time. In present situation industries are widely using the Hadoop framework to store, process and produce at the specified time with huge amount of data that has been put on the server. Processing of this huge amount of data having small files & its storage optimization is a big problem. HDFS, Sequence files, HAR, NHAR various techniques have been already proposed. In this paper we have discussed about various existing techniques which are developed for accessing and storing small files efficiently. Out of the various techniques we have specifically tried to implement the HDFS- HAR, NHAR techniques.

Count-Min HyperLogLog : 네트워크 빅데이터를 위한 카디널리티 추정 알고리즘 (Count-Min HyperLogLog : Cardinality Estimation Algorithm for Big Network Data)

  • 강신정;양대헌
    • 정보보호학회논문지
    • /
    • 제33권3호
    • /
    • pp.427-435
    • /
    • 2023
  • 카디널리티 추정은 실생활의 많은 곳에서 사용되며, 큰 범위의 데이터를 처리하는 데 근본적 문제이다. 인터넷이 빅데이터의 시대로 넘어가며 데이터의 크기는 점점 커지고 있지만, 작은 온칩 캐시 메모리만을 이용하여 카디널리티 추정이 이뤄진다. 메모리를 효율적으로 사용하기 위해서, 지금까지 많은 방법이 제안되었다. 그러나, 이러한 알고리즘에서는 estimator 간의 노이즈 발생으로 인해 정확도가 떨어지는 일이 발생한다. 이 논문에서는 노이즈를 최소화하는데 중점을 뒀다. 우리는 여러 개의 데이터 구조를 제안하여 각 estimator가 데이터 구조 수만큼의 추정값을 가지고, 이 중 가장 작은 값을 선택하여 노이즈를 최소화한다. 실험을 통해 이 방법이 이전의 가장 좋은 방법과 비교했을 때, 플로우당 1 bit와 같은 작은 메모리를 사용하면서 더 좋은 성능을 보이는 것을 확인했다.

문화예술기관 기본정보의 품질개선과 연계를 위한 지식그래프 구축 (Constructing a Knowledge Graph for Improving Quality and Interlinking Basic Information of Cultural and Artistic Institutions)

  • 선은택;김학래
    • 정보관리학회지
    • /
    • 제40권4호
    • /
    • pp.329-349
    • /
    • 2023
  • 정보통신 기술이 빠르게 발전하면서 데이터의 생산 속도가 급증하였고, 이는 빅데이터라는 개념으로 대표되고 있다. 단시간에 데이터 규모가 급격하게 증가한 빅데이터에 대해 품질과 신뢰성에 대한 논의도 진행되고 있다. 반면 스몰데이터는 품질이 우수한 최소한의 데이터로, 특정 문제 상황에 필요한 데이터를 의미한다. 문화예술 분야는 다양한 유형과 주제의 데이터가 존재하며 빅데이터 기술을 활용한 연구가 진행되고 있다. 하지만 문화예술기관의 기본정보가 정확하게 제공되고 활용되는지를 탐색한 연구는 부족하다. 기관의 기본정보는 대부분의 빅데이터 분석에서 사용하는 필수적인 근거일 수 있고, 기관을 식별하기 위한 출발점이 된다. 본 연구는 문화예술 기관의 기본정보를 다루는 데이터를 수집하여 공통 메타데이터를 정의하고, 공통 메타데이터를 중심으로 기관을 연계하는 지식그래프 형태로 스몰데이터를 구축하였다. 이는 통합적으로 문화예술기관의 유형과 특징을 탐색할 수 있는 방안이 될 수 있다.

용접 빅데이터 환경에서 상관분석 및 회귀분석을 이용한 작업 패턴 분석 모형에 관한 연구 (A Study on a Working Pattern Analysis Prototype using Correlation Analysis and Linear Regression Analysis in Welding BigData Environment)

  • 정세훈;심춘보
    • 한국전자통신학회논문지
    • /
    • 제9권10호
    • /
    • pp.1071-1078
    • /
    • 2014
  • 최근 빅데이터(Big Data)를 이용한 정보 제공 서비스가 확대되고 빅데이터 처리 기술 역시 IT 업체의 중요한 이슈로 학문적인 연구가 활발히 진행되고 있는 실정이다. 이에 본 논문에서는 R 프로그래밍을 기반으로 용접의 빅데이터 분석 및 추출을 통하여 용접사의 숙련된 패턴을 분석하고 분석된 결과를 비 숙련공에게 제공함으로써 용접 품질 및 용접 시간 단축 등의 용접 작업에 적용되는 비용을 절감하고자 한다. 용접은 숙련공이 되기 위하여 오랜 시간을 투자해야 하는 문제점이 있다. 이러한 단점을 해결하고자 숙련공들의 용접 패턴 분석을 위하여 다량의 패턴 변수에 R의 연관 규칙 알고리즘과 회귀분석 방식을 적용한다. 상위 N개의 규칙을 분석한 후 분석된 규칙의 변수에 따른 숙련자의 패턴을 분석한다. 본 논문에서는 분석된 용접 패턴 분석을 통해 실험 결과를 분석하여 전력소비량과 와이어 소모 길이에 대한 패턴 구조를 확인하였다.

U-Healthcare 기기에서 DRDoS공격 보안위협과 Big Data를 융합한 대응방안 연구 (A Study on Countermeasures of Convergence for Big Data and Security Threats to Attack DRDoS in U-Healthcare Device)

  • 허윤아;이근호
    • 한국융합학회논문지
    • /
    • 제6권4호
    • /
    • pp.243-248
    • /
    • 2015
  • U-Healthcare는 언제, 어디서나 환자의 건강을 검사하고 관리하며 유지할 수 있도록 하는 의료와 IT가 융합된 서비스이다. U-Healthcare 서비스에서 이루어지는 통신은 검진한 분석 결과나 긴급 데이터를 무선 통신방식을 이용하여 병원 서버에 전송하는 방식이 활용되고 있다. 이 때 악의적인 접근을 수행하는 자(공격자)가 U-Healthcare기기나 BS(Base Station)에 DRDoS(Distributed Reflection DoS)공격을 하면 위급한 환자의 상황 정보가 병원 서버까지 전송되지 않는 다양한 피해가 예상된다. 이를 대응하기 위해 DRDoS 공격 시나리오와 DRDoS에 대한 대응방안을 제안하고 대량의 패킷을 처리할 수 있는 빅데이터와 융합한다. 공격자가 U-Healthcare 기기나 BS(Base Station)를 공격 시 DB와 연동하여 일치하면 공격을 막는다. 본 논문은 원격의료 서비스인 U-Healthcare기기나 BS에서 나타날 수 있는 공격방법을 분석하고, 빅데이터를 활용하여 보안 위협에서의 대응방안을 제안한다.