• 제목/요약/키워드: Big data collection

검색결과 342건 처리시간 0.029초

빅데이터 분석을 위한 자료 수집 방안 비교 (Conparison of Data Collection Methods for Big Data Analysis)

  • 김성국;오창헌
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.422-424
    • /
    • 2018
  • 최근 빅데이터 분석에 대한 관심이 높아지고 자료의 수집 방법에 대한 방법도 다양하게 개발되어 지고 있으나 연구자가 이러한 대규모 데이터를 수집 이용하기는 여전히 쉽지 않은 실정이다. 본 논문에서는 연구자가 여러 가지 방법을 활용하여 빅데이터를 수집하는 방안을 비교 분석하여 제시하고자 한다. 본인의 연구 목적에 부합하는 수집 방법을 잘 선택하여 활용한다면 원하는 연구결과를 제공 받을 수 있을 것으로 기대한다.

  • PDF

실험실정보관리시스템의 확장을 위한 오픈 소스 기반의 빅데이터 처리 기술에 관한 연구 (A Study on Big Data Processing Technology Based on Open Source for Expansion of LIMS)

  • 김순곤
    • 한국정보전자통신기술학회논문지
    • /
    • 제14권2호
    • /
    • pp.161-167
    • /
    • 2021
  • 실험실정보관리시스템(LIMS, Laboratory Information Management System)은 실험실 데이터를 저장, 가공, 검색 그리고 분석하기 위한 중앙화된 데이터베이스로서 검사, 분석, 시험 업무를 수행하는 실험실을 위해 특별히 고안된 컴퓨터 시스템 또는 시스템을 의미한다. 특히 LIMS는 실험실의 운영을 지원하는 기능을 갖추고 있으며, 워크플로우 관리나 데이터 추적지원 등이 필요하다. 본 논문에서는 실험실의 운영을 위하여 빅데이터 자동화 수집 기술의 하나인 크롤링 기술을 활용하여 웹사이트 및 다양한 채널에 존재하는 데이터를 수집한다. 수집된 시험 방법 및 내용 중 시험자가 활용할 수 있는 유용한 시험 방법 및 내용을 추천한다. 그리고 이에 대한 피드백을 관리하여 수집 채널의 검증이 가능한 상호보완적인 LIMS 플랫폼을 구현한다.

빅데이터 분석을 위한 비용효과적 오픈 소스 시스템 설계 (Designing Cost Effective Open Source System for Bigdata Analysis)

  • 이종화;이현규
    • 지식경영연구
    • /
    • 제19권1호
    • /
    • pp.119-132
    • /
    • 2018
  • Many advanced products and services are emerging in the market thanks to data-based technologies such as Internet (IoT), Big Data, and AI. The construction of a system for data processing under the IoT network environment is not simple in configuration, and has a lot of restrictions due to a high cost for constructing a high performance server environment. Therefore, in this paper, we will design a development environment for large data analysis computing platform using open source with low cost and practicality. Therefore, this study intends to implement a big data processing system using Raspberry Pi, an ultra-small PC environment, and open source API. This big data processing system includes building a portable server system, building a web server for web mining, developing Python IDE classes for crawling, and developing R Libraries for NLP and visualization. Through this research, we will develop a web environment that can control real-time data collection and analysis of web media in a mobile environment and present it as a curriculum for non-IT specialists.

빅데이터, 비즈니스 애널리틱스, IoT: 경영의 새로운 도전과 기회 (Big Data, Business Analytics, and IoT: The Opportunities and Challenges for Business)

  • 장영재
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제24권4호
    • /
    • pp.139-152
    • /
    • 2015
  • With the advancement of the Internet/IT technologies and the increased computation power, massive data can be collected, stored, and processed these days. The availability of large databases has brought forth a new era in which companies are hard pressed to find innovative ways to utilize immense amounts of data at their disposal. Indeed, data has opened a new age of business operations and management. There are already many cases of innovative businesses reaping success thanks to scientific decisions based on data analysis and mathematical algorithms. Big Data is a new paradigm in itself. In this article, Big Data is viewed as a new perspective rather than a new technology. This value centric definition of Big Data provides a new insight and opportunities. Moreover, the Business Analytics, which is the framework of creating tangible results in management, is introduced. Then the Internet of Things (IoT), another innovative concept of data collection and networking, is presented and how this new concept can be interpreted with Big Data in terms of the value centric perspective. The challenges and opportunities with these new concepts are also discussed.

Efficient K-Anonymization Implementation with Apache Spark

  • Kim, Tae-Su;Kim, Jong Wook
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.17-24
    • /
    • 2018
  • Today, we are living in the era of data and information. With the advent of Internet of Things (IoT), the popularity of social networking sites, and the development of mobile devices, a large amount of data is being produced in diverse areas. The collection of such data generated in various area is called big data. As the importance of big data grows, there has been a growing need to share big data containing information regarding an individual entity. As big data contains sensitive information about individuals, directly releasing it for public use may violate existing privacy requirements. Thus, privacy-preserving data publishing (PPDP) has been actively studied to share big data containing personal information for public use, while preserving the privacy of the individual. K-anonymity, which is the most popular method in the area of PPDP, transforms each record in a table such that at least k records have the same values for the given quasi-identifier attributes, and thus each record is indistinguishable from other records in the same class. As the size of big data continuously getting larger, there is a growing demand for the method which can efficiently anonymize vast amount of dta. Thus, in this paper, we develop an efficient k-anonymity method by using Spark distributed framework. Experimental results show that, through the developed method, significant gains in processing time can be achieved.

빅데이터 분석 적용을 통한 공정 최적화 사례연구: LCD 공정 품질분석을 중심으로 (A Case Study on Product Production Process Optimization using Big Data Analysis: Focusing on the Quality Management of LCD Production)

  • 박종태;이상곤
    • 한국IT서비스학회지
    • /
    • 제21권2호
    • /
    • pp.97-107
    • /
    • 2022
  • Recently, interest in smart factories is increasing. Investments to improve intelligence/automation are also being made continuously in manufacturing plants. Facility automation based on sensor data collection is now essential. In addition, we are operating our factories based on data generated in all areas of production, including production management, facility operation, and quality management, and an integrated standard information system. When producing LCD polarizer products, it is most important to link trace information between data generated by individual production processes. All systems involved in production must ensure that there is no data loss and data integrity is ensured. The large-capacity data collected from individual systems is composed of key values linked to each other. A real-time quality analysis processing system based on connected integrated system data is required. In this study, large-capacity data collection, storage, integration and loss prevention methods were presented for optimization of LCD polarizer production. The identification Risk model of inspection products can be added, and the applicable product model is designed to be continuously expanded. A quality inspection and analysis system that maximizes the yield rate was designed by using the final inspection image of the product using big data technology. In the case of products that are predefined as analysable products, it is designed to be verified with the big data knn analysis model, and individual analysis results are continuously applied to the actual production site to operate in a virtuous cycle structure. Production Optimization was performed by applying it to the currently produced LCD polarizer production line.

소셜 빅데이터 특성을 활용한 ICT 정책 격발 메커니즘 분석방법 제안 (A Study on the Analysis Method of ICT Policy Triggering Mechanism Using Social Big Data)

  • 최홍규
    • 한국멀티미디어학회논문지
    • /
    • 제24권8호
    • /
    • pp.1192-1201
    • /
    • 2021
  • This study focused on how to analyze the ICT policy formation process using social big data. Specifically, in this study, a method for quantifying variables that influenced policy formation using the concept of a policy triggering mechanism and elements necessary to present the analysis results were proposed. For the analysis of the ICT policy triggering mechanism, variables such as 'Scope', 'Duration', 'Interactivity', 'Diversity', 'Attention', 'Preference', 'Transmutability' were proposed. In addition, 'interpretation of results according to data level', 'presentation of differences between collection and analysis time points', and 'setting of garbage level' were suggested as elements necessary to present the analysis results.

수산과학 빅데이터 플랫폼 구축과 메타 데이터 관리방안 (Fishery R&D Big Data Platform and Metadata Management Strategy)

  • 김재성;최영진;한명수;황재동;조완섭
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.93-103
    • /
    • 2019
  • 본 논문에서는 수산과학 R&D 정보의 빅데이터 플랫폼 구축과 메타 데이터 관리기법에 관해 소개한다. 빅데이터 플랫폼에서는 다양한 유형의 수산과학 R&D 정보를 수집하여 통합 연계하고, 이를 데이터 레이크 형태로 구축하는 방안을 제시한다. 수산과학 분야에서 수집, 축적되고 있는 기존의 데이터와 함께 위성영상 데이터, 연구보고서 등 비정형 빅데이터까지 수집하여 다양한 분석을 지원하는 빅데이터 플랫폼의 구축방안을 제시한다. 다음으로 데이터 추출과 전처리 및 저장 과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다. 빅데이터 플랫폼 구축과 함께 메타 데이터를 표준양식으로 구축함으로써 데이터의 수집, 저장, 활용 및 유통 등 데이터 수명주기 전반에 걸쳐 체계적이고도 지속적인 빅데이터 관리 방안을 제시하는데 의의가 있다.

  • PDF

Proposal of AI-based Digital Forensic Evidence Collecting System

  • Jang, Eun-Jin;Shin, Seung-Jung
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제13권3호
    • /
    • pp.124-129
    • /
    • 2021
  • As the 4th industrial era is in full swing, the public's interest in related technologies such as artificial intelligence, big data, and block chain is increasing. As artificial intelligence technology is used in various industrial fields, the need for research methods incorporating artificial intelligence technology in related fields is also increasing. Evidence collection among digital forensic investigation techniques is a very important procedure in the investigation process that needs to prove a specific person's suspicions. However, there may be cases in which evidence is damaged due to intentional damage to evidence or other physical reasons, and there is a limit to the collection of evidence in this situation. Therefore, this paper we intends to propose an artificial intelligence-based evidence collection system that analyzes numerous image files reported by citizens in real time to visually check the location, user information, and shooting time of the image files. When this system is applied, it is expected that the evidence expected data collected in real time can be actually used as evidence, and it is also expected that the risk area analysis will be possible through big data analysis.

스마트팜 구축을 위한 데이터수집의 문제점 분석 연구 (A Study on Analysis of Problems in Data Collection for Smart Farm Construction)

  • 김송강;남기포
    • 융합보안논문지
    • /
    • 제22권5호
    • /
    • pp.69-80
    • /
    • 2022
  • 기후변화 및 식량자원안보가 전 세계적으로 이슈화 되어 지고 있는 지금 스마트팜은 이를 해결할 수 있는 대안으로 떠오르고 있다. 또한 1차 산업에 있어 생산 환경의 변화는 모든 1차 산업(농업, 축산업, 어업)에 종사하는 사람들의 주요 관심사 이며, 이로 인해 발생하는 식량부족 문제는 우리 모두가 해결해야 할 중요문제이다. 이와 같은 문제를 해결하기 위해 1차 산업에서는 ICT 및 BT등 4차 산업 혁명과 기술인 IoT 빅데이터 및 인공지능 기술을 활용하여 스마트팜을 도입함으로 해서 생산성 향상을 통해 식량부족 문제를 해결하려는 노력이 민관을 통해 이루어지고 있다. 본 논문은 스마트팜의 발전 및 활용, 지속 가능한 농업경영 시스템구축을 위한 스마트팜 데이터 수집 시스템이 갖추어야 할 최소요건 및 순차적인 시스템 구축 방안, 목적성을 갖는 효율적이고 활용 가능한 데이터 수집 시스템 등에 관해고찰 하고자 한다. 특히 한계에 부딪치고 있는 한국형 스마트팜 표준모델 구축을 위한 데이터수집시스템의 문제점을 농축산(양돈)분야의 심층적인 조사와 다양한 사례분석을 기반으로 분석하고 개선하여 효율적이고 활용 가능한 빅데이터 수집시스템 구축을 목표로 빅데이터 수집방안을 제안하고자 한다.