• 제목/요약/키워드: 빅데이터 기법

검색결과 785건 처리시간 0.036초

The Research Trends about the Big Data Using Co-word Analysis (동시출현 단어분석을 활용한 빅데이터 관련 연구동향 분석)

  • Kim, Wanjong
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 한국정보관리학회 2014년도 제21회 학술대회 논문집
    • /
    • pp.17-20
    • /
    • 2014
  • 본 연구는 동시출현 단어분석 기법을 이용하여 최근 전세계적으로 많은 주목을 받고 있는 빅데이터(Big Data) 관련 연구 동향과 연구 영역을 분석하는 것을 목적으로 한다. 이를 위하여 인용색인데이터베이스인 Web of Science SCIE(Science Citation Index Expanded)에서 분석 대상 논문을 수집하였다. 논문 수집을 위한 검색식은 은 Title(논문 제목), Abstract(초록), Author Keywords(저자 키워드), Keywords $Plus^{(R)}$의 네 가지 필드를 동시에 검색하는 주제어(topic)가 "big data"를 포함하고 있는 논문 563편을 대상으로 동시출현단어 분석을 수행하였다.

  • PDF

A Safety IO Throttling Method Inducting Differential End of Life to Improving the Reliability of Big Data Maintenance in the SSD based RAID (SSD기반 RAID 시스템에서 빅데이터 유지 보수의 신뢰성을 향상시키기 위한 차등 수명 마감을 유도하는 안전한 IO 조절 기법)

  • Lee, Hyun-Seob
    • Journal of Digital Convergence
    • /
    • 제20권5호
    • /
    • pp.593-598
    • /
    • 2022
  • Recently, data production has seen explosive growth, and the storage systems to store these big data safely and quickly is evolving in various ways. A typical configuration of storage systems is the use of SSDs with fast data processing speed as a RAID group that can maintain reliable data. However, since NAND flash memory, which composes SSD, has the feature that deterioration if writes more than a certain number of times are repeated, can increase the likelihood of simultaneous failure on multiple SSDs in a RAID group. And this can result in serious reliability problems that data cannot be recovered. Thus, in order to solve this problem, we propose a method of throttling IOs so that each SSD within a RAID group leads to a different life-end. The technique proposed in this paper utilizes SMART to control the state of each SSD and the number of IOs allocated according to the data pattern used step by step. In addition, this method has the advantage of preventing large amounts of concurrency defects in RAID because it induces differential lifetime finishes of SSDs.

Design of Infrastructure to Analyze Big Data (빅데이터 분석을 위한 인프라 설계)

  • Park, Sungbum;Lee, Sangwon;Ahn, Hyunsup;Jung, In-Hwan
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.202-204
    • /
    • 2013
  • Nowadays, owing to the development of hardware, most of enterprises should operate and manage bigger amount of data than they used to do in the past. For this reason, the enterprises ceaselessly and urgently need systemized tools, platforms, and analysis methodologies in order to collect, store, and handle explosively increasing data. In this paper, we firstly understand key elements of Big Data, and secondly define critical factors for Big Data application with these elements. Thirdly, we research on various analysis techniques for Big Data analysis. Lastly, we propose an infrastructure to analyze bid data.

  • PDF

An Analysis of Flood Vulnerability by Administrative Region through Big Data Analysis (빅데이터 분석을 통한 행정구역별 홍수 취약성 분석)

  • Yu, Yeong UK;Seong, Yeon Jeong;Park, Tae Gyeong;Jung, Young Hun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.193-193
    • /
    • 2021
  • 전 세계적으로 기후변화가 지속되면서 그에 따른 자연재난의 강도와 발생 빈도가 증가하고 있다. 자연재난의 발생 유형 중 집중호우와 태풍으로 인한 수문학적 재난이 대부분을 차지하고 있으며, 홍수피해는 지역적 수문학적 특성에 따라 피해의 규모와 범위가 달라지는 경향을 보인다. 이러한 이질적인 피해를 관리하기 위해서는 많은 홍수피해 정보를 수집하는 것이 필연적이다. 정보화 시대인 요즘 방대한 양의 데이터가 발생하면서 '빅데이터', '머신러닝', '인공지능'과 같은 말들이 다양한 분야에서 주목을 받고 있다. 홍수피해 정보에 대해서도 과거 국가에서 발간하는 정보외에 인터넷에는 뉴스기사나 SNS 등 미디어를 통하여 수많은 정보들이 생성되고 있다. 이러한 방대한 규모의 데이터는 미래 경쟁력의 우위를 좌우하는 중요한 자원이 될 것이며, 홍수대비책으로 활용될 소중한 정보가 될 수 있다. 본 연구는 인터넷기반으로 한 홍수피해 현상 조사를 통해 홍수피해 규모에 따라 발생하는 홍수피해 현상을 파악하고자 하였다. 이를 위해 과거에 발생한 홍수피해 사례를 조사하여 강우량, 홍수피해 현상 등 홍수피해 관련 정보를 조사하였다. 홍수피해 현상은 뉴스기사나 보고서 등 미디어 정보를 활용하여 수집하였으며, 수집된 비정형 형태의 텍스트 데이터를 '텍스트 마이닝(Text Mining)' 기법을 이용하여 데이터를 정형화 및 주요 홍수피해 현상 키워드를 추출하여 데이터를 수치화하여 표현하였다.

  • PDF

Update Frequency Reducing Method of Spatio-Temporal Big Data based on MapReduce (MapReduce와 시공간 데이터를 이용한 빅 데이터 크기의 이동객체 갱신 횟수 감소 기법)

  • Choi, Youn-Gwon;Baek, Sung-Ha;Kim, Gyung-Bae;Bae, Hae-Young
    • Spatial Information Research
    • /
    • 제20권2호
    • /
    • pp.137-153
    • /
    • 2012
  • Until now, many indexing methods that can reduce update cost have been proposed for managing massive moving objects. Because indexing methods for moving objects have to be updated periodically for managing moving objects that change their location data frequently. However these kinds indexing methods occur big load that exceed system capacity when the number of moving objects increase dramatically. In this paper, we propose the update frequency reducing method to combine MapReduce and existing indices. We use the update request grouping method for each moving object by using MapReduce. We decide to update by comparing the latest data and the oldest data in grouping data. We reduce update frequency by updating the latest data only. When update is delayed, for the data should not be lost and updated periodically, we store the data in a certain period of time in the hash table that keep previous update data. By the performance evaluation, we can prove that the proposed method reduces the update frequency by comparison with methods that are not applied the proposed method.

Data Analysis of Car Sensor System using Hadoop Framework (Hadoop을 이용한 자동차 센서 데이터 분석 기법 연구)

  • Yoon, Jae-Yeol;Lim, Ji-Yeon;Kim, Iee-Joon;Kim, Ung-Mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.216-219
    • /
    • 2012
  • 최근 정보의 다양화와 대량화로 인해 대두된 빅데이터 환경은 여러 분야로의 연구 방향을 제시하고 있다. 이미 데이터 양이 페타바이트 규모를 넘어서고 있으며, 이를 처리하기 위한 방안이 연구중이다. 본 논문에서는 무선 통신기기 및 센서 기술의 발달로 대규모 네트워크 구축이 가능해진 센서 데이터 중 차량에 사용되는 센서 데이터를 연구하는 방안을 제시하고자 한다. 빅데이터 개념이 대두되면서 이슈화되고 있는 Hadoop 시스템을 이용하여 자동차 센서 데이터 (CAN Message)를 분석하고자 한다.

Deidentification Method Proposal for EHR Data on Remote Healthcare Service (원격 의료 서비스를 위한 EHR 데이터 비식별화 기법 제안)

  • Yoon, Junho;Kim, Hyunsung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.268-271
    • /
    • 2019
  • 최근 인공지능과 빅데이터 등 최첨단 기술이 빠른 속도로 의료 정보시스템에 도입됨에 따라 환자정보를 포함한 민감한 개인정보에 대한 사이버 공격이 급증하고 있다. 다양한 개인정보 비식별화에 대한 표준이 제안되었지만, 데이터의 범주에 따른 기법 적용에 대한 연구가 미비하다. 본 논문에서는 EHR 데이터를 위한 심근경색을 대상으로 하는 원격 의료 시스템을 위한 개인정보들에 대한 민감도를 4단계로 분류하고 이에 따른 비식별화 기법에 대해 제안한다. 본 논문에서 제안한 EHR 데이터에 대한 분류 및 비식별화 기법은 다양한 의료 정보 서비스를 위한 프라이버시 보호에 활용될 수 있다.

A Study on the Current Situations about the Use of Big Data for Cost Estimating Tasks in CM Companies (CM사 견적업무의 빅데이터 활용 현황에 관한 연구)

  • Kim, Hyeon Jin;Kim, Han Soo
    • Korean Journal of Construction Engineering and Management
    • /
    • 제22권6호
    • /
    • pp.24-33
    • /
    • 2021
  • Cost management is a major function of CM (construction management) companies for clients and cost estimating is a critical task in that it provides a baseline for cost management and a foundation for decision making in construction projects. For this purpose, CM companies need to obtain and use good quality data, which leads to more accurate and efficient cost estimating. As the use of big data becomes increasingly important in the construction industry, researches related to the theme have become the active areas of studies. However, literature review shows that the current situations in relation to the use of big for cost estimating of CM companies are under-researched. The objective of the study is to identify key characteristics and implications in the use of big data for cost estimating of CM companies, which can contribute to develop strategies for such purposes.

A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data (비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구)

  • Lee, Won-Jo
    • The Journal of the Convergence on Culture Technology
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • In big data analysis, raw text data mostly exists in various unstructured data forms, so it becomes a structured data form that can be analyzed only after undergoing heuristic pre-processing and computer post-processing cleansing. Therefore, in this study, unnecessary elements are purified through pre-processing of the collected raw data in order to apply the wordcloud of R program, which is one of the text data analysis techniques, and stopwords are removed in the post-processing process. Then, a case study of wordcloud analysis was conducted, which calculates the frequency of occurrence of words and expresses words with high frequency as key issues. In this study, to improve the problems of the "nested stopword source code" method, which is the existing stopword processing method, using the word cloud technique of R, we propose the use of "general stopword corpus" and "user-defined stopword corpus" and conduct case analysis. The advantages and disadvantages of the proposed "unstructured data cleansing process model" are comparatively verified and presented, and the practical application of word cloud visualization analysis using the "proposed external corpus cleansing technique" is presented.