• Title/Summary/Keyword: 핫 데이터

Search Result 65, Processing Time 0.029 seconds

Hot Data Identification based on Naive Bayes Classifier (나이브 베이즈 분류 기반의 핫 데이터 구분 기법)

  • Lee, Hyerim;Yun, Yibin;Park, Dongchul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.721-723
    • /
    • 2022
  • 최근 낸드 플래시 메모리 기반의 Solid State Drive(SSD)가 기존 Hard Disk Drive(HDD)를 대신하여 개인용과 산업용으로도 널리 쓰이고 있다. 핫 데이터 구분 기법은 이러한 SSD 의 성능과 수명에 중요한 역할을 하는 Garbage Collection(GC)과 Wear Leveling(WL) 기술의 기반이 된다. 본 논문에서는 핫 데이터를 예측하기 위한 나이브 베이즈 분류 기반의 새로운 핫 데이터 구분 기법을 제안한다. 제안 기법은 워크로드 액세스 패턴의 학습 단계인 초기 단계와 실제 운영 단계를 통해 다시 액세스 될 확률이 높은 데이터를 그렇지 않은 데이터와 효과적으로 구분한다. 다양한 실제 trace 기반 실험을 통해 본 제안 기법이 기존 대표적인 기법보다 평균 19.3% 높은 성능을 확인했다.

News Data Analysis Technique using Graph Mining (그래프 마이닝을 이용한 뉴스 데이터 분석 기법)

  • Lee, ChangJu;Park, Kisung;Han, Yongkoo;Lee, Young-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.04a
    • /
    • pp.730-733
    • /
    • 2015
  • 대용량의 인터넷 뉴스 데이터로부터 유용한 정보를 찾기 위해 연관 키워드, 핫 키워드 분석과 같은 다양한 분석 기술들이 연구되고 있다. 기존의 토픽 모델 기반의 기법은 키워드들간의 연관성을 제대로 표현하지 못하여 마이닝한 연관 키워드와 핫 키워드의 정확도가 낮은 문제점이 있다. 최근, 뉴스 데이터를 뉴스 내의 단어를 버텍스로, 같은 문장내의 단어들을 에지로 연결하는 그래프 기반의 모델링기법이 연구되었다. 이러한 뉴스 그래프 DB에서 그래프 마이닝 기술을 적용하면 연관 키워드, 핫 키워드를 마이닝 할 수 있다. 본 논문은 그래프 마이닝 기술 기반의 효과적인 뉴스 데이터 분석 기술을 제안한다. 실제 뉴스 데이터를 통해 마이닝한 유용한 뉴스 그래프 패턴들을 보이고 뉴스 데이터 분석에 효과적으로 활용될 수 있음을 보인다.

A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce (맵리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법)

  • Son, Ingook;Ryu, Eunkyung;Park, Junho;Bok, Kyoungsoo;Yoo, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2013.05a
    • /
    • pp.11-12
    • /
    • 2013
  • 최근 대규모 데이터의 처리와 관리를 위한 분산 저장 및 처리 시스템의 연구 및 활용이 중요해지고 있다. 대표적인 분산 저장 및 처리시스템으로써 하둡(Hadoop)이 널리 활용되고 있다. 하둡 분산 파일 시스템을 기반으로 수행되는 맵-리듀스에서 테스크 할당은 데이터의 로컬리티를 고려하여 최대한 가깝게 할당한다. 하지만 맵-리듀스에서의 데이터 분석 작업에서 작업 형태에 따라 빈번하게 요청되는 데이터가 존재한다. 이러한 경우, 해당 데이터의 낮은 로컬리티로 인해 수행시간 증가 및 데이터 전송의 지연의 문제점을 야기 시킨다. 본 논문에서는 맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법을 제안한다. 제안하는 기법에서는 데이터 접근 패턴에 따라 높은 접근 빈도를 보이는 핫-데이터에 대한 복제본 최적화 알고리즘을 활용하여 데이터 로컬리티를 향상시키고 결과적으로 작업 수행시간을 감소시킨다. 제안하는 기법은 기존 기법에 비해 모든 노드의 데이터 이동이 감소하여 접근빈도의 분포가 균형적인 것을 확인하였다. 성능평가 결과, 기존 기법에 비해 접근 빈도의 부하가 약 8% 감소하는 것을 확인하였다.

  • PDF

A Hot-Data Replication Scheme Based on Data Access Patterns for Enhancing Processing Speed of MapReduce (맵-리듀스의 처리 속도 향상을 위한 데이터 접근 패턴에 따른 핫-데이터 복제 기법)

  • Son, Ingook;Ryu, Eunkyung;Park, Junho;Bok, Kyoungsoo;Yoo, Jaesoo
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.11
    • /
    • pp.21-27
    • /
    • 2013
  • In recently years, with the growth of social media and the development of mobile devices, the data have been significantly increased. Hadoop has been widely utilized as a typical distributed storage and processing framework. The tasks in Mapreduce based on the Hadoop distributed file system are allocated to the map as close as possible by considering the data locality. However, there are data being requested frequently according to the data analysis tasks of Mapreduce. In this paper, we propose a hot-data replication mechanism to improve the processing speed of Mapreduce according to data access patterns. The proposed scheme reduces the task processing time and improves the data locality using the replica optimization algorithm on the high access frequency of hot data. It is shown through performance evaluation that the proposed scheme outperforms the existing scheme in terms of the load of access frequency.

A Wear-leveling Scheme for NAND Flash Memory based on Update Patterns of Data (데이터 갱신 패턴 기반의 낸드 플래시 메모리의 블록 사용 균일화 기법)

  • Shin, Hyo-Joung;Choi, Don-Jung;Kim, Bo-Keong;Yoon, Tae-Bok;Lee, Jee-Hyong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.20 no.6
    • /
    • pp.761-767
    • /
    • 2010
  • In the case of NAND flash memory, a whole block needs to be erased for update operations because update-in- place operations are not supported in NAND flash memory. Blocks of NAND flash memory have the limited erasure cycles, so frequently updated data (hot data) easily makes blocks worn out. As the result, the capacity of NAND flash memory will be reduced by hot data. In this paper, we propose a wear-leveling algorithm by discriminating hot and cold data based on the update patterns of data. When we applied this scheme to NAND flash memory, we confirmed that the erase counts of blocks became more uniform by mapping hot data to a block with a low erase count and cold data to block with a high erase count.

Improved Hot data verification considering the continuity and frequency of data update requests (데이터 갱신요청의 연속성과 빈도를 고려한 개선된 핫 데이터 검증기법)

  • Lee, Seungwoo
    • Journal of Internet of Things and Convergence
    • /
    • v.8 no.5
    • /
    • pp.33-39
    • /
    • 2022
  • A storage device used in the mobile computing field should have low power, light weight, durability, etc., and should be able to effectively store and manage large-capacity data generated by users. NAND flash memory is mainly used as a storage device in the field of mobile computing. Due to the structural characteristics of NAND flash memory, it is impossible to overwrite in place when a data update request is made, so it can be solved by accurately separating requests that frequently request data update and requests that do not, and storing and managing them in each block. The classification method for such a data update request is called a hot data identification method, and various studies have been conducted at present. This paper continuously records the occurrence of data update requests using a counting filter for more accurate hot data validation, and also verifies hot data by considering how often the requested update requests occur during a specific time.

Hot Topic Prediction Scheme Using Modified TF-IDF in Social Network Environments (소셜 네트워크 환경에서 변형된 TF-IDF를 이용한 핫 토픽 예측 기법)

  • Noh, Yeonwoo;Lim, Jongtae;Bok, Kyoungsoo;Yoo, Jaesoo
    • KIISE Transactions on Computing Practices
    • /
    • v.23 no.4
    • /
    • pp.217-225
    • /
    • 2017
  • Recently, the interest in predicting hot topics has grown significantly as it has become more important to find and analyze meaningful information from a large amount of data flowing in social networking services. Existing hot topic detection schemes do not consider a temporal property, so they are not suitable to predict hot topics that are rapidly issued in a changing society. This paper proposes a hot topic prediction scheme that uses a modified TF-IDF in social networking environments. The modified TF-IDF extracts a candidate set of keywords that are momentarily issued. The proposed scheme then calculates the hot topic prediction scores by assigning weights considering user influence and professionality to extract the candidate keywords. The superiority of the proposed scheme is shown by comparing it to an existing detection scheme. In addition, to show whether or not it predicts hot topics correctly, we evaluate its quality with Korean news articles from Naver.

A Study on Efficient Cut-off Point between Hot and Cold Items for Data Broadcast Scheduling (데이터 방송 스케줄링에서 핫아이템과 콜드아이템의 분리를 위한 효율적인 컷오프 포인트에 관한 연구)

  • Kang, Sang-Hyuk
    • Journal of Broadcast Engineering
    • /
    • v.15 no.6
    • /
    • pp.845-852
    • /
    • 2010
  • Collecting statistics from client requests, the broadcast server partitions data items into hot and cold-item sets with the optimal cut-off point. Hot items are broadcast periodically with periods based on their access probabilities. In a time slot with no hot items scheduled, the server broadcasts a proper cold item considering the waiting time and the number of outstanding requests. We analyze the optimal the cut-off point by calculating average response time as a function of the cut-off point. Simulation results show that our proposed algorithm outperforms existing methods in various circumstances.

Compound Backup Technique using Hot-Cold Data Classification in the Distributed Memory System (분산메모리시스템에서의 핫콜드 데이터 분류를 이용한 복합 백업 기법)

  • Kim, Woo Chur;Min, Dong Hee;Hong, Ji Man
    • Smart Media Journal
    • /
    • v.4 no.3
    • /
    • pp.16-23
    • /
    • 2015
  • As the IT technology advances, data processing system is required to handle and process large amounts of data. However, the existing On-Disk system has limit to process data which increase rapidly. For that reason, the In-Memory system is being used which saves and manages data on the fast memory not saving data into hard disk. Although it has fast processing capability, it is necessary to use the fault tolerance techniques in the In-Memory system because it has a risk of data loss due to volatility which is one of the memory characteristics. These fault tolerance techniques lead to performance degradation of In-Memory system. In this paper, we classify the data into Hot and Cold data in consideration of the data usage characteristics in the In-Memory system and propose compound backup technique to ensure data persistence. The proposed technique increases the persistence and improves performance degradation.