• Title/Summary/Keyword: min-hash

Search Result 48, Processing Time 0.021 seconds

Similarity measurement based on Min-Hash for Preserving Privacy

  • Cha, Hyun-Jong;Yang, Ho-Kyung;Song, You-Jin
    • International Journal of Advanced Culture Technology
    • /
    • v.10 no.2
    • /
    • pp.240-245
    • /
    • 2022
  • Because of the importance of the information, encryption algorithms are heavily used. Raw data is encrypted and secure, but problems arise when the key for decryption is exposed. In particular, large-scale Internet sites such as Facebook and Amazon suffer serious damage when user data is exposed. Recently, research into a new fourth-generation encryption technology that can protect user-related data without the use of a key required for encryption is attracting attention. Also, data clustering technology using encryption is attracting attention. In this paper, we try to reduce key exposure by using homomorphic encryption. In addition, we want to maintain privacy through similarity measurement. Additionally, holistic similarity measurements are time-consuming and expensive as the data size and scope increases. Therefore, Min-Hash has been studied to efficiently estimate the similarity between two signatures Methods of measuring similarity that have been studied in the past are time-consuming and expensive as the size and area of data increases. However, Min-Hash allowed us to efficiently infer the similarity between the two sets. Min-Hash is widely used for anti-plagiarism, graph and image analysis, and genetic analysis. Therefore, this paper reports privacy using homomorphic encryption and presents a model for efficient similarity measurement using Min-Hash.

An Efficient Large Graph Clustering Technique based on Min-Hash (Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법)

  • Lee, Seok-Joo;Min, Jun-Ki
    • Journal of KIISE
    • /
    • v.43 no.3
    • /
    • pp.380-388
    • /
    • 2016
  • Graph clustering is widely used to analyze a graph and identify the properties of a graph by generating clusters consisting of similar vertices. Recently, large graph data is generated in diverse applications such as Social Network Services (SNS), the World Wide Web (WWW), and telephone networks. Therefore, the importance of graph clustering algorithms that process large graph data efficiently becomes increased. In this paper, we propose an effective clustering algorithm which generates clusters for large graph data efficiently. Our proposed algorithm effectively estimates similarities between clusters in graph data using Min-Hash and constructs clusters according to the computed similarities. In our experiment with real-world data sets, we demonstrate the efficiency of our proposed algorithm by comparing with existing algorithms.

Improving the Lifetime of NAND Flash-based Storages by Min-hash Assisted Delta Compression Engine (MADE (Minhash-Assisted Delta Compression Engine) : 델타 압축 기반의 낸드 플래시 저장장치 내구성 향상 기법)

  • Kwon, Hyoukjun;Kim, Dohyun;Park, Jisung;Kim, Jihong
    • Journal of KIISE
    • /
    • v.42 no.9
    • /
    • pp.1078-1089
    • /
    • 2015
  • In this paper, we propose the Min-hash Assisted Delta-compression Engine(MADE) to improve the lifetime of NAND flash-based storages at the device level. MADE effectively reduces the write traffic to NAND flash through the use of a novel delta compression scheme. The delta compression performance was optimized by introducing min-hash based LSH(Locality Sensitive Hash) and efficiently combining it with our delta compression method. We also developed a delta encoding technique that has functionality equivalent to deduplication and lossless compression. The results of our experiment show that MADE reduces the amount of data written on NAND flash by up to 90%, which is better than a simple combination of deduplication and lossless compression schemes by 12% on average.

Min-Max Hash for Similarity Measurement based on Multiset (Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정)

  • Yoon, Jin-Uk;Kim, Byoungwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Distributed Recommendation System Using Clustering-based Collaborative Filtering Algorithm (클러스터링 기반 협업 필터링 알고리즘을 사용한 분산 추천 시스템)

  • Jo, Hyun-Je;Rhee, Phill-Kyu
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.14 no.1
    • /
    • pp.101-107
    • /
    • 2014
  • This paper presents an efficient distributed recommendation system using clustering collaborative filtering algorithm in distributed computing environments. The system was built based on Hadoop distributed computing platform, where distributed Min-hash clustering algorithm is combined with user based collaborative filtering algorithm to optimize recommendation performance. Experiments using Movie Lens benchmark data show that the proposed system can reduce the execution time for recommendation compare to sequential system.

Design of System for Avoiding Identical-Data Upload using SA Hash Algorithm (SA 해쉬 알고리즘을 이용한 동일 데이터 업로드 방지 시스템 설계)

  • Hwang, Sung-Min;Seok, Ho-Jun;Kim, Seog-Gyu
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2011.06a
    • /
    • pp.17-19
    • /
    • 2011
  • 본 논문은 클라이언트에서 서버로 파일을 전송할 때, 클라이언트가 보내고자 하는 파일이 서버에 동일한 파일로 있다면 업로드를 받지 않고, 서버의 파일을 재사용함으로써 트래픽을 감소시킬 수 있을뿐더러, 스토리지 용량 또한 절약할 수 있는 시스템 설계이다. 본 논문에서 제안하는 해쉬(Hash) 함수 SA를 사용하여 파일에 해쉬 코드를 생성함으로써 다른 해쉬 함수 보다 키 값의 길이가 길어지고 빠른 속도로 해쉬 값을 얻을 수가 있다. SA Hash Algorithm을 통해 얻어진 해쉬 값을 서버로 전송하여 서버에 동일한 파일이 있다면 클라이언트에서 파일을 전송 받지 않고, 서버 내부의 파일을 사용하는 것으로 자원 절감 효과를 낼 수 있다. 서버에서의 파일 관리도 기존의 날짜, 아이디 등 구별 방식이 아닌 SA Hash Algorithm으로 생성된 해쉬 값으로 파일을 관리 할 수 있음으로 파일 관리의 편의성뿐만이 아니라 빠른 속도로 파일을 접근할 수 있다.

  • PDF

Design of System for Avoiding upload of Identical-file using SA Hash Algorithm (SA 해쉬 알고리즘을 이용한 중복파일 업로드 방지 시스템 설계)

  • Hwang, Sung-Min;Kim, Seog-Gyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.19 no.10
    • /
    • pp.81-89
    • /
    • 2014
  • In this paper, we propose SA hash algorithm to avoid upload identical files and design server system using proposed SA hash algorithm. Client to want to upload file examines the value of SA hash and if the same file is found in server system client use the existing file without upload. SA hash algorithm which is able to examine the identical-file divides original file into blocks of n bits. Original file's mod i bit and output hash value's i bit is calculated with XOR operation. It is SA hash algorithm's main routine to repeat the calculation with XOR until the end of original file. Using SA hash algorithm which is more efficient than MD5, SHA-1 and SHA-2, we can design server system to avoid uploading identical file and save storage capacity and upload-time of server system.

A Randomized Path-Hash Node Authentication Protocol based on Trust Relationship in Wireless Sensor Networks (무선 센서 네트워크 상에서 신뢰기반 Randomized Path-Hash노드 인증 프로토콜)

  • Kim Jin-Hwan;Park Seon-Ho;Jung Sung-Min;Eom Jung-Ho;Chung Tai-Myoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.849-852
    • /
    • 2006
  • 본 논문은 무선 센서 네트워크 라우팅 프로토콜에서 일어날 수 있는 보안 위협 요소들에 대해 알아보고 상호인증에 관한 문제를 해결할 수 있는 Randomized Path-Hash 노드 인증 프로토콜(RPHAP)을 제안한다. 이 프로토콜은 노드 간 상호인증을 제공하며 센서 추적에 대한 안전성까지 제공한다. 또한 간단한 연산 능력의 Hash를 이용하기 때문에 전력 소모에 대한 오버헤드가 적어 모든 센서 네트워크의 프로토콜에서 활용이 가능한 장점을 갖는다.

  • PDF

Comparative analysis of quantum circuit implementation for domestic and international hash functions (국내·국제 해시함수에 대한 양자회로 구현 비교 분석)

  • Gyeong Ju Song;Min Ho Song;Hwa Jeong Seo
    • Smart Media Journal
    • /
    • v.12 no.2
    • /
    • pp.83-90
    • /
    • 2023
  • The advent of quantum computers threatens the security of existing hash functions. In this paper, we confirmed the implementation results of quantum circuits for domestic/international hash functions, LSH, SHA2, SHA3 and SM3, and conducted a comparative analysis. To operate the existing hash function in a quantum computer, it must be implemented as a quantum circuit, and the quantum security strength can be confirmed by estimating the necessary quantum resources. We compared methods of quantum circuit implementation and results of quantum resource estimation in various aspects and discussed ways to meet quantum computer security in the future.

A VRF-based Hashgraph Scheme for Next Generation Blockchains (차세대 블록체인을 위한 VRF 기반의 해시그래프 기법)

  • Kim, Min-Seop;Kang, Jin-Yeong;Joe, In-Whee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.52-55
    • /
    • 2019
  • 최근 여러 블록체인 플랫폼에서 잇따라 51% 공격에 대한 소식이 들려 옴에 따라 새로운 블록체인의 필요성이 부각되고 있다. 그중 Hashgraph 는 기존의 블록체인과 다르게 블록단위가 아닌 이벤트 즉, 블록에 기록되는 트랜잭션 그 자체로 체인이 구성되는 메커니즘을 가지고 있기 때문에 차세대 블록체인으로 대두되고 있다. 그러나 트랜잭션 단위로 Hash 또는 Hash 검증을 수행하기 때문에 연산 량이 기하급수적으로 늘어나며, 검증 또는 합의에 소요되는 시간이 상당하다. 본 논문에서는 이를 해소하기 위해 Verifiable Random Function 을 이용하여, Hash 에 대한 검증 절차와 연산 량을 감소하여 최종적으로 합의에 소요되는 시간을 단축하는 방법에 대해 제시한다.