• 제목/요약/키워드: Similarity hash

검색결과 24건 처리시간 0.031초

Similarity measurement based on Min-Hash for Preserving Privacy

  • Cha, Hyun-Jong;Yang, Ho-Kyung;Song, You-Jin
    • International Journal of Advanced Culture Technology
    • /
    • 제10권2호
    • /
    • pp.240-245
    • /
    • 2022
  • Because of the importance of the information, encryption algorithms are heavily used. Raw data is encrypted and secure, but problems arise when the key for decryption is exposed. In particular, large-scale Internet sites such as Facebook and Amazon suffer serious damage when user data is exposed. Recently, research into a new fourth-generation encryption technology that can protect user-related data without the use of a key required for encryption is attracting attention. Also, data clustering technology using encryption is attracting attention. In this paper, we try to reduce key exposure by using homomorphic encryption. In addition, we want to maintain privacy through similarity measurement. Additionally, holistic similarity measurements are time-consuming and expensive as the data size and scope increases. Therefore, Min-Hash has been studied to efficiently estimate the similarity between two signatures Methods of measuring similarity that have been studied in the past are time-consuming and expensive as the size and area of data increases. However, Min-Hash allowed us to efficiently infer the similarity between the two sets. Min-Hash is widely used for anti-plagiarism, graph and image analysis, and genetic analysis. Therefore, this paper reports privacy using homomorphic encryption and presents a model for efficient similarity measurement using Min-Hash.

Histogram에 기반한 Image Hash 개선 (An Improved Histogram-Based Image Hash)

  • 김소영;김형중
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2008년도 정보통신설비 학술대회
    • /
    • pp.531-534
    • /
    • 2008
  • Image Hash specifies as a descriptor that can be used to measure similarity in images. Among all image Hash methods, histogram based image Hash has robustness to common noise-like operation and various geometric except histogram _equalization. In this_paper an improved histogram based Image Hash that is using "Imadjust" filter I together is proposed. This paper has achieved a satisfactory performance level on histogram equalization as well as geometric deformation.

  • PDF

Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정 (Min-Max Hash for Similarity Measurement based on Multiset)

  • 윤진욱;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

유사성 해시 기반 악성코드 유형 분류 기법 (Method of Similarity Hash-Based Malware Family Classification)

  • 김윤정;김문선;이만희
    • 정보보호학회논문지
    • /
    • 제32권5호
    • /
    • pp.945-954
    • /
    • 2022
  • 매년 수십억 건의 악성코드가 탐지되고 있지만, 이 중 신종 악성코드는 0.01%에 불과하다. 이러한 상황에 효과적인 악성코드 유형 분류 도구가 필요하지만, 선행 연구들은 복잡하고 방대한 양의 데이터 전처리 과정이 필요하여 많은 양의 악성코드를 신속하게 분석하기에는 한계가 있다. 이 문제를 해결하기 위해 본 논문은 유사성 해시를 기반으로 복잡한 데이터 전처리 과정 없이 악성코드의 유형을 분류하는 기법을 제안한다. 이 기법은 악성코드의 유사성 해시 정보를 바탕으로 XGBoost 모델을 학습하며, 평가를 위해 악성코드 분류 분야에 널리 활용되는 BIG-15 데이터셋을 사용했다. 평가 결과, 98.9%의 정확도로 악성코드를 분류했고, 3,432개의 일반 파일을 100% 정확도로 구분했다. 이 결과는 복잡한 전처리 과정 및 딥러닝 모델을 사용하는 대부분의 최신 연구들보다 우수하다. 따라서 제안한 접근법을 사용하면 보다 효율적인 악성코드 분류가 가능할 것으로 예상된다.

변종 악성코드 유사도 비교를 위한 코드영역의 함수 분할 방법 (Function partitioning methods for malware variant similarity comparison)

  • 박찬규;김형식;이태진;류재철
    • 정보보호학회논문지
    • /
    • 제25권2호
    • /
    • pp.321-330
    • /
    • 2015
  • 백신 프로그램이 일반화되면서 이를 우회하기 위한 목적으로 기존 악성 프로그램에 포함된 문자열 혹은 코드 일부가 변경된 변종 악성코드가 많이 나타나고 있다. 기존의 백신 프로그램이 시그너처에 기반한 분석을 통하여 악성 코드 여부를 판단하기 때문에 이미 알려진 악성코드라고 하더라도 일부만 변경되면 탐지하기 어려운 문제가 있었다. 본 논문에서는 해쉬값을 이용한 코드 비교 방법을 확장하여 일부만 변형된 악성코드를 손쉽게 탐지하기 위한 새로운 방법을 제안한다. 악성코드 전체에 대한 해쉬값 뿐만 아니라 함수 단위와 코드블록 단위로 해쉬값을 생성하여 일부만 일치하는지 판단하고 상수나 주소 등을 제거한 후에 해쉬값을 생성함으로써 상수나 주소 때문에 다르게 판단하는 오류를 제거하였다. 제시된 방법을 이용하여 변형된 악성코드에 숨겨진 유사성을 해쉬값 비교로 탐지할 수 있음을 확인하였다.

퍼지해시를 이용한 유사 악성코드 분류모델에 관한 연구 (Research on the Classification Model of Similarity Malware using Fuzzy Hash)

  • 박창욱;정현지;서광석;이상진
    • 정보보호학회논문지
    • /
    • 제22권6호
    • /
    • pp.1325-1336
    • /
    • 2012
  • 과거 일 평균 10종 내외로 발견되었던 악성코드가 최근 10년 동안 급격히 증가하여 오늘날에는 55,000종 이상의 악성코드가 발견되고 있다. 하지만 발견되는 다수의 악성코드는 새로운 형태의 신종 악성코드가 아니라 과거 악성코드에서 일부 기능이 추가되거나 백신탐지를 피하기 위해 인위적으로 조작된 변종 악성코드가 다수이다. 따라서 신종과 변종이 포함된 다수의 악성코드를 효과적으로 대응하기 위해서는 과거의 악성코드와 유사도를 비교하여 신종과 변종을 분류하는 과정이 필요하게 되었다. 기존의 악성코드를 대상으로 한 유사도 산출 기법은 악성코드가 사용하는 IP, URL, API, 문자열 등의 외형적 특징을 비교하거나 악성코드의 코드단계를 서로 비교하는 방식이 사용되었다. 하지만 악성코드의 유입량이 증가하고 비교대상이 많아지면서 유사도를 확인하기 위해 많은 계산이 필요하게 되자 계산량을 줄이기 위해 최근에는 퍼지해시가 사용되고 있다. 하지만 퍼지해시에 제한사항들이 제시되면서 기존의 퍼지해시를 이용한 유사도 비교방식의 문제점이 제시되고 있다. 이에 본 논문에서는 퍼지해시를 이용하여 유사도 성능을 높일 수 있는 새로운 악성코드간 유사도 비교기법을 제안하고 이를 활용한 악성코드 분류기법을 제시하고자 한다.

SDS 환경의 유사도 기반 클러스터링 및 다중 계층 블룸필터를 활용한 분산 중복제거 기법 (Distributed data deduplication technique using similarity based clustering and multi-layer bloom filter)

  • 윤다빈;김덕환
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권5호
    • /
    • pp.60-70
    • /
    • 2018
  • 클라우드 환경에서 다수의 사용자가 물리적 서버를 가상화하여 사용할 수 있도록 편의성을 제공하는 Software Defined Storage(SDS)를 적용하고 있지만 한정된 물리적 자원을 고려하여 공간 효율성을 최적화하는 솔루션이 필요하다. 기존의 데이터 중복제거 시스템에서는 서로 다른 스토리지에 업로드 된 중복 데이터가 중복제거되기 어렵다는 단점이 있다. 본 논문에서는 유사도기반 클러스터링과 다중 계층 블룸 필터를 적용한 분산 중복제거 기법을 제안한다. 라빈 해시를 이용하여 가상 머신 서버들 간의 유사도를 판단하고 유사도가 높은 가상머신들을 클러스터 함으로써 개별 스토리지 노드별 중복제거 효율에 비하여 성능을 향상시킨다. 또한 중복제거 프로세스에 다중 계층 블룸 필터를 접목하여 처리 시간을 단축하고 긍정오류를 감소시킬 수 있다. 실험결과 제안한 방법은 IP주소 기반 클러스터를 이용한 중복제거 기법에 비해 처리 시간의 차이가 없으면서, 중복제거율이 9% 높아짐을 확인하였다.

유사 트윗 분석에 기반한 트위터 해시태그 추천기법 (Twitter HashTag Recommendation Scheme based on Similar Tweet Analysis)

  • 전민아;전상훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.962-963
    • /
    • 2013
  • 트위터 해시태그(#, HashTag)는 트윗(Tweets)에서 특정 키워드나 내용을 주제별로 분류하고 검색을 보다 효율적으로 사용하기 위한 사용자 정의 태그이다. 사용자가 정의하기에 따라 다양한 형태로 작성되기 때문에 오히려 검색의 효율성이 떨어질 수 있으며, 사용자는 자신이 작성한 트윗에 어떤 해시태그를 추가해야 하는지에 대한 궁금증이 생기는 경우가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 사용자가 작성한 트윗에 적합한 해시태그를 추천하는 기법을 제안한다. 수집한 트윗과 해시태그의 키워드를 추출하고 트윗의 유사도를 계산하기 위해 TF-IDF와 Cosine Similarity를 적용하여 유사한 트윗을 갖는 해시태그를 추천한다. 본 논문에서 제안된 기법을 검증하기 위한 실험으로 추천의 정확성을 평가했다.

언어모델을 활용한 콘텐츠 메타 데이터 기반 유사 콘텐츠 추천 모델 (Similar Contents Recommendation Model Based On Contents Meta Data Using Language Model)

  • 김동환
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.27-40
    • /
    • 2023
  • 스마트 기기의 보급률 증가와 더불어 코로나의 영향으로 스마트 기기를 통한 미디어 콘텐츠의 소비가 크게 늘어나고 있다. 이러한 추세와 더불어 OTT 플랫폼을 통한 미디어 콘텐츠의 시청과 콘텐츠의 양이 늘어나고 있어서 해당 플랫폼에서의 콘텐츠 추천이 중요해지고 있다. 콘텐츠 기반 추천 관련 기존 연구들은 콘텐츠의 특징을 가리키는 메타 데이터를 활용하는 경우가 대부분이었고 콘텐츠 자체의 내용적인 메타 데이터를 활용하는 경우는 부족한 상황이다. 이에 따라 본 논문은 콘텐츠의 내용적인 부분을 설명하는 제목과 시놉시스를 포함한 다양한 텍스트 데이터를 바탕으로 유사한 콘텐츠를 추천하고자 하였다. 텍스트 데이터를 학습하기 위한 모델은 한국어 언어모델 중에 성능이 우수한 KLUE-RoBERTa-large를 활용하였다. 학습 데이터는 콘텐츠 제목, 시놉시스, 복합 장르, 감독, 배우, 해시 태그 정보를 포함하는 2만여건의 콘텐츠 메타 데이터를 사용하였으며 정형 데이터로 구분되어 있는 여러 텍스트 피처를 입력하기 위해 해당 피처를 가리키는 스페셜 토큰으로 텍스트 피처들을 이어붙여서 언어모델에 입력하였다. 콘텐츠들 간에 3자 비교를 하는 방식과 테스트셋 레이블링에 다중 검수를 적용하여 모델의 유사도 분류 능력을 점검하는 테스트셋의 상대성과 객관성을 도모하였다. 콘텐츠 메타 텍스트 데이터에 대한 임베딩을 파인튜닝 학습하기 위해 장르 분류와 해시태그 분류 예측 태스크로 실험하였다. 결과적으로 해시태그 분류 모델이 유사도 테스트셋 기준으로 90%이상의 정확도를 보였고 기본 언어모델 대비 9% 이상 향상되었다. 해시태그 분류 학습을 통해 언어모델의 유사 콘텐츠 분류 능력이 향상됨을 알 수 있었고 콘텐츠 기반 필터링을 위한 언어모델의 활용 가치를 보여주었다.

소셜 네트워크 재검색 시스템의 설계 (The Design of Rescreening System for Social Network)

  • 심규리;김동현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.139-140
    • /
    • 2022
  • 최근 소셜 네트워크 서비스 시장이 급속히 성장함에 따라 SNS 사용자 또한 지속적으로 증가하고 있다. 그러나, 광고성 게시물도 함께 증가함에 따라 해시태그 기반 검색의 정확도가 감소하는 문제점을 가지고 있다. 본 연구에서는 SNS 검색 활동의 정확도와 효율성을 개선하기 위하여 SNS 해시태그 기반 재검색 시스템을 제안한다. 제안 시스템을 적용하면 SNS 사용자의 검색 활동의 정확도와 효율성이 증가할 것으로 기대된다.

  • PDF