• 제목/요약/키워드: binary level similarity

검색결과 9건 처리시간 0.024초

Cross-architecture Binary Function Similarity Detection based on Composite Feature Model

  • Xiaonan Li;Guimin Zhang;Qingbao Li;Ping Zhang;Zhifeng Chen;Jinjin Liu;Shudan Yue
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권8호
    • /
    • pp.2101-2123
    • /
    • 2023
  • Recent studies have shown that the neural network-based binary code similarity detection technology performs well in vulnerability mining, plagiarism detection, and malicious code analysis. However, existing cross-architecture methods still suffer from insufficient feature characterization and low discrimination accuracy. To address these issues, this paper proposes a cross-architecture binary function similarity detection method based on composite feature model (SDCFM). Firstly, the binary function is converted into vector representation according to the proposed composite feature model, which is composed of instruction statistical features, control flow graph structural features, and application program interface calling behavioral features. Then, the composite features are embedded by the proposed hierarchical embedding network based on a graph neural network. In which, the block-level features and the function-level features are processed separately and finally fused into the embedding. In addition, to make the trained model more accurate and stable, our method utilizes the embeddings of predecessor nodes to modify the node embedding in the iterative updating process of the graph neural network. To assess the effectiveness of composite feature model, we contrast SDCFM with the state of art method on benchmark datasets. The experimental results show that SDCFM has good performance both on the area under the curve in the binary function similarity detection task and the vulnerable candidate function ranking in vulnerability search task.

Cluster Analysis with Balancing Weight on Mixed-type Data

  • Chae, Seong-San;Kim, Jong-Min;Yang, Wan-Youn
    • Communications for Statistical Applications and Methods
    • /
    • 제13권3호
    • /
    • pp.719-732
    • /
    • 2006
  • A set of clustering algorithms with proper weight on the formulation of distance which extend to mixed numeric and multiple binary values is presented. A simple matching and Jaccard coefficients are used to measure similarity between objects for multiple binary attributes. Similarities are converted to dissimilarities between i th and j th objects. The performance of clustering algorithms with balancing weight on different similarity measures is demonstrated. Our experiments show that clustering algorithms with application of proper weight give competitive recovery level when a set of data with mixed numeric and multiple binary attributes is clustered.

정적 주요 경로 API 시퀀스를 이용한 소프트웨어 유사성 검사 (Detecting Software Similarity Using API Sequences on Static Major Paths)

  • 박성수;한환수
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1007-1012
    • /
    • 2014
  • 소스코드가 없이 실행코드만으로 소프트웨어 간의 유사성을 비교하기위해 소프트웨어 버스마크를 이용한다. 소프트웨어 버스마크란 그 소프트웨어만의 고유한 특징으로 소프트웨어 식별에 사용된다. 본 논문에서는 정적 주요경로 상의 API 함수 시퀀스를 이용하여 소프트웨어 간의 유사성을 산정하는 방법을 제시한다. 바이너리코드에서 소프트웨어의 특성이 뚜렷하게 나타나는 API 함수만을 사용하여 소프트웨어 유사성 검사의 신뢰성을 높이고, 정적 분석 기법에 동적 분석 기법의 특징을 적용하여 강인성을 높이는 방법을 모색하였다. 정적 분석으로 바이너리코드의 주요경로를 추출하고, API 함수 시퀀스 간의 효과적인 유사성 측정을 위해 서열정렬 알고리즘인 Smith-Waterman 알고리즘을 이용한 유사성 척도를 제안한다. 버스마크의 신뢰성을 평가하기 위하여 같은 프로그램의 여러 버전을 대상으로 실험하였고, 강인성을 평가하기 위해 오픈소스 소프트웨어의 소스코드를 다양한 컴파일환경으로 바꾸어 실험하였다.

함수 수준 특징정보 기반의 오픈소스 소프트웨어 모듈 탐지 (Detection of an Open-Source Software Module based on Function-level Features)

  • 김동진;조성제
    • 정보과학회 논문지
    • /
    • 제42권6호
    • /
    • pp.713-722
    • /
    • 2015
  • OSS(Open-Source Software)의 사용 증가와 함께 라이선스 위반, 취약한 소스코드 재사용 등에 의한 분쟁 및 피해가 빈번해지고 있다. 이에, 실행파일(바이너리) 수준에서 프로그램에 OSS 모듈이 포함되었는지 여부를 확인하는 기술이 필요해졌다. 본 논문에서는 바이너리에서 함수 수준의 특징정보를 사용하여 OSS 모듈을 탐지하는 기법을 제안한다. 기존 소프트웨어 특징정보(버스마크) 기반 도용 탐지 기법들은 프로그램 전체 간 유사성을 비교하기 때문에 프로그램의 일부로 포함된 OSS 모듈들을 탐지하는데 부적합하다. 본 논문에서는, 함수 수준의 실행명령어, 제어 흐름 그래프(Control Flow Graph)와 개선된 함수 수준 구조적 특징정보를 추출하고 유사성을 비교하여 OSS 모듈의 임의 사용 여부를 탐지한다. 제안기법의 효율성과 각 특징정보들의 OSS 탐지 성능을 평가하기 위해, 특징정보량, OSS 모듈 탐지 시간 및 정확도, 컴파일러 최적화에 대한 강인성을 실험하였다.

신뢰성 높은 동적 API 시퀀스를 이용한 소프트웨어 유사성 검사 (Software Similarity Detection Using Highly Credible Dynamic API Sequences)

  • 박성수;한환수
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1067-1072
    • /
    • 2016
  • 실행코드만으로 소프트웨어 간의 유사성을 비교하거나 표절을 검사하기 위해 소프트웨어만의 고유한 특징인 소프트웨어 버스마크를 이용한다. 일반적으로 소프트웨어 버스마크는 추출 방법에 따라 정적 버스마크와 동적 버스마크로 구분되고, 추출된 방법에 따라 장단점이 뚜렷하게 나타난다. 본 논문에서는 동적 분석을 이용하여 API 시퀀스 버스마크를 추출하고 실행코드 간의 유사성 검사에 이용하는 방법을 제안한다. 제안하는 동적 시퀀스 버스마크는 프로그램이 실행되는 과정에서 호출되는 모든 API 함수 및 시스템 호출을 포함하는 기존의 방법과는 다르게 실행코드 내에 정의되어 있는 API 함수만으로 구성된 API 시퀀스를 이용한다. 추출된 동적 버스마크는 프로그램의 시작에서 종료까지 호출되는 API 시퀀스이며 이를 효율적으로 비교하기 위해 서열정렬 알고리즘을 활용한 유사성 척도를 사용한다. 여러 오픈소스 소프트웨어를 비교하여 버스마크의 신뢰성과 강인성을 검증하였다. 제안하는 동적 API 시퀀스 버스마크는 실행코드의 유사성 검사에 용이하게 활용될 수 있을 것으로 기대된다.

서바이벌 네트워크 개념을 이용한 저자 식별 프레임워크: 의미론적 특징과 특징 허용 범위 (Authorship Attribution Framework Using Survival Network Concept : Semantic Features and Tolerances)

  • 황철훈;신건윤;김동욱;한명묵
    • 정보보호학회논문지
    • /
    • 제30권6호
    • /
    • pp.1013-1021
    • /
    • 2020
  • 악성코드 저자 식별은 알려진 악성코드 저자의 특징을 이용하여 알려지지 않은 악성코드의 저자 특징과 비교를 통해 악성코드를 식별하기 위한 연구 분야이다. 바이너리를 이용한 저자 식별 방법은 실질적으로 배포된 악성코드를 대상으로 수집 및 분석이 용이하다는 장점을 갖으나, 소스코드를 이용한 방법보다 특징 활용 범위가 제한된다. 이러한 한계점으로 인해 다수의 저자를 대상으로 정확도가 저하된다는 단점을 갖는다. 본 연구는 바이너리 저자 식별에 한계점을 보완하기 위하여 '바이너리로부터 의미론적 특징 정의'와 '서바이벌 네트워크 개념을 이용한 중복 특징에 대한 허용 범위 정의' 방법을 제안한다. 제안한 방법은 바이너리 정보로부터 Opcode 기반의 그래프 특징을 정의하며, 서바이벌 네트워크 개념을 이용하여 저자별 고유 특징을 선택할 수 있는 허용범위를 정의하는 것이다. 이를 통해 저자별 특징 정의 및 특징 선택 방법을 하나의 기술로 정의할 수 있으며, 실험을 통해 선행연구보다 5.0%의 정확도 향상과 함께 소스코드 기반 분석과 동일한 수준의 정확도 도출이 가능함을 확인할 수 있었다.

계층적 Level-of-Detail 표현을 이용한 해마의 국부적인 형상 분석 (Local Shape Analysis of the Hippocampus using Hierarchical Level-of-Detail Representations)

  • 김정식;최수미;최유주;김명희
    • 정보처리학회논문지A
    • /
    • 제11A권7호
    • /
    • pp.555-562
    • /
    • 2004
  • 뇌의 하부 구조인 해마의 전역적 부피 감소와 국부적 형상 변화는 정신의학적 질환에 깊게 관련되어 있다. 해마 구조에 관한 형상 분석 연구는 크게 해마 형상 표현 모델을 구축하고, 이러한 형상 표현으로부터 형상 유사성을 계산하는 과정으로 구성된다. 본 논문에서는 메쉬, 복셀, 골격 데이터를 포함하는 복합적인 옥트리 기반의 형상 표현을 이용하여 해마의 형상을 분석하기 위한 새로운 방법을 제시한다. 우선 해마에 관한 MRI 데이터를 입력으로 받아, 마칭큐브 알고리즘을 사용하여 다해상도 메쉬 모델을 구축한다. 이렇게 구성된 다각형 모델은 깊이맵 기반의 복셀화 방법을 이용하여 중간 단계의 이진 복셀 데이터로 변환된다. 그리고 변환된 복셀 데이터로부터 슬라이스 기반의 골격화 방법에 의하여 해마의 3차원 골격을 추출한다. 그런 후에 옥트리 기반의 다해상도 형상 표현을 얻기위해 해마의 메쉬, 복셀, 골격 데이터를 계층적으로 공간 분할하여 저장하고, 광선 추적 기반의 메쉬 샘플링 방법을 적용하여 샘플 메쉬 데이터를 추출한다. 최종적으로, 형상간 유사성 측정을 위하여 추출된 골격으로부터 방사되는 광선들과 충돌되는 각 샘플 메쉬 쌍에 대하여 $L_2$과 하우스도르프 거리를 계산하고 인터랙티브한 국부적 형상 분석을 지원하기 위하여 마우스 피킹 인터페이스를 채택한다. 이것은 형상의 국부적 변화에 대하여 다양한 해상도에 기반한 형상 분석을 가능하게 한다. 본 논문에서는 실험을 통하여, 제시한 형상 분석 방법이 회전과 스케일 등의 변환에 강인하고, 특히 형상의 국부적 변화 정도를 정확도를 유지하면서 빠르게 평가하는데에 효과적임을 확인하였다. 경로의 수신 신호가 완전 동기 된 수신 신호임을 확인하였다.omonas aeruginosa PA01과 $82\%$로 가장 높은 유사성을 보였고 Pseudomonas arvilla C-1와는 $71\%,$ Pseudomonas putida KT2440과는 $59\%,$ 그리고 Pseudomonas sp. CA10과는 $53\%$의 상동성이 각각 존재하는 것으로 확인하였다.)을 가지고 있음이 확인되었다. 사람에 직접적인 유해성을 가지고 있는 지 확인하기 위해 사람 방광 유래의 T-24세포와 장내 표피 유래의 Caco-2세포에 대한 부착능을 시험하였을 때, 16균주$(42.1\%)$가 T-24방광 세포에, 그리고 17균주$(44.7\%)$가 Caco-2장세포에 대해 강한 부착능을 나타내었다. 특히 11균주$(28.9\%)$는 두 세포 모두에 강한 부착능을 가지고 있었다. Filter mating method를 수행하여 이들 균주들의 독소 생산 유전자와 항생제 내성 유전자가 사람에서 분리된 균주로 전달되는 것을 확인할 수 있었다. 본 실험의 결과는 설사 중상을 나타내는 돼지로부터 분리된 용혈성 E. coli의 독성과 세포 부착능력, 그리고 항생제 내성간의 상호 연관성을 보여주지 않았으나 동물 분리 세균의 항생제 내성과 독소 생산 능력이 유전자 전달을 통해서 뿐만 아니라 세균의 직접 접촉에 의해서도 인체로 전달될 수 있는 것을 보여주는 것이다.다. 본 연구를 토대로 장시간의 체외순환에서는 신장기능을 대표하는 수치들에도

디테일 디스크립터를 이용한 이미지 영역 분석과 개선에 관한 연구 (A study on image region analysis and image enhancement using detail descriptor)

  • 임재성;정영탁;이지혁
    • 한국산학기술학회논문지
    • /
    • 제18권6호
    • /
    • pp.728-735
    • /
    • 2017
  • 디지털 디바이스가 범용적으로 보급되면서, 영상을 획득하는 과정에서 다량의 부가적 백색 잡음 노이즈(additive white Gaussian noise, AWGN)가 발생하고 있다. 대부분 알려져 있는 대표적인 디노이징 기법들은 노이즈를 제거하는 것에 초점을 맞추고 있어, 영상정보를 포함하는 디테일 성분들이 노이즈를 제거가 되는 과정에서 비례적으로 없어지게 된다. 그러므로, 제안하는 알고리즘은 영상 디테일을 보존하면서 효과적으로 노이즈를 제거하는 방법을 제시하고자 한다. 제안하는 방법에서는, 노이즈의 랜덤성을 이용하여 엣지 강도 및 엣지 연결성을 이용하여 의미 있는 디테일 성분을 분리하는 것을 목적으로 한다. 결과적으로, 노이즈 수준이 높아져도, 제안하는 방법은 연결된 디테일성분을 효과적으로 추출하기 때문에 타 벤치마크 방법에 비해 나은 디노이징 결과를 보여준다. 또한, 실험결과에서 보듯이, 제안하는 방법은 다양한 노이즈 수준에서도 타 벤치마크 방법들에 비교하여 제안하는 방법은 SSIM(structural similarity index), PSNR(peak signal-to-noise ratio)측면에서 각각 우수한 수치를 보여주었다. 높은 수치의 SSIM의 결과로 알 수 있듯이, 결과 영상들이 인간의 시각인지체계(human visual system, HVS)를 반영하고 있는 것을 확증해 주고 있다.

네트워크 중심성 척도가 추천 성능에 미치는 영향에 대한 연구 (A Study on the Effect of Network Centralities on Recommendation Performance)

  • 이동원
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.23-46
    • /
    • 2021
  • 개인화 추천에서 많이 사용되는 협업 필터링은 고객들의 구매이력을 기반으로 유사고객을 찾아 상품을 추천할 수 있는 매우 유용한 기법으로 인식되고 있다. 그러나, 전통적인 협업 필터링 기법은 사용자 간에 직접적인 연결과 공통적인 특징을 기반으로 유사도를 계산하는 방식으로 인해 신규 고객 혹은 상품에 대해 유사도를 계산하기 힘들다는 문제가 제기되어 왔다. 이를 극복하기 위하여, 다른 기법을 함께 사용하는 하이브리드 기법이 고안되기도 하였다. 이런 노력의 하나로서, 사회연결망의 구조적 특성을 적용하여 이런 문제를 해결하려는 시도가 있었다. 이는, 직접적으로 유사성을 찾기 힘든 사용자 간에도 둘 사이에 놓인 유사한 사용자 또는 사용자들을 통해 유추해내는 방식으로 상호 간의 유사성을 계산하는 방식을 적용한 것이다. 즉, 구매 데이터를 기반으로 사용자의 네트워크를 생성하고 이 네트워크 내에서 두 사용자를 간접적으로 이어주는 네트워크의 특성을 기반으로 둘 사이의 유사도를 계산하는 것이다. 이렇게 얻은 유사도는 추천대상 고객이 상품의 추천에 대한 수락여부를 결정하는 척도로 활용될 수 있다. 서로 다른 중심성 척도는 추천성과에 미치는 영향이 서로 다를 수 있다는 점에서 중요한 의미를 갖는다 할 수 있다. 이런 유사도의 계산을 위해서 네트워크의 중심성을 활용할 수 있다. 본 연구에서는 여기서 더 나아가 이런 중심성이 추천성과에 미치는 영향이 추천 알고리즘에 따라서도 다를 수 있다는 데에서 주목하여 수행되었다. 또한, 이런 네트워크 분석을 활용한 추천기법은 신규 고객 혹은 상품뿐만 아니라 전체 고객 혹은 상품으로 그 대상을 넓히더라도 추천 성능을 높이는 데 기여할 것을 기대할 수 있을 것이다. 이런 관점에서 본 연구는 네트워크 모형에서 연결선이 생성되는 것을 이진 분류의 문제로 보고, 추천 모형에 적용할 분류 기법으로 의사결정나무, K-최근접이웃법, 로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신을 선택하고, 온라인 쇼핑몰에서 4년2개월간 수집된 구매 데이터로 실험을 진행하였다. 사회연결망에서 측정된 중심성 척도를 각 분류 기법에 적용하여 생성한 모형을 비교 실험한 결과, 각 모형 별로 중심성 척도의 추천성공률이 서로 다르게 나타남을 확인할 수 있었다.