• 제목/요약/키워드: hashing

검색결과 214건 처리시간 0.025초

효율적인 트랜스포머를 이용한 팩트체크 자동화 모델 (Automated Fact Checking Model Using Efficient Transfomer)

  • Yun, Hee Seung;Jung, Jason J.
    • 한국정보통신학회논문지
    • /
    • 제25권9호
    • /
    • pp.1275-1278
    • /
    • 2021
  • Nowadays, fake news from newspapers and social media is a serious issue in news credibility. Some of machine learning methods (such as LSTM, logistic regression, and Transformer) has been applied for fact checking. In this paper, we present Transformer-based fact checking model which improves computational efficiency. Locality Sensitive Hashing (LSH) is employed to efficiently compute attention value so that it can reduce the computation time. With LSH, model can group semantically similar words, and compute attention value within the group. The performance of proposed model is 75% for accuracy, 42.9% and 75% for Fl micro score and F1 macro score, respectively.

바이토닉 정렬 기반의 GPU 해싱을 이용한 인접 입자의 빠른 접근 기법과 그 응용 사례 (Fast Access Method of Neighboring Particles Using Bitonic Sort Based GPU Hashing, and Its Applications)

  • 이수빈;김종현
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.357-360
    • /
    • 2022
  • 본 논문에서는 대용량 데이터에서 빠르게 주변 데이터를 접근하기 위한 자료구조인 최근접 이웃 탐색(Nearest neighbor search, NNS) 문제를 빠르게 풀 수 있는 바이토닉 정렬(Bitonic sort) 기반 해시 테이블을 GPU기반에서 설계하는 방법과 이를 통해 입자 기반 물리 시뮬레이션을 고속화할 수 있는 방법에 대해 살펴본다. 본 논문에서는 CUDA 아키텍처를 이용하여 해시 테이블을 설계하였으며, 계산양이 가장 큰 데이터 정렬부분을 최적화함으로써 NVIDIA에서 제공하는 CUDA 해시 테이블보다 빠른 결과를 얻을 수 있으며, 이 자료구조를 입자 기반 시뮬레이션에 통합함으로써 고성능 시뮬레이션을 쉽게 제작할 수 있다.

  • PDF

API 콜 시퀀스와 Locality Sensitive Hashing을 이용한 악성코드 클러스터링 기법에 관한 연구 (A Study on Malware Clustering Technique Using API Call Sequence and Locality Sensitive Hashing)

  • 고동우;김휘강
    • 정보보호학회논문지
    • /
    • 제27권1호
    • /
    • pp.91-101
    • /
    • 2017
  • API(Application Program Interface) 콜 시퀀스 분석은 분석 대상 프로그램에서 API 콜 정보를 추출한 후 분석하는 기법으로 다른 기법들에 비해 대상의 행위를 특징할 수 있는 장점이 있다. 하지만 기존의 API 콜 시퀀스 분석기법은 동일한 기능을 수행하는 함수를 상이한 함수로 잘못 식별하여 분석을 수행하는 문제점이 존재한다. 본 연구에서는 API 각각을 추상화시키는 방식을 추가하여 기존의 식별 문제를 해결하고 분석 성능을 향상시키고자 한다. 그 후 분석 대상들에서 획득한 추상화된 API 콜 시퀀스에 LSH(Locality Sensitive Hashing) 기법을 적용하여 각 분석 대상들 간의 유사도를 계산하고 유사한 유형끼리 클러스터를 형성하는 과정을 수행하였다. 본 연구는 악성코드 분석 시 악성코드의 유형을 파악하는 데 요긴하게 사용할 수 있으며, 최종적으로는 해당 유형 정보를 기반으로 악성코드 분석의 정확도를 향상시키는 데 기여할 수 있다.

Fast Search with Data-Oriented Multi-Index Hashing for Multimedia Data

  • Ma, Yanping;Zou, Hailin;Xie, Hongtao;Su, Qingtang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권7호
    • /
    • pp.2599-2613
    • /
    • 2015
  • Multi-index hashing (MIH) is the state-of-the-art method for indexing binary codes, as it di-vides long codes into substrings and builds multiple hash tables. However, MIH is based on the dataset codes uniform distribution assumption, and will lose efficiency in dealing with non-uniformly distributed codes. Besides, there are lots of results sharing the same Hamming distance to a query, which makes the distance measure ambiguous. In this paper, we propose a data-oriented multi-index hashing method (DOMIH). We first compute the covariance ma-trix of bits and learn adaptive projection vector for each binary substring. Instead of using substrings as direct indices into hash tables, we project them with corresponding projection vectors to generate new indices. With adaptive projection, the indices in each hash table are near uniformly distributed. Then with covariance matrix, we propose a ranking method for the binary codes. By assigning different bit-level weights to different bits, the returned bina-ry codes are ranked at a finer-grained binary code level. Experiments conducted on reference large scale datasets show that compared to MIH the time performance of DOMIH can be improved by 36.9%-87.4%, and the search accuracy can be improved by 22.2%. To pinpoint the potential of DOMIH, we further use near-duplicate image retrieval as examples to show the applications and the good performance of our method.

위치 정보의 보안성이 고려된 가입자 위치등록기 시스템의 새로운 구조 (Performance Enhancement Architecture including Location Information Secrecy for HLR System)

  • 김자환
    • 한국사이버테러정보전학회:학술대회논문집
    • /
    • 한국사이버테러정보전학회 2004년도 제1회 춘계학술발표대회
    • /
    • pp.103-108
    • /
    • 2004
  • 현재 HLR system은 이동전화 망에서 지속적으로 변하는 개별 가입자의 위치 정보를 관리 한다. 이를 수행하기 위해, HLR database system은 table 관리 기능과 색인 관리 기능, 그리고 백업 관리 기능을 제공한다. 본 논문에서는, 이동 전화 번호를 위한 적절한 색인 기법으로서 이단계 색인 기법의 사용과, 단말번호를 위한 버켓 연결 해슁 기법을 제안한다. 이동 전화 번호(MDN)와 단말번호(ESN)는 HLR database system에서 key로 사용된다. 또한 HLR database transaction의 특성을 고려한 효율적인 백업 방법을 제안한다. 이단계 색인 기법은 기존의 T 트리 색인 기법보다 검색 속도와 기억 공간 사용 효율 측면에서 우수하다. 버켓 연결 해슁 기법은 기존의 변형된 선형 해슁 기법보다 삽입과 삭제 시의 오버헤드가 적다. 제안한 백업 방법에서는, 빈번한 위치 등록 기능 수행으로 인해 야기되는 성능 저하 문제를 해결하기 위해 두가지 종류의 갱신 플래그를 사용하였다. 아울러 위치 정보의 보안성 처리를 위한 HLR 데이터베이스 Scheme을 제안하였다.

  • PDF

3차원 복원을 위한 대용량 희소 볼륨 데이터의 효율적인 저장을 위한 공간자료구조 (Spatial Data Structure for Efficient Representation of Very Large Sparse Volume Data for 3D Reconstruction)

  • 안재풍;신승미;서웅;임인성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권3호
    • /
    • pp.19-29
    • /
    • 2017
  • 일반적으로 희소 볼륨 데이터에 대하여 고정적인 메모리 할당 방식을 사용할 경우 상당한 메모리 공간 낭비가 발생하며, 이는 대용량의 고해상도 볼륨 데이터의 경우 더 심각한 문제가 발생한다. 본 논문에서는 이러한 불필요한 메모리 낭비를 개선하기 위하여 고정적인 메모리 공간이 아닌, 유효한 정보가 저장된 복셀 만을 효과적으로 저장하는 볼륨 데이터 표현 방법을 제안하고, 이를 기존의 정적인 메모리 할당 방법, 팔진 트리 그리고 복셀 해싱 방법과 메모리 사용량 및 연산 속도 측면에서 비교 분석한다. 특히 GPU 기반의 마칭 큐브 방법의 구현에 있어 본 논문에서 제안하는 방법과 복셀 해싱 방법을 비교 분석 한다.

기하학적 해싱 기법을 이용한 음악 검색 (Music Retrieval Using the Geometric Hashing Technique)

  • 정효숙;박성빈
    • 컴퓨터교육학회논문지
    • /
    • 제8권5호
    • /
    • pp.109-118
    • /
    • 2005
  • 본 논문에서는 음악 데이터베이스의 멜로디와 사용자가 기술한 멜로디의 기하학적 구조를 비교하는 음악 검색 시스템을 제안하고 있다. 시스템은 멜로디의 구조적이고 상황적인 특징들을 분석하여 쿼리 멜로디와 데이터베이스의 멜로디가 일치성을 찾고자 한다. 검색 방법은 사전 처리 단계와 인식 단계로 이루어진 기하하적 해싱 알고리즘에 기반을 두고 있다. 사전 처리 단계 동안 구조적 특징을 찾기 위해서 음악의 멜로디를 여러 개의 프래그먼트(fragment)들로 분할하고 그 프래그먼트의 각 음의 높이 및 길이를 분석한다. 상황적 특징을 찾기 위해서 각 프래그먼트의 중심 화음을 찾는다. 인식 단계 동안 사용자가 입력한 쿼리 멜로디를 여러 개의 프래그먼트들로 분할하고 구조적이고 상황적 특성이 유사한 모든 프래그먼트들을 데이터베이스에서 검색한다. 투표는 각 프래그먼트에 대해 이루어지고 총 득표수가 최대인 음악이 쿼리 멜로디와 일치하는 멜로디를 갖는 음악이 된다. 이러한 접근 방법을 이용하여, 음악 데이터베이스에서 유사한 멜로디를 빠르게 찾을 수 있다. 또한 이 방법은 표절 음악을 감지하는데 적용될 수 있다.

  • PDF

강인한 오디오 핑거프린팅 시스템을 위한 에너지와 통계적 필터링 (Energy and Statistical Filtering for a Robust Audio Fingerprinting System)

  • 정병준;김대진
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-9
    • /
    • 2012
  • 디지털 음악과 스마트 폰이 대중화되면서 잡음에 강인한 실시간 음악 핑거프린트 시스템이 다양하게 개발되고 있다. 특히 핑거프린트 알고리즘 중 Multiple Hashing(MLH)은 잡음에 강인하고 정교한 구조로 되어 있다. 본 논문에서는 음악 데이터베이스로부터 질의 및 응답의 정확도를 개선하기 위해 에너지 집중필터를 사용하고 연속성과 중복성을 제거하는 통계적 필터를 제안한다. 에너지 집중 필터는 하위 비트에 에너지가 집중되는 Discrite Cosine Transform(DCT)의 특징을 이용하고, 통계적 필터는 검색된 핑거프린트 정보들 사이의 상관관계 특성을 이용한다. 실험 결과로 잡음 환경에서 에너지와 통계적 필터링으로 구성된 제안 알고리즘은 우수성을 보인다. 이는 제안된 필터 엔진으로 Philips Robust Hash(PRH)보다 잡음에 강인하고 Multiple Hashing(MLH)보다 간결한 핑거프린트 시스템을 구성할 수 있다.

히스토그램 기반의 강인한 계층적 GLOCAL 해쉬 생성 방법 (Robust Hierarchical GLOCAL Hash Generation based on Image Histogram)

  • 최용수;김형중;이달호
    • 전자공학회논문지CI
    • /
    • 제48권1호
    • /
    • pp.133-140
    • /
    • 2011
  • 최근 들어, 웹 응용의 하나로 이미지를 통합 관리하는 이미지 거래소(Image Stock), 이미지 도서관(Image Library)과 같은 응용들이 많이 만들어 지고 있다. 이미지의 등록, 관리, 검색에는 주로 이미지 해쉬라는 기술이 구분자(Identifier)로서 쓰이며 해쉬의 분별력을 높이기 위한 연구들이 많이 진행되어지고 있다. 본 논문에서는 계층적 히스토그램을 이용한 GLOCAL(Global to Local) 이미지 해쉬 생성 방법을 제안하였다. 많은 연구들이 이미지 처리 및 기하학적 공격에 강한 히스토그램 기반의 이미지 해쉬 기법들을 제안하였으며 제안된 논문에서는 GLOCAL 해쉬 생성과 가중치(Weighting Factor)를 적용하여 해쉬의 안정성을 높이는데 기여하였다. GLOCAL 해쉬 생성 방법에 의해 기존의 알고리즘들은 좀더 풍부한 길이의 이미지 해쉬를 생성하였다. 즉, 이미지 해쉬의 근본 목적인 Identification과 Discrimination 이라는 두 가지 목적을 잘 달성하였으며 그 결과는 통계학적 가설 검정 (Statistical Hypothesis Testing)을 통해 기존의 알고리즘과 비교하였으며 대부분의 공격종류에 대해 제안된 알고리즘이 향상된 성능을 보여줌을 확인하였다.

IP 주소 검색에서 블룸 필터를 사용한 다중 해싱 구조 (Multiple Hashing Architecture using Bloom Filter for IP Address Lookup)

  • 박경혜;임혜숙
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권2호
    • /
    • pp.84-98
    • /
    • 2009
  • 라우터의 포워팅 성능을 향상시키기 위해 많은 IP 주소 검색 알고리즘들이 연구되어 오고 있다. 기존에 제안된 블룸 필터를 이용한 IP 주소 검색 구조는 프리픽스 길이별로 블룸 필터 및 해시 테이블을 따로 가지고 있어 구현이 복잡하며, 프리픽스 길이 별 해시 테이블의 개수를 줄이기 위하여 프리적스의 복사가 불가피한 단점을 지닌다. 멀티 다중 해시 테이블을 이용한 병렬 해싱 구조는 프리픽스의 길이별로 해시 테이블을 구성하고, 다중 해싱 함수를 사용하여 모든 프리픽스 길이에 대하여 병렬 검색하는 구조로서 검색 성능이 뛰어나나 병렬 검색 구조이므로 구현이 또한 복잡하다. 본 논문에서는 단일 블룸 필터에 다양한 길이의 프리픽스를 모두 저장하는 통합 블룸 필터와 단일 테이블에 모든 길이의 프리픽스를 모두 저장하는 통합 다중-해시 테이블을 사용하여 구현이 간단하면서도 검색성능이 뛰어난 새로운 IP 주소 검색 구조를 제안한다. 실제 백본 라우터에서 쓰이는 데이타를 이용하여 시뮬레이션을 수행한 결과 $15000{\sim}220000$개의 엔트리를 갖는 라우팅 테이블에 대하여 평균 1.04-1.17번의 메모리 접근으로 IP 주소검색이 가능함을 보였다.