• 제목/요약/키워드: Hash Data

검색결과 334건 처리시간 0.027초

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

언어모델을 활용한 콘텐츠 메타 데이터 기반 유사 콘텐츠 추천 모델 (Similar Contents Recommendation Model Based On Contents Meta Data Using Language Model)

  • 김동환
    • 지능정보연구
    • /
    • 제29권1호
    • /
    • pp.27-40
    • /
    • 2023
  • 스마트 기기의 보급률 증가와 더불어 코로나의 영향으로 스마트 기기를 통한 미디어 콘텐츠의 소비가 크게 늘어나고 있다. 이러한 추세와 더불어 OTT 플랫폼을 통한 미디어 콘텐츠의 시청과 콘텐츠의 양이 늘어나고 있어서 해당 플랫폼에서의 콘텐츠 추천이 중요해지고 있다. 콘텐츠 기반 추천 관련 기존 연구들은 콘텐츠의 특징을 가리키는 메타 데이터를 활용하는 경우가 대부분이었고 콘텐츠 자체의 내용적인 메타 데이터를 활용하는 경우는 부족한 상황이다. 이에 따라 본 논문은 콘텐츠의 내용적인 부분을 설명하는 제목과 시놉시스를 포함한 다양한 텍스트 데이터를 바탕으로 유사한 콘텐츠를 추천하고자 하였다. 텍스트 데이터를 학습하기 위한 모델은 한국어 언어모델 중에 성능이 우수한 KLUE-RoBERTa-large를 활용하였다. 학습 데이터는 콘텐츠 제목, 시놉시스, 복합 장르, 감독, 배우, 해시 태그 정보를 포함하는 2만여건의 콘텐츠 메타 데이터를 사용하였으며 정형 데이터로 구분되어 있는 여러 텍스트 피처를 입력하기 위해 해당 피처를 가리키는 스페셜 토큰으로 텍스트 피처들을 이어붙여서 언어모델에 입력하였다. 콘텐츠들 간에 3자 비교를 하는 방식과 테스트셋 레이블링에 다중 검수를 적용하여 모델의 유사도 분류 능력을 점검하는 테스트셋의 상대성과 객관성을 도모하였다. 콘텐츠 메타 텍스트 데이터에 대한 임베딩을 파인튜닝 학습하기 위해 장르 분류와 해시태그 분류 예측 태스크로 실험하였다. 결과적으로 해시태그 분류 모델이 유사도 테스트셋 기준으로 90%이상의 정확도를 보였고 기본 언어모델 대비 9% 이상 향상되었다. 해시태그 분류 학습을 통해 언어모델의 유사 콘텐츠 분류 능력이 향상됨을 알 수 있었고 콘텐츠 기반 필터링을 위한 언어모델의 활용 가치를 보여주었다.

대용량 메모리를 가진 병렬 데이터베이스 시스템의 조인 연산 (Join Operation of Parallel Database System with Large Main Memory)

  • 박영규
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.51-58
    • /
    • 2007
  • 확장성에서 장점을 가지고 있는 비공유 병렬 프로세서 구조는 병렬 데이터베이스 시스템에서 많이 적용되고 있는 구조이다. 그러나 비공유 병렬 프로세서 구조는 데이터의 분포가 전체 프로세서에게 균일하게 분포되어 있지 않을 경우에는 일부 프로세서에게 부하가 집중되고 이로 인한 성능의 감소가 불가피하게 되는 단점이 있다. 특히 부하의 불균형 정도가 심한 경우에 조인 연산을 수행할 때 이런 성능 감소의 단점은 두드러진다. 본 논문은 비공유 병렬 프로세서 구조에서 부하의 불균형 정도가 심한 경우에도, 조인 연산을 실시하기 전에 부하 불균형을 고려함으로써 성능 감소를 최소화하고, 메모리의 대용량화를 이용하여 성능을 높인 조인 알고리즘을 제시한다. 또한 알고리즘의 성능 분석을 위한 분석 모델을 제시하며, 분석 모델을 통하여 데이터 불균형 문제를 해결하기 위한 다른 알고리즘과의 성능을 비교한다.

  • PDF

Fast Search with Data-Oriented Multi-Index Hashing for Multimedia Data

  • Ma, Yanping;Zou, Hailin;Xie, Hongtao;Su, Qingtang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권7호
    • /
    • pp.2599-2613
    • /
    • 2015
  • Multi-index hashing (MIH) is the state-of-the-art method for indexing binary codes, as it di-vides long codes into substrings and builds multiple hash tables. However, MIH is based on the dataset codes uniform distribution assumption, and will lose efficiency in dealing with non-uniformly distributed codes. Besides, there are lots of results sharing the same Hamming distance to a query, which makes the distance measure ambiguous. In this paper, we propose a data-oriented multi-index hashing method (DOMIH). We first compute the covariance ma-trix of bits and learn adaptive projection vector for each binary substring. Instead of using substrings as direct indices into hash tables, we project them with corresponding projection vectors to generate new indices. With adaptive projection, the indices in each hash table are near uniformly distributed. Then with covariance matrix, we propose a ranking method for the binary codes. By assigning different bit-level weights to different bits, the returned bina-ry codes are ranked at a finer-grained binary code level. Experiments conducted on reference large scale datasets show that compared to MIH the time performance of DOMIH can be improved by 36.9%-87.4%, and the search accuracy can be improved by 22.2%. To pinpoint the potential of DOMIH, we further use near-duplicate image retrieval as examples to show the applications and the good performance of our method.

낮은 복잡도의 보안 네트워크 부호화 (New Secure Network Coding Scheme with Low Complexity)

  • 김영식
    • 한국통신학회논문지
    • /
    • 제38A권4호
    • /
    • pp.295-302
    • /
    • 2013
  • 네트워크 부호화는 중간 노드에서 데이터의 변환을 허용함으로써 전송률 높일 수 있는 방식이지만, 중간 노드에 대한 도청이나 데이터 변조에 취약해지는 문제가 발생한다. 이를 위해 정보이론적 관점에서 또는 암호학적 관점에서 도청 또는 데이터 변조에 저항할 수 있는 다양한 부호화 방식들이 제안되었다. 최근에 암호학적 관점에서 랜덤 네트워크 부호화에도 안전한 네트워크 부호화 방식이 제안되었지만, 안전한 해쉬 함수와 같은 암호학적 도구들의 사용은 센서 노드와 같은 낮은 연산능력을 보유한 장비에서는 적용이 어려운 문제를 지닌다. 이 논문에서는 선형 변환 및 간단한 테이블 룩업을 기반으로 랜덤 네트워크 부호화 사용할 때 n개의 패킷 중에서 공격자가 최대 n-1 개의 패킷을 도청하는 경우에도 n-1 개까지의 사용자 메시지를 동시에 안전하게 전송할 수 있는 안전한 네트워크 부호화 방식을 제안한다. 제안하는 방식은 암호학적으로 전부-또는-전무 변환(all-or-nothing transform) 형태를 가지면서도 정보이론적으로 완화된 조건에서 안전한 네트워크 부호화 방식임을 증명할 것이다.

DRM 시스템에서 해쉬체인과 세션키 교환을 이용한 암호화 기법에 관한 연구 (A Study on Encryption Method using Hash Chain and Session Key Exchange in DRM System)

  • 박찬길;김정재;이경석;전문석
    • 정보처리학회논문지C
    • /
    • 제13C권7호
    • /
    • pp.843-850
    • /
    • 2006
  • 본 논문에서는 기존의 암호화 방법보다 안전한 키를 생성하는 해쉬체인 알고리즘을 제안하며, 해쉬체인 알고리즘 기법을 통해 생성한 각각의 키를 각각의 블록에 적용한 암호화 방법을 사용하여 기존의 시스템보다 보안성이 높은 암호화 방법을 제안한다. 또한 사용자 인증기법을 통해 사용자를 유/무선으로 인증한 후, 키 분할 기법을 이용하여 분할된 키를 안전하게 전송하는 방법과 클라이언트에 키가 유출되어도 완전한 키를 얻지 못하도록 하는 세션키 분할 기법을 제안한다. 제안한 시스템을 설계하고 구현한 후 성능 평가를 위해 다양한 크기의 디지털콘텐츠 파일을 이용하여 실험을 수행하였으며, 제안한 시스템이 기존 시스템에 비해 안전한 키 전송을 할 수 있었고, 키 유출에도 전체 데이터를 복호화 할 수 없도록 암호화 하였다. 또한 클라이언트 시스템에서 비디오 데이터 파일 재생 시 암호화 복호화 시간은 기존 방법과 유사함을 확인하였다.

RFID 시스템에서 프라이버시 보호를 위한 인증프로토콜 설계 (Design of an Authentication Protocol for Privacy Protection in RFID Systems)

  • 배우식
    • 디지털융복합연구
    • /
    • 제10권3호
    • /
    • pp.155-160
    • /
    • 2012
  • 본 논문에서는 RFID 시스템에서 무선으로 데이터를 주고받는 태그와 리더간의 통신보안을 해결하기 위하여 다양한 공격에 안전한 해시와 AES 기반의 인증프로토콜을 제안한다. 제안한 인증프로토콜은 기존의 해시기반 프로토콜의 취약점으로 대두 되어온 매 세션마다 동일한 식별 값에 대한 동일한 은닉 값이 생성되는 문제가 있었다. 이 때문에 태그의 식별정보를 완전히 감추기 위해 다수의 복잡한 연산을 해야 했지만 이런 연산을 줄이기 위해 AES 프로토콜을 이용하여 재전송 공격, 스푸핑 공격, 트래픽 분석, 도청공격 등에 대한 보안성을 강화하고 태그와 리더간 상호인증이 가능하도록 구성한 효과적인 방법을 제안한다.

Ad Hoc 네트워크를 위한 안전한 경로발견 프로토콜 제안 (A Proposal of Secure Route Discovery Protocol for Ad Hoc Network)

  • 박영호;김진규;김철수
    • 한국산업정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.30-37
    • /
    • 2005
  • Ad hoc 네트워크는 고정된 기반 망의 도움없이 이동 단말만으로 구성된 자율적이고 독립적인 네트워크로 최근 다양한 분야에서의 활용이 논의되고 있다. 그러나, ad hoc 네트워크는 구성이 변하기 쉬운 환경이므로 불법 노드가 네트워크 자원소비 및 경로방해 등의 동작이 용이하므로 라우팅 프로토콜 보호가 필요하다. 따라서, 본 논문에서는 해쉬함수만을 이용한 경로발견 프로토콜과 해쉬함수 및 공개키 암호화 방식을 이용한 경로발견 프로토콜을 제안한다. 첫 번째 제안한 프로토콜은 active 공격에 약하나 전송패킷의 데이터 양이 적고 각 홉에서 처리하는 연산량이 적다는 장점이 있으며 두 번째 제안한 프로토콜은 active 공격에 강하다.

  • PDF

대용량 주기억장치 시스템에서 효율적인 연관 규칙 탐사 알고리즘 (An Efficient Algorithm For Mining Association Rules In Main Memory Systems)

  • 이재문
    • 정보처리학회논문지D
    • /
    • 제9D권4호
    • /
    • pp.579-586
    • /
    • 2002
  • 본 논문은 대용량 주기억장치를 가진 시스템에 적합한 연관 규칙 탐사 알고리즘에 관한 연구이다. 이를 위하여 먼저 기존의 잘 알려진 알고리즘인 DHP, Partition 방법을 대용량 주기억장치를 가진 시스템에서 효율적으로 동작하도록 확장하였고, 다음 Partition 방법에 대해서 해쉬 테이블과 비트맵 기법을 적용하여 Partition 방법을 개선하는 방법을 제안하였다. 제안된 알고리즘은 실험적 환경에서 DHP와 성능이 비교되었으며, 제안하는 알고리즘이 확장된 DHP보다 최대 65%까지 성능 개선 효과가 있음을 보인다.

Storing information of stroke rehabilitation patients using blockchain technology: a software study

  • Chang, Min Cheol
    • Journal of Yeungnam Medical Science
    • /
    • 제39권2호
    • /
    • pp.98-107
    • /
    • 2022
  • Background: Stroke patients usually experience damage to multiple functions and a long rehabilitation period. Hence, there is a large volume of patient clinical information. It thus takes a long time for clinicians to identify the patient's information and essential pieces of information may be overlooked. To solve this, we stored the essential clinical information of stroke patients in a blockchain and implemented the blockchain technology using the Java programming language. Methods: We created a mini blockchain to store the medical information of patients using the Java programming language. Results: After generating a unique pair of public/private keys for identity verification, a patient's identity is verified by applying the Elliptic Curve Digital Signature Algorithm based on the generated keys. When the identity verification is complete, new medical data are stored in the transaction list and the generated transaction is verified. When verification is completed normally, the block hash value is derived using the transaction value and the hash value of the previous block. The hash value of the previous block is then stored in the generated block to interconnect the blocks. Conclusion: We demonstrated that blockchain can be used to store and deliver the patient information of stroke patients. It may be difficult to directly implement the code that we developed in the medical field, but it can serve as a starting point for the creation of a blockchain system to be used in the field.