• 제목/요약/키워드: Jaccard index

검색결과 24건 처리시간 0.021초

동일한 환경에서 구성된 비트코인과 이더리움의 메모리 풀 자카드 유사도 분석 (Analysis of Memory Pool Jacquard Similarity between Bitcoin and Ethereum in the Same Environment)

  • 맹수훈;신혜영;김대용;주홍택
    • KNOM Review
    • /
    • 제22권3호
    • /
    • pp.20-24
    • /
    • 2019
  • 블록체인은 분산 원장 기반 기술로 블록체인 네트워크에 참여하는 모든 노드들은 P2P 네트워크로 연결되어 있다. 블록체인 네트워크에서 트랜잭션이 생성되면, 트랜잭션은 블록체인 노드들에 의해 전파되고 유효성을 검증 받는다. 검증된 트랜잭션은 P2P 네트워크를 통해 각 노드와 연결되어있는 Peer들에게 전송되고, Peer들은 트랜잭션을 메모리 풀에 보관한다. P2P 네트워크 특성상 블록체인 노드가 전달하는 트랜잭션의 수와 종류는 각 노드마다 달라 모든 노드들이 동일한 메모리 풀을갖지 못하는 문제가 발생함에 따라 메모리 풀에 저장되어있는 트랜잭션들은 거래 수수료 조작, 이중 지불 문제, DDos 공격탐지 등의 문제를 해결하기 위해 연구가 필요하다. 본 논문에서는 거래 수수료 조작, 이중 지불 문제, DDos공격 탐지 등과 같은 문제를 해결하기 앞서 메모리 풀의 트랜잭션들을 분석한다. 따라서 본 연구는 블록체인기술을 기반으로 구현된 암호화폐 시스템인 비트코인과 이더리움의 각 노드 메모리 풀에 저장되어있는 트랜잭션들을 수집하고 얼마만큼의 공통된 트랜잭션들을 가지고 있는지 자카드 유사도를 이용하여 분석한다.

A Tracking Method of Same Drug Sales Accounts through Similarity Analysis of Instagram Profiles and Posts

  • Eun-Young Park;Jiyeon Kim;Chang-Hoon Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.109-118
    • /
    • 2024
  • 전 세계 소셜 미디어 사용자가 증가하면서 다양한 범죄의 수단으로 소셜 미디어가 악용되는 사례가 증가하고 있다. 특히, 소셜 미디어를 통한 마약 유통은 마약 판매자와 소비자의 높은 접근성으로 인해 청소년들의 마약 호기심을 자극하고, 구매를 용이하게 한다는 점에서 심각한 사회문제로 대두되고 있다. 본 논문에서는 다양한 소셜 미디어 중, 국내 19세에서 24세 청소년이 가장 많이 사용하는 인스타그램을 대상으로 프로필 사진, 소개글, 게시물 사진과 게시글을 수집하고, 각 정보의 유사도 분석을 통해 수집한 다수의 계정을 활용하여 마약을 유통하는 마약사범 추적 기술을 개발한다. 4개 수집 정보 중, 이미지 형태의 프로필 사진 및 게시물 사진은 SSIM(Structural Similarity Index Measure) 기반으로 유사도를 분석하고, 텍스트 형태의 소개글 및 게시글은 자카드 유사도 및 코사인 유사도 기법을 사용하여 유사도를 분석한다. 이와 같은 유사도 분석을 통해, 각 수집 정보별 계정 간의 유사도를 측정할 수 있으며 유의수준 이상의 유사성을 갖는 계정들에 대해 동일 마약 유통 계정으로 판단할 수 있다. 또한, 수집한 4개 정보에 대해 로지스틱 회귀분석을 수행하여 게시물 사진을 제외한 프로필 사진, 소개글, 게시글이 동일 마약 판매 계정을 추적하는 데에 유효한 정보임을 확인하였다.

아까시나무(Robinia pseudo-acacia)종자 단백질의 전기 영동 변이

  • 김창호;이호준;김용옥
    • The Korean Journal of Ecology
    • /
    • 제16권4호
    • /
    • pp.515-526
    • /
    • 1993
  • 한반도 남부 지역에 분포하는 아까시나무(Robinia pseudo-acacia L.)종자의 생태학적 형질변이를 추적하기 위하여, 북위34$^{\circ}$18'~38$^{\circ}$36'사이에 위치한 15개 지역(대진, 속초, 강릉, 수락산, 홍천, 광릉, 남한산성, 충주, 예산, 안동, 전주, 달성, 창원, 목포, 완도)을 선정하여 채종한 종자를 재료로, 단백질 패턴 및 정량 분석을 실시하였다. SDS-PAGE에 의한 단백질 패턴 분석결과, 전 지역데 걸쳐 총 35개의 밴드가 분리되었으며 최고 분자량은 142,232 daltons, 최저 분자량은 17,258 daltons였다. 분리된 단백질 밴드 수를 지역별로 비교한 결과, 대진, 속초가 32개로 가장 많은 반면, 홍천과 달성은 23개로 가장 적었으며, 대체로 고위도로 갈수록 증가하는 경향을 나타냈다. 각 단백질 밴드의 유무에 따라 지역에 따른 단백질 패턴의 차이를 비교해 본 결과, 중북부 동해안형(대진, 속초, 강릉)과 중부형(수락산, 홍천, 광릉, 남한산성, 충주) 및 남부형(에산, 안동, 전주, 달성, 창원, 목포, 완도)등 3가지 지역 유형이 구분되었다. 단백질 패턴의 지역간 유사도 지수(Jaccard 계수)를 근거로 UPGMAdp 의한 cluster analysis 결과, 중북부 등해안형(속초, 강릉), 중북부 I형(수락산, 홍천), 중북부 II형(남한산성, 충주, 대진), 중북부III형(광릉), 중남부형(예산, 달성, 전주) 및 남부형(안동, 창원, 목포, 완도)등 6개 유형이 식별되었다. 분리된 단백질 밴드 가운데, 모든 지역세어 No.12밴드(78,162daltons)가 가장 높은 염색 강도를 나타냈고, No.11.12.13.과No.23~28 밴드 역시 비교적 높은 염색강도를 보였다. 전체적으로 총 단백질 함량이 높은 창원, 목포, 완도 등 남부형 지역에서 특히 높은 염색 강도를 나타냈다. 총 단백질 함량은 각 지역별로 최저9.68mg/g(수락산)에서 최고17.30mg/g(전주)에 이르는 다양한 수치를 나타냈으며, 대체로 저위도로 갈수록 증가하는 경향을 보였다.

  • PDF

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.