• 제목/요약/키워드: Cosine Similarity

검색결과 188건 처리시간 0.02초

Vehicle Face Re-identification Based on Nonnegative Matrix Factorization with Time Difference Constraint

  • Ma, Na;Wen, Tingxin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권6호
    • /
    • pp.2098-2114
    • /
    • 2021
  • Light intensity variation is one of the key factors which affect the accuracy of vehicle face re-identification, so in order to improve the robustness of vehicle face features to light intensity variation, a Nonnegative Matrix Factorization model with the constraint of image acquisition time difference is proposed. First, the original features vectors of all pairs of positive samples which are used for training are placed in two original feature matrices respectively, where the same columns of the two matrices represent the same vehicle; Then, the new features obtained after decomposition are divided into stable and variable features proportionally, where the constraints of intra-class similarity and inter-class difference are imposed on the stable feature, and the constraint of image acquisition time difference is imposed on the variable feature; At last, vehicle face matching is achieved through calculating the cosine distance of stable features. Experimental results show that the average False Reject Rate and the average False Accept Rate of the proposed algorithm can be reduced to 0.14 and 0.11 respectively on five different datasets, and even sometimes under the large difference of light intensities, the vehicle face image can be still recognized accurately, which verifies that the extracted features have good robustness to light variation.

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

여현변환 계수를 이용한 이미지 탐색 알고리즘 (A Image Search Algorithm using Coefficients of The Cosine Transform)

  • 이석한
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권1호
    • /
    • pp.13-21
    • /
    • 2019
  • 내용기반 영상검색은 영상 내의 정보인 색상, 질감, 형태 등의 특징 값을 추출하여 검색에 이용한다. 본 논문에서는 $8{\times}8$ 이산여현변환, 즉 $8{\times}8$ DCT(Discrete Cosine Transform) 후 얻어지는 DC, AC계수를 이용하여 필터뱅크(filter-bank)를 생성하고, 이를 영상의 내용기반 검색에 이용하는 검색방법을 제안한다. 제안된 방법은 생성된 DCT 필터뱅크에서 DC성분과 주요한 AC성분인 AC01, AC10, AC11 만을 이용하며, DC성분에 대한 양자화를 수행하여 계산량을 최소화한다. 그리고 양자화된 DC성분에 대한 히스토그램 정보를 기반으로 영상 검색에 필요한 특징 값을 산출한다. AC성분에 대해서는 Otsu 이진화를 통하여 개괄적인 형태정보를 취득한 다음 이에 대한 수평/수직 방향으로의 투영 히스토그램을 계산하여 특징 값을 취득한다. 추출된 AC성분의 특징 값은 DC성분의 특징 값과 함께, 특징벡터 빈(feature vector bins)을 구성하여 검색을 수행한다. 실험은 1000장의 데이터베이스를 이용하여 수행 되었으며, 기존의 색상정보를 이용한 검색방법보다 우수한 성능을 보임을 확인하였다.

변경 유형의 유사도 및 커밋 시간을 이용한 파일 변경 결합도 (A Technique to Detect Change-Coupled Files Using the Similarity of Change Types and Commit Time)

  • 김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권2호
    • /
    • pp.65-72
    • /
    • 2014
  • 변경 결합도는 두 요소들 사이의 향후 변경 연관성을 알려준다. 만약, 소스 파일들이 자주 함께 변경된다면, 그 소스 파일들의 변경 결합도는 높다고 볼 수 있으며, 나중에 다시 함께 변경될 확률이 높다. 일반적으로 소스 파일들 사이의 변경 결합도는 공통 변경 횟수에 기반하여 정의되었다. 그런데 연관성이 낮은 변경들이 일괄적으로 함께 커밋되는 경우, 즉 뒤얽힌 변경(tangled change)과 같은 경우들이 빈번히 발생한다. 따라서 함께 변경된 횟수만으로 소스 파일의 변경 결합도를 결정하는 것은 한계가 있다. 본 논문에서는 기존의 방법을 보완하기 위해, 소스 파일의 변경 시간뿐 아니라 소스 코드 변경 유형의 유사성을 함께 고려하는 것을 제안하였다. 이를 위하여, 우선 추출된 변경 유형 정보를 이용하여 변경 유형 빈도 벡터를 정의하고, 다음에 코사인 유사도 측정을 통해서 각 소스 파일 버전에서 적용된 코드 변경 유사성을 계산한다. 이후 Eclipse 프로젝트인 JDT와 CDT에 대한 사례 연구를 통해 제안된 방법의 효용성을 보였다.

메소드 참조 빈도와 매니페스트 정보를 이용한 안드로이드 애플리케이션들의 유사도 측정 (Measuring Similarity of Android Applications Using Method Reference Frequency and Manifest Information)

  • 김규식;마수드;조성제;김성백
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권3호
    • /
    • pp.15-25
    • /
    • 2017
  • 소프트웨어 가치와 중요성이 커짐에 따라 소프트웨어의 도용이 증가하고 있어 이에 대한 대책으로 소프트웨어 도용을 정확히 탐지하는 방안이 필요하다. 특히 안드로이드 앱의 경우, 소프트웨어 도용이 상대적으로 용이한 반면 안드로이드 마켓 상에서는 불법 앱에 대한 적절한 검수를 수행하지 않고 있다. 이에 본 논문에서는 소프트웨어 도용을 탐지하기 위해 실행파일 수준에서 안드로이드 앱 간의 유사도를 효과적으로 측정하는 기법을 제안한다. 제안 기법은 유사도 측정을 위한 주요 특징정보로, 안드로이드 앱의 실행파일을 정적으로 분석하여 메소드 참조 빈도와 매니페스트 정보를 추출한다. 각 앱을 이 두 가지 특징정보들의 n-차원 벡터로 표시하고, 코사인 유사도를 사용하여 두 앱의 유사도를 측정한다. 제안 기법을 검증하기 위해 대표적인 소스코드 기반의 유사도 측정 기법과 본 논문에서 제안한 기법을 비교 평가한다. 소스파일과 실행파일이 함께 주어진 안드로이드 앱을 대상으로 진행한 실험에서, 본 논문에서 제안한 실행파일 수준의 유사도 측정 결과와 기존의 잘 알려진 소스파일 수준의 유사도 측정 결과가 동등한 수준으로 나왔다.

A Tracking Method of Same Drug Sales Accounts through Similarity Analysis of Instagram Profiles and Posts

  • Eun-Young Park;Jiyeon Kim;Chang-Hoon Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권2호
    • /
    • pp.109-118
    • /
    • 2024
  • 전 세계 소셜 미디어 사용자가 증가하면서 다양한 범죄의 수단으로 소셜 미디어가 악용되는 사례가 증가하고 있다. 특히, 소셜 미디어를 통한 마약 유통은 마약 판매자와 소비자의 높은 접근성으로 인해 청소년들의 마약 호기심을 자극하고, 구매를 용이하게 한다는 점에서 심각한 사회문제로 대두되고 있다. 본 논문에서는 다양한 소셜 미디어 중, 국내 19세에서 24세 청소년이 가장 많이 사용하는 인스타그램을 대상으로 프로필 사진, 소개글, 게시물 사진과 게시글을 수집하고, 각 정보의 유사도 분석을 통해 수집한 다수의 계정을 활용하여 마약을 유통하는 마약사범 추적 기술을 개발한다. 4개 수집 정보 중, 이미지 형태의 프로필 사진 및 게시물 사진은 SSIM(Structural Similarity Index Measure) 기반으로 유사도를 분석하고, 텍스트 형태의 소개글 및 게시글은 자카드 유사도 및 코사인 유사도 기법을 사용하여 유사도를 분석한다. 이와 같은 유사도 분석을 통해, 각 수집 정보별 계정 간의 유사도를 측정할 수 있으며 유의수준 이상의 유사성을 갖는 계정들에 대해 동일 마약 유통 계정으로 판단할 수 있다. 또한, 수집한 4개 정보에 대해 로지스틱 회귀분석을 수행하여 게시물 사진을 제외한 프로필 사진, 소개글, 게시글이 동일 마약 판매 계정을 추적하는 데에 유효한 정보임을 확인하였다.

OPAC에서 자동분류 열람을 위한 계층 클러스터링 연구 (Hierarchic Document Clustering in OPAC)

  • 노정순
    • 정보관리학회지
    • /
    • 제21권1호
    • /
    • pp.93-117
    • /
    • 2004
  • 본 연구는 OPAC에서 계층 클러스터링을 응용하여 소장자료를 계층구조로 분류하여 열람하는데 사용될 수 있는 최적의 계층 클러스터링 모형을 찾기 위한 목적으로 수행되었다. 문헌정보학 분야 단행본과 학위논문으로 실험집단을 구축하여 다양한 색인기법(서명단어 자동색인과 통제어 통합색인)과 용어가중치 기법(절대빈도와 이진빈도), 유사도 계수(다이스, 자카드, 피어슨, 코싸인, 제곱 유클리드), 클러스터링 기법(집단간 평균연결, 집단내 평균연결, 완전연결)을 변수로 실험하였다. 연구결과 집단간 평균연결법과 제곱 유클리드 유사도를 제외하고 나머지 유사도 계수와 클러스터링 기법은 비교적 우수한 클러스터를 생성하였으나, 통제어 통합색인을 이진빈도로 가중치를 부여하여 완전연결법과 집단간 평균연결법으로 클러스터링 하였을 때 가장 좋은 클러스터가 생성되었다. 그러나 자카드 유사도 계수를 사용한 집단간 평균연결법이 십진구조와 더 유사하였다.

다차원 데이터에 대한 심층 군집 네트워크의 성능향상 방법 (Performance Improvement of Deep Clustering Networks for Multi Dimensional Data)

  • 이현진
    • 한국멀티미디어학회논문지
    • /
    • 제21권8호
    • /
    • pp.952-959
    • /
    • 2018
  • Clustering is one of the most fundamental algorithms in machine learning. The performance of clustering is affected by the distribution of data, and when there are more data or more dimensions, the performance is degraded. For this reason, we use a stacked auto encoder, one of the deep learning algorithms, to reduce the dimension of data which generate a feature vector that best represents the input data. We use k-means, which is a famous algorithm, as a clustering. Sine the feature vector which reduced dimensions are also multi dimensional, we use the Euclidean distance as well as the cosine similarity to increase the performance which calculating the similarity between the center of the cluster and the data as a vector. A deep clustering networks combining a stacked auto encoder and k-means re-trains the networks when the k-means result changes. When re-training the networks, the loss function of the stacked auto encoder and the loss function of the k-means are combined to improve the performance and the stability of the network. Experiments of benchmark image ad document dataset empirically validated the power of the proposed algorithm.

텍스트 마이닝 기법을 이용한 연관용어 선정에 관한 실험적 연구 (An Experimental Study on Selecting Association Terms Using Text Mining Techniques)

  • 김수연;정영미
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.147-165
    • /
    • 2006
  • 이 연구에서는 전체 문헌집단으로부터 초기 질의어에 대한 연관용어 선정 시 사용할 수 있는 최적의 기법을 찾기 위해 연관규칙 마이닝과 용어 클러스터링 기법을 이용하여 연관용어 선정 실험을 수행하였다. 연관규칙 마이닝 기법에서는 Apriori 알고리즘을 사용하였으며, 용어 클러스터링 기법에서는 연관성 척도로 GSS 계수, 자카드계수, 코사인계수, 소칼 & 스니스 5, 상호정보량을사용하였다. 성능평가 척도로는 연관용어 정확률과 연관용어 일치율을 사용하였으며, 실험결과 Apriori 알고리즘과 GSS 계수가 가장 좋은 성능을 나타냈다.

Establishment of Priority Update Area for Land Coverage Classification Using Orthoimages and Serial Cadastral Maps

  • Song, Junyoung;Won, Taeyeon;Jo, Su Min;Eo, Yang Dam;Park, Jin Sue
    • 대한원격탐사학회지
    • /
    • 제37권4호
    • /
    • pp.763-776
    • /
    • 2021
  • This paper introduces a method of selecting priority update areas for subdivided land cover maps by training orthoimages and serial cadastral maps in a deep learning model. For the experiment, orthoimages and serial cadastral maps were obtained from the National Spatial Data Infrastructure Portal. Based on the VGG-16 model, 51,470 images were trained on 33 subdivided classifications within the experimental area and an accuracy evaluation was conducted. The overall accuracy was 61.42%. In addition, using the differences in the classification prediction probability of the misclassified polygon and the cosine similarity that numerically expresses the similarity of the land category features with the original subdivided land cover class, the cases were classified and the areas in which the boundary setting was incorrect and in which the image itself was determined to have a problem were identified as the priority update polygons that should be checked by operators.