• 제목/요약/키워드: cosine similarity measure

검색결과 47건 처리시간 0.027초

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

코사인 유사도 측정을 통한 행위 기반 인증 (A Behavior-based Authentication Using the Measuring Cosine Similarity)

  • 길선웅;이기영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권4호
    • /
    • pp.17-22
    • /
    • 2020
  • 현재 많은 연구가 진행되고 있는 행위 기반 인증 기술은 다른 인증 기술들에 비해서 인증의 인식률을 높이는데 많은 데이터의 장기간 추출이 필요하다. 본 논문은 안드로이드 환경의 스마트폰에 내재되어있는 터치 센서와 자이로스코프를 이용하여 그동안의 행위 기반 인증 연구에서 사용 되었던 행위 특징 데이터들 중에서 핵심적인 최소한의 데이터들만을 이용하기 위해 사용자에게 다섯 차례의 측정을 요구하여 다섯 번의 터치스크린 화면을 터치 하는 방식으로 총 6가지의 행위 특징 데이터를 수집하였고 다음 터치 측정으로 넘어가는 동안의 데이터들의 변화 값에 평균 값을 구하여 이 값과 측정값의 코사인 유사도 측정을 수행하여 코사인 유사도 허용 범위를 생성 한 후, 인증 시도 데이터의 코사인 유사도 값과 비교하는 방식의 사용자 행위 기반 인증 방식을 제안한다. 본 논문을 통해서 적은 수의 특징 데이터와 실험자수 환경에서도 코사인 유사도 인증 범위에 적용되는 임계값을 조절하는 방식을 통해서 최초 EER 37.6%에서 최종 EER 1.9%의 높은 성능을 증명하는데 성공하였다.

분포유사도를 이용한 문헌클러스터링의 성능향상에 대한 연구 (Improving the Performance of Document Clustering with Distributional Similarities)

  • 이재윤
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.267-283
    • /
    • 2007
  • 이 연구에서는 분포 유사도를 문헌 클러스터링에 적용하여 전통적인 코사인 유사도 공식을 대체할 수 있는 가능성을 모색해보았다. 대표적인 분포 유사도인 KL 다이버전스 공식을 변형한 Jansen-Shannon 다이버전스, 대칭적 스큐 다이버전스, 최소스큐 다이버전스의 세 가지 공식을 문헌 벡터에 적용하는 방안을 고안하였다. 분포 유사도를 적용한 문헌 클러스터링 성능을 검증하기 위해서 세 실험 집단을 대상으로 두 가지 실험을 준비하여 실행하였다. 첫 번째 문헌클러스터링실험에서는 최소스큐다이버전스가 코사인 유사도 뿐만 아니라 다른 다이버전스공식의 성능도 확연히 앞서는 뛰어난 성능을 보였다. 두번째 실험에서는 피어슨 상관계수를 이용하여1차 유사도 행렬로부터2차 분포 유사도를 산출하여 문헌 클러스터링을 수행하였다. 실험결과는 2차 분포 유사도가 전반적으로더 좋은 문헌 클러스터링성능을 보이는 것으로 나타났다. 문헌클러스터링에서 처리 시간과 분류 성능을 함께 고려한다면 이 연구에서 제안한 최소 스큐 다이버전스 공식을 사용하고, 분류 성능만 고려할 경우에는 2차 분포 유사도 방식을 사용하는 것이 바람직하다고 판단된다.

코사인 유사도를 이용한 이주패턴 변화의 정량적 측정 (Quantitative Measure of the Changes of Migration Patterns Using Cosine Similarity)

  • 한이철
    • 농촌계획
    • /
    • 제23권2호
    • /
    • pp.67-74
    • /
    • 2017
  • Migration is defined as the movement of people between residential places, and represents interactions between regions. Changes in migration involve changes in both the number of migrants toward/from regions and migration patterns across regions. However, most migration studies have focused only on the change in migrants, while no empirical study captures changes in migration patterns. In this paper, I present a function using the cosine similarity to measure changes in migration patterns, and apply it to 2001-2016 migration data of Korea. The results show that the migration patterns of Korea shifted in 2007, resulting in two distinct clusters. Local areas experienced various migration pattern changes despite few changes in the number of migrants.

저비율 샘플링 음향 센서네트워크에서 DTW-Cosine 알고리즘을 이용한 목표물 식별기법 (Target Classification in Sparse Sampling Acoustic Sensor Networks using DTW-Cosine Algorithm)

  • 김영수;강종구;김대영
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권2호
    • /
    • pp.221-225
    • /
    • 2008
  • 센서네트워크에서 목표물 탐지하는데 있어 높은 샘플링이 수반되어야 하는 주파수 분석을 피하기 위하여, 낮은 샘플링 데이타를 이용하더라도 목표물 식별이 가능한 시계열(Time-series) 분석 기법으로서 시간 정합 유사도 측정 알고리즘을 소개하고 그 중에 가장 우수한 DTW-Cosine 알고리즘을 제안한다. 시계열 분석 기법을 이용하여 패턴을 비교하기 위해서는 지역 시간 이동 문제와 공간 신호 변이 문제를 극복해야 하는데 DTW-Cosine 알고리즘은 이를 효과적으로 극복함과 동시에 Smoothing 기법을 통하여 다른 시간 정합 유사도 측정 알고리즘들에 비해 전체적으로 최소 10.31% 이상의 우수한 성능을 보였다.

소셜 네트워크에서 감정단어의 단계별 코사인 유사도 기법을 이용한 추천시스템 (Personalized Recommendation System using Level of Cosine Similarity of Emotion Word from Social Network)

  • 권응주;김종우;허노정;강상길
    • 정보화연구
    • /
    • 제9권3호
    • /
    • pp.333-344
    • /
    • 2012
  • 본 논문에서는 개인의 취향과 관심이 반영 되어있는 소셜 정보를 활용하여 사용자에게 영화를 추천할 수 있는 시스템을 제안하였다. 시스템에서 데이터 구축은 포털사이트에서 영화 정보를 수집하고 페이스북과 트위터 같은 SNS를 통해 소셜 정보를 수집한다. 본 논문에서는 사용자의 감정에 따른 보다 정교한 처리를 위하여 6단계의 감정단계로 분류한 소셜 정보의 벡터공간 모형의 구축방법을 제안한다. 추천을 위한 유사도 측도 방법은 2단계로 구성되어 있다. 첫 번째는 일반적인 코사인 측도를 통한 영화 목록의 구축 단계이고, 두 번째는 기존의 코사인 측도(Cosine measure)를 활용한 좌표평면에서 감정 단계별 벡터 정보 표현 방법 및 유사도 측도 방법을 통해 추천 영화 목록의 결정 단계이다. 본 논문의 추천 시스템의 성능을 평가하기 위하여 기존의 추천 시스템과 비교 실험을 통하여 본 연구의 추천 시스템의 유용성을 검증하였다.

Cosine Measure를 이용한 음악 동기간 유사도 계산 (Similarity Computation between Music Motifs Using Cosine Measure)

  • 임상혁;구경이;김유성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1603-1606
    • /
    • 2003
  • 음악에서 동기는 독립성을 지니는 최소 단위이며, 저작권 검사의 단위로 이용된다 따라서, 한 음악에서 약간의 변화를 가지고 반복되는 주제선율을 추출하거나, 다른 음악간의 유사도를 측정하는데 유사도 계산은 필요하다. 본 논문에서는 비교되는 동기의 선율정보를 음 길이와 음높이가 함께 고려되는 시계열 데이타로 변환하고, cosine measure를 이용하여 동기간의 유사도를 계산한다. 시계열 데이타에서 유사도 계산으로 사용되는 유클리드 거리함수 대신 cosine measure를 이용한 경우, 공간상의 거리 합대신 변화 방향이 반영됨으로써 비교되는 동기간의 유사도를 정확하게 계산한다. 본 논문에서 제안된 동기간의 유사도 계산은 내용 기반 음악 검색에서 색인으로 사용되는 주제선율을 추출하거나, 다른 음악의 동기간의 유사성을 비교하는데 이용될 수 있다.

  • PDF

멀티모달 기반 악성코드 유사도 계산 기법 (Multi-Modal Based Malware Similarity Estimation Method)

  • 유정도;김태규;김인성;김휘강
    • 정보보호학회논문지
    • /
    • 제29권2호
    • /
    • pp.347-363
    • /
    • 2019
  • 사람의 DNA가 변하지 않는 것과 같이 사이버상의 악성코드도 변하지 않는 고유의 행위 특징을 갖고 있다. APT(Advanced Persistent Threat) 공격에 대한 방어수단을 사전에 확보하기 위해서는 악성코드의 악성 행위 특징을 추출해야 한다. 이를 위해서는 먼저 악성코드 간의 유사도를 계산하여 유사한 악성코드끼리 분류할 수 있어야 한다. 본 논문에서는 Windows OS 상에서 동작하는 악성코드 간의 유사도 계산 방법으로 'TF-IDF 코사인 유사도', 'Nilsimsa 유사도', '악성코드 기능 유사도', 'Jaccard 유사도'를 사용해 악성코드의 유형을 예측해보고, 그 결과를 보인다. 실험결과, 유사도 계산 방식마다 악성코드 유형에 따라 예측률의 차이가 매우 컸음을 발견할 수 있었다. 모든 결과에 월등한 정확도를 보인 유사도는 존재하지 않았으나, 본 실험결과를 이용하여 특정 패밀리의 악성코드를 분류할 때 어떤 유사도 계산 방식을 활용하는 것이 상대적으로 유리할지를 결정할 때 도움이 될 것으로 판단된다.

코사인 유사도를 이용한 원자력발전소 운전원 커뮤니케이션 품질 평가 프레임워크 (A Framework to Evaluate Communication Quality of Operators in Nuclear Power Plants Using Cosine Similarity)

  • 김승환;박진균;한상용
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권9호
    • /
    • pp.165-172
    • /
    • 2010
  • 커뮤니케이션은 다양한 산업 분야에서 심각한 문제를 야기하는 주요 원인 중에 하나로 여기 지고 있다. 이런 이유로 인간 공학의 한 분야로서 커뮤니케이션에 대한 광범위한 연구가 진행되어왔다. 대형화 및 고도화된 산업 시스템의 안전성을 유지하기 위하여 운전원들의 양질의 커뮤니케이션 품질을 유지하는 것이 중요한 것으로 간주되고 있다. 비상 및 비정상 상황 등의 위급 상황 하에서의 운전원의 커뮤니케이션 품질은 상황 대처 성능을 결정짓는 주요 요인이라 할 수 있다. 양질의 커뮤니케이션은 대화자간의 대화 내용을 상호간에 올바르게 이해 및 숙지한 것이라고 규정할 때, 이는 대화 메시지의 충실도 및 유사도 등을 기반으로 판단할 수 있을 것이다. 본 연구에서는 이러한 필요성에 따라, 원자력발전소 주제어실 운전원들이 비상 및 비정상 상황 하에서의 대응 운전 직무를 수행하기 위해 발생하는 대화 내용의 유사성을 코사인 유사도를 이용하여 측정함으로써, 운전원 커뮤니케이션 품질을 평가할 수 있는 프레임워크를 제안하였다. 모의 훈련 실습에 대해 각 실습조별 수행도 정량 평가 결과와 본 시스템을 이용한 실습조 대화 품질 평가 결과를 비교한 결과 커뮤니케이션 품질이 좋은 실습조가 직무 수행도 평가에서도 높은 점수를 취득하고 있음을 확인하였다.

연관 규칙 마이닝에서의 코사인 순수 신뢰도의 제안 (The proposition of cosine net confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.97-106
    • /
    • 2014
  • 빅 데이터 기술의 발전은 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하는 동시에 과거에는 불가능 했던 기술을 가능케 하였다. 이러한 빅 데이터 분석 기법은 국가 차원에서의 사회, 경제, 정치, 문화, 과학 기술 등 여러 분야에 활용될 수 있다. 빅 데이터 분석을 위해서는 먼저 데이터 마이닝 기술로 방대한 양의 데이터 속에서 가치 있는 정보를 찾는 것이 선행 되어야 하는데, 빅 데이터와 관련된 데이터 마이닝 기법으로는 텍스트 마이닝, 평판 분석, 군집 분석, 연관성 규칙 등이 있다. 본 논문에서는 데이터 마이닝 기법 중에서 많이 활용되고 있는 연관성 규칙의 평가 기준으로 코사인 순수 신뢰도를 제안한 후, Piatetsky-Shapiro가 제안한 흥미도 측도의 기준에 대한 충족여부를 점검하는 동시에 여러 가지 특성을 살펴보았다. 또한 예제를 통하여 고찰한 결과, 기존의 신뢰도와 코사인 유사성 측도는 모두 양의 값을 가지므로 연관성의 방향을 알 수 없어서 그 값만으로는 양의 연관성이 있는지 아니면 음의 연관성이 있는지를 알 수 없었다. 그러나 본 논문에서 제안한 코사인 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 알 수 있으므로 신뢰도와 코사인 유사성 측도가 가지고 있는 약점을 보완할 수 있는 측도라는 사실을 확인하였다.