• 제목/요약/키워드: 유사 데이터

검색결과 3,344건 처리시간 0.035초

Using Genre Rating Information for Similarity Estimation in Collaborative Filtering

  • Lee, Soojung
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권12호
    • /
    • pp.93-100
    • /
    • 2019
  • 유사도 계산은 메모리 기반 협력필터링 시스템의 성능에 매우 중요하다. 이 시스템들은 사용자 평가치들을 이용하여 온라인 상업 사이트에서 고객들에게 상품을 추천한다. 더욱 적합한 추천을 위해 현 사용자와 가장 유사한 사용자들을 선정하여 참조한다. 기존 문헌에는 많은 유사도 척도들이 개발되었는데, 이들은 대개 데이터 희소성이나 완전 시작 문제를 내포하고 있다. 본 논문에서는 기존 척도들과는 달리 사용자 평가치들로부터 선호 정보를 최대한 추출함으로써 희소한 데이터 조건에서도 더욱 신뢰할 수 있는 유사도값을 산출하고자 한다. 사용자 평가치 뿐만 아니라 데이터셋이 제공하는 영화장르 정보를 이용하는 새로운 유사도 척도를 제시한다. 본 척도와 기존의 관련된 척도들의 성능 실험을 하였고, 그 결과, 제안 척도는 주요 성능 평가기준 상으로 더욱 우수하거나 유사한 성능 결과를 보임을 확인하였다.

유사 시퀀스 매칭을 위한 하이브리드 저차원 변환 (Hybrid Lower-Dimensional Transformation for Similar Sequence Matching)

  • 문양세;김진호
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.31-40
    • /
    • 2008
  • 유사 시퀀스 매칭에서는 고차원인 시퀀스를 저차원의 점으로 변환하기 위하여 저차원 변환을 사용한다. 그런데, 이러한 저차원 변환은 시계열 데이터의 종류에 따라 인덱싱 성능에 있어서 큰 차이를 나타낸다. 즉, 어떤 저차원 변환을 선택하느냐가 유사 시퀀스 매칭의 인덱싱 성능에 큰 영향을 주게 된다. 이 문제를 해결하기 위하여, 본 논문에서는 하나의 인덱스에서 두 개 이상의 저차원 변환을 통합하여 사용하는 하이브리드 접근법을 제안한다. 먼저, 하나의 시퀀스에 두 개 이상의 저차원 변환을 적용하는 하이브리드 저차원 변환의 개념을 제안하고, 변환된 시퀀스간의 거리를 계산하는 하이브리드 거리를 정의한다. 다음으로, 이러한 하이브리드 접근법 사용하면 유사 시퀀스 매칭을 정확하게 수행할 수 있음을 정형적으로 증명한다. 또한, 제안한 하이브리드 접근법을 사용하는 인덱스 구성 및 유사 시퀀스 매칭 알고리즘을 제시한다. 다양한 시계열 데이터에 대한 실험 결과, 제안한 하이브리드 접근법은 단일 저차원 변환을 사용하는 경우에 비해서 우수한 성능을 보이는 것으로 나타났다. 이 같은 결과를 볼 때, 제안한 하이브리드 접근법은 다양한 특성을 지닌 다양한 시계열 데이터에 두루 적용될 수 있는 우수한 방법이라 사료된다.

하천에서 유사의 침전 위치에 대한 확률밀도함수 분석 (Analysis of Probability Density Function of Deposition Spot in Open Channel Flow)

  • 오정선;최성욱
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.50-50
    • /
    • 2016
  • 하천에서 유사 및 오염물질의 이동을 예측하기 위하여 초점을 두는 것에는 두 가지 요소가 있다. 입자의 농도로 나타낼 수 있는 양의 개념과 입자의 위치로 나타낼 수 있는 공간의 개념이 그것이다. 유사 입자와 같이 그 비중이 물보다 큰 경우, 흐름 내에서 침전과 부상의 메커니즘을 반복하게 되는데 최종적으로 바닥에 침적하는 위치는 하상변동, 서식처 등 하천관리의 다양한 측면에서 매우 중요하다. 유사 입자가 바닥에 침적하는 위치를 예측하는 데에는 난류와 지형 같은 많은 불확실한 요소가 내포되어 있어, 같은 크기의 유사 입자라 하여도 하나의 exact point로 도달하지 않는다. 이러한 불확실한 요소를 고려하여 침전 위치를 산정하는 방법에 대한 연구가 필요하다. 따라서 본 연구에서는 침전 위치를 확률밀도함수로 나타내어 분석하고자 한다. 입자의 침전 위치를 확률밀도함수로 나타내기 위하여 입자 기반의 추적 모형을 사용하여 위치 데이터를 얻었으며, 이를 실험데이터와 비교하여 검증 후 확률밀도함수로 나타내었다. 그 결과 입자의 침적 위치에 대한 확률밀도함수는 로그정규분포를 띠고 있음을 확인하였으며, 확률밀도함수를 나타내는 매개변수를 물리 기반 회귀모형식으로 일반화 하여 나타낼 수 있었다.

  • PDF

논문 데이터베이스에서의 LDA 기반 텍스트 유사도 계산 방안 (LDA-based Text Similarity in Scientific Literature Databases)

  • 엄태환;윤석호;배덕호;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1247-1248
    • /
    • 2011
  • 본 논문에서는 기존의 LDA 기반 유사도 계산 방안의 논문 데이터에 대한 적합성을 검증한다. 실제 논문 데이터를 이용해 기존텍스트 유사도 계산 방안과 LDA 기반 유사도 계산 방안의 정확도를 비교 함으로써 논문 데이터베이스에서의 LDA 기반 텍스트 유사도 계산 방안의 유용성을 검증한다.

SIFT 및 HSV 특징 추출 기반 폐기물 객체 유사도 측정 모델 (The SIFT and HSV feature extraction-based waste Object similarity measurement model)

  • 고준혁 ;최혁순 ;김진아 ;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1220-1223
    • /
    • 2023
  • 폐기물을 처리하는데 있어 배출과 수거에 대한 프로세스 자동화를 위해 폐기물 객체 유사도 판별이 요구된다. 이를 위해 본 연구에서는 폐기물 데이터셋에서 SIFT(Scale-Invariant Feature Transform)와 HSV(Hue, Saturation, Value)기반으로 두 이미지의 공통된 특징을 추출해 융합하고, 기계학습을 통해 이미지 객체 간의 유사도를 측정하는 모델을 제안한다. 실험을 위해 수집된 폐기물 데이터셋 81,072 장을 활용하여 이미지를 학습시키고, 전통적인 임계치 기반 유사도 측정과 본 논문에서 제시하는 유사도 측정을 비교하여 성능을 확인하였다. 임계치 기반 측정에서 SIFT 와 HSV 는 각각 0.82, 0.89(Acc)가 측정되었고, 본 논문에서 제시한 특징 추출 방법을 사용한 기계학습의 성능은 DT(Decision Tree)와 SVM(Support Vector Machine) 모두 0.93 (Acc)로 4%의 정확도가 향상되었다.

키워드 유사성 검색에 관한 연구 (A Study on Keyword Proximity Search)

  • 이윤기;윤지현;정형수;염헌영;양영규;황순욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.209-210
    • /
    • 2007
  • 키워드 유사성 검색은 입력받은 키워드에 관련된 의미 있는 데이터를 검색하는 것을 말한다. 데이터들은 매우 다양한 형태로 표현 될 수 있고, 각각의 형태에 대한 키워드 유사성 검색에 대한 많은 연구가 이루어졌다. 이 논문에서는 다양한 키워드 유사성 검색에 대한 연구들의 개관을 살펴보고 그것들을 비교해 볼 것이다. 이 연구들을 비교 분석하는 것은 키워드 유사성 검색을 일반화 하는데 도움이 될 것으로 기대한다.

효과적인 이상 진단을 위한 클러스터링의 타당성 연구 (A Feasibility Study on Clustering for Effective Anomaly Detection)

  • 이현용;김낙우;이준기;이병탁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.428-430
    • /
    • 2020
  • 이상 진단은 주어진 데이터의 정상 유무를 진단하는 방법으로써 다양한 분야에 걸쳐 요구되는 기능이다. 이상 진단은 대상 환경에서 발생하는 데이터의 특성 등에 따라 다양한 방법으로 구현이 될 수 있는데, 본 연구에서는 정상 데이터가 다수의 클래스로 구분될 수 있는 상황에서의 이상 진단을 효과적으로 할 수 있는 방법에 대해서 다루고자 한다. 특히, 실험을 통해 정상 데이터를 유사한 데이터들끼리 구분하여 처리하는 경우와 그렇지 않은 경우의 비교를 통해서, 정상 데이터를 유사한 데이터들끼리 구분하여 이상 진단을 진행하는 방법의 타당성을 검증한다.

효율적인 비디오 유사도 측정을 위한 휘도 투영모델 (Luminance Projection Model for Efficient Video Similarity Measure)

  • 김상현
    • 융합신호처리학회논문지
    • /
    • 제10권2호
    • /
    • pp.132-135
    • /
    • 2009
  • 비디오 데이터들의 효율적 색인과 검색을 위해서는 비디오 시퀀스의 유사도 측정방법이 매우 중요한 요소이다. 본 논문은 비디오 시퀀스에 대한 효율적인 유사도 측정을 위해 휘도 성분 투사법을 제안한다. 기존의 알고리즘들이 히스토그램, 윤곽선, 움직임등과 같은 특성을 사용한 반면 본 논문에서 제안한 알고리즘은 휘도 성분을 투사하는 방법을 사용하여 비디오 유사도 특성을 효율적으로 나타낼 수 있다. 비디오 데이터의 효율적인 색인과 계산량 감소를 위해 누적된 유사도에 의해 추출된 키프레임들을 이용하여 비디오 시퀀스의 유사도를 구하고 수정된 하우스도르프 거리를 사용하여 키프레임 묶음들의 유사도를 측정하였다. 실험결과 제안한 휘도투시법을 사용한 비디오 색인 기법이 유사도 특성에서 기존의 특성을 사용한 방법에 비해 확연한 정확도 및 성능 차이를 보였다.

  • PDF

표상 유사성 분석을 이용한 연령별 얼굴 정서 차원 비교 (Comparison Between Core Affect Dimensional Structures of Different Ages using Representational Similarity Analysis)

  • 김종완
    • 감성과학
    • /
    • 제26권1호
    • /
    • pp.33-42
    • /
    • 2023
  • 기존의 연령별 얼굴정서 인식 비교 연구에서는 정서별로 연령 간에 어떤 차이가 있는지 밝혔다. 이에 Kim(2021) 연구에서는 개별 정서가 아닌 정서공간에서 표상된 정서를 연령 간 비교하였다는 점에서 의의가 있으나, 기술적(descriptive) 비교만 시행하였을 뿐, 통계적 유의미 검증을 하지 않았다는 한계가 있다. 본 연구에서는 표상 유사성 분석(representational similarity analysis) 방법을 통해 연령간 실제 데이터 및 정서 모델 유사성행렬을 직접적으로 비교하였다. 또한 개인차 다차원척도법(individual differences multidimensional scaling)을 통해 연령간 정서 차원에 대한 비중을 비교하였다. 그 결과 실제 데이터 비교에서 노년 집단은 청년 및 중년 집단과 가장 유사하지 않았으며, 쾌불쾌 차원이 포함된 정서 모델과의 유사성 비교에서도 가장 유사하지 않았다. 또한 노년 집단은 각성 차원에 대한 비중이 청년 및 중년 집단과 유사하지 않음이 발견되었다. 본 연구는 실제 데이터, 정서 모델, 그리고 정서 차원 비중이라는 세 가지 측정치에 대해 노년 집단과 청년 및 중년 집단과의 차이를 통계적으로 검증하였다는 점에서 의의가 있다.

고/저기압 위치 정보를 이용한 유사 일기도 검색 시스템 (Similar Weather Retrieval System using Position Information of High atmospheric pressure)

  • 정창성;이기범;김진용;황치정
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.214-216
    • /
    • 2001
  • 본 연구의 목적은 동아시아 지역에 대한 등압선 일기도를 대상으로 지상 일기 유형을 고저기압의 수 및 위치, 등압선의 간격, 기압값의 유사성을 파라메터로 분류하고 유사 일기도 검색시 동일한 파라메터를 사용하여 유사성 정도를 검색하는 알고리즘을 개발하는데 있다. 격자 데이터로부터 특징값들을 추출하고 이를 이용하여 유사도 측정을 수행하여 유사일기도를 검색하였다.