• Title/Summary/Keyword: 유사 데이터

Search Result 3,320, Processing Time 0.037 seconds

Min-Max Hash for Similarity Measurement based on Multiset (Min-Max Hash를 활용한 다중 집합 기반의 유사도 측정)

  • Yoon, Jin-Uk;Kim, Byoungwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.36-39
    • /
    • 2019
  • 데이터 마이닝에서 클러스터링은 서로 유사한 특징을 갖는 데이터들을 동일한 클래스로 분류하는 방법이다. 클러스터링에는 다양한 방법이 존재하지만 대표적으로 집합으로 표현된 데이터들의 유사도를 측정하기 위해서는 자카드 유사도(Jaccard Similarity)를 이용한다. 자카드 유사도는 서로 다른 집합 간의 공통된 부분을 상대적으로 평가하여 유사도를 측정하는 방법이다. 그러나 최근에는 데이터를 저장할 수 있는 기술과 매체의 발전으로 표현할 수 있는 데이터의 영역과 범위는 발전되고 있기 때문에 많은 연산과 시간의 비용이 발생하게 된다. 이를 해결하기 위해서 두 데이터의 표본의 유사도를 통해 실제 데이터들의 유사도를 추정할 수 있는 Min-Hash 가 제안되었다. 본 논문에서는 이를 활용하여 집합의 영역을 다중 집합(Multiset)으로 확장하여 중복되는 값을 가질 수 있는 두 데이터 간의 유사도를 효율적으로 추정할 수 있는 Min-Max Hash 를 제안한다.

Efficient Retrieval of Similar Shape-Based Subsequences for Sequence Database (시퀀스 데이터베이스를 위한 모양기반의 유사 부분시퀀스 검색)

  • 이정화;윤지희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.340-342
    • /
    • 1999
  • 시퀀스 데이터(sequence data)에서는 각 데이터 값보다는 전후 그들 사이의 변화추세 등이 더 큰 정보로 작용하는 것이 일반적이다. 본문에서는 시퀀스 데이터베이스를 대상으로 하여 주어진 시퀀스 패턴과 모양이 유사한 모든 부분시퀀스를 검색해 내는 새로운 방식을 제안한다. 본 방식에서는 시퀀스 데이터의 모양 추출을 위한 데이터 변환, 유사 모양 패턴 클러스터링, 새로운 유사도 계산 방식 등을 도입함으로써, 기존의 방식이 매우 제한적인 패턴만을 유사패턴으로 간주하던 것에 비하여, 패턴이 데이터축 혹은 타임축으로 각각 확대, 축소, 이동된 경우에도 유사패턴으로 검색이 가능하다.

  • PDF

유사이항분포와 유사다항분포의 통계적 성질

  • An, Seong-Jin;Jeong, Yeon-Seon
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2004.04a
    • /
    • pp.111-119
    • /
    • 2004
  • 유사이항분포와 유사다항분포를 소개하고 베타분포와 Dirichlet 분포와의 관계를 밝힘으로써 심플렉스상에서 정의되는 성분데이터의 분석을 위한 새로운 방법을 제시하는 토대를 마련하고자 한다.

  • PDF

Similarity Search in Time-Series Databases Using Decomposition Method (시계열 데이터베이스에서의 분해법을 이용한 유사 검색 기법)

  • 박신유;문봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.110-112
    • /
    • 2000
  • 최근 몇 년간 시계열 데이터의 저장 및 분석에 대한 연구가 활발히 진행되고 있으며, 시계열 데이터베이스에서 유사패턴(similarity pattern)을 탐색하는 기법이 광범위한 응용분야에서 중요한 연구주제로 자리잡고 있다. 본 논문에서는 회귀분석방법을 바탕으로 한 분해 시계열 방법을 이용함으로써 기존의 유사성의 개념을 확장시켰다. 즉, 시계열 데이터가 가지고 있는 패턴을 여러 성분으로 분해하여 각기 다른 저장 공간에 저장하고, 이를 이용하여 유사성을 탐색할 때에도 분리된 각 성분 중 특정 변동특성이 유사한 데이터를 추가적으로 요구되는 시간없이 검색할 수 있다. 이는 전체 시계열 데이터를 이해하는데 뿐만 아니라 데이터를 예측하는 방법에도 유용하게 사용될 수 있다.

  • PDF

Sequence Stream Indexing Method using DFT and Bitmap in Sequence Data Warehouse (시퀀스 데이터웨어하우스에서 이산푸리에변환과 비트맵을 이용한 시퀀스 스트림 색인 기법)

  • Son, Dong-Won;Hong, Dong-Kweon
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.2
    • /
    • pp.181-186
    • /
    • 2012
  • Recently there has been many active researches on searching similar sequences from data generated with the passage of time. Those data are classified as time series data or sequence data and have different semantics from scalar data of traditional databases. In this paper similar sequence search retrieves sequences that have a similar trend of value changes. At first we have transformed the original sequences by applying DFT. The converted data are more suitable for trend analysis and they require less number of attributes for sequence comparisons. In addition we have developed a region-based query and we applied bitmap indexes which could show better performance in data warehouse. We have built bitmap indexes with varying number of attributes and we have found the least cost query plans for efficient similar sequence searches.

Reliable Data Selection using Similarity Measure (유사측도를 이용한 신뢰성 있는 데이터의 추출)

  • Ryu, Soo-Rok;Lee, Sang-Hyuk
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.2
    • /
    • pp.200-205
    • /
    • 2008
  • For data analysis, fuzzy entropy is introduced as the measure of fuzziness, similarity measure is also constructed to represent similarity between data. Similarity measure between fuzzy membership functions is constructed through distance measure, and the proposed similarity measure are proved. Application of proposed similarity measure to the example of reliable data selection is also carried out. Application results are compared with the previous results that is obtained through fuzzy entropy and statistical knowledge.

A Region Based Similar Image Retrieval using Histogram Comparison (히스토그램 비교법을 이용한 영역기반 유사 이미지 검색)

  • 임동혁;김창룡;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.130-132
    • /
    • 2000
  • 주요 멀티미디어 자료인 이미지는 데이터 특성을 표현하기가 어렵고, 특성추출에서 얻은 데이터가 너무 고차원적이라 이를 저차원의 처리가능한 데이터로 변환하는 과정에서 많은 손실이 있다. 이미지의 특성값을 전체 이미지의 평균값으로 변경하여 저차원 데이터를 얻는 기존의 이미지 전체 특성추출기법이나 고정된 블록의 평균값으로 변경하여 저차원 데이터를 얻는 이미지 블록 특성추출기법은 유사 이미지의 검색이 부정확하다는 단점이 있다. 본 논문에서는 이미지를 가변적인 영역으로 나누어 특성값을 얻고, 히스토그램을 이용하여 효율적으로 유사 이미지를 찾는 영역기반 유사 이미지 검색기법을 제안하고 이를 구현하였다.

  • PDF

Analysis of similarity between industries based on unstructured data using topic modeling (토픽 모델링을 이용한 비정형 데이터 기반 산업간 유사도 분석)

  • Kim, Kyungwon;Park, Jongbin;Jung, Jongjin;Yoon, Kyoungro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.180-182
    • /
    • 2018
  • 최근 빠르게 변화하는 산업 환경에서 뉴스 기사와 같은 비정형 데이터를 기반으로 산업 트랜드를 분석하기 위한 연구가 진행되고 있다. 뉴스와 같은 비정형 데이터를 기반으로 산업별 트랜드를 분석하기 위해서는 분석 대상 산업에 대한 많은 양의 시계열 데이터가 요구된다. 하지만, 수집된 비정형 데이터를 분류하면 산업별/기간별 일정하지 않은 데이터 분포를 보이거나, 특정 산업에 대해서는 특정 기간에 데이터가 존재하지 않은 경우가 발생하여 산업별 시계열 분석이 어려운 경우가 발생할 수 있다. 이에, 본 논문에서는 산업별/기간별 균일하지 못한 비정형 데이터의 분포를 보정하기 위한 방법으로 비정형 데이터 기반 산업간 유사도를 분석 기법을 제안한다. 산업별 유사도 분석을 위해 각 산업별 주요 키워드를 도출하고 토픽 모델링 기법을 이용하여 산업간 유사도 분석을 통해 산업별/기간별 비정형 데이터 부족현상을 보완하는 방법을 제시한다.

  • PDF

Data Clustering Using Hopfield Network (Hopfield 네트워크를 이용한 데이터 클러스터링)

  • 윤면희;정균락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.329-331
    • /
    • 2000
  • 데이터 클러스터링은 서로 유사한 성질을 갖는 데이터들은 동일한 클러스터에 분류하고, 이질적인 데이터는 다른 클러스터에 분류하여, 클러스터 내의 유사성은 최대로 하고 클러스터와 클러스터사이의 유사성을 최소로 하는 것을 말한다. 데이터 클러스터링은 데이터 마이닝, 기계 학습, 패턴 인식, 통계 분야 등에 다양하게 활용되고 있다. Hopfield 네트워크는 조합적 최적화 문제를 해결하는데 사용되어 좋은 결과를 나타내고 있다. 본 논문에서는 Hopfield 네트워크를 사용하여 데이터 클러스터링 문제를 해결하는 알고리즘을 연구하였고, 실험을 통해 기존의 방법과 비교하였다.

  • PDF

A Sequence Similarity Measure Considering the Product Taxonomy in Transaction Data (구매이력 데이터에서 상품 분류 체계를 고려한 시퀀스 유사도 측정 기법)

  • Yang, Yu-Jeong;Lee, Ki Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.367-370
    • /
    • 2019
  • 본 논문은 구매이력 데이터에서 상품간의 분류 체계를 고려하여 시퀀스 간의 유사도를 계산하는 새로운 방법을 제안한다. 시퀀스란 두 항목간의 순서가 존재하는 데이터를 의미한다. 항목 간의 선후관계가 중요한 시퀀스 데이터에서는 두 시퀀스 간의 유사도를 정확히 정의하는 것이 중요하다. 본 논문에서는 대표적인 시퀀스 유사도 측정 알고리즘인 편집 거리 알고리즘을 활용하여 구매이력 데이터에서 시퀀스 간의 유사도를 정의한다. 상품은 상품의 특성에 따라 항목 분류 체계에서 여러 범주로 분류된다. 이 경우 기존의 편집 거리 알고리즘에서 문자의 일치유무에 따라 단순히 0 또는 1을 부여하는 것은 부정확하다. 따라서 본 논문은 편집 거리 알고리즘의 수정 연산 중 대체 연산 비용 계산 시 항목 분류 트리를 사용하여 연산 비용이 0 에서 1 사이의 값을 가지도록 세분화하였다. 실험 결과 제안 방법은 대체 연산 비용 계산 시 두 문자가 다르면 단순히 1 을 부여하는 기존의 편집 거리 알고리즘에 비해 시퀀스 간의 유사도를 더 정확하게 계산함을 확인하였다.