• Title/Summary/Keyword: 데이터유사성

Search Result 1,567, Processing Time 0.069 seconds

A study on the ordering of similarity measures with negative matches (음의 일치 빈도를 고려한 유사성 측도의 대소 관계 규명에 관한 연구)

  • Park, Hee Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.26 no.1
    • /
    • pp.89-99
    • /
    • 2015
  • The World Economic Forum and the Korean Ministry of Knowledge Economy have selected big data as one of the top 10 in core information technology. The key of big data is to analyze effectively the properties that do have data. Clustering analysis method of big data techniques is a method of assigning a set of objects into the clusters so that the objects in the same cluster are more similar to each other clusters. Similarity measures being used in the cluster analysis may be classified into various types depending on the nature of the data. In this paper, we studied upper and lower bounds for binary similarity measures with negative matches such as Russel and Rao measure, simple matching measure by Sokal and Michener, Rogers and Tanimoto measure, Sokal and Sneath measure, Hamann measure, and Baroni-Urbani and Buser mesures I, II. And the comparative studies with these measures were shown by real data and simulated experiment.

Reliable Data Selection using Similarity Measure (유사측도를 이용한 신뢰성 있는 데이터의 추출)

  • Ryu, Soo-Rok;Lee, Sang-Hyuk
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.2
    • /
    • pp.200-205
    • /
    • 2008
  • For data analysis, fuzzy entropy is introduced as the measure of fuzziness, similarity measure is also constructed to represent similarity between data. Similarity measure between fuzzy membership functions is constructed through distance measure, and the proposed similarity measure are proved. Application of proposed similarity measure to the example of reliable data selection is also carried out. Application results are compared with the previous results that is obtained through fuzzy entropy and statistical knowledge.

Similarity Search in Time-Series Databases Using Decomposition Method (시계열 데이터베이스에서의 분해법을 이용한 유사 검색 기법)

  • 박신유;문봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.110-112
    • /
    • 2000
  • 최근 몇 년간 시계열 데이터의 저장 및 분석에 대한 연구가 활발히 진행되고 있으며, 시계열 데이터베이스에서 유사패턴(similarity pattern)을 탐색하는 기법이 광범위한 응용분야에서 중요한 연구주제로 자리잡고 있다. 본 논문에서는 회귀분석방법을 바탕으로 한 분해 시계열 방법을 이용함으로써 기존의 유사성의 개념을 확장시켰다. 즉, 시계열 데이터가 가지고 있는 패턴을 여러 성분으로 분해하여 각기 다른 저장 공간에 저장하고, 이를 이용하여 유사성을 탐색할 때에도 분리된 각 성분 중 특정 변동특성이 유사한 데이터를 추가적으로 요구되는 시간없이 검색할 수 있다. 이는 전체 시계열 데이터를 이해하는데 뿐만 아니라 데이터를 예측하는 방법에도 유용하게 사용될 수 있다.

  • PDF

Visualization Algorithm for Similarity Connection based on Data Transmutability (데이터 변형성 기반 유사성 연결을 위한 시각화 알고리즘)

  • Kim, Boon-Hee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.9 no.11
    • /
    • pp.1249-1254
    • /
    • 2014
  • Big data based on numerous data made by the people are used in order to obtain useful information. We can obtain more useful information if it can apply machine learning techniques added deformation of human memory on the characteristics of the computer program. And big data is predicted by using these conclusions. Humans are used to remember similar data as an original data, so big data processing technology should reflect these human characteristics. In this study, this algorithm to provide the selectivity of information is proposed. This algorithm is the technology to reflect the above factors. This algorithm is selected the data with high selectivity to determine similar data based on the deformation characteristics of the data.

유사추론 기반 예측모형

  • Jang, Yong-Sik;Choe, Yun-Jeong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.581-585
    • /
    • 2007
  • 본 연구는 비선형적인 시계열 자료로부터 최신 데이터와 유사한 사례를 탐색하여 미래를 예측하기 위하여 유사추론 기법을 이용한 예측 알고리즘을 제안한다. 기존의 연구들이 최신 데이터와 과거 사례와의 유사성을 비교하기 위해 유클리디언 거리 또는 평균 제곱에러 등을 이용하나, 추세의 유사성을 고려하지는 않는다. 본 연구는 사례 구간 크기, 예측 오차, 평균차이 검증, 사례간 추세의 유사성 등 다차원적 유사추론 요인을 이용한 예측방법과 그 효과를 제시한다.

  • PDF

Data Clustering Using Hopfield Network (Hopfield 네트워크를 이용한 데이터 클러스터링)

  • 윤면희;정균락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.329-331
    • /
    • 2000
  • 데이터 클러스터링은 서로 유사한 성질을 갖는 데이터들은 동일한 클러스터에 분류하고, 이질적인 데이터는 다른 클러스터에 분류하여, 클러스터 내의 유사성은 최대로 하고 클러스터와 클러스터사이의 유사성을 최소로 하는 것을 말한다. 데이터 클러스터링은 데이터 마이닝, 기계 학습, 패턴 인식, 통계 분야 등에 다양하게 활용되고 있다. Hopfield 네트워크는 조합적 최적화 문제를 해결하는데 사용되어 좋은 결과를 나타내고 있다. 본 논문에서는 Hopfield 네트워크를 사용하여 데이터 클러스터링 문제를 해결하는 알고리즘을 연구하였고, 실험을 통해 기존의 방법과 비교하였다.

  • PDF

데이터 추상화와 퍼지 관계를 이용한 근사적 질의응답에 관한 연구

  • 허순영;문개현
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.302-305
    • /
    • 2000
  • 본 논문은 데이터베이스에 존재하는 데이터 값들 사이의 유사성에 관한 지식을 이용하여 사용자가 요구한 정확한 답뿐 아니라 그와 유사한 답까지 제공해 줄 수 있는 근사적 질의처리 기법을 제시한다. 이를 위하여, 계량적인 방법에 해당하는 퍼지 관계와 비계량적인 방법에 해당하는 데이터 추상화를 하나로 통합한 유사성 표현 프레임웍을 제시하고 그를 이용한 지식 베이스를 설계한다.

  • PDF

Bandwidth Allocation for Self-Similar Data Traffic Characteristics (자기유사적인 데이터 트래픽 특성을 고려한 대역폭 할당)

  • Lim Seog-Ku
    • The Journal of the Korea Contents Association
    • /
    • v.5 no.3
    • /
    • pp.175-181
    • /
    • 2005
  • Recent measurements of local-area and wide-area traffic have shown that network traffic exhibits at a wide range of scales-Self-similarity. Self-similarity is expressed by long term dependency, this is contradictory concept with Poisson model that have relativity short term dependency. Therefore, first of all for design and dimensioning of next generation communication network, traffic model that are reflected burstness and self-similarity is required. Here self-similarity can be characterized by Hurst parameter. In this paper, when different many data traffic being integrated under various environments is arrived to communication network, Hurst Parameter's change is analyzed and compared with simulation results.

  • PDF

Fuzzy Clustering for Fuzzy Data1 (퍼지값을 갖는 데이터에 대한 퍼지 클러스터링)

  • 이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.27-29
    • /
    • 1998
  • 클러스터링은 데이터의 특성 추출, 데이터의 압축 등을 목적으로 동일 클러스터에 속하는 데이터간에는 유사성이 크도록 하면서 다른 클러스터에 속하는 데이터간에는 유사성이 작도록 데이터를 군집화하는 것이다. 일상에서 발생하는 많은 데이터에는 관측 오류, 불확실성, 주관적인 판정 등으로 인해서 데이터의 속성값이 정확한 값으로 주어지지 않은 경우가 있다. 본 논문에서는 분명한 값뿐만 아니라 퍼지값도 포함한 데이터들에 대해서 퍼지 클러스터링하는 방법을 제안한다.

  • PDF

Analysis for Data Traffic Characteristics in Internet (인터넷에서의 데이터 트래픽 특성분석)

  • Lim, Seog-Ku;Lee, Jong-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05b
    • /
    • pp.1401-1404
    • /
    • 2003
  • 현재 제공되는 인터넷 서비스들의 동작 특성은 기존에 고려되던 트래픽 특성과는 완전히 다른 자기 유사성(Self·similarity)이라는 성질을 가진다는 것이 증명되었다. 자기 유사성은 장기간 의존성으로 표현되는데, 이것은 단기간 의존성 성질을 갖는 기존의 모델인 포아송(Poisson) 모델과는 상반되는 개념이다. 따라서 차세대 통신망의 설계 및 디멘져닝을 위해서는 무엇보다도 데이터 트래픽의 주요 특성인 버스트성(Burstiness)과 자기유사성이 반영된 트래픽 모델이 요구된다. 여기서 자기유사성은 허스트 파라미터(Hurst Parameter)로 특성화 될 수 있다. 이러한 관점에서 본 논문에서는 데이터 트래픽 특성이 서로 다른 다수의 데이터 트래픽의 통합되어 통신망에 입력되는 경우 주요 파라미터인 Hurst Parameter의 변화를 다양한 환경 하에서 분석하였고 이를 시뮬레이션 결과와도 비교하였다.

  • PDF