• Title/Summary/Keyword: 데이터유사성

Search Result 1,567, Processing Time 0.052 seconds

Histogram Comparing Technique for Similarity Search in Time-Series Data (시계열 데이터의 유사성 검색을 위한 히스토그램 비교법)

  • 임동혁;김창룡;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.331-333
    • /
    • 1999
  • 데이터웨어하우스의 주된 용도는 비즈니스 의사결정이며, 이를 위한 경향 및 패턴을 찾는 문제는 매우 중요한 연구분야이다. 경향 및 패턴은 데이터웨어하우스 내의 데이터간의 상호관계를 분석함으로써 찾을 수 있는데, 이를 위한 유사성 검색기법 중 특히 뛰어난 3가지 기법들을 자세히 알아보고, 이들에 모두 적용 가능한 히스토그램 비교법을 제안하였다. 제안된 히스토그램 비교법을 이용하면 유클리디안 거리측정의 부담을 대폭 줄여, 전체 처리시간을 비약적으로 감소시킬 수 있다.

  • PDF

Research for clustering algorithm for the functional classification of genes (유전자의 기능분류를 위한 클러스터링 알고리즘 연구)

  • Han, Seok-Hyeon;Yi, Gangman
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1149-1151
    • /
    • 2015
  • 차세대 유전정보 분석기 시퀀서의 개발은 양질의 시퀀싱 데이터를 증가시켰다. 수많은 유전정보는 유전자 분석의 새로운 연구 방향을 제시하였다. 본 논문은 유전자 분석 중에서 기존의 유전정보를 활용하여 유전자의 기능예측을 하고자 한다. 클러스터링 알고리즘의 정확도를 높이기 위해서 본 논문에서는 데이터 유사성 조절이 가능한 클러스터링 알고리즘을 적용하였다. 그 결과 데이터 유사성 조절을 할 경우에 그렇지 않을 경우보다 유전자 기능 예측의 정확도가 높아졌다. 따라서 제안된 데이터 유사성 조절 기법은 유전자 기능을 예측하는 방법에 정확도를 높일 수 있을 것으로 기대된다.

Association rule thresholds of similarity measures considering negative co-occurrence frequencies (동시 비 발생 빈도를 고려한 유사성 측도의 연관성 규칙 평가 기준 활용 방안)

  • Park, Hee-Chang
    • Journal of the Korean Data and Information Science Society
    • /
    • v.22 no.6
    • /
    • pp.1113-1121
    • /
    • 2011
  • Recently, a variety of data mining techniques has been applied in various fields like healthcare, insurance, and internet shopping mall. Association rule mining is a popular and well researched method for discovering interesting relations among large set of data items. Association rule mining is the method to quantify the relationship between each set of items in very huge database based on the association thresholds. There are three primary quality measures for association rules; support and confidence and lift. In this paper we consider some similarity measures with negative co-occurrence frequencies which is widely used in cluster analysis or multi-dimensional analysis as association thresholds. The comparative studies with support, confidence and some similarity measures are shown by numerical example.

Estimate method of missing data using Similarity in AMI system (AMI시스템에서 유사도를 활용한 누락데이터 보정 방법)

  • Kwon, Hyuk-Rok;Hong, Taek-Eun;Kim, Pan-Koo
    • Smart Media Journal
    • /
    • v.8 no.4
    • /
    • pp.80-84
    • /
    • 2019
  • As a result of AMI rapidly expanding and distributing its products, variety of services that utilize data on the use of electricity are increasing. In order to make these services more effective, missing metric data needs to be corrected, compensating for which Euclidean similarity is used to find customers with similar usage patterns. Throughout such a process, we propose a method for correcting missing data and provide comparison with the preceding methods.

Redundant and Abnormal Data Processing Scheme in Large-scale IoT Environment (대규모 IoT 환경에서의 중복 및 비정상 데이터 처리 기법)

  • Kim, Min-Woo;Lee, Tae-Ho;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.109-110
    • /
    • 2019
  • 최근 IoT 환경에서는 고밀도로 노드가 분포되어진다. 이러한 센서 노드들은 데이터 전송 시 혼잡을 초래하는 중복 데이터를 생성하여 데이터의 정확도를 저하시킨다. 이에 따라 본 연구에서는 데이터 집중으로 인해 발생하는 네트워크의 정체 문제를 해결하기 위해 제안 기법은 사 분위(Interquatile, IRQ) 분석과 코사인 유사도 함수를 통해 데이터의 이상치와 중복성을 측정하여 중복 데이터 및 특이치를 제거한다. 본 연구를 통하여 최적의 데이터 전송을 통하여 IoT의 통신 성능을 향상시킬 수 있으며 결과적으로 데이터 감소율, 네트워크 수명 및 에너지의 효율성을 높일 수 있다.

  • PDF

TCP-friendly Rate Control Protocol for Multimedia data (멀티미디어 데이터를 위한 TCP-friendly Rate Control Protocol)

  • 나승구;김용건
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.429-432
    • /
    • 2003
  • 최근 TCP와 유사하게 멀티미디어 데이터를 전송하기 위한 rate control 프로토콜에 관한 연구가 활발하게 진행되고 있다. 본 논문에서는 멀티미디어 전송 방식에 있어서 TCP와 공정성을 유지하며 TCP와 유사하게 동작하도록 하는 TRCP 프로토콜을 제안한다. TRCP는 TCP vegas 이론을 응용하였으며 RTT와 패킷손실율에 의해 네트워크 혼잡 상태를 미리 예측하고 TCP의 AIMD 방식을 사용하여 TCP와 유사하게 전송율을.조절하는 프로토콜이다. 이 프로토콜에 대한 TCP와 공정성을 검증하기 위하여 시뮬레이션을 실시하고 그 결과를 분석한다.

  • PDF

Similarity Search Algorithm Based on Hyper-Rectangular Representation of Video Data Sets (비디오 데이터 세트의 하이퍼 사각형 표현에 기초한 비디오 유사성 검색 알고리즘)

  • Lee, Seok-Lyong
    • The KIPS Transactions:PartD
    • /
    • v.11D no.4
    • /
    • pp.823-834
    • /
    • 2004
  • In this research, the similarity search algorithms are provided for large video data streams. A video stream that consists of a number of frames can be expressed by a sequence in the multidimensional data space, by representing each frame with a multidimensional vector By analyzing various characteristics of the sequence, it is partitioned into multiple video segments and clusters which are represented by hyper-rectangles. Using the hyper-rectangles of video segments and clusters, similarity functions between two video streams are defined, and two similarity search algorithms are proposed based on the similarity functions algorithms by hyper-rectangles and by representative frames. The former is an algorithm that guarantees the correctness while the latter focuses on the efficiency with a slight sacrifice of the correctness Experiments on different types of video streams and synthetically generated stream data show the strength of our proposed algorithms.

Quality Metrics for RFID Test Dataset to Evaluate RFID Middleware (RFID 미들웨어 평가를 위한 테스트 데이터셋의 품질 지표)

  • Ryu, Woo-Seok;Kwon, Joon-Ho;Hong, Bong-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.141-143
    • /
    • 2012
  • RFID 미들웨어의 평가를 위한 방법으로서, 테스트 데이터셋을 이용한 시뮬레이션은 일반적으로 사용되는 평가 방법이다. 태그 식별자에 따라 순차생성된 가상 데이터셋이나 랜덤 생성된 데이터셋의 경우 미들웨어의 단순 처리량을 평가하기에는 유용하나 미들웨어의 정확성이나 실행 가능성를 평가하기에는 한계가 있다. 테스트 데이터셋은 실제 리더에서 생성된 데이터셋과 매우 유사하여야 함에도 불구하고, 테스트 데이터셋의 품질 기준이 정의되어 있지 않음에 따라 테스트 데이터셋이 얼마만큼 실제 데이터셋과 유사한 지를 평가하기가 어려운 문제가 있다. 이를 위해 본 논문에서는 RFID 미들웨어의 평가에 사용되는 테스트 데이터셋의 품질을 평가하기 위한 품질 지표를 제안한다. 제안하는 품질 지표는 실제 RFID 리더에 태그가 통과할 때 생성되는 데이터 셋을 기반으로 하여 정의하였으며, RFID 무선 인식의 고유의 특성, 즉 중복성과 불확실성을 수치화해서 표현하는 특징이 있다. 또한 제안한 품질 지표를 실제 RFID 리더를 통해 생성한 데이터셋에 적용하여 비교 검토함으로써 품질 지표의 유용성을 입증한다.

빅 데이터 접근방식의 공공 데이터 비주얼라이제이션 사례

  • Lee, Man-Jae;On, Byeong-Won
    • Information and Communications Magazine
    • /
    • v.29 no.11
    • /
    • pp.36-42
    • /
    • 2012
  • 대부분의 빅 데이터 분석 결과는 문장으로 다듬어진 보고서로 결과를 제시하기보다는 비주얼라이제이션으로 결과를 보이고 보는 사람이 갖고 있는 배경지식과 통찰력에 따라 의미 있는 내용을 도출할 수 있도록 한다. 본 고에서는 공공 데이터와 비주얼라이제이션의 중요성을 알리기 위한 국회의원 투표 성향 분석 프로젝트를 소개한다. 우리나라 국민이라면 누구나 관심을 가질만한 국회의원의 성향을 파악하는 것을 세부 목표로 하고 18대 국회의원의 본 회의 회의록으로부터 투표 데이터를 수집하여 유사한 투표성향을 가진 국회의원을 가깝게 배치하여 누구나 쉽게 의원간의 유사성을 알 수 있도록 하였다. 데이터 수집부터 분석모델 개발과 웹 페이지를 만들기까지의 프로젝트 진행과정에서 모델의 수정이 필요했으며 왜 그러한 선택을 했는지를 설명한다.

The segmentation of Korean word for the lip-synch application (Lip-synch application을 위한 한국어 단어의 음소분할)

  • 강용성;고한석
    • Proceedings of the IEEK Conference
    • /
    • 2001.09a
    • /
    • pp.509-512
    • /
    • 2001
  • 본 논문은 한국어 음성에 대한 한국어 단어의 음소단위 분할을 목적으로 하였다. 대상 단어는 원광대학교 phonetic balanced 452단어 데이터 베이스를 사용하였고 분할 단위는 음성 전문가에 의해 구성된 44개의 음소셋을 사용하였다. 음소를 분할하기 위해 음성을 각각 프레임으로 나눈 후 각 프레임간의 스펙트럼 성분의 유사도를 측정한 후 측정한 유사도를 기준으로 음소의 분할점을 찾았다. 두 프레임 간의 유사도를 결정하기 위해 두 벡터 상호간의 유사성을 결정하는 방법중의 하나인 Lukasiewicz implication을 사용하였다. 본 실험에서는 기존의 프레임간 스펙트럼 성분의 유사도 측정을 이용한 하나의 어절의 유/무성음 분할 방법을 본 실험의 목적인 한국어 단어의 음소 분할 실험에 맞도록 수정하였다. 성능평가를 위해 음성 전문가에 의해 손으로 분할된 데이터와 본 실험을 통해 얻은 데이터와의 비교를 하여 평가를 하였다. 실험결과 전문가가 직접 손으로 분할한 데이터와 비교하여 32ms이내로 분할된 비율이 최고 84.76%를 나타내었다.

  • PDF