• Title/Summary/Keyword: 데이터 확장 기법

Search Result 828, Processing Time 0.026 seconds

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

Collecting and Analyzing Personal Software Process Data in Web Application Development (웹 애플리케이션 개발에서의 개인 프로세스 데이터 수집 및 분석을 위한 도구)

  • Shin, Hyun-Il;Choi, Ho-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.11a
    • /
    • pp.539-542
    • /
    • 2006
  • Personal Software Process (PSP)에서 개인 개발자들이 수행해야 되는 측정 및 분석 활동이 제시된다. 측정 및 분석 활동의 일관되고 지속적인 수행으로 개발자들은 소프트웨어 품질 향상, 보다 정확한 예측, 개인 역량의 객관적인 평가, 개인 프로세스의 정량적 관리 등의 이득을 얻을 수 있다. 측정 및 분석 활동에서 신뢰성 있는 데이터의 수집이 무엇보다 중요하다. 하지만, 데이터 수집의 높은 오버헤드(overhead)와 컨텍스트 스위칭(context switching)의 문제로 인하여 신뢰성 있는 데이터의 수집에 많은 어려움이 존재한다. 이러한 어려움을 감소시키기 위해 자동 데이터 수집 및 분석 기법이 연구되어 왔다. 본 논문에서는 기존의 자동 데이터 수집 및 분석 기법을 확장하여 웹 애플리케이션 개발에서의 개인 프로세스 데이터를 자동 수집 및 분석 하는 도구를 설명한다.

  • PDF

A Classifier Capable of Handling Incomplete Data Set (불완전한 데이터를 처리할수 있는 분류기)

  • Lee, Jong-Chan;Lee, Won-Don
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.1
    • /
    • pp.53-62
    • /
    • 2010
  • This paper introduces a classification algorithm which can be applied to a learning problem with incomplete data sets, missing variable values or a class value. This algorithm uses a data expansion method which utilizes weighted values and probability techniques. It operates by extending a classifier which are considered to be in the optimal projection plane based on Fisher's formula. To do this, some equations are derived from the procedure to be applied to the data expansion. To evaluate the performance of the proposed algorithm, results of different measurements are iteratively compared by choosing one variable in the data set and then modifying the rate of missing and non-missing values in this selected variable. And objective evaluation of data sets can be achieved by comparing, the result of a data set with non-missing variable with that of C4.5 which is a known knowledge acquisition tool in machine learning.

Implementation of Built-In Self Test Using IEEE 1149.1 (IEEE 1149.1을 이용한 내장된 자체 테스트 기법의 구현)

  • Park, Jae-Heung;Chang, Hoon;Song, Oh-Young
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.25 no.12A
    • /
    • pp.1912-1923
    • /
    • 2000
  • 본 논문에서는 내장된 자체 테스트(BIST: Built-In Self Test) 기법의 구현에 관해 기술한다. 내장된 자체 테스트 기법이 적용된 칩은 영상 처리 및 3차원 그래픽스용 부동 소수점 DSP 코어인 FLOVA이다. 내장된 로직 자체 테스트 기법은 FLOVA의 부동 소수점 연산 데이터 패스에 적용하였으며, 내장된 메모리 자체 테스트 기법은 FLOVA에 내장된 데이터 메모리와 프로그램 메모리에 적용하였다. 그리고, 기판 수준의 테스팅을 지원하기 위한 표준안인 경계 주사 기법(IEEE 1149.1)을 구현하였다. 특히, 내장된 자체 테스트 로직을 제어할 수 있도록 경계주사 기법을 확장하여 적용하였다.

  • PDF

A Clustering Scheme Considering the Structural Similarity of Metadata in Smartphone Sensing System (스마트폰 센싱에서 메타데이터의 구조적 유사도를 고려한 클러스터링 기법)

  • Min, Hong;Heo, Junyoung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.14 no.6
    • /
    • pp.229-234
    • /
    • 2014
  • As association between sensor networks that collect environmental information by using numberous sensor nodes and smartphones that are equipped with various sensors, many applications understanding users' context have been developed to interact users and their environments. Collected data should be stored with XML formatted metadata containing semantic information to share the collected data. In case of distance based clustering schemes, the efficiency of data collection decreases because metadata files are extended and changed as the purpose of each system developer. In this paper, we proposed a clustering scheme considering the structural similarity of metadata to reduce clustering construction time and improve the similarity of metadata among member nodes in a cluster.

Processing Multi-Valued Attributes in Association Rules for Data Mining (데이터 마이닝을 위한 연관규칙의 다중 값 속성 처리방법)

  • 김산성;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.340-342
    • /
    • 2002
  • 다중 값이란 속성 값이 집합인 것을 말한다. 즉, 관계형 데이터베이스에서 자료 유형이 집합인 속성을 의미한다. 이러한 다중 값 속성 처리는 기존 데이터마이닝 기술 자체로는 처리한 수 없으며 후처리나 선처리 과정을 이용하여 처리하고 있다. 전처리나 후처리 과정을 통해 처리할 경우 수행과장에 있어 많은 시간이 소요되고 혹은 타당하지 않은 규칙이 생성되는 문제점을 가지고 있다. 특히 연관화 기법 특성상 분석하고자 할 항목이 증가할수록 연관성의 수가 지수(exponential)단위이기 때문에 이를 해결하는데는 상당한 어려움이 따르게 된다. 본 논문에서는 관계형 데이터베이스 테이블 구조에서 데이터 마이닝의 수행을 위한 전처리나 후처리의 과정을 고려하지 않음으로 위에서 언급된 문제점들을 해결하고자 한다. 특히 데이터 변환 작업 없이 정량적(Quantitative)연관 규칙과 연관 규칙(Market Basket Analysis)의 혼합 형태의 규칙을 생성할 수 있게끔 알고리즘을 확장하여 보다 효율적인 규칙이 생성될 수 있도록 한다. 마지막으로 Each Movie 데이터를 사용하여 확장한 알고리즘의 다중 값 속성 처리 방법의 효율성과 타탕성을 검증한다.

  • PDF

Feature Extraction and Classification of High Dimensional Biomedical Spectral Data (고차원을 갖는 생체 스펙트럼 데이터의 특징추출 및 분류기법)

  • Cho, Jae-Hoon;Park, Jin-Il;Lee, Dae-Jong;Chun, Myung-Geun
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.19 no.3
    • /
    • pp.297-303
    • /
    • 2009
  • In this paper, we propose the biomedical spectral pattern classification techniques by the fusion scheme based on the SpPCA and MLP in extended feature space. A conventional PCA technique for the dimension reduction has the problem that it can't find an optimal transformation matrix if the property of input data is nonlinear. To overcome this drawback, we extract features by the SpPCA technique in extended space which use the local patterns rather than whole patterns. In the classification step, individual classifier based on MLP calculates the similarity of each class for local features. Finally, biomedical spectral patterns is classified by the fusion scheme to effectively combine the individual information. As the simulation results to verify the effectiveness, the proposed method showed more improved classification results than conventional methods.

Traffic Based Label Assign Technique For the MPLS (MPLS를 위한 트래픽 기반의 레이블 할당 기법)

  • 황하응;장성식
    • Journal of the Korea Society of Computer and Information
    • /
    • v.7 no.1
    • /
    • pp.120-128
    • /
    • 2002
  • As mass data service like internet broadcasting and VOD is used widely, network traffic is increasing rapidly. In order to resolve this service delay caused by mass network traffic data, various techniques are tried. MPLS, as one of these techniques, supports network extensibility and high speed routing. But it generate delay while waiting to set the LSP from input node to output node. In order to resolve these delay Problems, this Paper Propose different label assign technic according to the hop count between input node and output node when data has to go through MPLS domain. The simulation results show that delay reduction was gained when the proposed technique is applied.

  • PDF

An Anomalous Sequence Detection Method Based on An Extended LSTM Autoencoder (확장된 LSTM 오토인코더 기반 이상 시퀀스 탐지 기법)

  • Lee, Jooyeon;Lee, Ki Yong
    • The Journal of Society for e-Business Studies
    • /
    • v.26 no.1
    • /
    • pp.127-140
    • /
    • 2021
  • Recently, sequence data containing time information, such as sensor measurement data and purchase history, has been generated in various applications. So far, many methods for finding sequences that are significantly different from other sequences among given sequences have been proposed. However, most of them have a limitation that they consider only the order of elements in the sequences. Therefore, in this paper, we propose a new anomalous sequence detection method that considers both the order of elements and the time interval between elements. The proposed method uses an extended LSTM autoencoder model, which has an additional layer that converts a sequence into a form that can help effectively learn both the order of elements and the time interval between elements. The proposed method learns the features of the given sequences with the extended LSTM autoencoder model, and then detects sequences that the model does not reconstruct well as anomalous sequences. Using experiments on synthetic data that contains both normal and anomalous sequences, we show that the proposed method achieves an accuracy close to 100% compared to the method that uses only the traditional LSTM autoencoder.