• 제목/요약/키워드: 데이터 확장 기법

검색결과 828건 처리시간 0.028초

대용량 네트워크 압축 기반 클러스터링 알고리즘 개발 (Development of Clustering Algorithm based on Massive Network Compression)

  • 서동민;유석종;이민호
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

웹 애플리케이션 개발에서의 개인 프로세스 데이터 수집 및 분석을 위한 도구 (Collecting and Analyzing Personal Software Process Data in Web Application Development)

  • 신현일;최호진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.539-542
    • /
    • 2006
  • Personal Software Process (PSP)에서 개인 개발자들이 수행해야 되는 측정 및 분석 활동이 제시된다. 측정 및 분석 활동의 일관되고 지속적인 수행으로 개발자들은 소프트웨어 품질 향상, 보다 정확한 예측, 개인 역량의 객관적인 평가, 개인 프로세스의 정량적 관리 등의 이득을 얻을 수 있다. 측정 및 분석 활동에서 신뢰성 있는 데이터의 수집이 무엇보다 중요하다. 하지만, 데이터 수집의 높은 오버헤드(overhead)와 컨텍스트 스위칭(context switching)의 문제로 인하여 신뢰성 있는 데이터의 수집에 많은 어려움이 존재한다. 이러한 어려움을 감소시키기 위해 자동 데이터 수집 및 분석 기법이 연구되어 왔다. 본 논문에서는 기존의 자동 데이터 수집 및 분석 기법을 확장하여 웹 애플리케이션 개발에서의 개인 프로세스 데이터를 자동 수집 및 분석 하는 도구를 설명한다.

  • PDF

불완전한 데이터를 처리할수 있는 분류기 (A Classifier Capable of Handling Incomplete Data Set)

  • 이종찬;이원돈
    • 한국정보통신학회논문지
    • /
    • 제14권1호
    • /
    • pp.53-62
    • /
    • 2010
  • 본 논문은 변수 값들이나 부류 값을 손실한, 불완전한 데이터를 포함하는 데이터 집합을 가지고 학습하는 문제에 적용될 수 있는 분류 알고리즘을 소개한다. 이 알고리즘은 가중치 값과 확률 기법들을 이용하는 데이터 확장 방법을 사용한다. 이는 휘셔(Fisher)의 식을 기반으로 최적의 투사 면이 되도록 고려된 분류기를 확장함으로써 수행한다. 이를 위해, 데이터 확장에 적용되는 과정으로 부터 몇몇 식들이 유도된다. 제안한 알고리즘의 성능평가를 위해, 데이터에서 하나의 변수를 선택하고 이 선택된 변수에 소실 값과 소실되지 않은 값들의 비율을 변형함에 의해 다른 측정값들의 결과들이 반복적으로 비교된다. 또한 데이터 집합의 객관적인 평가를 위해 기계학습에서 지식 습득 도구로 널리 쓰이는 C4.5의 결과와 비교한다.

IEEE 1149.1을 이용한 내장된 자체 테스트 기법의 구현 (Implementation of Built-In Self Test Using IEEE 1149.1)

  • 박재흥;장훈;송오영
    • 한국통신학회논문지
    • /
    • 제25권12A호
    • /
    • pp.1912-1923
    • /
    • 2000
  • 본 논문에서는 내장된 자체 테스트(BIST: Built-In Self Test) 기법의 구현에 관해 기술한다. 내장된 자체 테스트 기법이 적용된 칩은 영상 처리 및 3차원 그래픽스용 부동 소수점 DSP 코어인 FLOVA이다. 내장된 로직 자체 테스트 기법은 FLOVA의 부동 소수점 연산 데이터 패스에 적용하였으며, 내장된 메모리 자체 테스트 기법은 FLOVA에 내장된 데이터 메모리와 프로그램 메모리에 적용하였다. 그리고, 기판 수준의 테스팅을 지원하기 위한 표준안인 경계 주사 기법(IEEE 1149.1)을 구현하였다. 특히, 내장된 자체 테스트 로직을 제어할 수 있도록 경계주사 기법을 확장하여 적용하였다.

  • PDF

스마트폰 센싱에서 메타데이터의 구조적 유사도를 고려한 클러스터링 기법 (A Clustering Scheme Considering the Structural Similarity of Metadata in Smartphone Sensing System)

  • 민홍;허준영
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.229-234
    • /
    • 2014
  • 다수의 저가 센서 노드를 통해 주변의 환경 정보를 수집하는 센서 네트워크와 스마트폰에 탑재되어 있는 다양한 종료의 센서들을 연동함으로써 사용자의 상태에 따라 주위 환경과 반응하는 응용들이 개발되고 있다. 이런 응용에서 수집된 데이터의 공유를 위해 센싱 데이터와 의미정보를 저장하는 XML 형태의 메타데이터를 함께 저장할 필요가 있다. 메타데이터는 시스템 설계자의 필요에 따라 확장되고 변형되는데 거리 기반의 클러스터링 기법을 사용할 경우 서로 다른 형태의 메타데이터가 혼재하게 되어 데이터 수집의 효율성이 떨어지는 문제가 발생한다. 본 논문에서는 효율적인 데이터 수집을 위해 클러스터를 구성할 때 각 노드의 메타데이터의 구조적 유사도를 반영함으로써 클러스터 구성에 필요한 시간을 줄이고, 구성원 간 메타데이터 유사도를 향상시키는 기법을 제안한다.

데이터 마이닝을 위한 연관규칙의 다중 값 속성 처리방법 (Processing Multi-Valued Attributes in Association Rules for Data Mining)

  • 김산성;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.340-342
    • /
    • 2002
  • 다중 값이란 속성 값이 집합인 것을 말한다. 즉, 관계형 데이터베이스에서 자료 유형이 집합인 속성을 의미한다. 이러한 다중 값 속성 처리는 기존 데이터마이닝 기술 자체로는 처리한 수 없으며 후처리나 선처리 과정을 이용하여 처리하고 있다. 전처리나 후처리 과정을 통해 처리할 경우 수행과장에 있어 많은 시간이 소요되고 혹은 타당하지 않은 규칙이 생성되는 문제점을 가지고 있다. 특히 연관화 기법 특성상 분석하고자 할 항목이 증가할수록 연관성의 수가 지수(exponential)단위이기 때문에 이를 해결하는데는 상당한 어려움이 따르게 된다. 본 논문에서는 관계형 데이터베이스 테이블 구조에서 데이터 마이닝의 수행을 위한 전처리나 후처리의 과정을 고려하지 않음으로 위에서 언급된 문제점들을 해결하고자 한다. 특히 데이터 변환 작업 없이 정량적(Quantitative)연관 규칙과 연관 규칙(Market Basket Analysis)의 혼합 형태의 규칙을 생성할 수 있게끔 알고리즘을 확장하여 보다 효율적인 규칙이 생성될 수 있도록 한다. 마지막으로 Each Movie 데이터를 사용하여 확장한 알고리즘의 다중 값 속성 처리 방법의 효율성과 타탕성을 검증한다.

  • PDF

고차원을 갖는 생체 스펙트럼 데이터의 특징추출 및 분류기법 (Feature Extraction and Classification of High Dimensional Biomedical Spectral Data)

  • 조재훈;박진일;이대종;전명근
    • 한국지능시스템학회논문지
    • /
    • 제19권3호
    • /
    • pp.297-303
    • /
    • 2009
  • 본 논문에서는 비선형 변환에 의해 입력신호를 고차원의 확장공간으로 변환한 후, 주성분분석기법(PCA)에 의해 신호의 특징을 추출하는 기법을 제안한다. 특징추출을 위해 사용되는 기존의 주성분분석기법은 입력데이터가 비선형 특성을 갖는 경우 최적의 변환행렬을 구할 수 없다는 문제점을 가지고 있다. 이러한 문제점을 해결하기 위해, 확장공간상에서 구간별로 입력데이터를 분할한 후 주성분분석기법에 의해 구간별 특징을 추출하는 서브패턴기반 주성분분석기법(SpPCA)을 적용하였다. 다음 단계인 분류단계에서는 MLP 비선형분류기를 이용하여 구간마다 추출된 특징벡터를 이용하여 기준패턴과의 유사도를 산출한다. 최종 분류단계에서는 MLP에 의해서 산출된 유사도에 기반을 둔 융합법칙에 의하여 생체 스펙트럼 패턴을 분류한다. 제안된 방법의 유용성을 보이기 위한 실험결과에서 기존의 방법들에 비해서 향상된 인식결과를 보임을 확인하였다.

MPLS를 위한 트래픽 기반의 레이블 할당 기법 (Traffic Based Label Assign Technique For the MPLS)

  • 황하응;장성식
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권1호
    • /
    • pp.120-128
    • /
    • 2002
  • 최근 인터넷 방송이나 VOD와 같은 대용량 데이터 서비스에 대한 이용이 보편화되면서 네트?의 트래픽이 급증하고 있다. 이에 따라 발생하는 서비스의 지연문제를 해결하기 위해 대역폭의 확장뿐 아니라 망의 확장성을 해결할 수 있는 방안들이 모색되고 있다. 이러한 방안의 하나로서 MPLS는 망의 확장성과 고속의 라우팅을 지원하는 장점이 있으나 모든 패킷은 입구 노드에서 출구 노드까지 LSP가 설정 되기 전까지 지연이 발생한다. 본 논문에서는 이러한 지연 문제를 해결하기 위해 데이터가 MPLS 도메인을 거쳐 가야 할 경우 입구노드에서 출구 노드까지의 홉수에 따라 서로 다른 레이블 할당 기법을 사용하는 방안을 제안한다. 또한 제안된 방안을 사용했을 경우 어느 정도의 지연 감소를 얻을 수 있는지를 보였다.

  • PDF

확장된 LSTM 오토인코더 기반 이상 시퀀스 탐지 기법 (An Anomalous Sequence Detection Method Based on An Extended LSTM Autoencoder)

  • 이주연;이기용
    • 한국전자거래학회지
    • /
    • 제26권1호
    • /
    • pp.127-140
    • /
    • 2021
  • 최근 센서 측정 데이터, 구매이력 등과 같이 시간 정보를 포함하는 시퀀스(sequence) 데이터가 다양한 응용에서 발생되고 있다. 주어진 시퀀스들 중 다른 시퀀스들과 매우 상이한 이상(anomalous) 시퀀스를 탐지하는 기법들은 지금까지 많이 연구되어왔으나 이들 대부분은 주로 시퀀스 내 원소들의 순서만을 고려하여 이상 시퀀스를 찾는다는 한계가 있다. 따라서 본 논문에서는 원소들의 순서와 원소들 간의 시간 간격 모두를 고려하는 새로운 이상 시퀀스 탐지 기법을 제안한다. 본 논문에서 제안하는 방법은 확장된 LSTM 오토인코더 모델을 사용한다. 이 모델은 시퀀스를 해당 시퀀스 내 원소들의 순서와 시간 간격 모두를 효과적으로 학습할 수 있는 형태로 변환하는 층을 추가로 가진다. 제안방법은 확장된 LSTM 오토인코더 모델로 주어진 시퀀스들의 특징을 학습한 뒤, 해당 모델이 잘 복원하지 못하는 시퀀스를 이상 시퀀스로 탐지한다. 본 논문에서는 정상 시퀀스와 이상 시퀀스를 혼합한 가상 데이터를 사용하여 제안 방법이 전통적인 LSTM 오토인코더만을 사용하는 방법과 비교하여 100%에 가까운 정확도를 나타냄을 보인다.