• 제목/요약/키워드: 데이터 클러스터링

검색결과 1,055건 처리시간 0.025초

클러스터링 기반 뉴로-퍼지 모델링 학습 (Neuro-Fuzzy Modeling Learning method based on Clustering)

  • 김승석;곽근창;이대종;김성수;유정웅;김주식;김용태
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 춘계학술대회 학술발표 논문집 제15권 제1호
    • /
    • pp.289-292
    • /
    • 2005
  • 본 논문에서는 클러스터링과 뉴로-퍼지 모델링을 동시에 실시하는 학습 기법을 제안하였다. 클러스터링을 이용하여 뉴로-퍼지 모델링을 실시하는 일반적인 경우, 클러스터링 학습을 실시한 후 학습된 파라미터를 뉴로-퍼지 모델의 초기 파라미터로 설정하고 모델을 다시 학습하는 방법을 취한다. 즉 클러스터링에서 클러스터의 수를 구하고 파라미터를 최적화함으로써 초기 구조동정과 파라미터 동정을 실시하며 이를 다시 뉴로-퍼지 모델에서 세부적인 파라미터 동정을 실시하는 것이다. 또한 모델에서의 학습은 출력데이터의 오차를 이용한 오차미분기반 학습으로 전제부 소속함수 파라미터를 수정하는 방법을 이용한다. 이 경우 클러스터링의 영향과 모델의 영향이 각각 별개로 고려될 수 있다. 따라서 본 논문에서는 클러스터링을 전제부 소속함수로 부여하고 클러스터링의 학습에 뉴로-퍼지 모델을 이용하면서 또한 모델의 학습에 클러스터링을 직접 적용하는 클러스터링 기반 뉴로-퍼지 모델링을 제안하였으며 이 경우 클러스터링의 학습과 모델의 학습이 동시에 이루어지며 뉴로-퍼지 모델에서 클러스터링의 효과를 직접적으로 확인할 수 있다. 제안된 방법의 유용성을 시뮬레이션을 통하여 보이고자 한다.

  • PDF

대용량의 고차원 데이터 공간에서 프로젝션 필터링 기반의 부분차원 클러스터링 기법 (Partial Dimensional Clustering based on Projection Filtering in High Dimensional Data Space)

  • 이혜명;정종진
    • 한국전자거래학회지
    • /
    • 제8권4호
    • /
    • pp.69-88
    • /
    • 2003
  • 현재 알려진 대부분의 클러스터링 알고리즘들은 고차원 공간에서 데이터가 갖는 고유의 희소성 및 잡음으로 인하여 성능이 급격히 저하되는 경향이 있다. 이에 따라 최근에 클러스터 형성에 연관성이 있는 차원만을 선택하고, 연관성이 적은 차원들을 제거함으로써 클러스터링의 성능을 높일 수 있는 부분차원 클러스터링 기법이 연구되고 있다. 그러나 현재 연구된 부분차원 클러스터링 기법은 그리드 기반 방법으로서 차원의 증가에 따라 그리드 셀의 수가 방대해짐으로써 공간 및 시간적 인 효율성 이 저하된다. 또한, 대부분의 알고리즘들은 데이터 집합에서 대표객체를 찾아 클러스터 형성에 관계 있는 차원만을 조사하기 때문에 대량의 고차원 공간 데이터에 대해서는 최상의 대표객체를 선택하는데 어려움이 많다는 문제점이 있다. 본 논문에서는 입력 차원의 순서와 무관하게 동일한 클러스터를 탐사할 수 있는 효율적인 부분차원 클러스터링 알고리즘인 CLIP을 제안한다. CLIP은 클러스터 형성에 밀접하게 연관된 임의의 차원에서 클러스터를 탐사한 후에, 그에 종속적인 다음 차원에 대해서 점진적인 프로젝션을 이용하여 클러스터를 탐사하는 기법이다. 점진적 프로젝션 기법은 제안된 알고리즘의 핵심 기법으로서 방대한 양의 탐색공간과 클러스터링을 식별하는 계산시간을 크게 줄인다. 이에 따라 CLIP 알고리즘을 평가하기 위해 합성 데이타를 이용한 실험을 통하여 알고리즘의 정확성 및 효율성, 알고리즘 결과의 동등성에 대한 실험 및 비교 분석 결과를 제시한다.

  • PDF

암호화된 데이터에 대한 프라이버시를 보존하는 k-means 클러스터링 기법 (Privacy-Preserving k-means Clustering of Encrypted Data)

  • 정윤송;김준식;이동훈
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1401-1414
    • /
    • 2018
  • k-means 클러스터링 알고리즘은 주어진 데이터를 비슷한 k개의 그룹으로 묶어서 시장 세분화나 의료연구 등의 다양한 분야에서 활용되고 있다. 본 논문에서는 다수의 사용자 데이터를 노출하지 않고 암호화하여 외부 서버에 저장하는 환경에서 프라이버시를 보존하는 클러스터링 알고리즘을 제안한다. 분산된 서버에 평문으로 저장된 데이터를 다자간 계산프로토콜을 기반으로 수행된 기존 클러스터링 알고리즘 연구와 비교했을 때 제안하는 기법은 모든 데이터를 안전하게 암호문으로 저장할 수 있다는 뚜렷한 장점이 있다. 데이터 간의 거리를 측정하고 비교하기 위해서 덧셈과 곱셈 연산이 가능한 완전동형암호로 데이터를 암호화한다. 프로토콜 수행과정에서 사용자 데이터의 안전성을 분석하고 통신량과 연산량을 다른 연구들과 비교한다.

최적화에 기반 한 데이터 클러스터링 알고리즘 (New Optimization Algorithm for Data Clustering)

  • 김주미
    • 지능정보연구
    • /
    • 제13권3호
    • /
    • pp.31-45
    • /
    • 2007
  • 대용량의 데이터 처리에 관한 문제는 데이터 마이닝 내 중요한 이슈 중의 하나이다. 특히 데이터 클러스터링과 같이 컴퓨터 시뮬레이션으로 인한 부하가 큰 경우 더더욱 그러하다. 그러나 대개 이러한 문제는 Random sampling 으로 어느 정도 해결이 가능하다. 문제는 이런 샘플링을 통해서 발생하는 noise의 해결이다. 본 논문에서는 그러한 noise문제를 극복할 수 있도록 설계된 새로운 데이터클러스터링 알고리즘을 소개한다. 기존의 데이터 클러스팅 알고리즘과의 컴퓨터 비교 실험을 통해 본 알고리즘의 우수성을 밝혔으며 아울러 더 나아가 데이터 set의 일부만을 사용한 시뮬레이션 결과를 통해, 해의 정확도와 상관없이 실험 시간 또한 단축되었음을 보여주고 있다.

  • PDF

데이터 형태에 적응하는 클러스터링 알고리즘 (Data Clustering Algorithm Adaptive to Data Forms)

  • 이기호;이기철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1433-1436
    • /
    • 2000
  • 클러스터링에 있어서 k-means[7], DBSCAN[2], CURE[4], ROCK[5], PAM[8], 같은 기존의 알고리즘은 원형이나 타원형 등의 어느 고정된 모양에 의해 클러스터를 결정한다. 만약 클러스터 하려는 데이터의 분포가 우연히 알고리즘의 결정된 모양과 일치하면 정확한 해를 얻을 수 있다. 하지만 자연적인 데이터의 분포에서는 발생하기 어렵다. 데이터의 형태를 추적하여 이러한 문제점을 해결한 CHAMELEON[1] 알고리즘이 최근에 발표되었다. 하지만 모양에는 독립적이나 데이터의 양이 증가함에 따라 소요되는 시간이 폭발적으로 증가한다. 이것은 기존의 마이닝 데이터들이 대용량이라는 것을 고려하면 현실에 적용하기 힘든 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 K-means[7]]를 이용한 대표를 선출하는 방법으로 CHAMELEON[1]의 문제점 개선(EF-CHAMELEON)을 시도하였으며 여러 자연적인 형태의 도형들은 아주 작은 원형들의 집합으로 구성 될 수 있다는 생각을 기본으로 잡음에 영향을 받지 않을 정도로 아주 작은 초기 다수의 소형 클러스터를 K-mean을 이용하여 구성하고 이를 다시 크러스터간의 상대적인 거리를 이용하여 다시 머지 하는 방법으로 모양에 의존적인 문제를 해결하며 비교사 학습(unsupervised learning)에 충실하기 위해 임계값을 적용 적정 단계에서 알고리즘을 멈추게 한 ADF 알고리즘을 소개한다. 실험 데이터는 기존의 여러 클러스터링 알고리즘이 판별 할 수 없었던 다양한 모양을 가지고있는 2차원 배열을 사용하여 ADF. CHAMELEON[1], EF-CHAMELEON,의 성능을 비교하였다.

  • PDF

다크웹 오프체인 데이터를 이용한 다계층 비트코인 클러스터링 기법 (Multi-Layer Bitcoin Clustering through Off-Chain Data of Darkweb)

  • 이진희;김민재;허준범
    • 정보보호학회논문지
    • /
    • 제31권4호
    • /
    • pp.715-729
    • /
    • 2021
  • 비트코인은 분산되고 투명하며 강력한 암호화를 통해 데이터 수정이 불가능한 암호화폐 중 하나이다. 그러나 익명성으로 인해 다크웹 등에서 불법 거래를 위한 지불 수단으로 사용되기도 한다. 이 문제를 해결하기 위해 비트코인 트랜잭션의 특성을 기반으로 하는 클러스터링 기법이 제안되었으나 기존 휴리스틱 기법에서는 여전히 클러스터링 되지 못하고 있는 경우가 존재한다. 이러한 거짓 부정을 줄이기 위해 비트코인 트랜잭션의 특성뿐만 아니라 오프체인 데이터를 이용한 휴리스틱을 제안한다. 우리는 오프체인 데이터를 수집하고 활용하기 위해 Silk Road 4의 리뷰 데이터를 분석하여 리뷰 데이터의 31.68%가 실제 비트코인 트랜잭션으로 매치시킬 수 있음을 발견했고 수집된 데이터에 대해 91.7%까지 거짓 부정을 줄일 수 있었다.

병렬 내장형 소프트웨어 개발환경을 위한 데이터 플로우 블록 클러스터링 (Dataflow Block Clustering for Parallel Embedded Software Development Environment)

  • 조용우;권성남;하순회
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (B)
    • /
    • pp.337-341
    • /
    • 2008
  • 갈수록 복잡해지는 내장형 시스템을 개발함에 있어서 소프트웨어 개발의 중요성은 날로 커지고 있다. 기존 연구에서 소프트웨어 개발 효율을 높이기 위해 소프트웨어의 재사용 가능성을 높이고 병렬성 명세를 용이하게 하고자 중간단계코드(CIC)를 정의하였다. 이 중간단계 코드는 각 태스크의 순수 알고리즘을 기술하는 C형태의 태스크 코드와 그 외의 정보를 포함하는 XML형태의 아키텍쳐 정보 파일로 구성된다. 이 CIC는 사용자가 직접 기술할 수 있고 각종 모델로부터 자동 생성할 수도 있다. 이 논문에서는 후자에 초점을 두고 데이터 플로우 모델에 사용된 블록들을 클러스터링하여 태스크 코드를 생성하는 기법을 제안하였다. 이것을 위해 블록 클러스터링 알고리즘은 주어진 클러스터의 크기로 블록이 묶일 때까지 블록의 수행시간 정보를 고려하여 함수 병렬성을 최대한 보존하며 블록들을 묶어나간다. H.263 코덱 예제를 이용한 실험을 통해 제안하는 방법이 다양한 클러스터의 크기 조건에 대해서 다양한 클러스터링 결과를 제공함을 보였다.

  • PDF

클러스터링 균형을 사용하여 최적의 클러스터 개수를 결정하기 위한 효율적인 휴리스틱 (An efficient heuristics for determining the optimal number of cluster using clustering balance)

  • 이상욱
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.792-796
    • /
    • 2009
  • 데이터 클러스터링 분야에서 최적의 클러스터 개수를 추정하는 것은 매우 중요한 일이다. 그것은 클러스터링의 적합성을 판단할 기준을 정하고 그 적합성을 극대화 하는 최적의 클러스터의 개수를 찾는 것이다. 본 논문에서는 클러스터의 적합성을 판단할 기준으로써 클러스터링 균형을 사용하여 최적의 클러스터 개수를 찾기 위한 효율적인 휴리스틱 방법을 제안하였다. k-means 사용하여 가상 및 실제 데이터 셋에 적용한 결과, 제안한 알고리즘이 계산효율 측면에서 우수함을 확인할 수 있었다.

  • PDF

Web GIS 클러스터링 시스템에서 질의 영역의 인접성을 이용한 로드 밸런싱 기법 (Load Balancing Method Using Proximity of Query Region in Web GIS Clustering System)

  • 장용일;이찬구;이충호;이재동;배해영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.214-216
    • /
    • 2001
  • 웹 GIS에서의 인터넷 서비스 이용자의 집중 현상으로 발생하는 서버의 과부하 현상을 막고 안정적인 서비스 제공을 위해서는 웹 클러스터링 기술의 도입이 필요하다. 공간 질의는 웹 데이터와는 달리 인접 영역에 대한 질의가 매우 잣으며, 질의 처리 결과가 대용량이라는 특성을 가지고 있다. 이러한 공간 질의의 특성을 고려하지 않을 경우, 서버에서 처리되는 질의들의 지역적 인접성이 낮아지고 낮은 버퍼 재 사용율은 디스크로의 접근 빈도를 높여 질의 처리 비용을 증가시키는 원인이 된다. 본 논문에서는 웹 GIS 클러스터링 시스템을 위한 질의 영역의 인접성을 이용한 로드 밸런싱 기법을 제안한다. 제안하는 기법은 공간 데이터를 타일을 기반으로 인접한 타일의 그룹을 생성하여 각 서버에 할당하여, 질의 영역 및 공간 연산을 고려하여 서버에서 질의가 처리되는 동안 버퍼 재사용율이 최대가 되도록 클라이언트의 질의 요청을 적절한 서버에 전달한다. 제안하는 기법은 서버의 버퍼를 공간 인덱스 탐색에 최적화함으로써 서버의 버퍼 재상용율을 높이고, 클러스터링 시스템에서 디스크의 접근 횟수를 낮추어, 전체적인 서버 시스템의 처리 능력을 형상시킨다.

  • PDF

유전자 발현 분석을 위한 공진화적 바이클러스터링 기법 (Gene Expression Analysis by Co-evolutionary Biclustering)

  • 정제균;김수진;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.22-24
    • /
    • 2006
  • 마이크로어레이는 전체 유전체 수준의 mRNA 발현 여부에 대한 측정이 가능하다는 점에서 분자생물학의 실험 도구로서 가장 강력한 도구 중에 하나로 부각되어 있다. 현재까지 마이크로어래이의 결과로부터 유사한 발현 패턴을 찾기 위한 여러 가지 바이클러스터링 알고리즘들이 개발되어 왔다. 하지만 대다수의 알고리즘들이 최적의 바이클러스터들을 찾기보다는 일정 수준의 가능한 바이클러스터의 결과만을 제시하고 있다. 본 논문에서는 다른 개체집단들과 상호 진화하는 공진화적 학습에 의한 진화연산 기법을 통하여 유전자-조건의 매트릭스로부터 열과 행을 동시에 클러스터링하는 공진화적 바이클러스터링 알고리즘(co-evolutionary biclustering algorithm: CBA)을 제안하고자 한다. CBA는 유전자발현 데이터에서 유전자-조건의 상호의존적인 부성분들로 구성된 최적화 문제에 적합한 계산방식이라고 할 수 있다. 인간 유전자 발현 데이터에 대한 실험 결과. 제시한 알고리즘은 이전의 알고리즘에 비해 발견한 바이클러스터의 패턴 유사도에 있어서 우수한 성능을 보이고 있다.

  • PDF