DOI QR코드

DOI QR Code

Study on Dimension Reduction algorithm for unsupervised clustering of the DMR's RF-fingerprinting features

무선단말기 RF-fingerprinting 특징의 비지도 클러스터링을 위한 차원축소 알고리즘 연구

  • Received : 2023.05.27
  • Accepted : 2023.06.09
  • Published : 2023.06.30

Abstract

The clustering technique using RF fingerprint extracts the characteristic signature of the transmitters which are embedded in the transmission waveforms. The output of the RF-Fingerprint feature extraction algorithm for clustering identical DMR(Digital Mobile Radios) is a high-dimensional feature, typically consisting of 512 or more dimensions. While such high-dimensional features may be effective for the classifiers, they are not suitable to be used as inputs for the clustering algorithms. Therefore, this paper proposes a dimension reduction algorithm that effectively reduces the dimensionality of the multidimensional RF-Fingerprint features while maintaining the fingerprinting characteristics of the DMRs. Additionally, it proposes a clustering algorithm that can effectively cluster the reduced dimensions. The proposed clustering algorithm reduces the multi-dimensional RF-Fingerprint features using t-SNE, based on KL Divergence, and performs clustering using Density Peaks Clustering (DPC). The performance analysis of the DMR clustering algorithm uses a dataset of 3000 samples collected from 10 Motorola XiR and 10 Wintech N-Series DMRs. The results of the RF-Fingerprinting-based clustering algorithm showed the formation of 20 clusters, and all performance metrics including Homogeneity, Completeness, and V-measure, demonstrated a performance of 99.4%.

RF-fingerprint를 이용한 클러스터링 기술은 전송 파형에 포함된 송수신기의 특성(signature)을 추출하고 이들에게 임의의 레이블을 자동으로 할당함으로써, 추후 지도 학습기반에 무선단말기 분류기의 개발을 용이하게 해준다. 동종 무선 단말기 분류를 위한 RF-fingerprint 특징 추출 알고리즘의 출력은 512개 또는 1024개 이상의 고차원 특징이다. 이러한 고차원의 특징을 분류기에는 효과적일 수 있으나 클러스터링 알고리즘의 입력으로는 부적절하다. 이에 본 논문은 다차원의 RF-fingerprinting 특징을 무선단말기의 fingerprinting 특징을 유지하면서 차원을 효과적으로 줄일 수 있는 차원 축소 알고리즘을 제안하고, 축소된 차원을 효과적으로 클러스터링할 수 있는 클러스터링 알고리즘을 제안한다. 제안된 RF-fingerprinting 클러스터링 알고리즘은 다차원 RF-fingerprinting 특징을 KL Divergence 기반에 t-SNE를 이용하여 차원을 축소하고 DPC(Density Peaks Clustering)를 이용하여 클러스터링 수행한다. 무선단말기 클러스터링 알고리즘의 성능 분석은 모토롤라XiR 10대와 윈어텍 N-Series 10대에서 수집한 3000개의 데이터셋을 이용한다. RF-fingerprintining기반 클러스터링 알고리즘의 성능 분석 결과 20개의 클러스터가 형성되었고, Homogeneity, Completeness, V-measure 모두 99.4%의 성능을 보였다.

Keywords

Ⅰ. 서론

Radio Frequency(RF)를 이용한 클러스터링 기술은 전자전 분야에서 적의 이동을 분석하기 위한 핵심 기술 중의 하나이다. 다중으로 수집된 RF 신호를 무전기별로 임의의 레이블을 자동으로 할당함으로써, 추후 RF-fingerprint 기반에 무전기 분류 시스템을 개발할 때 핵심 기술로 활용할 수 있다. 그러나 RF를 이용한 클러스터링 기술은 외부 환경에 강인한 RF fingerprint 특징 추출 알고리즘에 대한 연구가 선행되어야하며, 이와 함께, 다차원 특징이 갖는 클러스터링의 문제[1]를 효과적으로 해결할 수 있는 차원 축소 알고리즘의 개발이 이루어져야 한다. 이러한 연구의 어려움으로 인해서 현재 대부분의 연구는 와이파이와 같은 무선 디바이스에 대한 RF- fingerprinting 특징 추출 연구와 딥러닝을 이용한 분류 기술 개발이 주류를 이룬다. 본 논문은 무선 단말기를 대상으로 RF-fingerprinting 특징 추출 연구 결과를 근간으로, 다중으로 획득된 무선단말기의 RF 신호로부터 임의의 레이블링을 수행할 수 있는 클러스터링 알고리즘을 제안한다.

무선단말기의 RF 전송 표준은 유럽 전기통신 표준협회에서 개발되어 상용화 된 국제 표준을 따른다. 무선단말기의 RF 전송 표준은 크게 2가지 특징을 가지는데, 그 특징은 다음과 같다.

⦁ 전송방식은 1 슬롯 시분할 다중 접속(2 slot TDME) 방식임 : 30ms 간격으로 신호 버스트가 나타남

⦁ 4단계 주파수 편이 방식(4 level frequency shift keying)에 의해서 데이터가 변조됨.

그림 1은 무선단말기에서 수집된 신호 파형이다.

OTNBBE_2023_v23n3_83_f0001.png 이미지

그림 1. 무선 단말기의 표준 신호 파형

Fig. 1. Standard signal waveforms of DMR

RF-fingerprint 란 전송 파형에서 의도하지 않게 포함된 디바이스 지문(signiture)을 추출하여 해당 신호가 어느 통신기기에서 송신된 건지를 분류하는 기술이다. RF-fingerprinting 연구는 크게 신호 분석을 통한 연구와 딥러닝 모델을 이용한 분류기 및 클러스터링 연구로 나누어진다.

Xu[2]은 전송 신호의 amplitude, phase angle 그리고 frequency 등을 추출하여 이를 무선 디바이스의 특징으로 사용하였으며, Brik et al[3]은 802.11b RF 모뎀의 I/Q 변조과정에서 발생하는 위상 오차, 진폭오류, 오류벡터 크기(Error Vector Magnitude), 심볼 클럭 오류와 같은 I/Q 복조 오류와 송수신 간의 동기화 상관값, I/Q편차, 주파수 편차등을 디바이스의 fingerprinting 특징으로 제안하였으며, 이들이 제안한 PARADIS (Passive Radiometric Device Identification System)는 802.11 디바이스에 대해서 약 99%의 정확도를 제시하였다.

Franklin et al[4]은 통신 스캐닝 동안 probe 요청 프레임들 사이에 도착 시간의 빈도에 기반한 특징을 제안하였다. Kennedy et al[5]은 패킷내에 알려진 preamble을 주파수 영역 내에서 특징을 추출하여 k-nearest neighbors를 이용하여 분류기를 설계하였다. Sankhe et al[6]는 원시 I/Q 샘플만을 사용한 radio 분류기인 ORACLE(Optimized Radio classification through Convolutional neural nEtworks) 시스템을 제안하였으며, 이는 2차원 Alexnet를 1차원 AlexNet으로 번형한 딥런닝 모델을 이용하여 RF-fingerprinting 특징으로 I/Q imbalance 와 DC offset 특징을 추출하였다. Jung et al[7]은 신호의 시간에 따른 신호의 크기변화를 DMR의 주요 fingerprinting 특징으로 제시하고 이를 입력으로 새롭게 개발한 1차원 ResNet 모델을 이용하여 20개의 DMR를 분류하는 알고리즘을 제안하였다.

일반적으로 클러스터링 알고리즘은 크게 분할기반(partitioning-based) 기법과 계층기반(hierarchical-based) 기법 그리고 밀도기반(density-based) 기법으로 나누어진다. 각 클러스터링 알고리즘은 데이터의 타입이나 형태에 따라 분류 용이한 장단점을 가지는데, 대체로 밀도 기반의 클러스터링 알고리즘이 다른 알고리즘에 비해 좋은 성능을 보인다.

분할 기반의 대표적인 알고리즘은 K-means[8], K-medoids[9] 등이 있다. 이 알고리즘들은 구현이 단순하고 분류 방식이 직관적이기 때문에 이해하기 쉽다는 특징을 가지고 있다. 그런데 이런 방식의 알고리즘은 클러스터의 수를 정확히 추측하기 어렵기 때문에 일반적으로 클러스터의 수를 미리 알고있는 경우에 사용된다. 또한 클러스터 중심으로 부터 거리기반의 분류를 수행하기 때문에 단순한 모양의 클러스터로 구성된 데이터에 사용하기 적합하며 클러스터의 모양이 복잡할 경우 좋은 성능을 내기 힘들다.

계층 기반의 대표적인 알고리즘은 BIRCH[10], CURE[11], ROCK[12] 등이 있다. 이 알고리즘들은 데이터를 상향식(buttom-up) 혹은 하향식(top-down)으로 데이터를 병합하거나 분리하는 방식으로 클러스터를 구성하기 때문에 클러스터의 수를 몰라도 사용가능 하며 초기화 단계에서 특별히 고려할 사항이 없이 사용 가능한 특징을 가진다. 그런데 이런 방식의 클러스터링 알고리즘은 데이터의 계층적인 구성을 파악하기에는 용이하지만, 복잡한 모양의 클러스터로 구성된 데이터에 대한 분석 능력이 낮은 편이며, outlier에 대한 처리가 힘들다는 특징을 가진다.

밀도 기반의 대표적인 알고리즘은 DBSCAN[13], OPTICS[14], density peaks clustering[1] 등이 있다. 이 알고리즘들은 특정 거리 안에 밀집한 데이터를 병합해 클러스터를 형성하는 방식을 사용하기 때문에 클러스터의 수를 모르는 기하학적인 모양의 클러스터로 구성된 데이터도 잘 분류하는 특징을 가지며, 노이즈나 outlier 분류에도 강인한 특성을 보인다. 그런데 이런 방식의 클러스터링 알고리즘은 데이터의 차원이 높아질수록 데이터가 희박해지는 차원의 저주 현상으로 인해 클러스터링 성능이 저하될 수 있으며, 정확한 클러스터의 수를 추측하기 위해서는 민감한 파라미터 설정이 필요할 수 있다.

Jung의 연구에 의하면 DMR 분류를 위해서 RF-fingerprinting 특징으로 512개의 샘플에서 1024개의 샘플이 필요하다. 따라서 본 논문은 다차원 DMR 특징으로 인한 클러스터링의 데이터 희박성 문제를 해결하기 위해서 RF-fingerprinting 의 주요 특징을 유지하는 차원 축소 알고리즘을 전처리로 제안하고 밀도기반 클러스터링 알고리즘을 결합하여 효과적인 RF 클러스터링 알고리즘을 제안한다.

Ⅱ. DMR 클러스터링 알고리즘 설계

1. t-SNE기반 차원 축소 알고리즘 설계

본 절에서는 다차원의 Rf-fingerprinting 특징을 유지하면서 클러스터링에 적용할 수 있는 효과적인 차원 축소 알고리즘을 제안한다. RF-fingerprinting 특징은 rt의 시간 특징이 사용된다. 그림 2는 모토롤라01 무전기와 03의 rt 누적 그래프이다.

OTNBBE_2023_v23n3_83_f0002.png 이미지

그림 2. 모토롤라01과 03의 RF-fingerprint

Fig. 2. RF-fingerprint of Motorola 01 and 03

그림2에서 왼쪽은 모토롤라 XiR P3699 첫 번째 무전기의 rt 그래프이고, 오른쪽은 모토롤라 XiR P3699세번째 무전기의 rt 그래프이다. 두 동종 무전기의 신호의 형태는 거의 유사하지만 딥러닝 모델에서는 99% 다르게 분류된다[7].

이전 연구에서 RF-fingerprinting 특징으로 512개 또는 1024개 특징을 추출하였다. 이러한 고차원의 특징을 분류기에는 효과적일 수 있으나 클러스터링 알고리즘의 입력으로는 부적절하다. 따라서 고성능의 클러스터링 알고리즘을 개발하기 위해서는 다차원의 fingerprinting 특징을 DMR 무전기의 fingerprinting 특징을 유지하면서 효과적으로 차원을 축소할 수 있는 알고리즘이 필요하다.

다차원 RF-fingerprinting 특징에서 효과적인 차원 축소를 위해서 다양한 통계적 거리측정 방법 중에서 두 확률 분포의 차이를 계산하는데 사용하는 함수인 Kulback-Leibler Divergence(KLD) 를 이용하여 RF 클러스터링의 가능성을 분석한다. KLD 는 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링 할 때, 발생할 수 있는 정보 엔트로피의 차이를 계산하는 방식으로 상대 엔트로피(relative entropy), 정보 획득량(information gain), 인포메이션 다이버전스(Information divergence)라고도 부른다. 수식1은 KLD의 계산 수식이다. 여기서 P,Q 는 두 개의 확률 분포이고, p,q 는 두 확률분포의 확률 밀도 함수이다.

\(\begin{aligned}D_{K L}(P|\;| Q)=\sum_{x \in X} P(x) \log \left(\frac{P(x)}{Q(x)}\right)\end{aligned}\)       (1)

그림 3은 모토롤라01과 나머지 19개의 무전기간에 KLD의 결과를 도식화한 것이다. 그림에서 가로축은 KS test 결과이고 세로축은 KLD의 결과이다. 그림에서 0.0에 가까운 값은 모토롤라01이다. 그림에서 모토롤라02 ~ 모토롤라05는 모토롤라01과 어느정도 가까운 거리에 있고 나머지는 먼 거리에 있음을 확인할 수 있다.

OTNBBE_2023_v23n3_83_f0003.png 이미지

그림 3. 모토롤라01과 다른 무전기간의 KLD 분포

Fig. 3. KLD distribution between Motorola01 and other DMRs

본 논문은 그림 3에서 나타나는 KLD의 장점을 극대화하기 위해서 KLD를 근간으로하는 학습기반의 차원축소 알고리즘인 t-SNE(distributed Stochastic neighbor embdding)[15]를 차원 축소 알고리즘을 제안한다. t-SNE는 비선형적인 방법의 차원 축소 알고리즘으로서 다음과 같은 특징을 갖는다.

⦁ 고창원 공간에서의 점들의 유사성과 그에 해당하는 저차원 공간에서의 점들의 유사성을 계산함.

⦁ 입력의 고차원 데이터와 저차원 점들 쌍들에 대해서 gradient descent 방식을 사용하여 KL divergence 합계를 최소화함.

⦁ t-SNE 과정이 끝나면 입력 신호를 확인하기 어려운 단점이 있다.

그림 4는 20개의 무전기에 대한 t-SNE 를 적용한 결과이다. 그림에서 20개의 무전기가 일정한 모양으로 클러스터를 형성함을 확인할 수 있다. 그림에서 나타난 색은 20개 무전기의 종류이다. 여기서 주요한 특징을 클러스터의 형태가 직선의 모양을 갖는다. 이러한 특징으로 인해서 클러스터링 알고리즘을 선택할 때 직선형태의 클러스터를 효과적으로 클러스터링 할 수 있는 알고리즘을 선택해야한다.

OTNBBE_2023_v23n3_83_f0004.png 이미지

그림 4. 20대 무전기에 대한 t-SNE 결과

Fig. 4. t-SNE resutls for 20 DMRs

2. DMR 클러스터링 알고리즘 설계

본 절에서는 RF-fingerprint기반에 무선단말기 클러스터링 알고리즘을 제안한다. 그림 5는 제안된 RFFCS(RF-Fingerprint Clustering System) 의 구조이다.

OTNBBE_2023_v23n3_83_f0005.png 이미지

그림 5. t-SNE기반 RFFCS의 개념도

Fig. 5. t-SNE based RFFCS overview

제안된 RFFCS는 I/Q 신호열에서 첫 번째 버스트를 추출하는 End Point Detection(EPD) 모듈과 전체 데이터셋에 대해서 학습용 데이터를 구축하는 모듈,개별 신호에 대해서 fingerprint 특징을 추출하는 모듈, 추출된 전체 데이터셋을 입력으로 KLD를 이용하여 차원을 축소하는 t-SNE 모듈 마지막으로 전체 데이터를 이용해서 클러스터링을 수행하는 DPC(density peaks clustering) 모듈로 구성된다.

DPC 클러스터링 알고리즘은 Density peak들과 거리를 기반으로하는 클러스터링 알고리즘이다. 직선형태의 클러스터를 클러스터링하는데 효과적인다. DPC는 주로 로컬 밀도인 ρ와 고밀도 데이터 포인드들까지의 거리인 δ라는 두 가지 매개 변수를 사용하고, 데이터 포인터 간의 로컬 밀도를 계산하는 cut-off 커널과, 가우시안 커널 방법을 제공한다. 다음은 데이터 포인터 i 에 대한 로컬 밀도 ρi의 계산 수식이다.

\(\begin{aligned}\rho_{i}=\sum_{j} X\left(d_{i j}-d_{c}\right) \quad X(d)=\left\{\begin{array}{l}1, d \geq 0 \\ 0, d<0\end{array}\right.\end{aligned}\)       (2)

여기서 dij는 두 노드 i 와 j 간의 거리이고 dc는 cut-off 거리의 입력 파라미터이다. 일반적으로 이 값은 거리의 2%이다.

\(\begin{aligned}\rho_{i}=\sum_{j} e^{-\left(\frac{d_{i j}^{2}}{2 d_{c}}\right)}\end{aligned}\)       (3)

다음은 δi에 대한 수식이다. 이는 노드 i 에서 노드 i 보다 밀도가 크면서 가장 가까운 노드 j를 나타낸다.

\(\begin{aligned}\delta_{i}=\left\{\begin{array}{ll}\min \left(d_{i j}\right) & \text { if } \exists j \rho_{j}>\rho_{i} \\ \max \left(d_{i k}\right) & k \in \text { all node otherwise }\end{array}\right.\end{aligned}\)      (4)

III. 실험 및 결과

본 절에서는 20개의 무선 단말기에 대해서 t-SNE 기반에 무선단말기 클러스터링 알고리즘의 성능을 검증한다. 20대의 무선단말기는 동일 모델 10개씩 두 종류의 무전기로 구성되어진다. 하나는 모토로라의 XiR P3688이고 다른 한 종류는 윈어텍의 N-Series 무선 단말기이다. 그리고 동일 모델 10대의 무선 단말기는 VHF(Very High Frequency: 138-174 Mhz) 전송방식 5대 그리고 UHF(Ultra high Frequency: 403-470 Mhz) 전송방식 5대로 나누어서 데이터를 수집한다. 그림6은 본 실험의 대상이 되는 무선 단말기의 구조 및 실험에 사용된 데이터 수이다.

OTNBBE_2023_v23n3_83_f0006.png 이미지

그림 6. RFFCS의 학습 및 테스트 데이터 셋 구성

Fig. 6. Training and Test DB for RFFCS

다음은 무선 단말기별 150개의 데이터에 대해서 제인된 RFFCS 의 실험 결과이다. 첫 번째 컬럼은 타겟 레이블링이고 두 번째 숫자는 클래스터링 결과이다. 예를 들어서 [1] {1:149, 4:1} 인 것은 1번 클러스털링 레이블링에 대해서 전체 150개 데이터를 대상으로 1번째 레이블링으로 149개가 할당되고 4번재 레이블링으로 1개가 할당되었음을 나타낸다.

OTNBBE_2023_v23n3_83_f0007.png 이미지

그림 7. RFFCS의 클러스터링 결과

Fig. 7. Clustering Result of RFFCS

제안된 시스템의 정량적인 성능 분석을 위해서 3개의 성능 지표를 사용한다. 다음은 각 성능 지표에 대한 성능 측정 결과이다.

⦁ Homogeneity : 99.4

⦁ Completeness : 99.4

⦁ V-measure : 99.4

제안된 시스템은 3개의 성능지표 평균 약 99.4%의 정확도로 20개의 무전기를 클러터링함을 확인하였다.

IV. 결론

본 논문은 무선 단말기에서 수신된 In-phase(I)와 Quadrature(Q) 데이터 열을 입력으로 동종 무선 단말기 및 이기종 무선 단말기의 RF 신호에 임의의 레이블링을 자동으로 할당하는 RF-fingerprint기반에 DMR 클러스터링하는 알고리즘을 제안한다. 일반적으로 클러스터링을 수행할 때 입력 데이터의 차원이 고차원 일 때 클러스터링의 성능이 현저히 저하된다. 이전 연구에서의 RF-fingerprint 의 특징의 경우 1024 또는 512 개의 고차원 특징이 사용됨으로 RF-fingerprint 특징을 유지하면 차원을 축소하는 방법이 필요하다.

본 논문은 고성능 무선단말기 클러스터링 알고리즘 개발을 위해서 KLD 기반의 t-SNE 알고리즘을 이용하여 차원을 감소하고 DPC를 이용하여 클러스터링을 수행하는 방법을 제안한다.

제안한 RF 클러스터링 알고리즘의 성능 검증을 위해서 20개의 클래스에 대해서 각각 150개의 데이터셋 무작위적으로 입력하여 클러스터링을 수행한 결과 클러스터링 수는 20개로 클러스터링이 되었고, 개별 데이터의 성능지표인 Homogeneity, Completeness, V-measure 모두 99.4%의 성능을 보였다.

향후 연구에서는 다양한 채널과 노이즈 환경에서 제안된 방법의 성능을 분석하고, 무선 단말기용 RF fingerprinting 특징의 유용성을 분석할 예정이다.

References

  1. Alex Rodriguez and Alessandro Laio, "Clustering by fast search and find of density peaks," Science, vol. 344 pp. 1492-1496, 2014. DOI: 10.1126/science.1242072.
  2. Q. Xu, R. Zheng, W. Saad, and Z. Han, "Device fingerprinting in wireless networks: Challenges and opportunities," IEEE Communications Surveys Tutorials, vol. 18, no. 1, pp. 94-104, 2016. https://doi.org/10.1109/COMST.2015.2476338
  3. V. Brik, S. Banerjee, M. Gruteser, and S. Oh, "Wireless device identification with radiometric signatures," in Proceedings of the 14th ACM International Conference on Mobile Computing and Networking, 2008, pp. 116-127.
  4. J. Franklin, D. McCoy, P. Tabriz, V. Neagoe, J. Van Randwyk, and D. Sicker, "Passive data link layer 802.11 wireless device driver fingerprinting," in ACM USENIX Security Symposium - Volume 15, 2006.
  5. I.O.Kennedy, P.Scanlon, F.J.Mullany, M.M.Buddhikot, K.E.Nolan, and T. W. Rondeau, "Radio transmitter fingerprinting: A steady state frequency domain approach," in IEEE VTC, Sept 2008, pp. 1-5.
  6. K. Sankhe, M. Belgiovine, F. Zhou, S. Riyaz, S. Ioannidis, and K. Chowdhury, "ORACLE: Optimized Radio clAssification through Convolutional neuraL nEtworks," in IEEE International Conference on Computer Communications, 2019.
  7. YoungGiu Jung, Shin, Hack-Chul, Sun Phil Nah, "Development of Deep Learning Model for Fingerprint Identification at Digital Mobile Radio," The Journal of The Institute of Internet, Broadcasting and Communication, vol. 22, no. 1, pp. 7-13, Feb. 2022.
  8. Lee, W.-H., Seo, J.-W., Kim, K.-Y., & Lin, C.-H.. "A Fine Dust Measurement Technique using K-means and Sobel-mask Edge Detection Method." The Journal of The Institute of Internet, Broadcasting and Communication, 22(2), 97-101. https://doi.org/10.7236/JIIBC.2022.22.2.97
  9. Nam, Myung Woo, Hong, Soon Kwan, "Study on Hand Gestures Recognition Algorithm of Millimeter Wave", Journal of the Korea Academia-Industrial cooperation Society, vol. 21, Issue 7, pp.685-691, 2020. DOI : http://dx.doi.org/10.5762/KAIS.20 20.21.7.685
  10. Zhang, T., Ramakrishnan, R. & Livny, M. "BIRCH: A New Data Clustering Algorithm and Its Applications." Data Mining and Knowledge Discovery 1, 141-182, 1997. https://doi.org/10.1023/A:1009783824328
  11. Guha Sudipto, Rastogi Rajeev, and Shim Kyuseok. "CURE: An efficient clustering algorithm for large databases." ACM Sigmod Record 27, 2, 73-84, 1998. https://doi.org/10.1145/276305.276312
  12. Sudipto Guha, Rajeev Rastogi and Kyuseok Shim, "ROCK: A robust clustering algorithm for categorical attributes," Information systems, Volume 25, Issue 5, pp. 345-366,2000. https://doi.org/10.1016/S0306-4379(00)00022-3.
  13. Seung-Mok Lee, Young-Hyung Kim, Jae-Kwon Eem."A Method of Edge Line Estimation for Panel Glass Images using DBSCAN Algorithm." The Journal of Korean Institute of Information Technology, 19(5), 81-86, 2021. DOI : 10.14801/jkiit.2021.19.5.81
  14. Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel and Jorg Sander,"OPTICS: Ordering points to identify the clustering structure," ACM SIGMOD Rec 28(2):49-60, 1999. https://doi.org/10.1145/304181.304187
  15. Roweis, Sam; Hinton, Geoffrey. "Stochastic neighbor embedding" Neural Information Processing Systems, January 2002.