🛡️ QuestDB 9.0 is here!Read the release blog

t-SNE (t-distributed Stochastic Neighbor Embedding)

SUMMARY

t-SNE (t-distributed Stochastic Neighbor Embedding) is a nonlinear dimensionality reduction technique that excels at visualizing high-dimensional data in lower dimensions while preserving local structure. The algorithm emphasizes maintaining similarity relationships between nearby points, making it particularly effective for revealing clusters and patterns in complex datasets.

Understanding t-SNE fundamentals

t-SNE converts high-dimensional Euclidean distances between datapoints into conditional probabilities that represent similarities. For a pair of points $x_i$ and $x_j$ , the similarity is expressed as:

$p_{j|i} = \frac{\exp(-\|x_i - x_j\|^2/2\sigma_i^2)}{\sum_{k \neq i}\exp(-\|x_i - x_k\|^2/2\sigma_i^2)}$

The algorithm then constructs a similar probability distribution for the points in the lower-dimensional space using a t-distribution:

$q_{ij} = \frac{(1 + \|y_i - y_j\|^2)^{-1}}{\sum_{k \neq l}(1 + \|y_k - y_l\|^2)^{-1}}$

Next generation time-series database

QuestDB is an open-source time-series database optimized for market and heavy industry data. Built from scratch in Java and C++, it offers high-throughput ingestion and fast SQL queries with time-series extensions.

Try live demo Read documentation

Key characteristics and advantages

Local structure preservation

t-SNE focuses on preserving local structure by giving more weight to maintaining distances between nearby points than distant ones. This makes it particularly effective for:

Cluster visualization
Pattern discovery
Anomaly detection in high-dimensional data

Nonlinear dimensionality reduction

Unlike linear techniques such as Principal Component Analysis (PCA), t-SNE can capture nonlinear relationships in the data, making it more suitable for complex real-world datasets.