from collections import namedtuple
from typing import List
import random
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import mlab


Cluster = namedtuple('Cluster', ['x', 'mass'])

def weighted_mean(x1: float, m1: float, x2: float, m2: float) -> float:
  if m1 + m2 == 0:
    return 0
  return (x1 * m1 + x2 * m2) / (m1 + m2)

class TDigest:
  def __init__(self, clusters: List[Cluster] = None, compression: float = 3) -> None:
    if clusters is None:
      clusters = []
    self.clusters = clusters
    self.compression = compression
    self.total_mass = 0

  def _get_closest_idx(self, x: float) -> int:
    closest_idx = 0
    closest = float('inf')
    for i, cluster in enumerate(self.clusters):
      if abs(cluster.x - x) < closest:
        closest = abs(cluster.x - x)
        closest_idx = i
    
    return closest_idx

  def quantile(self, x: float) -> float:
    smaller_mass = 0
    closest_cluster = self.clusters[self._get_closest_idx(x)]
    for cluster in self.clusters:
      if cluster.x < closest_cluster.x:
        smaller_mass += cluster.mass
      elif cluster.x == closest_cluster.x:
        smaller_mass += cluster.mass / 2

    return smaller_mass / self.total_mass
  
  def bound(self, x: float) -> float:
    q = self.quantile(x)
    return self.compression * self.total_mass * q * (1 - q)

  def update(self, x: int, mass: int = 1) -> None:
    if not self.clusters:
      self.clusters.append(Cluster(x, mass))
      self.total_mass += mass
      return
    
    closest_idx = self._get_closest_idx(x)
    cluster = self.clusters[closest_idx]
    bound = self.bound(cluster.x)
    if mass + cluster.mass > bound:
      # split
      self.clusters[closest_idx] = Cluster(weighted_mean(cluster.x, cluster.mass, x, bound - cluster.mass), bound)
      self.clusters.append(Cluster(x, mass + cluster.mass - bound))
    else:
      # don't split
      self.clusters[closest_idx] = Cluster(weighted_mean(cluster.x, cluster.mass, x, mass), mass + cluster.mass)
    self.total_mass += mass


n = 10000

def generate_tdigest(distribution: np.ndarray) -> TDigest:
  tdigest = TDigest()
  for sample in distribution:
    tdigest.update(sample)
  return tdigest

tdigest = generate_tdigest(np.random.uniform(0,n,n))
print(tdigest.quantile(n * .9))

0.9111327199841893


def plot_cdf(tdigests: List[TDigest], n: int) -> None:
  x = []
  for tdigest in tdigests:
    x.append([tdigest.quantile(i) for i in range(n)])

  fig, ax = plt.subplots(figsize=(8, 4))

  # plot the cumulative histograms
  for i in range(len(x)):
    ax.hist(x[i], n, histtype='step', cumulative=True, label=f'TDigest {i}')
  ax.hist(np.linspace(0,1,n), n, histtype='step', cumulative=True, label='Ground Truth')

  # tidy up the figure
  ax.grid(True)
  ax.legend(loc='right')
  ax.set_title('CDF')
  ax.set_xlabel('Quantile')
  ax.set_ylabel('Total Mass')

  plt.show()

plot_cdf([tdigest], n)


cluster_x = lambda cluster: cluster.x

tdigest.clusters.sort(key=cluster_x)
num_clusters = len(tdigest.clusters)

ind = np.arange(num_clusters)
width = 0.35
plt.bar(ind, [cluster.mass for cluster in tdigest.clusters], width, label='Men')

plt.ylabel('Size')
plt.xlabel('Cluster')
plt.title('Cluster Size')

plt.legend(loc='best')
plt.show()


def merge(tdigest: TDigest, merge_tdigest: TDigest) -> None:
  for cluster in merge_tdigest.clusters:
    tdigest.update(cluster.x, cluster.mass)

def merge_sorted(tdigest: TDigest, merge_tdigest: TDigest) -> TDigest:
  new_tdigest = TDigest()
  tdigest.clusters.sort(key=cluster_x)
  merge_tdigest.clusters.sort(key=cluster_x)

  tdigest_idx = 0
  merge_tdigest_idx = 0
  while tdigest_idx < len(tdigest.clusters) and merge_tdigest_idx < len(merge_tdigest.clusters):
    new_tdigest.update(tdigest.clusters[tdigest_idx].x, tdigest.clusters[tdigest_idx].mass)
    new_tdigest.update(merge_tdigest.clusters[merge_tdigest_idx].x, merge_tdigest.clusters[merge_tdigest_idx].mass)

    tdigest_idx += 1
    merge_tdigest_idx += 1

  while tdigest_idx < len(tdigest.clusters):
    new_tdigest.update(tdigest.clusters[tdigest_idx].x, tdigest.clusters[tdigest_idx].mass)

    tdigest_idx += 1

  while merge_tdigest_idx < len(merge_tdigest.clusters):
    new_tdigest.update(merge_tdigest.clusters[merge_tdigest_idx].x, merge_tdigest.clusters[merge_tdigest_idx].mass)

    merge_tdigest_idx += 1

  return new_tdigest

tdigest = generate_tdigest(np.random.uniform(0,n,n))
merge(tdigest, generate_tdigest(np.random.uniform(0,n,n)))

tdigest_sorted = generate_tdigest(np.random.uniform(0,n,n))
tdigest_sorted = merge_sorted(tdigest_sorted, generate_tdigest(np.random.uniform(0,n,n)))

plot_cdf([tdigest, tdigest_sorted], n)


x1 = [tdigest.quantile(i) for i in range(n)]
x2 = [tdigest_sorted.quantile(i) for i in range(n)]

print('random', np.sum((np.array(x1) - np.linspace(0,1,n)) ** 2), len(tdigest.clusters))
print('sorted', np.sum((np.array(x2) - np.linspace(0,1,n)) ** 2), len(tdigest_sorted.clusters))

random 11.74210879447901 34
sorted 9.55337922247902 22

How to calculate latency numbers (p90) with millions of requests

Introduction¶

Testing¶

Merging¶

Note on Complexity¶

Links¶