The Birch 为给定数据构建一棵 Characteristic Feature Tree (CFT,聚类特征树)。 数据实质上是被有损压缩成一组 Characteristic Feature nodes (CF Nodes,聚类特征节点)。 CF Nodes 有许多称为 Characteristic Feature subclusters (CF Subclusters) 的子簇,并且这些位于非终结位置的CF Subclusters 可以拥有 CF Nodes 作为子节点。

CF Subclusters 保存用于簇的必要信息,防止将整个输入数据保存在内存中。 这些信息包括:

Number of samples in a subcluster(子簇中样本数).
Linear Sum - A n-dimensional vector holding the sum of all samples(保存所有样本和的n维向量)
Squared Sum - Sum of the squared L2 norm of all samples(所有样本的L2 norm的平方和).
Centroids - To avoid recalculation linear sum / n_samples(为了防止重复计算 linear sum / n_samples).
Squared norm of the centroids(质心的 Squared norm ).