两个list 列表连续变量时间序列损失函数 Earth Mover‘s Distance (EMD)，也称为Wasserstein距离，两个一维数组，二维数组，计算

原创

wx6466f25322644 2024-12-03 14:41:37 ©著作权

文章标签 python pytorch 人工智能深度学习 ci 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者wx6466f25322644的原创作品，请联系作者获取转载授权，否则将追究法律责任

Earth Mover’s Distance (EMD)，也称为Wasserstein距离，是一种用于衡量两个概率分布之间差异的度量方法。它在直觉上可以理解为将一个分布转换成另一个分布所需的最小“工作量”。这种“工作量”是通过考虑质量从一个分布的一个位置移动到另一个分布的位置所需的成本来定义的。

EMD的公式

对于两个一维离散概率分布 ( P ) 和 ( Q )，假设它们分别有 ( n ) 个和 ( m ) 个元素，EMD可以表示为：

[ \text{EMD}(P, Q) = \min_{\gamma \in \Pi(P, Q)} \sum_{i=1}^n \sum_{j=1}^m \gamma_{ij} c_{ij} ]

其中：

( \Pi(P, Q) ) 是所有可能的联合分布（即耦合）的集合，这些联合分布的边缘分布分别是 ( P ) 和 ( Q )。
( \gamma_{ij} ) 是从 ( P ) 的第 ( i ) 个元素到 ( Q ) 的第 ( j ) 个元素的质量转移量。
( c_{ij} ) 是从 ( P ) 的第 ( i ) 个元素到 ( Q ) 的第 ( j ) 个元素的成本。在一维情况下，通常 ( c_{ij} = |x_i - y_j| )，其中 ( x_i ) 和 ( y_j ) 分别是 ( P ) 和 ( Q ) 中的值。

二维情况下的EMD

在二维或多维情况下，( c_{ij} ) 通常是两点之间的欧几里得距离或其他合适的距离度量。例如，在二维空间中，如果 ( P ) 和 ( Q ) 分别是两个点集，那么：

[ c_{ij} = | x_i - y_j | ]

其中 ( | \cdot | ) 表示欧几里得范数。

简化的一维情况

在一维情况下，EMD可以简化为：

[ \text{EMD}(P, Q) = \int_0^1 |F_P(x) - F_Q(x)| , dx ]

其中 ( F_P(x) ) 和 ( F_Q(x) ) 分别是 ( P ) 和 ( Q ) 的累积分布函数（CDF）。

计算EMD

计算EMD通常需要使用线性规划或更高效的算法，如网络流算法。在实际应用中，可以使用现有的库来计算EMD，例如Python中的scipy库。

以下是一个使用scipy库计算一维EMD的示例：

from scipy.stats import wasserstein_distance

# 定义两个一维概率分布
P = [0.2, 0.3, 0.5]
Q = [0.1, 0.6, 0.3]

# 计算EMD
emd = wasserstein_distance(P, Q)
print(f"Earth Mover's Distance: {emd}")

在这个例子中，wasserstein_distance函数计算了两个一维概率分布 ( P ) 和 ( Q ) 之间的EMD。

总结

EMD提供了一种强大的工具来比较两个概率分布之间的差异，特别是在处理连续数据时。它不仅考虑了分布的形状，还考虑了分布之间的距离，因此在许多领域（如图像处理、自然语言处理等）中得到了广泛应用。

公式 (\int_0^1 |F_P(x) - F_Q(x)| , dx) 是一维情况下计算两个概率分布 (P) 和 (Q) 之间的Wasserstein距离（也称为Earth Mover’s Distance, EMD）的一种方法。让我们逐个解释每个符号的含义：

(\int_0^1): 这表示积分是从0到1进行的。在概率论中，这个区间通常代表整个定义域，因为累积分布函数（CDF）的定义域是[0, 1]。
(|F_P(x) - F_Q(x)|): 这是绝对值函数，表示两个累积分布函数 (F_P(x)) 和 (F_Q(x)) 在点 (x) 处的差的绝对值。这里 (F_P(x)) 和 (F_Q(x)) 分别是分布 (P) 和 (Q) 的累积分布函数。
(dx): 这是积分中的微分元素，表示对变量 (x) 进行积分。

具体解释

(F_P(x)): 这是分布 (P) 的累积分布函数。对于一个随机变量 (X)，其累积分布函数 (F_P(x)) 定义为 (F_P(x) = P(X \leq x))，即随机变量 (X) 小于或等于 (x) 的概率。
(F_Q(x)): 这是分布 (Q) 的累积分布函数。同样地，对于另一个随机变量 (Y)，其累积分布函数 (F_Q(x)) 定义为 (F_Q(x) = P(Y \leq x))，即随机变量 (Y) 小于或等于 (x) 的概率。
(|F_P(x) - F_Q(x)|): 这表示在每一点 (x) 上，两个累积分布函数 (F_P(x)) 和 (F_Q(x)) 之间的差异的绝对值。这个绝对值反映了在该点上两个分布的差异程度。
(\int_0^1 |F_P(x) - F_Q(x)| , dx): 整个积分表示从0到1区间内，两个累积分布函数之间差异的绝对值的积分。这个积分的结果给出了两个分布 (P) 和 (Q) 之间的Wasserstein距离。

总结

这个公式通过计算两个分布的累积分布函数之间的差异，并将这些差异在整个定义域上进行积分，来衡量两个分布之间的差异。Wasserstein距离考虑了分布的形状和位置，因此它比简单的距离度量（如Kullback-Leibler散度）更全面地描述了两个分布之间的差异。这种度量在许多领域中都非常有用，尤其是在需要比较两个概率分布的情况下。

是的，Wasserstein距离（也称为Earth Mover’s Distance, EMD）可以作为损失函数使用。特别是在生成对抗网络（GANs）中，Wasserstein GAN (WGAN) 就是通过使用Wasserstein距离来改进传统GAN的训练稳定性和输出质量。

使用Wasserstein距离作为损失函数的优点

更稳定的训练过程：Wasserstein距离提供了更平滑的梯度，有助于避免模式崩溃和训练不稳定的问题。
有意义的损失值：与传统的GAN损失不同，Wasserstein距离提供了一个有意义的数值，可以用来衡量生成分布与真实分布之间的差异。
更好的收敛性：Wasserstein距离通常能更好地收敛到全局最优解。

在PyTorch中实现Wasserstein距离作为损失函数

如果你想在PyTorch中直接使用Wasserstein距离作为损失函数，可以使用scipy库中的wasserstein_distance函数，或者自己实现一个简单的版本。以下是一个例子：

使用`scipy`库

from scipy.stats import wasserstein_distance
import torch

def wasserstein_loss(y_pred, y_true):
    # 将张量转换为NumPy数组
    y_pred_np = y_pred.detach().cpu().numpy()
    y_true_np = y_true.detach().cpu().numpy()
    
    # 计算Wasserstein距离
    loss = wasserstein_distance(y_pred_np, y_true_np)
    
    # 转换回PyTorch张量
    return torch.tensor(loss, requires_grad=True, device=y_pred.device)

# 示例
y_pred = torch.tensor([0.1, 0.2, 0.3, 0.4], requires_grad=True)
y_true = torch.tensor([0.2, 0.3, 0.4, 0.5])

loss = wasserstein_loss(y_pred, y_true)
print(f'Wasserstein Loss: {loss.item()}')

自定义Wasserstein距离损失函数

如果你不想依赖外部库，可以自己实现一个简单的Wasserstein距离计算。以下是一个基于累积分布函数（CDF）的方法：

import torch

def wasserstein_loss(y_pred, y_true):
    # 对预测值和真实值进行排序
    y_pred_sorted, _ = torch.sort(y_pred, dim=-1)
    y_true_sorted, _ = torch.sort(y_true, dim=-1)
    
    # 计算累积分布函数
    cdf_pred = torch.cumsum(y_pred_sorted, dim=-1) / y_pred_sorted.sum(dim=-1, keepdim=True)
    cdf_true = torch.cumsum(y_true_sorted, dim=-1) / y_true_sorted.sum(dim=-1, keepdim=True)
    
    # 计算Wasserstein距离
    loss = torch.mean(torch.abs(cdf_pred - cdf_true))
    
    return loss

# 示例
y_pred = torch.tensor([0.1, 0.2, 0.3, 0.4], requires_grad=True)
y_true = torch.tensor([0.2, 0.3, 0.4, 0.5])

loss = wasserstein_loss(y_pred, y_true)
print(f'Wasserstein Loss: {loss.item()}')

# 反向传播
loss.backward()

注意事项

梯度惩罚：在WGAN中，为了确保判别器满足Lipschitz连续性条件，通常会添加梯度惩罚项。如果你只是使用Wasserstein距离作为损失函数而不引入判别器，可能不需要这个步骤，但要注意梯度爆炸或消失的问题。
计算效率：使用scipy库的wasserstein_distance函数可能会比较慢，特别是在大数据集上。自定义实现可能会更快，但需要确保正确性。
适用性：Wasserstein距离特别适用于连续分布的情况。如果你的数据是离散的，可能需要调整方法以适应具体情况。

通过这些方法，你可以将Wasserstein距离作为损失函数用于你的模型训练中。希望这对你有所帮助！如果有更多问题，请随时提问。

上一篇：全链接层数据需要展平吗？其实有时候也有不需要展开的时候，支持多维数据输入

下一篇：演示如何使用 `nn.CrossEntropyLoss` 来计算交叉熵损失，计算损失值的演示代码，和讲解，CrossEntropyLoss 损失数值等于零的原因

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯