深度学习中不均衡数据集的处理.

文章来源：企鹅号 - 四季豆33

在深度学习中，数据常存在类别不平衡——大部分数据来自无关类别，少部分才是我们关心的。工程师George Seif提出两种主要处理方法：权重平衡法和采样法。

为何要平衡？

并非所有场景都需要平衡。若目标是整体准确率，多数类已占主导，平衡意义不大。但若我们特别关注少数类（如购房预测中的“购买”行为），模型若偏向多数类（“不购买”），将导致少数类预测不准，此时平衡才至关重要。

方法一：权重平衡法

通过为损失函数中的不同类别赋予不同权重，让少数类样本对损失贡献更大。例如，将“购买”类权重设为75%，“不购买”设为25%。也可使用焦距损失（Focal Loss）：它对已分类正确的样本降权，使训练更聚焦于难分类的样本，尤其有助于少数类学习。

方法二：过采样与欠采样

欠采样：从多数类中随机抽取与少数类数量相当的样本，实现平衡，操作简单。

过采样：复制少数类样本，使其数量与多数类持平，从而放大其影响力。

两种方法各有适用：权重调整灵活但需调参，采样直接易行。若权重设置复杂或效果不佳，采样可作为替代。平衡策略应基于业务目标，而非机械套用。

相关快讯