在深度学习中,数据常存在类别不平衡——大部分数据来自无关类别,少部分才是我们关心的。工程师George Seif提出两种主要处理方法:权重平衡法和采样法。
为何要平衡?
并非所有场景都需要平衡。若目标是整体准确率,多数类已占主导,平衡意义不大。但若我们特别关注少数类(如购房预测中的“购买”行为),模型若偏向多数类(“不购买”),将导致少数类预测不准,此时平衡才至关重要。
方法一:权重平衡法
通过为损失函数中的不同类别赋予不同权重,让少数类样本对损失贡献更大。例如,将“购买”类权重设为75%,“不购买”设为25%。也可使用焦距损失(Focal Loss):它对已分类正确的样本降权,使训练更聚焦于难分类的样本,尤其有助于少数类学习。
方法二:过采样与欠采样
欠采样:从多数类中随机抽取与少数类数量相当的样本,实现平衡,操作简单。
过采样:复制少数类样本,使其数量与多数类持平,从而放大其影响力。
两种方法各有适用:权重调整灵活但需调参,采样直接易行。若权重设置复杂或效果不佳,采样可作为替代。平衡策略应基于业务目标,而非机械套用。