首页
学习
活动
专区
圈层
工具
发布

深度学习中不均衡数据集的处理.

在深度学习中,数据常存在类别不平衡——大部分数据来自无关类别,少部分才是我们关心的。工程师George Seif提出两种主要处理方法:权重平衡法和采样法。

为何要平衡?

并非所有场景都需要平衡。若目标是整体准确率,多数类已占主导,平衡意义不大。但若我们特别关注少数类(如购房预测中的“购买”行为),模型若偏向多数类(“不购买”),将导致少数类预测不准,此时平衡才至关重要。

方法一:权重平衡法

通过为损失函数中的不同类别赋予不同权重,让少数类样本对损失贡献更大。例如,将“购买”类权重设为75%,“不购买”设为25%。也可使用焦距损失(Focal Loss):它对已分类正确的样本降权,使训练更聚焦于难分类的样本,尤其有助于少数类学习。

方法二:过采样与欠采样

欠采样:从多数类中随机抽取与少数类数量相当的样本,实现平衡,操作简单。

过采样:复制少数类样本,使其数量与多数类持平,从而放大其影响力。

两种方法各有适用:权重调整灵活但需调参,采样直接易行。若权重设置复杂或效果不佳,采样可作为替代。平衡策略应基于业务目标,而非机械套用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oy_PZQyOTlKKwR7Cb13BMRDA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券