数据不足，如何进行迁移学习？

文章来源：企鹅号 - 四季豆33

现在，人工智能正呈跳跃式发展，尤其是在大型数据集上的应用进展令人惊叹。而迁移学习技术让数据收集变得更“容易”，那些未被追踪的海量照片或评论也不会被浪费。借助PyTorch、fast.ai和FloydHub，即使小团队或独立开发者也能轻松应用这些方法。

以ULMFiT为例：Jeremy Howard和Sebastian Ruder在fast.ai中展示了如何仅用几百个标注样本，就能对电影评论进行高精度分类。他们先在大规模通用英语语料库上训练模型，再通过10万多个领域内评论进行微调，以弥合通用语言与特定领域之间的差距。

这引发了一个实际问题：在低标注预算下，究竟需要多少未标注数据，才能有效利用迁移学习？

Frame公司正面临类似挑战——他们为Zendesk、Intercom等平台分析客户对话。手动标注和从头训练模型之间差距巨大，但实验表明，即使只有几十个标签和几千条对话，迁移学习依然非常有用。

迁移学习的核心在于深度神经网络的层次结构：底层学习通用特征（如词语相似性），这些特征可迁移到其他任务（如情感分析）。ULMFiT正是利用这一点，先在通用英语上预训练，再在IMDB评论上微调，即便只标注500个样本，也能达到94%的准确率。

为了探索未标注数据的最低需求，Frame团队固定使用500个标注样本，变化未标注数据量，分别测试了三种语言模型：仅通用预训练、仅领域训练、以及ULM+领域微调。经过约50小时GPU训练，结果发现：

使用33%的领域数据即可达到75%数据量下的ULMFiT性能；

仅用2,000个领域样本进行语言建模，就能实现约85%的预测准确率。

这说明，在低资源环境下，迁移学习能显著降低对大规模标注数据的依赖，为实际应用提供了更高效的路径。

相关快讯