首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >深度学习工作原理解析与理论极限

深度学习工作原理解析与理论极限

原创
作者头像
用户11764306
发布2026-04-09 10:27:14
发布2026-04-09 10:27:14
570
举报

ICLR:深度学习为何有效,其极限何在?

近期深度学习理论中的两个趋势是对双下降现象的检验以及对神经核方法更贴近现实的研究。

会议:ICLR 2023

在今年的国际学习表征会议(ICLR)上,宾夕法尼亚大学放射学与电气工程教授、某机构学者勒内·维达尔担任高级领域主席,负责监督一个负责评估会议论文的评审团队。维达尔表示,他的团队重点关注的论文主题是深度学习理论。

“尽管表示学习和深度学习取得了巨大成功,并为许多应用领域带来了显著成果,但深度网络仍然是黑箱,”维达尔解释道。“如何设计深度网络仍然是一门艺术;每个数据集上都有大量的试错。因此,总的来说,深度学习数学领域的目标是拥有能够保证深度网络性能的定理和数学证明。”

“你可以提出这样的问题:‘为什么深度网络能够从一个数据集泛化到另一个数据集?’‘能否有一个定理告诉你新数据集上的分类误差与训练数据集上的分类误差之间的关系?’‘能否将该误差的上界表示为训练样本数量的函数?’”

“还有一些与优化相关的问题。如今,你需要在有时多达数十亿的参数上最小化一个损失函数。由于优化问题规模巨大,且训练样本众多,出于计算原因,只能使用非常简单的优化方法。你能证明这些非凸问题的收敛性吗?你能理解收敛到什么结果吗?为什么这些极其简单的优化方法对于这些极其复杂的问题却如此成功?”

双下降现象

维达尔指出,最近深度学习理论中有两个主题引起了越来越多的关注。第一个是所谓的双下降现象。人工智能领域的传统观点认为,神经网络的规模必须根据所解决的问题和可用训练数据量进行仔细调整。如果网络太小,无法学习数据中的复杂模式;但如果网络过大,它可能仅仅记住训练集中所有数据的正确答案——这是一种特别严重的过拟合情况——并且无法泛化到新的输入。

其结果是,对于给定问题和给定训练数据集,随着神经网络规模的增长,其在测试集上对未见过数据的错误率会下降。然而,在某个点上,随着网络开始过拟合数据,错误率再次上升。但最近几年,一些论文报告了令人惊讶的结果:随着网络继续增长,错误率再次下降。这就是双下降现象——没人能确切知道其发生的原因。

“随着模型规模增长,错误率先下降,然后随着过拟合而回升,”维达尔解释道。“错误率在所谓的插值极限处达到峰值,此时在训练过程中恰好能达到零误差,因为网络足够大可以记忆。但从那之后,测试误差再次下降。已经有很多论文试图解释这种现象发生的原因。”

神经正切核

维达尔说,深度网络理论中另一个有趣的近期趋势是基于神经正切核的新形式分析。

“过去——比如说2000年——我们进行学习的方式是使用所谓的核方法,”维达尔解释道。“核方法基于将数据通过固定嵌入映射到一个非常高维的空间,在那里一切看起来都是线性的。我们可以在该嵌入空间中使用经典的线性学习技术,但嵌入空间是固定的。”

“你可以把深度学习看作是学习那种嵌入——将输入数据映射到某个高维空间。事实上,这正是表示学习。神经正切核机制——一种初始化类型、一种神经网络类型、一种训练方式——是一种可以用核来近似深度网络学习动态的机制。因此,你可以使用经典技术来理解它们为何能泛化以及为何不能泛化。”

“这种机制非常不现实——例如无限宽的网络或训练过程中权重变化不大的初始化。在这种人为和特殊的环境下,事情更简单,我们可以更好地理解它们。当前的趋势是如何摆脱这些不现实的假设,并承认问题的困难性:你确实希望权重在训练过程中发生变化,因为如果它们不变,你就学不到太多东西。”

事实上,维达尔本人在一篇被今年的人工智能与统计会议(AISTATS)接收的论文中探讨了这个话题,该论文的合著者是他之前在约翰霍普金斯大学的研究团队。

“我们试图摆脱的三个假设是:第一,我们能否得到适用于有限宽度网络而非无限宽度网络的定理?第二,我们能否得到适用于具有有限步长的类梯度下降方法的定理?因为许多早期定理假设步长非常非常小——比如无穷小。第三,我们放宽的假设是关于初始化的假设,这变得更加普遍。”

表示学习的局限性

当ICLR于2013年创立时,它是一个供研究人员探索机器学习方法(如核方法)之外替代方案的场所,这些传统方法以固定的、预设的方式表示数据。然而现在,使用学习型表示的深度学习已经主导了机器学习领域,ICLR与其他主要机器学习会议之间的差异已经缩小。

然而,作为在约翰霍普金斯大学担任生物医学工程教授20年的人,维达尔敏锐地意识到表示学习的局限性。他表示,对于某些应用,领域知识仍然至关重要。

“这发生在数据或标签可能不丰富的领域,”他解释道。“例如,在医学领域就是如此,可能一项研究只有100名患者,或者你无法将数据放在每个人都能标注的网站上。”

“举一个具体的例子,我曾有一个项目需要制作一种血液测试,需要将白细胞分类为不同类型。没有人会去拍摄数百万个细胞的视频,你也不会让病理学家像计算机视觉那样标注每一个细胞来做目标检测。”

“所以我们能得到的只有血液测试的实际结果:浓度是多少?你可能有一百万个第一类、第二类和第三类的细胞,但只有这些非常弱的标签。但领域专家说,我们可以通过在这里或那里添加某些化学试剂来进行细胞纯化,然后进行离心等等,然后在这个样本中得到只有一种类型的细胞。因此你可以假装有了标签,因为我们知道具有不同标签的细胞在这种化学处理下无法存活。我们说,‘哇,太棒了!’”

“如果你与100%都是数据科学家和机器学习专家的人一起做事,他们倾向于认为你只需要更大的网络和更多的数据。但我认为,就像在某机构一样,你需要从客户的角度逆向思考,你需要解决实际问题,而解决方案不总是更多的数据和更多的标注。”

研究领域: 机器学习

标签: 可解释人工智能, 深度学习, ICLR, 学术界在某机构FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档