神经调质的时间信用分配扩散机制

CreateAMind

发布于 2026-04-15 17:00:33

Diffusion of Neuromodulators for Temporal Credit Assignment

神经调质的时间信用分配扩散机制

https://arxiv.org/pdf/2603.08949

生物学习能够在反馈稀疏且不精确的情况下实现时间信用分配，常常依赖于在空间和时间上起作用的神经调质信号。在此，我们提出一种学习机制，其中误差信息通过网络局部扩散，类似于神经调质的容积传递。这种分布式调制使得神经元即使在没有直接反馈的情况下，也能利用扩散的信用信号的局部浓度进行学习。将该机制应用于具有稀疏反馈连接的回声脉冲神经网络中，扩散式信用信号传递在三个基准任务上改善了学习效果。以资格传播作为基线学习机制，我们展示了基于扩散的调制如何为稀疏连接的神经回路中的信用分配提供一种合理的机制。”

I. 引言

生物学习是生物体普遍存在的特征。已知大多数动物的神经系统具有高度适应性，多种局部可塑性机制和调节系统紧密协调运作，以高效地修改突触连接。与生物网络不同，人工神经网络主要依靠误差反向传播进行训练，这是一种精确的信用分配方法，能在广泛任务中实现极高性能。反向传播在训练人工神经网络上的成功，催生了众多假设，认为生物学习可能遵循相似原理[1]。然而，生物网络的若干限制（如非精确的信用分配、稀疏的连接与反馈等）使得标准反向传播难以在生物网络中精确实现，从而促使人们寻找在生物网络连接和信号机制约束下能够复现反向传播性能的、具有生物学合理性的替代方案。

资格传播[2]是时间反向传播最成功的生物学合理性替代方案之一。然而，在具有稀疏反馈连接的网络中——这种结构更接近生物网络的组织方式——其性能会下降[3]。近期引入神经调质信号的扩展，通过为学习信号增加额外结构或细胞类型特异的通信，取得了性能提升[4,5]。尽管有效，但这些方法依赖于精确且靶向的信用分配。相比之下，神经调质系统主要通过容积传递运作，即信号在细胞外间隙扩散，并在较大的空间尺度上调节神经元群体[6–8]。

在此，我们研究一种学习机制，其中信用信号在网络上进行空间扩散，信用分配由某种调制粒子的局部浓度决定，而不是由其源头位置决定。

II. 结果

为了评估扩散的信用信号对学习的影响，我们研究了循环脉冲神经网络（RSNNs）学习执行几个复杂的时间任务。每个RSNN接收来自外部输入层的、以脉冲序列形式呈现的任务特定输入，其活动由一个由漏型非脉冲神经元组成的输出层读出（图1a）。

我们的RSNN包含两种神经元类型：漏积分发放神经元（LIF）及其具有发放率适应性的变体（ALIF）。不同任务中两者的比例有所不同（更多细节见补充材料）。这些神经元被随机嵌入在均匀分布的二维网格上，从神经元i到神经元j的连接概率随着它们之间距离的平方呈指数衰减（图1b）。衰减率设置为使得连接率约为10%。这种安排促进了局部连接模式，有利于邻近神经元之间的连接。到输入层和输出层的连接是稀疏的，仅包含所有可能连接中随机的10%，且对任一神经元类型无偏向。更多实现细节和模型方程见补充材料。

在每个任务中，RSNN接收反馈信用信号，这些信号编码了网络与任务相关的误差，从而调节学习但不影响神经元活动。关键的是，我们假设这些神经调质信号并非以精确靶向的方式运作。相反，一旦释放，它们不仅会到达目标神经元，还会通过细胞间隙扩散，在随后的若干时间步内影响邻近的细胞（图1b）。

其中 η 是学习率。这两项的推导是为了使更新近似于通过时间的反向传播 (BPTT)。它们的确切表达式取决于具体的神经元和网络模型；对于我们的网络，这些表达式在补充材料中提供。简而言之，资格迹充当突触前和突触后神经活动的衰减记忆，而学习信号根据网络在任务中的误差来调节权重更新的幅度。

使用带扩散和不带扩散的 e-prop，我们在三个基准任务上训练我们的网络：模式生成、延迟匹配样本和线索累积 [4]。在第一个任务，模式生成（图 2a）中，网络应学习重现由五个正弦波的加权和组成的一维目标信号，使用泊松噪声的实现作为输入。在这个任务中，每个时间步都提供误差反馈。相比之下，延迟匹配样本和线索累积任务仅在最后的时间帧提供误差信号，此时网络必须基于先前的输入做出决策。在延迟匹配样本任务（图 2b）中，目标是比较两个二进制线索的值，这两个线索之间有一个延迟窗口，然后确定线索是相同（1-1 或 0-0）还是不同（1-0 或 0-1）。同时，在线索累积任务（图 2c）中，呈现七个线索的序列，每个出现在左侧或右侧。在一段没有线索的延迟期之后，网络必须指出哪一侧显示的线索占多数。

我们发现，在稀疏反馈连接设置下，扩散误差信号显著提高了 e-prop 在所有三个任务上的性能（图 2）。与不带扩散的标准 e-prop 相比，我们的变体始终产生更好的学习结果，缩小了与 BPTT 的性能差距，BPTT 被作为学习曲线的下界比较包含在内。此外，尽管我们的 RSNN 的局部连接模式更紧密地反映了生物回路，我们发现随机连接的稀疏 RSNN 在此处考虑的任务中同样受益于信用信号的局部扩散。

III、讨论

在稀疏反馈通路下进行时序信用分配具有挑战性，即使是最先进的生物合理学习规则（如 e-prop）在此类设定中也表现吃力。虽然随机 e-prop [2] 通过在稀疏连接网络中使用随机反馈权重表现良好，但它仍预设了密集的反馈通路，即每个神经元都能接收其专属的误差信号。在这方面，我们的工作补充了先前的研究结果 [4]，该研究通过为 e-prop 增加一种额外的细胞特异性局部神经调质信号，同样在稀疏反馈设定下实现了更高的性能。然而，该改进依赖于相连神经元之间精确误差的直接传递。在此，我们表明，一种精度较低、依赖化学扩散的神经调质通信形式，也能为局部学习带来类似的益处。

尽管已有充分证据表明大脑同时依赖突触传递和体积传输进行神经调质调控 [9]，但后者在人工神经网络中受到的关注较少。已有研究提出，此类机制有助于缓解灾难性遗忘 [10]，并通过选择性调制神经元子集来增强网络的动态灵活性 [11]。近期研究也表明，调质信号的体积传输可在循环神经网络（RNN）中实现门控特性并实施上下文因子分解 [12, 13]。

除了多巴胺编码预测误差信号 [14] 之外，其他神经调质（包括血清素、乙酰胆碱等）也影响生物学习过程 [15]。我们认为，由于本方法具有计算高效性和内在灵活性，它为探索扩散性神经调质在人工系统中的功能角色，以及检验其在生物对应物中的相关假说，提供了一个有前景的框架。

我们的结果表明，已知在生物回路中运行的生化过程（如调质物质的扩散）可能在真实连接约束条件下促进学习方面发挥功能性作用。我们的发现激励人们进一步研究生物系统中神经调质动力学与学习之间的相互作用，并为高效训练空间嵌入型人工网络指明了方向。

原文链接：https://arxiv.org/pdf/2603.08949

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-05，如有侵权请联系 cloudcommunity@tencent.com 删除

连接