前馈网络（FNN）的工作原理与应用解析

索旭东

发布于 2026-03-31 18:53:47

4030

文章被收录于专栏：具身小站具身小站

前馈网络（Feedforward Neural Network, FNN），也叫多层感知机（MLP），是最基础、最经典的人工神经网络结构。它的名字揭示了其核心特征：

前馈：信息从输入层开始，逐层向前传递，最终到达输出层，整个过程没有回头路 ——没有循环连接，也不存在层间的反馈回路。就像一条单向流水线，每个环节只处理上游传来的结果，然后交给下游。

你可以把它想象成一个多层的信息处理流水线：

输入层：原材料（原始数据，如图像的像素值、文本的词向量）。
隐藏层：多道加工工序，每道工序（神经元）对输入进行加权求和、加上偏置，再通过一个激活函数（如ReLU）进行非线性变换，提取出更高层的特征。
输出层：最终产品，输出任务的预测结果（如图片属于猫的概率）。

前馈网络的核心特点

特点	说明	意义
单向传播，无记忆	信息只从输入流向输出，没有循环或反馈。	结构简单，易于分析和训练；但无法处理序列依赖（所以不能直接用于时间序列、自然语言等任务）。
全连接	相邻层的每个神经元之间都有连接，每对连接都有一个可学习的权重。	参数量大，但也使得网络拥有强大的表达能力（理论上可以逼近任意连续函数）。
层数可变	可以有任意数量的隐藏层（0层就是感知机，1层或更多就是深度前馈网络）。	深度越深，表达能力越强，但也越容易过拟合，需要更多数据和技巧。
需要激活函数	隐藏层必须搭配非线性激活函数（如ReLU、sigmoid、tanh），否则多层线性变换等价于单层线性变换，失去深度意义。	激活函数引入非线性，使得网络能够学习复杂的模式。

前馈网络的作用

作为独立的分类/回归模型

对于结构化数据（如表格数据）、图像特征向量等，前馈网络可以直接作为最终的分类器或回归器。例如：

在手写数字识别中，将图像拉平成一维向量，输入前馈网络，输出10个类别的概率。
在房价预测中，输入房屋面积、卧室数量等特征，输出预测价格。

作为复杂神经网络的“最后一步”

在CNN、RNN、Transformer等架构中，前馈网络常常作为输出层，将提取到的特征映射到最终的预测空间。例如：

CNN提取图像特征后，接一个全连接层（本质是前馈网络）进行分类。
Transformer的每个块中，都包含一个前馈网络模块（FFN），对注意力机制输出的特征进行逐位置的进一步处理。

特征提取与维度变换

通过调整隐藏层的神经元数量，前馈网络可以灵活地升维或降维。例如，Transformer中的FFN先扩大维度（如从512到2048），再压缩回原维度，增加模型容量。

如何使用前馈网络（以PyTorch为例）

在现代深度学习框架中，构建一个简单的前馈网络非常直接。以下是一个用于MNIST分类的示例代码（仅作示意，不必深究细节）：

import torch
import torch.nn as nn
import torch.nn.functional as F

class SimpleFFN(nn.Module):
    def __init__(self, input_size=784, hidden_sizes=[256, 128], num_classes=10):
        super(SimpleFFN, self).__init__()
        # 定义第一层（输入到隐藏1）
        self.fc1 = nn.Linear(input_size, hidden_sizes[0])
        # 定义第二层（隐藏1到隐藏2）
        self.fc2 = nn.Linear(hidden_sizes[0], hidden_sizes[1])
        # 定义输出层（隐藏2到输出）
        self.fc3 = nn.Linear(hidden_sizes[1], num_classes)
        # 激活函数（这里使用ReLU）
        self.relu = nn.ReLU()

    def forward(self, x):
        # x形状: (batch_size, input_size)
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.fc3(x)           # 输出层通常不加激活（交给损失函数）
        return x

关键步骤：