神经网络的基本结构通常包括输入层、隐藏层和输出层。其中,每一层的核心运算是加权求和,即线性变换:
y=wx+b多个线性层叠加后,其整体效果仍为一个线性函数。例如,两个线性层叠加:
y=w2(w1x+b1)+b2=(w2w1)x+(w2b1+b2)本质上依然是线性变换,这意味着无论网络多深,其表达能力被限制在拟合线性数据上,无法描述复杂的非线性模式,例如曲线边界、螺旋分布等。😅
为了解决上述问题,我们需要在网络的每一线性层后引入非线性映射。这就是激活函数的核心作用:
公式:

特性:
优势:
缺点:
公式:
ReLU(x)=max(0,x)特性:
优势:
缺点:
针对 ReLU 的“神经元死亡”问题,研究者提出了多种改进方案:
1. Leaky ReLU 🩹
公式:

其中,α是一个很小的正常数(如 0.01)。
特性:
2. GELU 🏆
公式:

特性:
激活函数是神经网络能够成为“通用函数逼近器”的关键🔑。从经典的 Sigmoid 📜 到主流的 ReLU ⚡,再到针对其缺陷的改进版如 Leaky ReLU 🩹 和性能更优的 GELU 🏆,每一次演进都旨在更好地平衡非线性表达能力、梯度传播效率和计算成本💰。在设计和选择网络时,根据具体任务和数据特性选择合适的激活函数,是模型成功的重要一环!🎉
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。