AI 小记

江南一点雨

发布于 2026-03-26 17:16:59

1560

文章被收录于专栏：AI应用开发实践AI应用开发实践

有小伙伴说松哥好久没有发文章了，今年主要是工作比较忙，有时候还有一些技术活动，一来一去一耽搁，公众号就随缘更了。这周末有空，和小伙伴们随便聊一聊。

今天这篇文章我们我们先大致梳理一下神经网络和自然语言处理的发展脉络，从宏观层面先来看下这两项技术的发展历程。

学术界普遍将 1956 年达特茅斯会议视为人工智能发展的起点。此次会议汇聚了计算机科学家、数学家、语言学家等领域的专家学者，共同探讨智能机器的发展前景。此后，诸多人工智能相关的核心概念与技术相继涌现。

但是和很多技术的发展一样，人工智能技术的发展也是有高潮有低谷。那么接下来松哥尝试从神经网络和自然语言处理这两个方向，和小伙伴们聊一聊人工智能技术发展的起起落落。

一神经网络发展脉络

神经网络技术的发展大致可以分为三个阶段。

1.1 萌芽期（1940-1960）：从神经元到感知机

神经网络的发展最早可以追溯到 1943 年，当时数学家 McCulloch 和逻辑学家 Pitts 用数学公式模拟生物神经元，输入信号加权求和后，超过阈值则“激活”（输出1），否则不输出。这是神经网络的“积木块”，我们称之为 McCulloch-Pitts神经元模型。

这种模型有很大的局限性：无学习能力，并且参数需人工设定，因此只能做简单逻辑运算。

转眼到了 1958 年，也就是达特茅斯会议之后两年，心理学家 Frank Rosenblatt 发明首个可学习的神经网络，也就是感知机，通过调整权重自动分类数据（如识别字母 “A” 和 “B”）。当时《纽约时报》预言它将实现“行走、说话、看和写作”。虽然这只是一种线性分类器，但却具有重要的历史地位，是现代神经网络的雏形和起点。

感知机首次展示了“机器学习”的潜力，引发学术界和媒体狂热。

狂热之后，很快迎来 AI 的第一次寒冬。

1969年，AI 先驱 Marvin Minsky 在感知机一书中证明感知机无法解决“异或问题”（如区分对角线方向），且单层网络无法处理复杂模式。给火热的感知机技术破了一盆冷水，同时由于硬件算力不足（1960 计算机速度慢）、理论瓶颈被放大，政府资助锐减，研究停滞近 20 年。

1.2 复兴期（1980-1990）：多层网络与算法突破

1986 年，Hinton 团队提出“多层反向传播算法（Backpropagation）”，像剥洋葱一样从输出层逐层调整参数，解决多层网络训练难题。例如，教网络识别手写数字时，错误会反向传递并修正权重。

这一时期，由于算法突破 + 计算机性能提升，神经网络能处理非线性问题，应用扩展到语音识别（如电话按键音识别）、医疗诊断等领域。

时间到了 1989 年，法国计算机科学家 Yann LeCun 用卷积层（局部感知）和池化层（压缩信息）构建 LeNet，成功识别银行支票手写数字（准确率 99.3%），这就是卷积神经网络（Convolutional Neural Network，CNN），这是一种特殊的深度学习模型，使用卷积层来学习局部特征，被广泛应用于图像识别和计算机视觉领域。

随后在 1995 年出现的支持向量机（SVM），由于算法优美，训练快，并且在中小数据集上训练效果更好。这不得不让人们怀疑神经网络到底有没有发展前景？

同时，神经网络往往被视为“黑箱”（结果难解释）、易过拟合（死记硬背不会举一反三），学术论文甚至因“使用神经网络”被拒稿。

神经网络的发展迎来又一次的低潮。

1.3 爆发期（2010 至今）：深度学习的黄金时代

随着计算机技术的发展，算力和数据都有了很大的提升，借着硬件与数据的东风，神经网络的发展又迎来了黄金时代。

这里有几个里程碑事件。

首先是 2012 年问世的 AlexNet，这助力 Hinton 团队在 ImageNet 图像识别大赛中夺冠，错误率骤降 41%（26%→15%）。AlexNet 通过 ReLU 激活函数（缓解梯度消失）、GPU 训练以及 Dropout 防过拟合。

AlexNet 的出现点燃了人们深度学习热潮，资本涌入 AI 领域。

到了 2017 年，Google用自注意力机制（Self-Attention）替代循环结构，实现文本并行处理。模型可同时关注句子中所有词（如“猫追老鼠”中“追”关联两个名词）。这就是 Transformer，由 Ashish Vaswani 等人在 2017 年的论文《Attention is All you Need》中首次提出。

这是一次重大的突破，成为了后来 GPT、BERT 等大模型的基石，并且推动了后来 ChatGPT 的诞生。

画图总结下神经网络发展脉络，如下：