面试官坏笑：“AI 为什么能写代码？” 我一时语塞，没想到路过的保安大哥急了：“小娃咋恁废？这俺都会！”

程序员鱼皮

发布于 2026-06-12 13:50:58

1300

文章被收录于专栏：鱼皮客栈鱼皮客栈

大家好，我是程序员鱼皮。

用 AI 编程这么久，你有没有好奇过，AI 到底是怎么听懂我们说的话的？它凭什么知道下一个词该写什么？为什么有时候能写出完美的代码，有时候又会一本正经地胡说八道？

这篇文章，我想用最通俗的方式带你把 AI 大模型背后的原理捋一遍，不需要数学基础、也不需要懂算法。

看完之后你再用 AI 编程，心里会更有底，也更知道该怎么跟它打交道。

1、AI 生成的本质

不管你是在跟 AI 聊天，还是在编辑器里让它帮你写代码，背后的事情其实出奇地简单，就是一个超大的模型在不停地预测下一个词。

你给它一段话，它会算出接下来最可能出现的词，接上去之后再接着预测下一个，就这么一个词一个词地往外蹦，直到拼出一整段完整的回答。

比如你输入「天空是」，AI 心里会算算下一个词的概率，蓝色的可能性最高，灰色次之，再往后还有美丽、无限之类的。

它会挑个概率高的接上，假设接了「蓝色」，再基于「天空是蓝色」继续预测下一个词。

这也是为什么 AI 的回答是一个字一个字冒出来的，因为它真的就是一个一个生成的。

那它凭什么知道「天空是」后面大概率跟「蓝色」呢？

答案是依靠训练。

AI 在训练阶段读过了互联网上的海量文字，「天空是蓝色的」这种说法见过无数次，自然就学会了这种语言规律。

想通这一点，很多现象你就都能理解了。AI 之所以会胡说八道，是因为它本质上只是在按概率猜词，并没有真的理解事实。你的提示词越清楚，它预测得就越准；需求越模糊，它越容易答非所问。

AI 能写代码，也是因为训练时啃过海量代码，摸清了代码的套路。

所以 AI 编程时，大家要多花几分钟把需求讲清楚、把相关文件附上，输出质量立马就上一个台阶。

2、AI 的大脑是怎么长的

AI 是靠什么来做这个预测的呢？

这就要提到一种叫 Transformer 的结构了。

它来自 2017 年 Google 的一篇论文，叫《Attention Is All You Need》，翻译过来就是「注意力就是你所需要的一切」。

现在你听过的那些主流大模型，从 ChatGPT、Claude 到 Gemini、DeepSeek、通义千问，几乎全都建立在这个结构之上。

你可以把 Transformer 理解成 AI 的大脑结构。在它出现之前，处理文字的模型有点像一个人看书只能从头一个字一个字往下读，读到后面很容易就忘了前面讲了啥。而 Transformer 的厉害之处在于，它能一眼看到整段话里的每一个词，还能判断哪些词之间的关系最重要，这个判断关系的本事就是 注意力机制，也是让大模型一下子变强的关键。

打个比方，你在书里读到「小明把苹果递给小红，她说谢谢」，如果有人问你这个「她」指的是谁，你会很自然地把注意力投到前面的小红身上，因为结合上下文，「她」和「小红」的关联最强。

AI 干的就是类似的事。对于输入里的每一个词，它都会去算这个词跟其他所有词的关联有多强，然后把更多注意力放在最相关的那些词上。而且它不止从一个角度看，还会同时从语法、语义、逻辑好几个维度去琢磨词和词的关系，理解得自然就更全面。

3、AI 怎么把文字变成数字

前面讲的预测下一个词也好、注意力也好，其实 AI 都不是直接在文字上做的，因为它压根看不懂文字，只认数字！

所以 AI 真正开工之前，得先把我们打进去的字翻译成数字。

第一步叫分词，就是把一段话切成一个个小块，每个小块叫一个 Token。对于国外大模型，英文里一个 Token 差不多是一个单词或者半个单词，中文里一个汉字大概对应一到两个 Token，但是不绝对。

Token 太重要了，堪比新时代的话费流量。因为它是 AI 计费的基本单位，你跟 AI 每聊一句烧的都是 Token，说得越啰嗦花的钱越多。

我之前调 Bug 图省事，把一大段错误日志反复粘给 AI，白白浪费了不少额度，后来只截最关键的那几行发过去，效果一样好，还省钱。

切完词之后，每个 Token 会被转换成一串数字，这个过程叫嵌入。它神奇的地方在于，意思相近的词转出来的数字也会很接近，比如猫和狗就离得近，猫和飞机就离得远。

AI 编程时，像 Cursor 这类工具会给项目里的代码建好索引，你一提问，它就能凭借语义把最相关的代码片段捞出来喂给 AI，这也是为什么 AI 能摸清你的项目、按实际情况来回答。

光有词义还不够，词的顺序也得管管，比如「我吃了饭」和「饭吃了我」用的字一样，意思却完全相反，所以模型还会额外给每个词标上位置信息。

4、一个 AI 是怎么练出来的

一个能跟你流畅聊天、帮你写代码的 AI，是怎么从零练出来的呢？

整个过程大致分三步，特别像培养一个人才，先读万卷书，再学怎么答题，最后不断地成长历练。

第一步是 预训练。模型会去啃互联网上的海量文字，网页、书籍、代码、论文什么都看。

学习方式简单粗暴，给它一段话遮住最后一个词让它猜，猜错了就调整参数，猜对了就加强，这么反复练上无数次，各种语言规律和知识就慢慢刻进了参数里。

这一步练出来的叫 基础模型，虽然有了一大堆知识，但还不太会好好说话，就像一个学生在图书馆里疯狂看书，看完满脑子东西，可你真问他一个具体问题，他可能东拉西扯组织不好语言。

而且这一步还特别烧钱，得用成千上万张顶级显卡跑上好几个月，所以也只有大公司玩得起。。。

第二步是 监督微调，目标是教会模型好好回答问题。

做法是请人准备大量高质量的问答范例，覆盖写代码、答疑、做总结等各种任务，然后让模型照着学。这有点像新员工入职培训，你本事再大，也得先有人给你做示范。

练完这一步，模型就从只会续写变成了会对话。

第三步是 人类对齐，目标是让模型说话更符合人类的价值观。光会回答还不行，它可能会蹦出一些有害的、不合适的内容，所以还要有人来告诉它什么样的回答是好的、什么样的是不好的，让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。

把训练这套流程想明白了，不少事儿也就解释得通了。

比如 AI 为啥不知道最近发生的新闻？

因为训练数据有截止时间。

AI 为啥不肯帮你做坏事？

因为经过了人类对齐这一关。

不同模型说话风格为啥不一样？

因为对齐时喂的偏好数据不同，调教出来的脾气自然就有差别。

5、参数越多就越聪明吗

前面我讲训练时一直在提「参数」，又是调参数，又是把知识刻进参数里。你肯定也听过千亿参数、万亿参数这种说法。

那参数到底是啥，是不是越多就越强？

简单来说，参数就是模型训练时学到的那些「知识数字」。一开始它们大多是随机的，训练时模型不停拿自己的预测和正确答案对比，再一点点把这些数字调准，练到最后，海量数据里的规律就被压缩进了这些参数里。

你可以把它想象成大脑里的神经连接，参数越多，能装下的知识和规律也就越丰富。

2020 年 OpenAI 发现了一个规律，模型的能力会随着参数量、数据量和算力的增加而稳定提升，而且这种提升有迹可循、能提前预估，这就是大名鼎鼎的 Scaling Law 缩放定律。两年后 DeepMind 又补了一条关键经验，光堆参数不行，数据量也得跟上，他们算出来大概每一个参数要配上 20 个 Token 的训练数据，效果才最划算。

不过随着参数越堆越多，又带来一个新麻烦。要是每次回答都动用全部参数，成本就高得离谱了。

于是工程师们想了个聪明的办法，干嘛非得每次都全员上阵呢，根据问题类型只叫醒 最相关的那一小部分 参数不就行了？

这就是现在很流行的 MoE 混合专家架构的思路。

你可以把它想象成一家大医院，里面有内科、外科、眼科几十个科室，但你来看病不用每个科室都跑一遍。挂号台会帮你分诊，去最对口的两三个科室就够了。