
大家好,我是程序员鱼皮。
用 AI 编程这么久,你有没有好奇过,AI 到底是怎么听懂我们说的话的?它凭什么知道下一个词该写什么?为什么有时候能写出完美的代码,有时候又会一本正经地胡说八道?
这篇文章,我想用最通俗的方式带你把 AI 大模型背后的原理捋一遍,不需要数学基础、也不需要懂算法。
看完之后你再用 AI 编程,心里会更有底,也更知道该怎么跟它打交道。
不管你是在跟 AI 聊天,还是在编辑器里让它帮你写代码,背后的事情其实出奇地简单,就是一个超大的模型在不停地 预测 下一个词。
你给它一段话,它会算出接下来最可能出现的词,接上去之后再接着预测下一个,就这么一个词一个词地往外蹦,直到拼出一整段完整的回答。
比如你输入「天空是」,AI 心里会算算下一个词的概率,蓝色的可能性最高,灰色次之,再往后还有美丽、无限之类的。
它会挑个概率高的接上,假设接了「蓝色」,再基于「天空是蓝色」继续预测下一个词。

这也是为什么 AI 的回答是一个字一个字冒出来的,因为它真的就是一个一个生成的。
那它凭什么知道「天空是」后面大概率跟「蓝色」呢?
答案是依靠训练。
AI 在训练阶段读过了互联网上的海量文字,「天空是蓝色的」这种说法见过无数次,自然就学会了这种语言规律。
想通这一点,很多现象你就都能理解了。AI 之所以会胡说八道,是因为它本质上只是在按概率猜词,并没有真的理解事实。你的提示词越清楚,它预测得就越准;需求越模糊,它越容易答非所问。
AI 能写代码,也是因为训练时啃过海量代码,摸清了代码的套路。
所以 AI 编程时,大家要多花几分钟把需求讲清楚、把相关文件附上,输出质量立马就上一个台阶。
AI 是靠什么来做这个预测的呢?
这就要提到一种叫 Transformer 的结构了。
它来自 2017 年 Google 的一篇论文,叫《Attention Is All You Need》,翻译过来就是「注意力就是你所需要的一切」。
现在你听过的那些主流大模型,从 ChatGPT、Claude 到 Gemini、DeepSeek、通义千问,几乎全都建立在这个结构之上。

你可以把 Transformer 理解成 AI 的大脑结构。在它出现之前,处理文字的模型有点像一个人看书只能从头一个字一个字往下读,读到后面很容易就忘了前面讲了啥。而 Transformer 的厉害之处在于,它能一眼看到整段话里的每一个词,还能判断哪些词之间的关系最重要,这个判断关系的本事就是 注意力机制,也是让大模型一下子变强的关键。
打个比方,你在书里读到「小明把苹果递给小红,她说谢谢」,如果有人问你这个「她」指的是谁,你会很自然地把注意力投到前面的小红身上,因为结合上下文,「她」和「小红」的关联最强。

AI 干的就是类似的事。对于输入里的每一个词,它都会去算这个词跟其他所有词的关联有多强,然后把更多注意力放在最相关的那些词上。而且它不止从一个角度看,还会同时从语法、语义、逻辑好几个维度去琢磨词和词的关系,理解得自然就更全面。
前面讲的预测下一个词也好、注意力也好,其实 AI 都不是直接在文字上做的,因为它压根看不懂文字,只认数字!
所以 AI 真正开工之前,得先把我们打进去的字翻译成数字。
第一步叫 分词,就是把一段话切成一个个小块,每个小块叫一个 Token。对于国外大模型,英文里一个 Token 差不多是一个单词或者半个单词,中文里一个汉字大概对应一到两个 Token,但是不绝对。
Token 太重要了,堪比新时代的话费流量。因为它是 AI 计费的基本单位,你跟 AI 每聊一句烧的都是 Token,说得越啰嗦花的钱越多。
我之前调 Bug 图省事,把一大段错误日志反复粘给 AI,白白浪费了不少额度,后来只截最关键的那几行发过去,效果一样好,还省钱。
切完词之后,每个 Token 会被转换成一串数字,这个过程叫 嵌入。它神奇的地方在于,意思相近的词转出来的数字也会很接近,比如猫和狗就离得近,猫和飞机就离得远。

AI 编程时,像 Cursor 这类工具会给项目里的代码建好索引,你一提问,它就能凭借语义把最相关的代码片段捞出来喂给 AI,这也是为什么 AI 能摸清你的项目、按实际情况来回答。
光有词义还不够,词的顺序也得管管,比如「我吃了饭」和「饭吃了我」用的字一样,意思却完全相反,所以模型还会额外给每个词标上位置信息。
一个能跟你流畅聊天、帮你写代码的 AI,是怎么从零练出来的呢?
整个过程大致分三步,特别像培养一个人才,先读万卷书,再学怎么答题,最后不断地成长历练。

第一步是 预训练。模型会去啃互联网上的海量文字,网页、书籍、代码、论文什么都看。
学习方式简单粗暴,给它一段话遮住最后一个词让它猜,猜错了就调整参数,猜对了就加强,这么反复练上无数次,各种语言规律和知识就慢慢刻进了参数里。
这一步练出来的叫 基础模型,虽然有了一大堆知识,但还不太会好好说话,就像一个学生在图书馆里疯狂看书,看完满脑子东西,可你真问他一个具体问题,他可能东拉西扯组织不好语言。
而且这一步还特别烧钱,得用成千上万张顶级显卡跑上好几个月,所以也只有大公司玩得起。。。
第二步是 监督微调,目标是教会模型好好回答问题。
做法是请人准备大量高质量的问答范例,覆盖写代码、答疑、做总结等各种任务,然后让模型照着学。这有点像新员工入职培训,你本事再大,也得先有人给你做示范。
练完这一步,模型就从只会续写变成了会对话。
第三步是 人类对齐,目标是让模型说话更符合人类的价值观。光会回答还不行,它可能会蹦出一些有害的、不合适的内容,所以还要有人来告诉它什么样的回答是好的、什么样的是不好的,让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。
把训练这套流程想明白了,不少事儿也就解释得通了。
比如 AI 为啥不知道最近发生的新闻?
AI 为啥不肯帮你做坏事?
不同模型说话风格为啥不一样?
前面我讲训练时一直在提「参数」,又是调参数,又是把知识刻进参数里。你肯定也听过千亿参数、万亿参数这种说法。
那参数到底是啥,是不是越多就越强?
简单来说,参数就是模型训练时学到的那些「知识数字」。一开始它们大多是随机的,训练时模型不停拿自己的预测和正确答案对比,再一点点把这些数字调准,练到最后,海量数据里的规律就被压缩进了这些参数里。
你可以把它想象成大脑里的神经连接,参数越多,能装下的知识和规律也就越丰富。
2020 年 OpenAI 发现了一个规律,模型的能力会随着参数量、数据量和算力的增加而稳定提升,而且这种提升有迹可循、能提前预估,这就是大名鼎鼎的 Scaling Law 缩放定律。两年后 DeepMind 又补了一条关键经验,光堆参数不行,数据量也得跟上,他们算出来大概每一个参数要配上 20 个 Token 的训练数据,效果才最划算。
不过随着参数越堆越多,又带来一个新麻烦。要是每次回答都动用全部参数,成本就高得离谱了。
于是工程师们想了个聪明的办法,干嘛非得每次都全员上阵呢,根据问题类型只叫醒 最相关的那一小部分 参数不就行了?
这就是现在很流行的 MoE 混合专家架构的思路。
你可以把它想象成一家大医院,里面有内科、外科、眼科几十个科室,但你来看病不用每个科室都跑一遍。挂号台会帮你分诊,去最对口的两三个科室就够了。

模型内部也养着一堆各有所长的「专家」,每个 Token 进来,先由一个路由器判断该交给哪几个专家,只有被选中的少数专家才会被激活。这样模型的总参数可以做得特别大,知识容量管够,但每次实际干活只用其中一小部分,速度快了、成本也下来了,这也是为什么有些模型既便宜又好用。
你可能发现了,现在不少 AI 在回答难题时,会先「想一会儿」,把思考过程摊开来给你看,然后才给结论。这就是推理模型在发挥作用。
早期的模型接到问题就急着报答案,碰上复杂问题特别容易翻车。后来有人发现,要是让模型把中间的推理步骤一步步写出来,正确率能高一大截。
这就跟我们做数学题一样,直接写答案容易算错,列出步骤一步步推,正确的概率就高多了。这个技巧叫思维链,你不用做什么特殊设置,在提示词里加一句「请一步步思考」,效果往往就会更好。

后来这个能力被专门强化,国内外都推出了主打推理的模型,回答之前会先在内部盘算一番,对数学、代码、逻辑这类硬核任务效果特别好。一般想得越久答案越靠谱,但也不是越久越好,想过头了反而可能把自己绕进去,就像考试时一道题纠结太久越想越乱。
现在的趋势是让 AI 自己判断该想多深,简单问题秒回,难题才慢慢推。
我们在 AI 编程时,对于改个样式、加个注释这种小事,用普通模型就行,又快又便宜。但要是设计架构方案、排查一个诡异的 Bug,那就值得切到推理模型,哪怕慢一点贵一点,省下的返工时间远比多花的那点钱值。
早期的大模型只会处理文字,而现在的 AI 越来越全能了,不光能读文字,还能看图、听语音,甚至看懂视频,这种就叫多模态模型。
它的原理跟人脑有点像,我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解,多模态模型也是把图片和文字都转换成它能算的数字,再放到一起处理。

这个能力在 AI 编程时还是很香的,我用得最多的就是截图调试。比如我想调整一个前端页面的样式,用文字跟 AI 描述半天它也没整明白我想要啥效果。干脆直接把页面截图甩给它,在截图上画画圈、标注一下,AI 立刻就懂了。
讲了这么多 AI 的本事,也得说说它的短板。
AI 最常见的问题就是幻觉,意思是 AI 会一本正经地编造不存在的东西,比如瞎掰一个根本没有的函数、推荐一个不存在的库。

因为当 AI 对某个知识点没把握时,不会老老实实说「我不知道」,而是会顺着概率脑补一个看起来挺合理的答案。它做的始终是猜最可能的下一个词,而不是去查真实的事实。
此外,AI 还有几个毛病。
1)AI 的知识有截止时间,它不会知道训练数据之后才出现的新框架、新代码写法。所以 AI 编程时,先让 AI 联网搜一下最新文档再动手。
2)AI 模型有个「中间遗失」的现象,放在开头和结尾的信息它记得更牢,夹在中间的反而容易被忽略,就像让你一口气读完一本五百页的书,开头结尾印象深,中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。
3)它每次的回答都带点随机性,同样的问题问两遍,答案可能不完全一样。所以需要根据任务调整 AI 的温度(Temperature)参数,用来控制随机性。
OK 到这里,AI 大模型的核心原理基本就讲完了。从「预测下一个词」这个最朴素的机制,到 Transformer 和注意力让它读懂上下文,再到一步步训练出来、靠推理模型学会思考,相信大家对 AI 有了更深刻的认识。
把这些想明白,再回头用 AI 编程,很多技巧你自然都会注意了。你会明白为什么提示词要写清楚、为什么要给足上下文、什么时候该切推理模型、怎么用才更省钱。你不用成为 AI 专家,但有了这层底子,以后再冒出新模型、新工具,你也能很快看穿它的本质。
我是鱼皮,持续分享 AI 编程相关的干货,觉得有用的话记得点赞收藏关注一波~
也欢迎在评论区聊聊:还有哪些你想学习的 AI 知识?(征集素材哈哈哈)