首页
学习
活动
专区
圈层
工具
发布

大模型系列第一期:大模型是什么——语言接龙背后的秘密

最近所有人都在聊大模型,聊AI,聊DeepSeek。但你真的知道,大模型到底是什么吗?今天不用代码,不用数学,只用类比给你讲清楚。

大模型的本质,说白了就是一个超级猜词游戏。你给它上半句,它猜下半句,然后一个接一个往下猜。比如你说"床前明月",它猜"光",再猜"疑是地上霜"。它不是真的理解了诗意,而是根据海量训练算出了最可能的那个字。就像你小时候玩成语接龙,不是因为懂了每个典故,而是因为听得足够多,知道"一马当先"后面大概率跟着"先发制人"。

这个猜词过程依赖三个关键参数。第一个叫概率采样,模型给每个候选词算权重分,分高的优先选。第二个叫Temperature,也就是温度参数。温度调低,模型每次选最高分的词,输出四平八稳;温度调高,模型敢选不那么高的分,输出脑洞大开。第三个叫长尾裁切,直接砍掉极低概率的词,筛掉噪声。三者配合下来,大模型就像一个猜词高手,看一眼上联就能稳稳写出下联。

你可能要问了,它看了那么多书和网页,是全部记住了吗?不是。大模型没有背下任何一篇文章,它学的是海量文本里的统计模式。就像一个厨师炒了十万道菜,他不是背下每个菜谱,而是知道盐和糖一般怎么搭,姜蒜什么时候下锅。你问他回锅肉怎么做,他不是翻菜谱库,而是在复现他见过的所有回锅肉的平均做法。

但它有一个短板,知识截止时间。训练数据只到某个时点,之后的信息它不知道。比如你问它昨天发生的新闻,它没读过大模型就答不上来。怎么办?这就引出了RAG,检索增强生成。你可以把RAG理解成一个外挂知识库,大模型每次回答问题之前,先到这个知识库里搜一遍,找到相关的内容再结合自己的理解回答。这个逻辑在数据处理领域有一个经典的DIKW金字塔来解释。最底层是数据,比如"盐5克"、"肉2两"就是原始数据,单独看没什么意义。往上一层是信息,把数据组织起来变成有用的东西,比如"做回锅肉需要五花肉2两、蒜苗3根、郫县豆瓣1勺",这就是信息。再往上一层是知识,理解了信息背后的规律,比如"川菜偏麻辣、粤菜偏甜",这就是知识,你知道为什么回锅肉要放豆瓣酱而不是糖。最顶层是智慧,你能根据冰箱里现有的食材创造出一道新菜,这就是智慧。大模型本身能做到知识和智慧的层面,但它的知识有截止日期。RAG相当于给大厨配了一个实时更新的活页菜谱库,要做什么菜先翻这一页,再结合自己的厨艺炒出来,既新鲜又准确。

理解了基本原理,你才能真正看懂后面要聊的Agent是什么,为什么科技巨头都在疯抢GPU,以及这个行业到底有哪些投资机会。下期我们聊AI怎么从聊天变成干活,不见不散。

我是云帆,关注我,每天带你进行市场深度分析。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9c_qxiIeAe5DS9RHMQYYL8A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券