暂无搜索历史
在 AI 智能体开发的浪潮中,阿里巴巴开源的 AgentScope 以其"大而全"的设计理念脱颖而出。
手撕 GPT 系列第 9 篇。前 8 篇我们训练了一个 3M 模型,发现天花板在容量。上一篇最后选了知识蒸馏这条路——让大模型教小模型。
走到这儿,你已经不零基础了。但你可能不确定自己到底学会了什么,也不知道接下来该往哪走。
手撕 GPT 系列第 7 篇。前 6 篇我们跑通了训练,模型通过了 6/6 验收。这篇记录的是:当我们试图让模型变得更好时,发现了什么。
问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:你是谁? 答:我是一个基于 Transformer...
但你可能注意到,我们的模型用了 GQA、SwiGLU、RMSNorm 这些词——它们不是原始论文里的东西。
这件事发生在我训练一个3M中文GPT小模型的时候。所有教程都不会告诉你答案。今天我来讲。
你可能好奇:模型里面到底在干什么?注意力机制是什么?位置编码是什么?因果掩码又是什么?
先忘掉"人工智能"、"神经网络"这些词。把模型想象成一个黑盒子,里面装了 316 万个数字。
问:什么是注意力机制? 答:注意力机制通过计算查询和键的相关性分配权重,让模型动态关注最相关的部分。 问:RoPE 是什么? 答:RoPE 是旋转位置编码,...
查天气、定闹钟、发邮件、整理文件、看新闻、记笔记...这些事每件都要5分钟,一天加起来就是1-2小时。
跟着教程一步步来,代码没报错,loss 从 7 一路降到 0.05,完美收敛。心想成了!赶紧问模型一个问题——
但如果你之前学过 Kafka,你的笔记里可能写着:你所在的项目用 RocketMQ 做过类似的事,consumer lag 的根因其实是 rebalance 太...
直到有一天,系统自动告诉我:Redis 的 RDB/AOF 持久化跟 Kafka 的事务日志持久化,本质上是同一个问题。
今天分享我是怎么用 Python + LLM + MCP 把这个飞轮搭起来的。不是 demo,是每天都在跑的生产系统。
近期 Pinecone 正式推出 Nexus,行业趋势已然明晰:AI 知识库正从检索文本片段,全面迈向预编译结构化知识。
我问"Spring Boot自动配置原理",AI答出一堆无关的Spring Security内容。
简单到不用学。 你会用星号加粗,会用井号标题,就会用Markdown。它给人的感觉是"草稿",是"中间态",不是成品。这种心理门槛太低了,低到任何人都能随手写。
什么是LangChain? 一个开源框架,帮你快速构建基于LLM的应用。它提供了链(Chain)、代理(Agent)、记忆(Memory)等抽象。
我的三个项目,原来用 GPT-5.5,每月 token 消耗 500 万,成本约 4400 元。切到 DeepSeek-V4 后,同样的用量,成本降到 450 ...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市