暂无搜索历史
最近看见了一个比较搞笑的评论:”三月养虾,四月养马“。继Openclaw后Hermes再一次爆火,我翻阅了论坛上对于他的评价,基本好评是占大多数的,聚焦于两个点...
对于很多工科生来说,科研和开发从来不只是建模、写代码这么简单。更多时候,它还伴随着大量零散却无法跳过的前置工作:准备数据、调整参数、跑实验、看日志、整理结果……...
QClaw 是腾讯电脑管家基于 OpenClaw 开源生态打造的本地化 AI Agent 助手
随着 AI Coding 和智能体开发越来越普及,越来越多开发者开始把大模型接入真实应用中。但在这个过程中,一个很常见的问题也逐渐暴露出来:同类 prompt ...
场景:在训练神经网络时,常常遇到优化器不更新模型参数,尽管梯度计算正常且没有出现 NaN。最开始我们以为是数据问题或模型设计问题,但深入排查发现,问题其实出在梯...
场景:做自回归语言建模(next-token prediction)。训练 loss 长期在 3.x~5.x,perplexity 居高不下;采样生成大量 PA...
场景:单机单/多卡训练。GPU 利用率呈“锯齿形”大幅波动(80% → 0% → 80%)、step time 偶发飙到几秒,甚至第 1 个 epoch 结束后...
场景:在连续控制(Pendulum/HalfCheetah/Walker 等)上复现 SAC。训练能学,但回报抖动大、迟迟上不去,α(熵系数)时而爆、时而缩到几...
场景:在分类/分割/检索模型上,换了优化器和 weight_decay 之后,训练明显更慢、验证精度长时间不上升。常见三件事:
场景:用 DQN 训练 CartPole/LunarLander,本地跑起来“能学”,但回报忽高忽低、训练极不稳定,稍微调大学习率就直接发散。复盘最常见三件事:
场景:在 CartPole / LunarLander 这类经典离散环境上用 PPO 复现论文曲线,结果训练很慢或直接“横着走”。复盘常见三件事:
场景:语义分割(二分类/多分类)。训练中 mIoU 长期不涨、偶发跳水;可视化发现轮廓“毛边”或标签错位。复盘后发现三件高频问题:
腾讯元器是腾讯推出的零代码智能体创建与分发平台,深度集成腾讯特色生态能力,提供低门槛的创建能力以及免费的模型支持,每个人都可以快速搭建可自动回复的专属AI聊天机...
这两种方式分别通过在找到最小的更新矩阵、最小精度来实现显存的减少。但在工业、科研中,依然存在着一个问题:同样的数据、同样的训练流程下,用 LoRA 微调和用 F...
前面QLoRA主要在讲“怎么在全精度模型上优雅地加一个低秩增量 ΔW”。工业界真实场景里依然存在着两个很常见的问题:
✍ 在大模型后训练这条线里,大模型的参数量往往是几十亿、上百亿。SFT / RLHF / DPO / GRPO 这些“训练流程”本身固然重要,但如果用 全参数微...
✍ 前面几章我们已经把“大模型架构四件套”(GQA / RoPE / SwiGLU / RMSNorm)和 DeepSeek 系列摸了个大概,知道了一个 LLM...
✍ 在上一章里,我们已经把现代 LLM 的“四件标配武器”(GQA / RoPE / SwiGLU / RMSNorm + Pre-Norm)系统的学习一遍。现...
✍ 在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、D...
✍ 上一篇我们把现代大模型的两件“基础设施”——GQA 注意力 和 RMSNorm + Pre-Norm 细讲了一遍,从多头注意力的演化一路讲到归一化的升级。这...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市