GPT-5.4与Mamba-3等AI架构技术解析

原创

用户11764306

发布于 2026-04-13 08:17:00

1240

LWiAI Podcast #238 - GPT 5.4 mini, OpenAI Pivot, Mamba 3, Attention Residuals

本期要点

某机构发布了GPT-5.4 mini和nano模型，支持40万token的上下文窗口，每token定价更高，但声称在Codex中具有token效率提升；nano仅限API使用，尽管价格大幅上涨，仍定位用于高容量分类/数据提取。
某机构开源了Small 4模型家族（混合专家架构，总参数1190亿/激活参数60亿），结合了推理、多模态和代码代理能力，并宣布了Forge平台，帮助企业训练或后训练定制模型。
代理“操作系统”竞争加剧：某机构收购的Manus推出本地Mac代理；某机构宣布NeMo/“Open Shell”沙盒化代理运行时；某机构还发布了DLSS 5以及包括Groq LPU集成在内的重大硬件预测。
商业与安全更新：某机构将重心转向生产力/企业市场；某机构重组Copilot和前沿模型工作；某机构推迟下一代模型；与中国关联的某机构在海外部署大型某机构计算集群；新的安全工作涉及隐写术、思维链忠实性、微调防御、网络攻击评估以及宪法/规范符合性。

工具与应用

某机构发布GPT-5.4 mini和nano：更快、更强，但价格最高上涨4倍

GPT-5.4 mini和nano支持40万token上下文窗口，价格更高但声称在代码生成任务中更高效。nano仅限API，面向高吞吐量分类和数据提取场景。

某机构的Small 4模型：128个专家模块，性能超越体积限制

Small 4采用混合专家（MoE）架构，总参数量1190亿，激活参数仅60亿，融合推理、多模态和代码代理能力。

某机构发布NeMoClaw与开放代理开发平台

某机构宣布NeMo/“Open Shell”沙盒化代理运行时，提升知识工作自动化水平。

DLSS 5：实时生成式AI游戏滤镜

DLSS 5看起来像是一个针对视频游戏的实时生成式AI滤镜，通过AI生成画面细节提升画质与帧率。

某机构计划推出ChatGPT“成人模式”，尽管内部顾问发出警告

应用与商业

某机构据报转向仅聚焦商业与生产力

某机构GTC 2026：CEO预测Blackwell和Vera Rubin到2027年获得1万亿美元订单

某机构推出Forge：帮助企业构建自有AI模型

中国某机构获顶级某机构AI芯片访问权限

某机构因性能担忧推迟新AI模型发布

某机构重组AI部门，Copilot落后于某机构和某机构

政策与安全

隐写术的决策理论形式化及其在LLM监控中的应用
推理剧场：将模型信念与思维链分离
针对语言模型中突发错位的训练中防御
前沿AI代理在多步网络攻击场景中的表现如何？
Claude Opus 4.6在BrowseComp评估中的eval感知
Bloom：用于自动化行为评估的开源工具
模型遵循其宪法的程度如何？
某机构H200许可证引发顶级民主党人安全关切

研究与进展

注意力残差 (Attention Residuals)

注意力残差技术改进了Transformer中的注意力机制，通过残差连接提升信息流动和模型训练稳定性。

Mamba-3：基于状态空间原理的改进序列建模

Mamba-3利用状态空间原理优化序列建模，在长序列处理效率和性能上取得进展。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

计算机

网络安全

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度

GPT-5.4与Mamba-3等AI架构技术解析

GPT-5.4与Mamba-3等AI架构技术解析

LWiAI Podcast #238 - GPT 5.4 mini, OpenAI Pivot, Mamba 3, Attention Residuals

本期要点

工具与应用

某机构发布GPT-5.4 mini和nano：更快、更强，但价格最高上涨4倍

某机构的Small 4模型：128个专家模块，性能超越体积限制

某机构发布NeMoClaw与开放代理开发平台

DLSS 5：实时生成式AI游戏滤镜

某机构计划推出ChatGPT“成人模式”，尽管内部顾问发出警告

应用与商业

某机构据报转向仅聚焦商业与生产力

某机构GTC 2026：CEO预测Blackwell和Vera Rubin到2027年获得1万亿美元订单

某机构推出Forge：帮助企业构建自有AI模型

中国某机构获顶级某机构AI芯片访问权限

某机构因性能担忧推迟新AI模型发布

某机构重组AI部门，Copilot落后于某机构和某机构

政策与安全

研究与进展

注意力残差 (Attention Residuals)

Mamba-3：基于状态空间原理的改进序列建模

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐