搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与统计学
Qwen3.5 本地部署
Qwen3.5 本身就是混合架构（Gated Delta Networks + MoE），llama.cpp 已经做了支持。 1. 运行推理 Qwen3.5 支持两种模式：思考模式（Thinking）和快速模式（Non-Thinking），两者需要不同的采样参数。上下文窗口，最大支持 262,144 --n-gpu-layers 2：GPU 层卸载数，显卡内存不够就减小，纯 CPU 就移除方案二：部署为 API 服务（llama-server）如果你想把 Qwen3.5 user", "content": "用 Python 写一个快速排序"}, ], ) print(completion.choices[0].message.content) 这意味着你可以把 Qwen3.5 视觉 + 文本推理（原生多模态） pip install mlx-vlm mlx_vlm.chat --model Qwen/Qwen3.5-397B-A17B 工具调用（Tool Calling） Qwen3.5
5.8K10编辑于 2026-03-02
来自专栏大模型本地部署
Qwen3.5本地部署
0.简介本教程参考了Unsloth上有关Qwen3.5部署的教程，但是国内由于网络等原因，部署的时候会遇到一系列问题，因此以下给出逐一解决的方法。后续会持续更新Qwen3.5其他系列模型。
2.5K00编辑于 2026-03-06
来自专栏机器学习与统计学
Qwen3.5微调教程，从零到部署全打通
Qwen3.5 是开源社区的香饽饽，Unsloth 第一时间跟进了完整的微调支持我花了两天研究了他们的文档和 Colab 笔记本，整理出这份从零到一的微调教程 0.8B 到 122B 全尺寸覆盖，文本、视觉、强化学习三条路线全打通 Qwen3.5 微调概览先说结论：Qwen3.5 + Unsloth 是目前性价比最高的开源模型微调方案。 201 种语言的多语言微调各模型 bf16 LoRA 显存需求：模型显存 0.8B 3GB 2B 5GB 4B 10GB 9B 22GB 27B 56GB 35B-A3B（MoE） 74GB Qwen3.5 bf16 LoRA 显存需求重要提醒： ⚠️ 必须用 transformers v5，旧版不行 ⚠️ 不建议对 Qwen3.5 使用 QLoRA（4-bit）训练——量化差异高于正常水平 ⚠️ MoE 视觉微调（Qwen3.5 VLM） Qwen3.5 本身就是一个统一的视觉语言模型，所以视觉微调非常自然： from unsloth import FastVisionModel model, tokenizer
90310编辑于 2026-04-24
来自专栏福大大架构师每日一题
lmdeploy v0.12.3：视频输入、Qwen3.5、TurboMind 压缩张量、Ray 安全 API 等重大升级全面解析
三、重点改进：Qwen3.5 相关更新最密集 v0.12.3 中，Qwen3.5 相关内容非常多，几乎贯穿了多个模块，是本次更新最核心的主题之一。 1）支持 Qwen3.5 在 Volta 上运行版本更新中明确提到：support qwen3.5 on volta。这意味着 Qwen3.5 在 Volta 相关环境中的支持能力得到增强，进一步扩大了其可部署范围。 2）优化 Qwen3.5 本版本还包含了专门的 Optimize Qwen3.5。 3）Qwen3.5 PyTorch 多模态推理修复更新中提到：fix qwen3.5 pytorch multimodal inference。这是针对 Qwen3.5 在 PyTorch 多模态推理路径上的修复，说明在多模态场景中，Qwen3.5 的推理链路已经被纳入重点保障范围。
20810编辑于 2026-04-14
用NVIDIA加速端点开发Qwen3.5原生多模态智能体
Qwen3.5能够理解并导航用户界面，相较于上一代VLM有所改进。Qwen3.5非常适合多种应用场景，包括：编码，含网页开发视觉推理，含移动端和网页界面聊天应用复杂搜索表1. 学习如何在某机构GPU加速端点上测试Qwen3.5也可以通过API使用某机构托管的模型，注册某机构开发者计划即可免费使用。使用NeMo Automodel库，开发者可以对Qwen3.5 3970亿参数架构进行高吞吐量效率的微调。开始使用Qwen3.5从某机构Blackwell上的数据中心部署，到用于任意环境容器化部署的某机构NIM微服务，某机构为集成Qwen3.5提供了全面的解决方案。要开始使用，请查阅Hugging Face上的Qwen3.5模型页面，并在 build.某机构.com 上测试Qwen3.5。FINISHED
21410编辑于 2026-04-12
来自专栏机器学习与统计学
Qwen3.5本地部署终极指南，Qwen3.5-27B
Qwen3.5 轻量版来了，更智能，更小巧，量化版本地部署，消费级显卡轻松跑一文中测试了，十分建议：首选 Qwen3.5-27B，无论是官方benchmark测评还是其他网友评价，都支持这一结论 Qwen3.5 全阵容：阿里这次玩了个大的阿里最新发布的 Qwen3.5，不再只是单个模型，而是一整个军团：型号类型总参数激活参数定位 Qwen3.5-27B Dense 27B 27B 稳扎稳打型 Qwen3.5 官方推荐设置 Qwen3.5 支持混合推理，thinking 和 non-thinking 模式的参数不一样，别搞混了： Thinking 模式（深度推理）参数精确编码通用任务 temperature 工具调用：本地 Agent 的基础 Qwen3.5 原生支持 function calling，配合 llama-server 可以直接做本地 Agent。
19.4K43编辑于 2026-03-02
来自专栏机器学习与统计学
Qwen3.5 0.8B2B4B9B 小模型本地部署指南，微调教程
大家好，我是 Ai 学习的老章关于 Qwen3.5，我最近写了不少： Qwen3.5 本地部署终极指南，强烈推荐 Qwen3.5-27B Qwen3.5 轻量版来了，更智能，更小巧，量化版本地部署，消费级显卡轻松跑教程：如何关闭 Qwen3.5 系列大模型的 Thinking（不输出思考过程） Qwen3.5 系列大模型，无脑选 Qwen3.5-27B 今天这篇是 Qwen3.5 小型模型系列（0.8B / 2B 这次 Qwen3.5 小模型系列一发布，Unsloth 就同步放出了全系 GGUF，效率拉满。推荐采样参数 Unsloth 和 Qwen 官方都给了推荐参数进阶：用 Unsloth 免费微调 Qwen3.5 小模型光能跑推理还不过瘾？还记得 Qwen3.5 是原生多模态模型吗？
27.2K242编辑于 2026-03-05
来自专栏机器学习与统计学
Qwen3.5 要来了，字节、DeepSeek 春节或将发布旗舰大模型
Qwen3.5、MiniMax2.2、字节跳动 Seed、DeepSeek-V4 都要来了吗？最近，LMSYS Chatbot Arena（目前的“大模型盲测”权威榜单）上又热闹起来了。 Karp-001：I'm Qwen3.5, developed by Tongyi Lab. 字节系 Seed 2.0 Seed 2.0 Flash Seed Code 2 阿里 Qwen 系 Qwen3.5 models DeepSeek 系 DeepSeek-V4 DeepSeek-V4-Lite
54010编辑于 2026-03-02
来自专栏福大大架构师每日一题
全面支持 GLM5、Qwen3.5，性能与兼容性双升级，大模型部署再提速
新增Qwen3.5模型支持紧跟通义千问模型迭代节奏，v0.12.2版本全面支持Qwen3.5系列模型，包括密集型（Dense）与混合专家型（MoE）架构。 Qwen3.5作为阿里云推出的高性能大模型，在长文本处理、多模态交互、实时推理等场景表现突出，此次适配不仅实现基础推理支持，更通过TurboMind引擎深度优化，保障Qwen3.5模型在部署后的推理效率与稳定性新增TurboMind对Qwen3.5全架构支持除基础适配外，版本通过专项开发，实现TurboMind引擎对Qwen3.5 Dense与MoE架构的完整支持。支持Router Replay与量化层忽略（Qwen3.5专属）针对Qwen3.5模型的MoE架构特性，版本新增Router Replay（路由重放）与忽略量化层功能。前沿模型快速适配：对GLM5、Qwen3.5等最新模型的即时支持，让开发者可第一时间体验并部署前沿大模型能力。
59310编辑于 2026-03-31
来自专栏运维小路
OpenClaw（小龙虾）接入本地模型失败
apiKey: '__OPENCLAW_REDACTED__', api: 'ollama', models: [ { id: 'qwen3.5 :4b', name: 'Qwen3.5 4B', api: 'ollama', reasoning: false, ], }, }, }, agents: { defaults: { model: { primary: 'ollama/qwen3.5 PS C:\Users\dande> ollama list NAME ID SIZE MODIFIED qwen3.5:4b
86620编辑于 2026-04-02
来自专栏福大大架构师每日一题
ollama v0.17.6 发布：重大解析修复与 Qwen3.5 完整支持，全链路优化模型渲染与工具调用
引入全新的 Qwen3.5 渲染及解析模块，全面支持 thinking 模式此次更新共包含 12 次提交、修改 51 个文件，由 7 名开发人员完成。四、模型渲染层优化：全面更新 Qwen3.5 与 GLM-OCR Renderer 渲染器层：model/renderers/ 目录新增了两大核心组件： 1. 该渲染器对应 Qwen3.5 模型 prompt 生成逻辑，旨在让模型完全遵循 XML 函数调用格式与 <think> 思考框架。该模块的引入使得 Ollama 在多模型推理框架下更贴合阿里 Qwen3.5 推理接口的真实结构。 2. 针对复杂推理模型，如 Qwen3.5 这种包含 <think> 和 <tool_call> 的混合流式结构，此轮测试确保无论在并发推理还是断流恢复场景下都不丢失内容。
2.5K30编辑于 2026-03-09
来自专栏福大大架构师每日一题
ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPUCPU分配、采样惩罚与内存管理机制详解
这一版本可谓一次重要升级，核心亮点在于新增了Qwen3.5系列模型，并全面改进了采样算法、GPU与CPU混合分配机制、内存峰值监控以及MLX引擎下的稳定性。新增模型系列：Qwen3.5 v0.17.5引入了全新的模型系列——Qwen3.5，包括 0.8B、2B、4B 与 9B 四个参数规模版本。这使得开发者能根据硬件资源灵活选择不同性能梯度的模型。值得注意的是，在此次版本中，Qwen3.5模型支持 GPU 与 CPU 混合加载模式，同时针对模型“自我重复”问题进行了深度修复。新模型可通过命令重新下载： ollama pull qwen3.5:35b 2. GPU & CPU分配相关修复新版本修复了Qwen3.5模型在GPU与CPU拆分运行时的崩溃问题。模型层级革新：引入Qwen3.5模型、兼容GGUF导入、修复DeltaNet问题； 2. 采样系统强化：添加三重惩罚策略、优化历史记忆机制； 3.
2.6K20编辑于 2026-03-04
来自专栏AI工程落地
GLM 5 vs Qwen3.5 vs MiniMax M2.5 vs kimi k2.5
6.3K00编辑于 2026-02-27
来自专栏福大大架构师每日一题
ollama v0.19.0 发布！Web 搜索插件上线、多模型兼容修复、MLX 与 KV 缓存全面优化，本地大模型体验再升级
Qwen3.5模型工具调用修复修复Qwen3.5模型工具调用解析问题，解决此前版本中工具调用内容被错误输出在思考模块的问题，确保工具调用逻辑清晰、结果准确，保障Qwen3.5模型的函数调用能力正常生效完善编译依赖； • launch模块：对本地模型，当服务器上下文长度低于64k时发出警告，帮助用户提前规避长文本处理问题； • CI模块：强化CUDA包含路径处理，提升GPU环境兼容性； • 模型解析器：修复Qwen3.5 工具块在思考块中启动时的关闭逻辑，解决工具调用解析异常； • 解析器：优化Qwen3.5流式工具调用解析，并添加回归测试，保障功能稳定性； • 应用模块：修复模型“过时”错误提示，优化用户体验； • Anthropic 更新总结代码地址：bgithub.xyz/ollama/ollama ollama v0.19.0版本从用户体验、功能拓展、底层性能、模型兼容四大方向发力，新增Web搜索插件拓展本地模型能力，修复多模型（Qwen3.5
80510编辑于 2026-03-31
阿里除夕开源千问3.5：3970亿参数但只激活170亿，大模型部署成本砍半怎么做到的？
今天我们就借着Qwen3.5这把“尺子”，把这个问题彻底捋清楚。架构层面的“降本增效”，到底是怎么做到的？Qwen3.5这次最让大家感兴趣的不是参数规模，而是它怎么把成本降下来的。先说混合注意力机制。 Qwen3.5的做法是——关键信息高精度处理，次要信息低成本带过。在256K超长上下文场景下，推理吞吐量直接飙到19倍。这意味着以前处理100份长文档的时间，现在能处理近2000份。 Qwen3.5在训练阶段就学会联合预测多个未来词，从逐字输出变成批量输出，推理速度接近翻倍。这背后还有千问团队去年斩获NeurIPS最佳论文的门控技术，被用在了Qwen3.5里。 Qwen3.5对微调格外友好：27B稠密模型专门为微调优化，训练稳定不易发散；MoE系列也可以用LoRA等轻量方案低成本微调。 Qwen3.5的丰富型号让这种叠加更灵活：知识密集型任务用35B-A3B+RAG，决策型任务用27B微调，复杂Agent用122B-A10B+微调。
58110编辑于 2026-03-02
来自专栏机器学习与统计学
vLLM v0.18.0 更新，KV Cache 迎来大升级
上周刚写完 vLLM v0.17.1 紧急补丁，修了一个让 Qwen3.5 越跑越蠢的隐形 Bug，v0.18.0 就来了。弹性专家并行 Milestone 2：NIXL-EP 集成这一版是弹性专家并行（Elastic EP）的第二个里程碑，核心变化是引入了 NIXL-EP 集成对于跑 MoE 大模型（DeepSeek、Qwen3.5 新架构 HyperCLOVAX-SEED-Think-32B VLM 新架构 Kimi-Audio-7B-Instruct 音频模型 ColPali 延迟交互检索 RAG 检索 Eagle3 for Qwen3.5 MLA 投机解码 Whisper LoRA LoRA FP8 LoRA dense kernel 量化另外修了一批国内常用模型的 bug：DeepSeek-V3.2 tokenizer 空格截断、Qwen3.5 跑 MoE 大模型（DeepSeek、Qwen3.5 MoE）+ 多 GPU：建议升！FA4 MLA 内核 + Elastic EP Milestone 2 是实实在在的提升。
73710编辑于 2026-03-27
来自专栏贾志刚-OpenCV学堂
Jetson AGX系统上安装小龙虾与本地模型配置教程
Ollama，本地直接运行下面的命令行 openclaw onboard 本地参考配置 Ollama安装步骤 curl -fsSL https://ollama.com/install.sh I sh 下载qwen3.5 模型，命令行如下： ollamarunqwen3.5:4b或者qwen3.5:9b
27120编辑于 2026-04-02
来自专栏架构之巅
从架构师视角看Qwen3.5小模型的破局之道
要理解Qwen3.5小模型的优势，我们需要先拆解它的技术基因。 Qwen3.5小模型的突破在于原生多模态训练——从模型设计之初，就将图像、文本等多模态数据作为"第一公民"进行联合训练。架构创新与强化学习扩展：小身材的"大力士"Qwen3.5系列采用了门控线性网络（GatedDeltaNetwork）与混合专家（MoE）机制相结合的架构设计。四款模型的定位与应用场景从架构设计和技术选型的角度看，Qwen3.5此次开源的四个模型并非简单的"尺寸缩小版"，而是针对不同应用场景的精准布局。小模型的"大"机会从商业视角看，Qwen3.5小模型的发布，正在打开几扇新的大门。
1.7K20编辑于 2026-03-05
来自专栏机器学习与统计学
Ollama 又一新玩法
Ollama 先上一盘小菜，一键启动，免费使用 ollama run qwen3.5:cloud 之前，Ollama 已经陆续免费放出 Kimi-K2.5、GLM-5、MiniMax-M2.5，应该已经形成惯例了
95710编辑于 2026-03-02
从“脸盲”到“火眼金睛”：我用Qwen3.5教会AI看懂春晚同款机器人
Qwen3.5系列恰好具备这样的基因：●视觉语言深度融合：在多模态Token上进行早期融合训练，在推理、编码、智能体和视觉理解等基准测试中，跨代际达到与Qwen3相当的水平，并超越Qwen3-VL模型。为了验证微调后的效果，我们进行了一场“面对面”测试：测试点原始Qwen3.5模型微调后Qwen3.5-Robot专家识别准确度识别模糊，无法给出具体品牌和型号精准识别出UnitreeH1，并详述其运动性能行业深度描述偏通用
28410编辑于 2026-03-09

第 2 页第 3 页第 4 页

点击加载更多

Qwen3.5 本地部署

Qwen3.5本地部署

Qwen3.5微调教程，从零到部署全打通

lmdeploy v0.12.3：视频输入、Qwen3.5、TurboMind 压缩张量、Ray 安全 API 等重大升级全面解析

用NVIDIA加速端点开发Qwen3.5原生多模态智能体

Qwen3.5本地部署终极指南，Qwen3.5-27B

Qwen3.5 0.8B2B4B9B 小模型本地部署指南，微调教程

Qwen3.5 要来了，字节、DeepSeek 春节或将发布旗舰大模型

全面支持 GLM5、Qwen3.5，性能与兼容性双升级，大模型部署再提速

OpenClaw（小龙虾）接入本地模型失败

ollama v0.17.6 发布：重大解析修复与 Qwen3.5 完整支持，全链路优化模型渲染与工具调用

ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPUCPU分配、采样惩罚与内存管理机制详解

GLM 5 vs Qwen3.5 vs MiniMax M2.5 vs kimi k2.5

ollama v0.19.0 发布！Web 搜索插件上线、多模型兼容修复、MLX 与 KV 缓存全面优化，本地大模型体验再升级

阿里除夕开源千问3.5：3970亿参数但只激活170亿，大模型部署成本砍半怎么做到的？

vLLM v0.18.0 更新，KV Cache 迎来大升级

Jetson AGX系统上安装小龙虾与本地模型配置教程

从架构师视角看Qwen3.5小模型的破局之道

Ollama 又一新玩法

从“脸盲”到“火眼金睛”：我用Qwen3.5教会AI看懂春晚同款机器人

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐