首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习与统计学

    Qwen3.5 本地部署

    Qwen3.5 本身就是混合架构(Gated Delta Networks + MoE),llama.cpp 已经做了支持。 1. 运行推理 Qwen3.5 支持两种模式:思考模式(Thinking) 和 快速模式(Non-Thinking),两者需要不同的采样参数。 上下文窗口,最大支持 262,144 --n-gpu-layers 2:GPU 层卸载数,显卡内存不够就减小,纯 CPU 就移除 方案二:部署为 API 服务(llama-server) 如果你想把 Qwen3.5 user", "content": "用 Python 写一个快速排序"}, ], ) print(completion.choices[0].message.content) 这意味着你可以把 Qwen3.5 视觉 + 文本推理(原生多模态) pip install mlx-vlm mlx_vlm.chat --model Qwen/Qwen3.5-397B-A17B 工具调用(Tool Calling) Qwen3.5

    5.8K10编辑于 2026-03-02
  • 来自专栏大模型本地部署

    Qwen3.5本地部署

    0.简介本教程参考了Unsloth上有关Qwen3.5部署的教程,但是国内由于网络等原因,部署的时候会遇到一系列问题,因此以下给出逐一解决的方法。后续会持续更新Qwen3.5其他系列模型。

    2.5K00编辑于 2026-03-06
  • 来自专栏机器学习与统计学

    Qwen3.5微调教程,从零到部署全打通

    Qwen3.5 是开源社区的香饽饽,Unsloth 第一时间跟进了完整的微调支持 我花了两天研究了他们的文档和 Colab 笔记本,整理出这份从零到一的微调教程 0.8B 到 122B 全尺寸覆盖,文本 、视觉、强化学习三条路线全打通 Qwen3.5 微调概览 先说结论:Qwen3.5 + Unsloth 是目前性价比最高的开源模型微调方案。 201 种语言的多语言微调 各模型 bf16 LoRA 显存需求: 模型 显存 0.8B 3GB 2B 5GB 4B 10GB 9B 22GB 27B 56GB 35B-A3B(MoE) 74GB Qwen3.5 bf16 LoRA 显存需求 重要提醒: ⚠️ 必须用 transformers v5,旧版不行 ⚠️ 不建议对 Qwen3.5 使用 QLoRA(4-bit)训练——量化差异高于正常水平 ⚠️ MoE 视觉微调(Qwen3.5 VLM) Qwen3.5 本身就是一个统一的视觉语言模型,所以视觉微调非常自然: from unsloth import FastVisionModel model, tokenizer

    90310编辑于 2026-04-24
  • 来自专栏福大大架构师每日一题

    lmdeploy v0.12.3:视频输入、Qwen3.5、TurboMind 压缩张量、Ray 安全 API 等重大升级全面解析

    三、重点改进:Qwen3.5 相关更新最密集 v0.12.3 中,Qwen3.5 相关内容非常多,几乎贯穿了多个模块,是本次更新最核心的主题之一。 1)支持 Qwen3.5 在 Volta 上运行 版本更新中明确提到:support qwen3.5 on volta。 这意味着 Qwen3.5 在 Volta 相关环境中的支持能力得到增强,进一步扩大了其可部署范围。 2)优化 Qwen3.5 本版本还包含了专门的 Optimize Qwen3.5。 3)Qwen3.5 PyTorch 多模态推理修复 更新中提到:fix qwen3.5 pytorch multimodal inference。 这是针对 Qwen3.5 在 PyTorch 多模态推理路径上的修复,说明在多模态场景中,Qwen3.5 的推理链路已经被纳入重点保障范围。

    20810编辑于 2026-04-14
  • 用NVIDIA加速端点开发Qwen3.5原生多模态智能体

    Qwen3.5能够理解并导航用户界面,相较于上一代VLM有所改进。Qwen3.5非常适合多种应用场景,包括:编码,含网页开发视觉推理,含移动端和网页界面聊天应用复杂搜索表1. 学习如何在某机构GPU加速端点上测试Qwen3.5也可以通过API使用某机构托管的模型,注册某机构开发者计划即可免费使用。 使用NeMo Automodel库,开发者可以对Qwen3.5 3970亿参数架构进行高吞吐量效率的微调。 开始使用Qwen3.5从某机构Blackwell上的数据中心部署,到用于任意环境容器化部署的某机构NIM微服务,某机构为集成Qwen3.5提供了全面的解决方案。 要开始使用,请查阅Hugging Face上的Qwen3.5模型页面,并在 build.某机构.com 上测试Qwen3.5。FINISHED

    21410编辑于 2026-04-12
  • 来自专栏机器学习与统计学

    Qwen3.5本地部署终极指南,Qwen3.5-27B

    Qwen3.5 轻量版来了,更智能,更小巧,量化版本地部署,消费级显卡轻松跑 一文中测试了,十分建议:首选 Qwen3.5-27B,无论是官方benchmark测评还是其他网友评价,都支持这一结论 Qwen3.5 全阵容:阿里这次玩了个大的 阿里最新发布的 Qwen3.5,不再只是单个模型,而是一整个军团: 型号 类型 总参数 激活参数 定位 Qwen3.5-27B Dense 27B 27B 稳扎稳打型 Qwen3.5 官方推荐设置 Qwen3.5 支持混合推理,thinking 和 non-thinking 模式的参数不一样,别搞混了: Thinking 模式(深度推理) 参数 精确编码 通用任务 temperature 工具调用:本地 Agent 的基础 Qwen3.5 原生支持 function calling,配合 llama-server 可以直接做本地 Agent。

    19.4K43编辑于 2026-03-02
  • 来自专栏机器学习与统计学

    Qwen3.5 0.8B2B4B9B 小模型本地部署指南,微调教程

    大家好,我是 Ai 学习的老章 关于 Qwen3.5,我最近写了不少: Qwen3.5 本地部署终极指南,强烈推荐 Qwen3.5-27B Qwen3.5 轻量版来了,更智能,更小巧,量化版本地部署,消费级显卡轻松跑 教程:如何关闭 Qwen3.5 系列大模型的 Thinking(不输出思考过程) Qwen3.5 系列大模型,无脑选 Qwen3.5-27B 今天这篇是 Qwen3.5 小型模型系列(0.8B / 2B 这次 Qwen3.5 小模型系列一发布,Unsloth 就同步放出了全系 GGUF,效率拉满。 推荐采样参数 Unsloth 和 Qwen 官方都给了推荐参数 进阶:用 Unsloth 免费微调 Qwen3.5 小模型 光能跑推理还不过瘾? 还记得 Qwen3.5 是原生多模态模型吗?

    27.2K242编辑于 2026-03-05
  • 来自专栏机器学习与统计学

    Qwen3.5 要来了,字节、DeepSeek 春节或将发布旗舰大模型

    Qwen3.5、MiniMax2.2、字节跳动 Seed、DeepSeek-V4 都要来了吗? 最近,LMSYS Chatbot Arena(目前的“大模型盲测”权威榜单)上又热闹起来了。 Karp-001:I'm Qwen3.5, developed by Tongyi Lab. 字节系 Seed 2.0 Seed 2.0 Flash Seed Code 2 阿里 Qwen 系 Qwen3.5 models DeepSeek 系 DeepSeek-V4 DeepSeek-V4-Lite

    54010编辑于 2026-03-02
  • 来自专栏福大大架构师每日一题

    全面支持 GLM5、Qwen3.5,性能与兼容性双升级,大模型部署再提速

    新增Qwen3.5模型支持 紧跟通义千问模型迭代节奏,v0.12.2版本全面支持Qwen3.5系列模型,包括密集型(Dense)与混合专家型(MoE)架构。 Qwen3.5作为阿里云推出的高性能大模型,在长文本处理、多模态交互、实时推理等场景表现突出,此次适配不仅实现基础推理支持,更通过TurboMind引擎深度优化,保障Qwen3.5模型在部署后的推理效率与稳定性 新增TurboMind对Qwen3.5全架构支持 除基础适配外,版本通过专项开发,实现TurboMind引擎对Qwen3.5 Dense与MoE架构的完整支持。 支持Router Replay与量化层忽略(Qwen3.5专属) 针对Qwen3.5模型的MoE架构特性,版本新增Router Replay(路由重放)与忽略量化层功能。 前沿模型快速适配:对GLM5、Qwen3.5等最新模型的即时支持,让开发者可第一时间体验并部署前沿大模型能力。

    59310编辑于 2026-03-31
  • 来自专栏运维小路

    OpenClaw(小龙虾)接入本地模型失败

    apiKey: '__OPENCLAW_REDACTED__', api: 'ollama', models: [ { id: 'qwen3.5 :4b', name: 'Qwen3.5 4B', api: 'ollama', reasoning: false, ], }, }, }, agents: { defaults: { model: { primary: 'ollama/qwen3.5 PS C:\Users\dande> ollama list NAME ID SIZE MODIFIED qwen3.5:4b

    86620编辑于 2026-04-02
  • 来自专栏福大大架构师每日一题

    ollama v0.17.6 发布:重大解析修复与 Qwen3.5 完整支持,全链路优化模型渲染与工具调用

    引入全新的 Qwen3.5 渲染及解析模块,全面支持 thinking 模式 此次更新共包含 12 次提交、修改 51 个文件,由 7 名开发人员完成。 四、模型渲染层优化:全面更新 Qwen3.5 与 GLM-OCR Renderer 渲染器层:model/renderers/ 目录新增了两大核心组件: 1. 该渲染器对应 Qwen3.5 模型 prompt 生成逻辑,旨在让模型完全遵循 XML 函数调用格式与 <think> 思考框架。 该模块的引入使得 Ollama 在多模型推理框架下更贴合阿里 Qwen3.5 推理接口的真实结构。 2. 针对复杂推理模型,如 Qwen3.5 这种包含 <think> 和 <tool_call> 的混合流式结构,此轮测试确保无论在并发推理还是断流恢复场景下都不丢失内容。

    2.5K30编辑于 2026-03-09
  • 来自专栏福大大架构师每日一题

    ollama v0.17.5正式发布:新增Qwen3.5系列模型,全方位优化GPUCPU分配、采样惩罚与内存管理机制详解

    这一版本可谓一次重要升级,核心亮点在于新增了Qwen3.5系列模型,并全面改进了采样算法、GPU与CPU混合分配机制、内存峰值监控以及MLX引擎下的稳定性。 新增模型系列:Qwen3.5 v0.17.5引入了全新的模型系列——Qwen3.5,包括 0.8B、2B、4B 与 9B 四个参数规模版本。这使得开发者能根据硬件资源灵活选择不同性能梯度的模型。 值得注意的是,在此次版本中,Qwen3.5模型支持 GPU 与 CPU 混合加载模式,同时针对模型“自我重复”问题进行了深度修复。 新模型可通过命令重新下载: ollama pull qwen3.5:35b 2. GPU & CPU分配相关修复 新版本修复了Qwen3.5模型在GPU与CPU拆分运行时的崩溃问题。 模型层级革新:引入Qwen3.5模型、兼容GGUF导入、修复DeltaNet问题; 2. 采样系统强化:添加三重惩罚策略、优化历史记忆机制; 3.

    2.6K20编辑于 2026-03-04
  • 来自专栏AI工程落地

    GLM 5 vs Qwen3.5 vs MiniMax M2.5 vs kimi k2.5

    6.3K00编辑于 2026-02-27
  • 来自专栏福大大架构师每日一题

    ollama v0.19.0 发布!Web 搜索插件上线、多模型兼容修复、MLX 与 KV 缓存全面优化,本地大模型体验再升级

    Qwen3.5模型工具调用修复 修复Qwen3.5模型工具调用解析问题,解决此前版本中工具调用内容被错误输出在思考模块的问题,确保工具调用逻辑清晰、结果准确,保障Qwen3.5模型的函数调用能力正常生效 完善编译依赖; • launch模块:对本地模型,当服务器上下文长度低于64k时发出警告,帮助用户提前规避长文本处理问题; • CI模块:强化CUDA包含路径处理,提升GPU环境兼容性; • 模型解析器:修复Qwen3.5 工具块在思考块中启动时的关闭逻辑,解决工具调用解析异常; • 解析器:优化Qwen3.5流式工具调用解析,并添加回归测试,保障功能稳定性; • 应用模块:修复模型“过时”错误提示,优化用户体验; • Anthropic 更新总结 代码地址:bgithub.xyz/ollama/ollama ollama v0.19.0版本从用户体验、功能拓展、底层性能、模型兼容四大方向发力,新增Web搜索插件拓展本地模型能力,修复多模型(Qwen3.5

    80510编辑于 2026-03-31
  • 阿里除夕开源千问3.5:3970亿参数但只激活170亿,大模型部署成本砍半怎么做到的?

    今天我们就借着Qwen3.5这把“尺子”,把这个问题彻底捋清楚。架构层面的“降本增效”,到底是怎么做到的?Qwen3.5这次最让大家感兴趣的不是参数规模,而是它怎么把成本降下来的。先说混合注意力机制。 Qwen3.5的做法是——关键信息高精度处理,次要信息低成本带过。在256K超长上下文场景下,推理吞吐量直接飙到19倍。这意味着以前处理100份长文档的时间,现在能处理近2000份。 Qwen3.5在训练阶段就学会联合预测多个未来词,从逐字输出变成批量输出,推理速度接近翻倍。这背后还有千问团队去年斩获NeurIPS最佳论文的门控技术,被用在了Qwen3.5里。 Qwen3.5对微调格外友好:27B稠密模型专门为微调优化,训练稳定不易发散;MoE系列也可以用LoRA等轻量方案低成本微调。 Qwen3.5的丰富型号让这种叠加更灵活:知识密集型任务用35B-A3B+RAG,决策型任务用27B微调,复杂Agent用122B-A10B+微调。

    58110编辑于 2026-03-02
  • 来自专栏机器学习与统计学

    vLLM v0.18.0 更新,KV Cache 迎来大升级

    上周刚写完 vLLM v0.17.1 紧急补丁,修了一个让 Qwen3.5 越跑越蠢的隐形 Bug,v0.18.0 就来了。 弹性专家并行 Milestone 2:NIXL-EP 集成 这一版是弹性专家并行(Elastic EP)的第二个里程碑,核心变化是引入了 NIXL-EP 集成 对于跑 MoE 大模型(DeepSeek、Qwen3.5 新架构 HyperCLOVAX-SEED-Think-32B VLM 新架构 Kimi-Audio-7B-Instruct 音频模型 ColPali 延迟交互检索 RAG 检索 Eagle3 for Qwen3.5 MLA 投机解码 Whisper LoRA LoRA FP8 LoRA dense kernel 量化 另外修了一批国内常用模型的 bug:DeepSeek-V3.2 tokenizer 空格截断、Qwen3.5 跑 MoE 大模型(DeepSeek、Qwen3.5 MoE)+ 多 GPU:建议升!FA4 MLA 内核 + Elastic EP Milestone 2 是实实在在的提升。

    73710编辑于 2026-03-27
  • 来自专栏贾志刚-OpenCV学堂

    Jetson AGX系统上安装小龙虾与本地模型配置教程

    Ollama,本地直接运行下面的命令行 openclaw onboard 本地参考配置 Ollama安装步骤 curl -fsSL https://ollama.com/install.sh I sh 下载qwen3.5 模型,命令行如下: ollamarunqwen3.5:4b或者qwen3.5:9b

    27120编辑于 2026-04-02
  • 来自专栏架构之巅

    从架构师视角看Qwen3.5小模型的破局之道

    要理解Qwen3.5小模型的优势,我们需要先拆解它的技术基因。 Qwen3.5小模型的突破在于原生多模态训练——从模型设计之初,就将图像、文本等多模态数据作为"第一公民"进行联合训练。 架构创新与强化学习扩展:小身材的"大力士"Qwen3.5系列采用了门控线性网络(GatedDeltaNetwork)与混合专家(MoE)机制相结合的架构设计。 四款模型的定位与应用场景从架构设计和技术选型的角度看,Qwen3.5此次开源的四个模型并非简单的"尺寸缩小版",而是针对不同应用场景的精准布局。 小模型的"大"机会从商业视角看,Qwen3.5小模型的发布,正在打开几扇新的大门。

    1.7K20编辑于 2026-03-05
  • 来自专栏机器学习与统计学

    Ollama 又一新玩法

    Ollama 先上一盘小菜,一键启动,免费使用 ollama run qwen3.5:cloud 之前,Ollama 已经陆续免费放出 Kimi-K2.5、GLM-5、MiniMax-M2.5,应该已经形成惯例了

    95710编辑于 2026-03-02
  • 从“脸盲”到“火眼金睛”:我用Qwen3.5教会AI看懂春晚同款机器人

    Qwen3.5系列恰好具备这样的基因:●视觉语言深度融合:在多模态Token上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际达到与Qwen3相当的水平,并超越Qwen3-VL模型。 为了验证微调后的效果,我们进行了一场“面对面”测试:测试点原始Qwen3.5模型微调后Qwen3.5-Robot专家识别准确度识别模糊,无法给出具体品牌和型号精准识别出UnitreeH1,并详述其运动性能行业深度描述偏通用

    28410编辑于 2026-03-09
领券