小伟
非得显卡?小模型跑在CPU上也照样快
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
小伟
社区首页
>
专栏
>
非得显卡?小模型跑在CPU上也照样快
非得显卡?小模型跑在CPU上也照样快
小伟
关注
发布于 2026-04-14 23:14:35
发布于 2026-04-14 23:14:35
25
0
举报
概述
在边缘环境、No-GPU、私有化场景下,就数据安全、资源受限的情况下,如何用 ≤9B 参数的小模型构建一个真正可用的 Agent?
文章被收录于专栏:
魔都程序缘
魔都程序缘
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
aiops
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
aiops
#小模型
#rocketmq
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
一、背景:为什么构建小模型 Agent?
1.1 业务痛点
1.2 技术选型动机
三、Agent技术栈
3.1 主模型选择:qwen2.5:1.5b
3.2 Embedding 模型:BAAI/bge-large-zh-v1.5
API 调用3.3 向量化数据库: ChromaDB
3.3 Rerank 模型:bge-reranker-v2-m3
模型均为本地加载,无需外部 API 调用3.4 Agent 开发选型
四、知识库:ChromaDB + RAG + Rerank
4.1 设计目标
4.2 检索流程
4.3 Rerank 核心价值
4.4 Rerank 流程伪代码
4.5 Rerank 模型选型
4.6 配置解释
4.7 知识 Chunk 拆分调优
五、分级路由:意图分类 + 智能路由
5.1 设计目标
的组合,将处理时延从默认秒级路径收敛为可控的低时延路径。5.2 A/D 两级分类
A 类 — 知识问答
D 类 — 操作/排查
5.3 阶段一:规则匹配
5.4 阶段二:SLM 分类
5.5 路由效果验证
六、重新设计 Skill:从 Tool 到 SOP
6.1 设计理念
6.2 Atomic Skill(原子技能)
6.3 SOP Skill(标准操作流程)
6.4 步骤执行引擎
6.5 报告生成
七、LoRA 微调:将小模型调教为 RocketMQ 专家
7.1 微调流程
步骤一:数据集准备
步骤二:人工 Review
步骤三:训练
步骤四:导出量化模型
步骤五:导出 GGUF
步骤六:创建 Ollama Modelfile,创建新模型
九、总结
9.1 核心优势
9.2 经验总结
9.3 后续方向
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐