首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >非得显卡?小模型跑在CPU上也照样快

非得显卡?小模型跑在CPU上也照样快

作者头像
小伟
发布2026-04-14 23:14:35
发布2026-04-14 23:14:35
250
举报
概述
在边缘环境、No-GPU、私有化场景下,就数据安全、资源受限的情况下,如何用 ≤9B 参数的小模型构建一个真正可用的 Agent?
文章被收录于专栏:魔都程序缘魔都程序缘

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景:为什么构建小模型 Agent?
    • 1.1 业务痛点
    • 1.2 技术选型动机
  • 三、Agent技术栈
    • 3.1 主模型选择:qwen2.5:1.5b
    • 3.2 Embedding 模型:BAAI/bge-large-zh-v1.5
    • API 调用3.3 向量化数据库: ChromaDB
    • 3.3 Rerank 模型:bge-reranker-v2-m3
    • 模型均为本地加载,无需外部 API 调用3.4 Agent 开发选型
  • 四、知识库:ChromaDB + RAG + Rerank
    • 4.1 设计目标
    • 4.2 检索流程
    • 4.3 Rerank 核心价值
    • 4.4 Rerank 流程伪代码
    • 4.5 Rerank 模型选型
    • 4.6 配置解释
    • 4.7 知识 Chunk 拆分调优
  • 五、分级路由:意图分类 + 智能路由
    • 5.1 设计目标
    • 的组合,将处理时延从默认秒级路径收敛为可控的低时延路径。5.2 A/D 两级分类
      • A 类 — 知识问答
      • D 类 — 操作/排查
    • 5.3 阶段一:规则匹配
    • 5.4 阶段二:SLM 分类
    • 5.5 路由效果验证
  • 六、重新设计 Skill:从 Tool 到 SOP
    • 6.1 设计理念
    • 6.2 Atomic Skill(原子技能)
    • 6.3 SOP Skill(标准操作流程)
    • 6.4 步骤执行引擎
    • 6.5 报告生成
  • 七、LoRA 微调:将小模型调教为 RocketMQ 专家
    • 7.1 微调流程
      • 步骤一:数据集准备
      • 步骤二:人工 Review
      • 步骤三:训练
      • 步骤四:导出量化模型
      • 步骤五:导出 GGUF
      • 步骤六:创建 Ollama Modelfile,创建新模型
  • 九、总结
    • 9.1 核心优势
    • 9.2 经验总结
    • 9.3 后续方向
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档