首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >搭建个人知识库,分享一个我原创的 Skills

搭建个人知识库,分享一个我原创的 Skills

作者头像
Ai学习的老章
发布2026-06-08 14:35:37
发布2026-06-08 14:35:37
60
举报

大家好,我是 Ai 学习的老章

之前 Karpathy 分享了一个用 LLM 构建个人知识库的思路,叫 LLM Wiki,在推上引发了很大讨论,我之前也介绍过三个大佬对知识管理的不同理解

基于大模型、SKills 的知识管理

他们的方案都很优雅,但大多数人确卡在了第一步,这个问题我已经用skills

完美解决了,而且也迭代了几个版本,目前这个很好用了,分享给大家。

Karpathy 的 LLM Wiki 是什么

简单说,Karpathy 提出了一个三层架构来做个人知识库:

  • Raw(原始素材层):你收集的文章、论文、图片等原始材料,LLM 只读不改
  • Wiki(维基层):LLM 自动生成并维护的结构化 markdown 文件,带交叉引用
  • Schema(说明书层):告诉 LLM 如何组织 wiki 的规则文件

核心理念是"编译式知识库"——新素材进来时,LLM 会读取、提取、整合到现有知识网络中,持续更新,形成复利

听起来很美对吧?但我发现一个现实问题:

很多人其实 Raw 层都没搞定

Karpathy 说得轻巧——"把素材丢进 raw 文件夹就行"。但实际操作中,把网页内容高质量地保存到本地,这件事本身就很难

我之前用的是 Obsidian Web Clipper 插件(之前文章介绍过),一键把网页转成 markdown 保存

用了一段时间后发现几个硬伤:

1. 只能硬转 markdown,丢失大量信息

Web Clipper 做的是"当前页面→markdown"的单层转换

但很多高质量文章里,正文中嵌入的链接本身也是重要素材——比如一篇 AI 综述里引用了 5 篇论文、3 个 GitHub 仓库,这些链接背后的内容同样有价值

Web Clipper 只会把它们保留为超链接文本,不会帮你展开

2. 图片处理是个大坑

Web Clipper 保存的图片本质上还是原始外链:

  • 很多网站有防盗链机制,图片链接在你本地 markdown 里根本打不开
  • GitHub user-attachments、CDN 图片随时可能失效
  • 某些图片需要登录态或 cookie 才能下载,普通 download 根本拿不到

3. 没有结构化组织

抓下来就是一个孤零零的 .md 文件,没有索引、没有关联关系、没有来源追踪

这就导致了一个尴尬的局面:你以为存了知识,其实只存了一堆半残的文本

我的解决方案:1-web-pack Skill

为了彻底解决这个问题,我写了一个 Agent Skill 叫 web-pack——网页素材包采集

设计理念是:不只"剪藏"一个页面,直接一把梭哈"采集"一个主题的完整素材包

核心设计思路

给 AI Agent 一组同主题的链接,它会:

  1. 逐个深入阅读入口链接的正文
  2. 识别并展开正文中的相关链接(论文、仓库、官方文档等)
  3. 下载所有图片到本地,markdown 中使用相对路径
  4. 智能过滤:只采正文、表格、图片、代码,跳过侧边栏、广告、页脚等噪音
  5. 生成结构化输出:研究简报、链接清单、图片清单、阅读地图一应俱全
输出结构

每次任务会生成一个独立的素材包文件夹:

代码语言:javascript
复制
YYYY-MM-DD-主题名/
├── README.md              # 素材包概览
├── 00-research-brief.md   # 研究简报
├── 01-link-inventory.md   # 链接清单(全量)
├── 02-image-inventory.md  # 图片清单
├── 03-reading-map.md      # 阅读地图(关系图)
├── MAIN-01-入口正文.md     # 入口页面正文
├── LINKED-02-相关链接.md   # 正文中展开的相关链接
└── assets/                # 本地图片资源

这个结构本身就是 Karpathy 所说的 Raw 层的理想形态——有索引、有关联、有本地化资源

抓取策略:多层兜底

我设计了一套分层抓取策略,确保尽可能多地拿到内容:

  1. 常规 HTTP 抓取正文(优先)
  2. GitHub 链接走 GitHub API / raw / README(专门优化)
  3. Markdown、JSON、纯文本直接保存
  4. 以上都失败时,用 jina 作为兜底

Jina Reader 只在前面都失败的情况下才启用,避免滥用

智能的链接判断

不是所有链接都值得展开,我在 Skill 里定义了判断规则:

优先展开的:

  • 官方文档、博客、论文、GitHub 仓库、README
  • 与主题相关的 benchmark、评测、数据表、示例代码
  • 正文里支撑核心观点的数据源、图表源

直接跳过的:

  • 导航菜单、页脚、广告、推荐阅读区
  • 登录、注册、订阅、招聘、隐私政策
  • 社交分享链接(X、LinkedIn、Facebook 等)
  • logo、favicon、头像、装饰图
图片处理:彻底本地化

所有正文图片下载到 assets/ 目录,markdown 中统一用本地相对路径引用,完全不需要担心:

  • 外链失效
  • 防盗链打不开
  • CDN 域名换了图全裂

而且收尾阶段还会自动检查——如果有任何非自有图床的外链图片残留,会自动调用图床上传 Skill 处理

使用方式

直接跟 Agent 说"帮我采集这几个链接的素材",Agent 会自动识别并调用

几个关键参数:

  • --max-depth 1:入口 + 入口正文里的相关链接(默认推荐)
  • --max-depth 2:要深挖时使用
  • --max-pages 80:控制总页面数,防止无限展开
  • --same-domain-only:只采同域内容

和 Web Clipper 的对比

1-web-pack vs Web Clipper 对比流程图
1-web-pack vs Web Clipper 对比流程图

1-web-pack vs Web Clipper 对比流程图

维度

Obsidian Web Clipper

web-pack

采集深度

单页面

入口 + 正文相关链接递归展开

图片处理

保留外链

全部下载到本地

结构化

研究简报 + 链接清单 + 阅读地图

噪音过滤

有限

智能过滤广告/导航/页脚

失败兜底

HTTP → GitHub API → Jina Reader

适合场景

快速剪藏单篇文章

深度采集一个主题的完整素材

回到 Karpathy 的 LLM Wiki

有了高质量的 Raw 层,Karpathy 那套 Wiki 编译逻辑才能真正跑起来

垃圾进垃圾出——如果你的原始素材就是一堆半残的 markdown、裂掉的图片、断掉的引用,LLM 再聪明也编译不出好的 Wiki

我的实践路径是:

  1. 1-web-pack 采集高质量的 Raw 素材包
  2. 在 Obsidian 中组织和浏览
  3. 让 LLM 基于这些素材编译成结构化的 Wiki 页面
  4. 定期做健康检查,保持 Wiki 的一致性和新鲜度

Raw 层是地基

地基不牢,上面建什么都是空中楼阁

Skill 的完整代码我已经开源,感兴趣的可以去看看

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Karpathy 的 LLM Wiki 是什么
  • 很多人其实 Raw 层都没搞定
  • 我的解决方案:1-web-pack Skill
    • 核心设计思路
    • 输出结构
    • 抓取策略:多层兜底
    • 智能的链接判断
    • 图片处理:彻底本地化
    • 使用方式
  • 和 Web Clipper 的对比
  • 回到 Karpathy 的 LLM Wiki
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档