第04期·Embedding向量化

巫山老妖

发布于 2026-04-13 15:55:10

1050

文章被收录于专栏：小巫技术博客小巫技术博客

DAILY AI KNOWLEDGE

🔢 Embedding 向量化

每天搞懂一个 AI 知识点 · 第 04 期

2026.3.31

什么是 Embedding？

你有没有想过，AI 是怎么"理解"文字的？

计算机只认识数字，不认识汉字或英文。所以在 AI 处理文本之前，需要把文字转换成数字——这个过程就叫 Embedding（向量化）。

但 Embedding 不是简单地把每个字转成一个数字，而是把一段文字转成一个高维向量（一组数字），并且这组数字能够保留语义信息。

🧠 一句话理解

Embedding = 把文字翻译成 AI 能理解的"语义坐标"

🌍 一个直观的比喻：语义地图

想象一张地图：北京和上海距离较近（都是中国大城市），北京和纽约距离较远（不同国家）。

Embedding 就是给每个词/句子在一个语义空间里分配一个坐标，语义相近的内容，坐标也相近。

// 向量空间示意

"猫" → [0.2, 0.8, 0.1, ...]

"狗" → [0.3, 0.7, 0.2, ...] // 和"猫"很近（都是宠物）

"汽车" → [0.9, 0.1, 0.8, ...] // 和"猫"很远（不相关）

"苹果手机" → [0.7, 0.2, 0.9, ...] // 和"汽车"较近（科技产品）

🔬 Embedding 的工作原理

第一步：分词

文字先被切分成 Token（词片段）：

"今天天气真好" → ["今天", "天气", "真", "好"]

第二步：映射到向量

每个 Token 被映射成一个高维向量（通常 768 维或 1536 维）：

"今天" → [0.12, -0.34, 0.78, 0.05, ...] // 768个数字

第三步：整合语义

通过神经网络，把整句话的语义压缩成一个向量：

"今天天气真好" → [0.23, 0.67, -0.12, ...] // 代表整句话

🎯 Embedding 的核心应用

1. 语义搜索（最重要！）

传统搜索靠关键词匹配，Embedding 搜索靠语义理解：

❌ 关键词搜索

搜索"手机充不上电"，只找含"手机"+"充电"的文章

✅ 语义搜索

还能找到"电池故障"、"充电口损坏"、"电源适配器问题"的文章

2. RAG 的核心基础（下期详解！）

把文档全部转成 Embedding 存起来 → 用户提问时找语义最相近的片段 → 喂给 LLM 回答问题

3. 文本分类 / 聚类

把用户反馈转成向量 → 聚类 → 自动分类问题类型（无需人工标注）

4. 重复内容检测

两条告警信息的 Embedding 相似度 > 0.95 → 可能是同一个问题的重复告警

💡 和你工作的关联

🔍 告警去重

把相似告警的 Embedding 做聚类，自动合并同类告警，减少重复处理

📋 测试用例查重

检测重复或高度相似的测试用例，避免冗余维护成本

🐛 Bug 相似度匹配

新 Bug 进来时，自动找到历史上最相似的 Bug 和解决方案

📚 知识库语义检索

把所有文档 Embedding 化，实现智能语义搜索（这正是 Knot 知识库的核心技术！）

📌 一句话总结

Embedding = 把文字转成"语义坐标" 让 AI 理解文字含义是语义搜索和 RAG 知识库的核心基础技术

下期预告：第 05 期 · RAG 检索增强生成 🚀

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-31，如有侵权请联系 cloudcommunity@tencent.com 删除

手机

本文分享自巫山老妖微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度