DAILY AI KNOWLEDGE
每天搞懂一个 AI 知识点 · 第 04 期
2026.3.31

你有没有想过,AI 是怎么"理解"文字的?
计算机只认识数字,不认识汉字或英文。所以在 AI 处理文本之前,需要把文字转换成数字——这个过程就叫 Embedding(向量化)。
但 Embedding 不是简单地把每个字转成一个数字,而是把一段文字转成一个高维向量(一组数字),并且这组数字能够保留语义信息。
🧠 一句话理解
Embedding = 把文字翻译成 AI 能理解的"语义坐标"
想象一张地图:北京和上海距离较近(都是中国大城市),北京和纽约距离较远(不同国家)。
Embedding 就是给每个词/句子在一个语义空间里分配一个坐标,语义相近的内容,坐标也相近。
// 向量空间示意
"猫" → [0.2, 0.8, 0.1, ...]
"狗" → [0.3, 0.7, 0.2, ...] // 和"猫"很近(都是宠物)
"汽车" → [0.9, 0.1, 0.8, ...] // 和"猫"很远(不相关)
"苹果手机" → [0.7, 0.2, 0.9, ...] // 和"汽车"较近(科技产品)
第一步:分词
文字先被切分成 Token(词片段):
"今天天气真好" → ["今天", "天气", "真", "好"]
第二步:映射到向量
每个 Token 被映射成一个高维向量(通常 768 维或 1536 维):
"今天" → [0.12, -0.34, 0.78, 0.05, ...] // 768个数字
第三步:整合语义
通过神经网络,把整句话的语义压缩成一个向量:
"今天天气真好" → [0.23, 0.67, -0.12, ...] // 代表整句话

1. 语义搜索(最重要!)
传统搜索靠关键词匹配,Embedding 搜索靠语义理解:
❌ 关键词搜索
搜索"手机充不上电",只找含"手机"+"充电"的文章
✅ 语义搜索
还能找到"电池故障"、"充电口损坏"、"电源适配器问题"的文章
2. RAG 的核心基础(下期详解!)
把文档全部转成 Embedding 存起来 → 用户提问时找语义最相近的片段 → 喂给 LLM 回答问题
3. 文本分类 / 聚类
把用户反馈转成向量 → 聚类 → 自动分类问题类型(无需人工标注)
4. 重复内容检测
两条告警信息的 Embedding 相似度 > 0.95 → 可能是同一个问题的重复告警
🔍 告警去重
把相似告警的 Embedding 做聚类,自动合并同类告警,减少重复处理
📋 测试用例查重
检测重复或高度相似的测试用例,避免冗余维护成本
🐛 Bug 相似度匹配
新 Bug 进来时,自动找到历史上最相似的 Bug 和解决方案
📚 知识库语义检索
把所有文档 Embedding 化,实现智能语义搜索(这正是 Knot 知识库的核心技术!)
📌 一句话总结
Embedding = 把文字转成"语义坐标" 让 AI 理解文字含义 是语义搜索和 RAG 知识库的核心基础技术
下期预告:第 05 期 · RAG 检索增强生成 🚀