上一篇文章通过all-MiniLM-L6-v2模型结合FAISS实现了简单的RAG检索功能,但FAISS运行于内存中,无法持久化保存向量数据,重启后又得重新对文本做向量化,比较浪费算力资源。
一、向量数据库Chroma
Chroma是一个本地向量数据库,专门用来保存 RAG 知识库,并且快速检索相关内容。Chroma与FAISS之间的区别如下:
1、只做检索,不做保存;Chroma既支持检索,也支持保存。
2、FAISS运行于内存,速度快;Chroma需要从磁盘加载数据,启动稍慢。
3、FAISS适合临时检索,多用于简单RAG;Chroma支持长期使用,尤其是资料较多的RAG。
总而言之,Chroma属于本地 + 简单 + 自带持久化的 RAG 专用数据库,可以理解为给大模型用的本地知识小仓库。
二、如何使用Chroma
Python代码里的Chroma主要完成三件事:创建数据库与数据表、保存知识向量、在用户提问时检索知识,如下代码所示:
import chromadb
# 创建数据库,指定本地的数据库路径
client = chromadb.PersistentClient(path="./chroma_db")
# 创建数据表
collection = client.get_or_create_collection("knowledge_base")
# 把 文本+向量 一起存进去
collection.add(documents=knowledge, embeddings=vectors, ids=ids)
# 提问 → 自动检索最相似的
results = collection.query(query_embeddings=q_vec, n_results=1)可见Chroma的使用步骤与FAISS一一对应,如下所示:
1、FAISS的第一步是建立内存索引,而Chroma的第一步是创建数据库与数据表。
2、FAISS的第二步是把知识向量放入内存索引,而Chroma的第二步是把知识向量保存到数据表。
3、FAISS的第三步是从内存索引查找相关知识,而Chroma的第三步是从数据表查找相关知识。
三、结合all-MiniLM-L6-v2与Chroma实现RAG
接下来演示如何使用all-MiniLM-L6-v2与Chroma实现RAG检索功能。在编写Python代码前,要先在命令行执行下面的pip安装命令:
pip install chromadb sentence-transformers然后编写下面的Python检索测试代码:
from sentence_transformers import SentenceTransformer
import chromadb
# ===================== 知识库(不变) =====================
knowledge = [
"什么是AI:人工智能(AI)是一门使机器模拟人类智能的技术。",
"什么是RAG:RAG代表检索增强生成,通过检索外部知识提升大模型回答准确性。",
"本地RAG消耗Token吗:本地RAG不调用云端API,不消耗Token,完全免费。",
"FAISS是什么:FAISS是Facebook开源的向量检索库,用于本地高效检索。",
"RAG的作用:RAG让大模型能引用外部知识,避免胡说八道。"
]
# ===================== 加载本地embedding模型(不变) =====================
embed_model = SentenceTransformer("./all-MiniLM-L6-v2", device="cpu")
# 生成向量(把知识库向量化)
vectors = embed_model.encode(knowledge)
# ===================== Chroma 初始化 =====================
# 添加到 Chroma,要持久化用:
client = chromadb.PersistentClient(path="./chroma_db")
# 创建/获取集合
collection = client.get_or_create_collection(name="knowledge_base")
ids = [f"doc_{i}" for i in range(len(knowledge))]
collection.add(
documents=knowledge,
embeddings=vectors.tolist(), # 传入向量(也可让Chroma自己embedding)
ids=ids
)
# ===================== RAG 检索(逻辑不变) =====================
def rag(question):
print("\n 问题:" + question)
# 把问题向量化
q_vec = embed_model.encode([question])
# 从 Chroma 检索对应的知识
results = collection.query(
query_embeddings=q_vec.tolist(),
n_results=1
)
best = results["documents"][0][0]
answer = best.split(":")[-1]
print(" 答案:" + answer)
print("-" * 50)
# ===================== 运行 =====================
if __name__ == "__main__":
print("=== 本地智能 RAG 系统(Chroma版)===")
while True:
q = input("\n请输入问题(q退出):")
if q.lower() == "q":
break
rag(q)运行上面的Python代码,根据提示输入问题“AI是什么?”,输出日志结果如下:
=== 本地智能 RAG 系统(Chroma版)===
请输入问题(q退出):AI是什么?
问题:AI是什么?
答案:人工智能(AI)是一门使机器模拟人类智能的技术。
--------------------------------------------------可见即使问题文本与知识库不是完全的字符串匹配(“AI是什么?”对“什么是AI”),all-MiniLM-L6-v2模型结合Chroma也能正确识别出问题意图,并给出准确的回答。
本系列的AI应用开发文章目录为《15天学会AI应用开发全目录(零基础小白,零Token消耗)》。