11 min read2,282 words

RAG系统构建：让AI拥有你的记忆

简介

在信息爆炸的时代，我们每个人都在与海量的个人知识、工作文档和历史记录作斗争。传统的搜索工具难以理解上下文，而通用的大型语言模型（LLM）虽然知识渊博，却对你的个人世界一无所知。它不知道你上周与客户的关键对话，不记得你三年前那个项目的技术细节，也无法从你多年的日记中提炼出成长的脉络。检索增强生成（Retrieval-Augmented Generation, RAG） 正是解决这一痛点的核心技术。它通过将外部知识库与LLM的生成能力相结合，让AI能够“回忆”起属于你的专属信息，从而提供高度个性化、准确且可追溯的回答。

简单来说，RAG系统就像为AI配备了一个外接的“记忆硬盘”。当AI需要回答一个问题时，它不再仅仅依赖训练时学到的通用知识，而是会先从这个“记忆硬盘”中检索出最相关的文档片段，然后将这些片段与问题一起交给LLM进行综合分析与生成。这种方法不仅极大地提升了回答的准确性和相关性，还从根本上解决了LLM的“幻觉”问题——因为答案的每一部分都可以追溯到具体的源文档。

本章将带你从零开始，构建一个属于你自己的本地RAG系统。我们将探索以Ollama运行本地模型，搭配pgvector或Chroma作为向量数据库的技术栈，并介绍如何通过Claude的模型上下文协议（MCP）将其优雅地集成到你的日常工作流中。最后，我们将通过工作邮件检索、项目历史查询和个人日记分析这三个真实案例，展示RAG如何从概念落地为改变你信息处理方式的强大工具。

核心概念

要理解RAG，首先需要拆解其工作流程中的几个核心组件：文档加载与分块、向量化与嵌入、向量检索以及提示工程与生成。

文档加载与分块：这是构建知识库的第一步。系统需要支持多种格式（如PDF、Word、Markdown、TXT、网页等）的文档加载。由于LLM有上下文长度限制，长文档必须被切割成语义连贯的“块”。分块策略（如按段落、按固定字符数重叠分块）直接影响后续检索的质量。
向量化与嵌入：这是将文本转化为机器可理解形式的关键。嵌入模型（Embedding Model）将每一个文本块转换为一个高维空间中的向量（一组数字）。语义相近的文本，其向量在空间中的距离也更近。这个向量将被存储到向量数据库中。
向量检索：当用户提出查询时，系统首先使用相同的嵌入模型将查询问题也转化为一个向量。随后，在向量数据库中进行相似度搜索（通常使用余弦相似度或欧氏距离），找出与查询向量最接近的若干个文本块向量，这些对应的文本块就是“相关上下文”。
提示工程与生成：系统将检索到的相关上下文与用户的原始问题一起，精心构造成一个提示（Prompt），发送给LLM。典型的提示模板会指令LLM：“基于以下上下文回答问题，如果上下文不包含答案，请说明你不知道。” LLM基于这个富含上下文的提示，生成最终答案。

整个流程形成了一个高效的“检索-增强-生成”闭环，其数据流如下图所示：

graph TD A[“原始文档
（PDF/Word/邮件等）”] --> B[“文档加载与分块”] B --> C[“文本块”] C --> D[“嵌入模型
（生成向量）”] D --> E[“向量数据库
（存储与索引）”] F[“用户提问”] --> G[“嵌入模型
（生成查询向量）”] G --> H[“向量相似度检索”] E --> H H --> I[“Top K 相关文本块”] I --> J[“构造提示词
（问题+上下文）”] J --> K[“大语言模型 (LLM)”] K --> L[“最终答案”]

实战示例

下面我们将使用 Ollama（运行本地LLM）、Chroma（轻量级向量数据库）和 LangChain（编排框架）搭建一个最简单的本地RAG查询系统。请确保已安装Python及相关库。

# 本地RAG系统核心实现示例
# 安装所需库: pip install langchain langchain-community chromadb ollama sentence-transformers
import os
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import OllamaEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
def build_and_query_rag(data_dir, query):
"""
构建RAG系统并执行查询
:param data_dir: 存放知识库文本文件的目录路径
:param query: 用户提出的问题
"""
# 1. 加载文档
documents = []
for filename in os.listdir(data_dir):
if filename.endswith('.txt'):
file_path = os.path.join(data_dir, filename)
loader = TextLoader(file_path, encoding='utf-8')
documents.extend(loader.load())
print(f"已加载 {len(documents)} 个文档。")
# 2. 分割文本块
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=500,  # 每个块约500字符
chunk_overlap=50, # 块之间重叠50字符以保持语义连贯
separators=["\n\n", "\n", "。", "？", "！", "；", "，", " ", ""]
)
texts = text_splitter.split_documents(documents)
print(f"文档被分割成 {len(texts)} 个文本块。")
# 3. 初始化嵌入模型和向量数据库
# 使用Ollama运行的本地嵌入模型，例如'nomic-embed-text'
embeddings = OllamaEmbeddings(model="nomic-embed-text")
# 将文本块向量化并持久化存储到Chroma数据库
vectorstore = Chroma.from_documents(
documents=texts,
embedding=embeddings,
persist_directory="./chroma_db" # 向量数据库存储路径
)
vectorstore.persist()
print("向量数据库构建完成。")
# 4. 初始化本地LLM（例如使用Qwen2.5）
llm = Ollama(model="qwen2.5:7b", temperature=0.1) # temperature控制创造性，越低越确定
# 5. 定义自定义提示模板，指导LLM基于上下文回答
prompt_template = """
请严格根据以下提供的上下文信息来回答问题。如果上下文中的信息不足以回答问题，请直接说“根据现有资料，我无法回答这个问题”，不要编造信息。
上下文：
{context}
问题：{question}
基于上下文的答案：
"""
PROMPT = PromptTemplate(
template=prompt_template, input_variables=["context", "question"]
)
# 6. 创建检索式问答链
qa_chain = RetrievalQA.from_chain_type(
llm=llm,
chain_type="stuff", # 将检索到的所有上下文“塞”进提示词
retriever=vectorstore.as_retriever(search_kwargs={"k": 3}), # 检索最相关的3个块
chain_type_kwargs={"prompt": PROMPT},
return_source_documents=True # 返回源文档以供验证
)
# 7. 执行查询
print(f"\n问题：{query}")
result = qa_chain.invoke({"query": query})
print(f"\n答案：{result['result']}")
print("\n--- 参考来源 ---")
for i, doc in enumerate(result['source_documents']):
print(f"[来源{i+1}] {doc.metadata.get('source', '未知')} (片段: {doc.page_content[:150]}...)")
if __name__ == "__main__":
# 假设你的知识库文本文件放在 ./my_knowledge_base 目录下
knowledge_base_path = "./my_knowledge_base"
user_question = "我们上个季度的核心项目目标是什么？"
build_and_query_rag(knowledge_base_path, user_question)

对比分析

搭建个人RAG系统有多种技术路径可选，主要区别在于模型部署位置、数据库选型和集成方式。下表对比了三种典型方案：

方案	优势	劣势	适用场景
全本地化 (Ollama + Chroma)	数据完全私有，无网络依赖，成本极低（仅电费），延迟稳定。	需要本地计算资源（GPU/CPU），模型能力受本地硬件限制，维护需要一定技术知识。	对数据隐私要求极高，网络环境不稳定，希望完全掌控技术栈的极客或安全敏感型个人/团队。
云端模型 + 本地向量库 (GPT-4 API + pgvector)	享受顶级LLM的强大能力，本地数据库保障核心知识资产隐私，架构灵活。	产生API调用费用，查询依赖网络，存在数据在推理过程中短暂出域的风险。	追求最佳答案质量，知识库文档量极大（pgvector扩展性强），预算允许API调用，且对隐私风险有可控评估的场景。
一体化云服务 (如Azure AI Search, Pinecone)	开箱即用，免运维，弹性扩展，通常提供高级功能如语义重排、权限管理。	成本较高（订阅费），数据完全托管于第三方，存在供应商锁定风险，定制性较弱。	企业级应用，缺乏专职技术运维团队，需要快速上线和稳定服务，且信任云服务商安全承诺的场景。

对于超级个体而言，全本地化方案或云端模型+本地向量库的混合方案通常是性价比和自主权的最佳平衡点。

最佳实践

构建高效可靠的个人RAG系统，不仅需要技术实现，更需要遵循以下最佳实践：

精心准备知识源：垃圾进，垃圾出。确保导入的文档是清洁、格式规范且相关的。定期清理过时文件，为重要文档添加元数据（如日期、项目名、标签），这能极大提升后续检索精度。
实施分层检索策略：不要仅依赖向量检索。结合关键词检索（如BM25）进行初步筛选，再用向量检索进行语义精排，这种混合检索（Hybrid Search）能同时保证召回率和准确率。对于明确的时间或名称查询，先走元数据过滤是更高效的选择。
设计可解释的交互：永远向用户展示答案的来源片段。这不仅是可追溯性的要求，也能帮助用户判断答案的可靠性，并在发现错误时快速定位问题文档。在提示词中明确要求LLM引用来源编号。
建立持续的评估与优化循环：定期用一批典型问题测试你的RAG系统，记录答案的质量和检索的相关性。根据结果调整分块大小、重叠度、检索数量（K值）以及提示词模板。将效果不佳的查询-答案对作为优化依据。
将RAG无缝嵌入工作流：通过Claude MCP（模型上下文协议）等工具，将你的RAG系统变成AI助手的“记忆外挂”。在Chat界面中，你可以通过简单的指令（如/search_project_history 项目A）直接触发对私有知识库的查询，让信息获取变得如呼吸般自然。

小结

RAG系统是将静态的个人知识库转化为动态智能体的核心桥梁。通过本地部署Ollama模型和向量数据库，我们能够以极低的成本和最高的隐私标准，赋予AI关于我们工作、学习和生活的“长期记忆”。从检索一封关键邮件，到复盘一个复杂项目，再到分析个人成长轨迹，RAG正在重塑我们与信息交互的方式，让知识真正服务于决策与创造。掌握RAG的构建与优化，是成为高效“超级个体”的关键技术拼图。

下一节：知识资产化：将知识转化为生产力