给 AI 装上 "记忆大脑"：Spring AI RAG 实战开源代码 —— 从 0 到 1 构建智能问答系统

type

status

date

slug

summary

一、RAG：让AI告别"信口开河"

在深入代码之前，我们先来搞清楚一个核心问题：什么是RAG？为什么它能解决AI的"幻觉"问题？

RAG全称Retrieval-Augmented Generation（检索增强生成），简单来说就是"先检索，再生成"。想象一下，当你参加考试时，如果能翻书查找答案，是不是比全凭记忆答题准确率高得多？RAG就是给AI开了这样一个"小抄"——在生成回答之前，先从预设的知识库中检索相关信息，再基于这些信息进行回答。

这种机制带来了三个显著优势：

减少幻觉：回答基于真实文档，大大降低胡说八道的概率

知识时效性：通过更新知识库，能让AI掌握最新信息，无需重新训练

可解释性：每个回答都能追溯到具体来源，增强可信度

我们今天要剖析的这个Spring AI RAG项目，正是将这些优势发挥到了极致。它不仅实现了基础的检索增强功能，还加入了对话记忆、文档压缩、多轮对话优化等高级特性，堪称一个"全功能AI大脑增强包"。

二、技术栈揭秘：打造企业级RAG系统的"兵器库"

一个成熟的RAG系统需要多种技术协同工作。我们的项目采用了一套现代化的Java技术栈，每个组件都经过精心挑选：

核心框架：Spring Boot 3.3 + Spring AI 1.0 Spring AI是Spring官方推出的AI开发框架，提供了统一的接口抽象，让我们可以轻松切换不同的AI模型和向量存储，堪称Java开发者的AI"瑞士军刀"。

AI模型：OpenAI GPT-3.5-turbo + text-embedding-ada-002 前者负责生成自然语言回答，后者将文本转换为向量（Embedding），为检索提供基础。

向量存储：PostgreSQL+pgvector + Elasticsearch 向量存储是RAG的"记忆仓库"，pgvector适合中小规模数据，Elasticsearch则擅长处理大规模分布式检索。

记忆系统：Elasticsearch 除了存储向量，我们还用Elasticsearch保存对话历史，让AI能记住之前的聊天内容。

性能优化：Redis缓存 + 多级压缩 Redis用于缓存频繁查询的结果，文档压缩则减少了传递给大模型的内容量，两者共同提升系统响应速度。

可观测性：OpenTelemetry + Zipkin 全链路追踪让我们能清晰看到每个请求的处理过程，轻松排查性能瓶颈。

这套技术栈的精妙之处在于"松耦合、高扩展"——你可以根据实际需求替换任何组件，比如把OpenAI换成国内的大模型，或者用Milvus替代pgvector作为向量存储。

三、核心功能解析：给AI装上"超级大脑"

接下来，我们将深入代码层面，解析这个RAG系统的核心功能。每个功能都像AI大脑的一个"脑区"，负责不同的认知任务。

1. 文档压缩器：给AI的"读书笔记"瘦身

当RAG系统从知识库中检索到相关文档时，这些文档往往篇幅较长，直接传给大模型会浪费大量token（相当于AI的"字数限制"）。文档压缩器就像一个智能编辑，能把冗长的文档精简成核心内容。

我们的DocumentCompressor类实现了四种压缩策略，堪称"文档瘦身四件套"：

抽取式压缩的原理很有意思：它先把文档拆分成句子，计算每个句子的重要性分数，然后保留分数最高的那些句子。这种方法保留了原文，适合对准确性要求高的场景：

摘要式压缩则更激进，它会重新组织语言生成摘要，适合需要高度精简的场景。而混合压缩则结合了抽取和截断的优点，在保留关键信息的同时严格控制长度。

通过application.properties中的配置，我们可以灵活调整压缩行为：

这些参数就像给压缩器设置了"瘦身目标"——你可以根据文档类型和模型能力，调整压缩的激进程度。

2. 多轮对话Advisor：让AI记得"前情提要"

人类对话的一大特点是上下文关联——我们会说"它昨天还好好的"，这里的"它"指代之前提到的事物。普通AI往往会忘记前文，而我们的MultiTurnConversationAdvisor让AI具备了这种"上下文感知"能力。

这个组件就像一个"对话导演"，负责跟踪话题、解析指代、管理上下文：

话题跟踪功能能检测对话主题是否发生转换。比如当用户从"如何配置Redis"突然转到"Spring AI的特点"时，系统会识别出这种话题切换，避免答非所问。

引用解析则解决了"代词指代"问题。当用户问"它支持向量搜索吗"，系统会自动解析"它"指的是前文提到的"PostgreSQL"还是"Elasticsearch"：

这些能力的结合，让AI的对话显得更加自然流畅，就像在和一个真正记住对话内容的人交流。

3. 聊天记忆Advisor：AI的"私人日记本"

如果说多轮对话Advisor负责"短期记忆"，那么ChatMemoryAdvisor就是AI的"长期记忆"系统。它会把所有对话历史保存到Elasticsearch中，让AI能随时回顾过去的聊天内容。

记忆系统的核心挑战是平衡"记忆完整性"和"处理效率"——保存太多历史会占用大量token，太少则会失去上下文。我们的解决方案是"智能记忆筛选"：

这段代码展示了记忆系统的"聪明之处"：它不是简单保存所有历史，而是根据相关性和token限制动态筛选。通过向量相似度计算，只保留与当前查询最相关的历史消息，既保证了上下文连贯性，又不会超出模型的处理能力。

4. 首次对话Advisor：AI的"破冰神器"

第一次和AI对话时，用户往往会有"不知道问什么"的困惑。FirstConversationAdvisor就像AI的"社交礼仪教练"，负责处理首次互动的特殊逻辑：

当检测到用户是第一次使用时，系统会自动发送欢迎信息，介绍自身能力，并尝试了解用户需求。这种"破冰"机制能显著提升用户体验，降低使用门槛。

更智能的是，它还会悄悄建立用户画像：

这些信息会用于后续的个性化服务，让AI越来越懂用户。

5. RAG服务核心：AI大脑的"指挥中心"

如果把前面的组件比作"脑区"，那么RagService就是AI大脑的"指挥中心"，负责协调整个问答流程：

这个流程清晰地展示了RAG的工作原理：先检索（retrieveDocuments），再生成（generateStreamResponse）。其中，检索阶段会先检查缓存，避免重复工作：

生成回答时，系统会把检索到的文档作为上下文传递给大模型：

这个简单的提示词模板包含了关键指令："基于以上信息回答"，这正是RAG能减少幻觉的核心原因——我们明确告诉AI要"照本宣科"，而不是凭空想象。

四、实战部署：让你的AI大脑"跑起来"

理论讲得再多，不如实际跑起来看看。接下来，我们就一步步把这个RAG系统部署到本地环境。

1. 环境准备：搭建"基础设施"

首先，我们需要准备一些基础服务，可以用Docker快速启动：

这些服务分别对应我们的向量存储、记忆系统、缓存和监控工具，就像给AI大脑准备了"存储器"和"监控器"。

2. 配置项目：给AI"设定参数"

接下来，我们需要配置项目参数。复制配置模板并修改关键信息：

重点配置这些内容：

这些配置就像给AI大脑设定"工作模式"，你可以根据需求调整各个功能的开关和参数。

3. 启动项目：让AI"活过来"

配置完成后，用Maven启动项目：

如果一切顺利，你会看到启动日志，包含项目的Banner和功能列表。此时，我们的RAG系统已经"苏醒"，等待接收用户的提问。

4. 测试体验：和你的AI大脑"对话"

我们可以用curl命令测试系统功能：

如果配置了流式响应，还可以体验打字机效果：

第一次提问时，你会收到系统的欢迎信息。继续提问，你会发现AI能记住之前的对话内容，而且回答中会引用检索到的文档信息，有理有据。

五、应用场景：AI大脑的"用武之地"

这个RAG系统并非只是一个玩具，它在实际业务中有着广泛的应用场景：

1. 企业知识库助手

企业内部通常有大量文档：产品手册、技术文档、流程规范等。把这些文档导入RAG系统，就能快速构建一个智能知识库助手。新员工可以用自然语言查询任何问题，比如"如何提交报销"、"API接口的参数要求是什么"，系统会从相关文档中找到答案，大大降低培训成本。

2. 智能客服系统

传统客服需要人工查找资料，效率低下且容易出错。基于RAG的智能客服能自动检索产品信息、服务条款和历史对话，快速准确地回答用户问题。对于复杂问题，还能自动转接人工，并附上相关上下文，提高客服效率。

3. 学术研究助手

研究人员可以把论文库导入系统，快速查询某一领域的研究进展。系统能总结多篇论文的核心观点，对比不同研究的异同，甚至指出研究空白，为科研工作提供灵感。

4. 个人知识管理

对于个人用户，这个系统可以作为"第二大脑"，存储读书笔记、学习资料、项目笔记等。需要时用自然语言查询，比如"我上次记的设计模式笔记在哪里"、"这个问题我之前是怎么解决的"，让知识管理变得轻松高效。

六、进阶优化：让AI大脑更聪明

我们的RAG系统虽然已经具备了核心功能，但还有很大的优化空间。以下是一些进阶方向：

1. 多模态支持

目前系统只能处理文本，未来可以加入图片、表格、PDF等多种格式的文档解析，让AI能"看懂"更丰富的内容。

2. 模型优化

可以尝试不同的大模型和嵌入模型，找到性价比最高的组合。对于有条件的企业，还可以微调模型，让它更适应特定领域的知识。

3. 检索增强

除了向量检索，还可以结合关键词检索、语义检索等多种方式，提高检索的准确性。比如对专业术语使用关键词匹配，对自然语言问题使用向量检索。

4. 个性化推荐

基于用户画像和历史查询，系统可以主动推荐相关知识，实现"想用户所想"的智能服务。

5. 分布式扩展

当文档量和用户量增长时，可以将系统扩展为分布式架构：多节点部署应用服务，Elasticsearch和PostgreSQL使用集群模式，提高系统的吞吐量和可靠性。

七、总结：给AI一个"靠谱"的大脑

通过本文的介绍，我们深入了解了一个基于Spring AI的RAG系统的设计与实现。这个系统就像给AI装上了一个"靠谱"的大脑——不仅能说会道，更能言之有物；不仅能应对单次对话，还能记住上下文；不仅能处理海量信息，还能智能筛选精简。

RAG技术的魅力在于，它不需要我们训练复杂的大模型，却能显著提升AI的实用性和可靠性。而Spring AI框架则降低了RAG系统的开发门槛，让Java开发者也能轻松构建企业级的AI应用。

无论你是想为企业构建智能知识库，还是想打造个人的AI助手，这个项目都提供了一个优秀的起点。希望本文能给你带来启发，让你在AI应用开发的道路上走得更远。

最后，附上项目的GitHub地址：ttps://github.com/listener-He/spring-ai-example，欢迎Star和贡献代码，让我们一起完善这个AI大脑！

参考资料

《Spring AI 实战：从零构建企业级 RAG 应用》- https://blog.hehouhui.cn/archives/2340c7d0-9e17-8098-8f32-cd0c34837b14

《RAG 技术优化：文档压缩与多轮对话实践》- https://blog.hehouhui.cn/archives/2340c7d0-9e17-80c0-a24a-c41d5f5546ac