基于RAG与MCP技术构建智能对话记忆系统的工程实践

张

张建站

2026/5/2 5:23:47

10分钟阅读

1. 项目概述当RAG遇上MCP构建可对话的智能记忆体最近在折腾AI应用开发特别是想让大语言模型LLM能记住更长的对话历史并且能基于这些记忆进行更精准的推理和回答。相信很多同行都遇到过类似问题传统的聊天记录只是线性的文本堆砌模型很难从中提取结构化信息更别说进行复杂的关联查询了。这时候检索增强生成RAG和多上下文提示MCP这两个技术就成了我们手里的王牌。而kshidenko/rag-memory-pg-mcp这个项目正是将这两张王牌组合起来打造一个基于PostgreSQL的、可持久化、可检索的智能对话记忆系统的实践。简单来说这个项目提供了一个工具包让你能轻松地把LLM对话中产生的信息——比如用户偏好、历史决策、事实片段——结构化地存储到PostgreSQL数据库里。当下次对话需要参考历史时系统不是把整个聊天记录一股脑塞给模型那样会浪费大量Token且效果不佳而是通过向量检索技术从记忆库中精准找出最相关的几条记忆再通过MCP技术将这些记忆作为“上下文”巧妙地编织进新的提示词中从而让LLM的回答更有连续性、个性化和准确性。它非常适合用来构建需要长期记忆的AI助手、复杂的多轮任务对话系统或者任何需要AI从历史交互中学习的场景。如果你正在为“如何让AI记住事情”而头疼这个项目的思路和实现值得深入琢磨。2. 核心架构与设计思路拆解这个项目的核心价值不在于发明了某项新技术而在于对现有成熟技术RAG, MCP, PostgreSQL向量扩展进行了一次优雅的、面向特定问题对话记忆的工程化整合。理解其设计思路比直接看代码更重要。2.1 为什么是“RAG MCP PostgreSQL”这个组合检索增强生成RAG解决了“海量信息中精准查找”的问题。在对话记忆场景下我们不可能在每次提问时都把成百上千条历史对话都传给模型。RAG通过将记忆文本转换成向量嵌入并利用向量相似度搜索可以毫秒级地从记忆库中召回与当前问题最相关的几条记忆。这就像给AI装了一个高速的“记忆索引器”。多上下文提示MCP解决了“如何有效利用检索到的信息”的问题。单纯把检索到的文本片段拼接到用户问题前面是一种简单粗暴的方式。MCP提供了更精细的控制能力它允许我们将系统指令、检索到的记忆、用户当前查询、以及可能的工具调用结果等以结构化的、分门别类的方式组织成提示词。这样模型能更清晰地理解每一段文本的意图和角色从而生成更准确的回答。例如可以将检索到的记忆明确标记为“已知的用户背景”将当前查询标记为“待解决的问题”。PostgreSQL pgvector解决了“记忆的持久化与高效检索”的问题。选择PostgreSQL作为存储后端首先是利用了其作为成熟关系型数据库的可靠性、事务支持和丰富的查询能力。更重要的是通过pgvector这个扩展PostgreSQL可以直接在数据库内部进行向量运算和相似度搜索实现了“存储即索引”。这意味着我们不需要维护一个独立的向量数据库如Milvus, Pinecone简化了系统架构降低了运维复杂度并且保证了数据的一致性。对于中小规模、对延迟不极度敏感的记忆系统来说这是一个非常务实且高效的选择。2.2 记忆的抽象从对话片段到可检索单元项目对“记忆”进行了关键抽象。它不仅仅存储原始的对话文本而是将其封装为一个结构化的对象。一个典型的记忆单元可能包含以下字段内容Content记忆的核心文本例如“用户喜欢在周五晚上看电影”。嵌入向量Embedding上述内容通过文本嵌入模型如OpenAI的text-embedding-3-small计算得到的向量。元数据Metadata用于描述和筛选记忆的标签例如{“user_id”: “alice”, “session_id”: “chat_001”, “memory_type”: “preference”, “timestamp”: “2023-10-27T20:00:00Z”}。重要性分数Importance Score一个可选的、由模型或规则生成的数值表示该条记忆的长期重要性可用于检索时的加权或清理策略。这种设计使得记忆不再是扁平的文本流而是变成了一个带有丰富上下文、可分类、可加权、可高效查询的数据实体。检索时我们可以根据用户ID过滤根据记忆类型筛选再根据向量相似度排序从而获得极其精准的记忆子集。3. 核心组件与实操要点解析要复现或使用这个项目需要对其几个核心组件有清晰的认识。下面我将拆解关键部分并附上实操中的注意事项。3.1 向量化与嵌入模型选型项目的检索能力基石是文本嵌入模型。它将文本转换为数学向量相似内容的向量在空间中的距离也更近。常见选择与考量OpenAI Embeddings API(text-embedding-3-small/large): 最省事的选择效果稳定API调用简单。缺点是会产生持续的外部API费用且有网络延迟。对于个人项目或初期原型text-embedding-3-small在成本、速度和效果上取得了很好的平衡。本地开源模型(如BAAI/bge-small-en-v1.5,sentence-transformers/all-MiniLM-L6-v2): 使用SentenceTransformers等库在本地运行。优势是零API成本、数据隐私性好、延迟低。缺点是需要本地GPU或CPU资源并且模型效果可能略逊于顶级商用API。对于数据敏感或需要离线运行的应用这是必选之路。其他云服务提供商(如 Cohere, Voyage AI): 提供类似OpenAI的嵌入API可能在特定语种或任务上有优化可以作为备选。实操心得嵌入维度与pgvector的匹配选择嵌入模型时必须关注其输出的向量维度例如text-embedding-3-small是1536维。在创建PostgreSQL中的向量字段时必须明确指定相同的维度例如VECTOR(1536)。维度不匹配会导致存储或查询失败。此外高维向量如3072维虽然可能包含更多信息但也会增加存储空间和计算开销需要权衡。3.2 PostgreSQL与pgvector的配置与优化这是项目的存储和检索引擎其配置直接影响性能。安装与基础配置安装pgvector扩展在PostgreSQL数据库中执行CREATE EXTENSION IF NOT EXISTS vector;。确保你的PostgreSQL版本建议12以上和pgvector扩展版本兼容。设计记忆表CREATE TABLE memories ( id BIGSERIAL PRIMARY KEY, content TEXT NOT NULL, embedding VECTOR(1536), -- 维度与你的嵌入模型匹配 metadata JSONB DEFAULT {}::jsonb, importance FLOAT DEFAULT 1.0, created_at TIMESTAMP WITH TIME ZONE DEFAULT NOW() );创建向量索引这是加速相似度搜索的关键。pgvector支持多种索引类型最常用的是HNSWHierarchical Navigable Small World。CREATE INDEX ON memories USING hnsw (embedding vector_cosine_ops);vector_cosine_ops表示使用余弦相似度作为距离度量这是文本相似度最常用的度量方式。你也可以选择vector_l2_ops(欧氏距离) 或vector_ip_ops(内积)。性能调优要点索引参数创建HNSW索引时可以指定m(每个节点的最大连接数) 和ef_construction(构建时的搜索范围)例如USING hnsw (embedding vector_cosine_ops) WITH (m 16, ef_construction 64);。m和ef_construction值越大索引构建越慢、占用空间越大但查询精度和速度可能更好。对于千万级以下的数据集默认值或稍大的值通常足够。查询参数执行相似度搜索时可以使用SET hnsw.ef_search 100;来临时增加搜索时的动态候选集大小以提高召回率但会牺牲一些速度。这需要在查询精度和延迟之间做权衡。连接池应用服务应该使用连接池如PgBouncer来管理数据库连接避免频繁建立连接的开销。3.3 记忆的写入、检索与更新策略记忆写入记忆化当对话中产生值得记忆的信息时系统需要调用嵌入模型将其向量化然后连同元数据一起插入memories表。这里的一个关键决策点是什么内容值得被记忆项目通常提供一些启发式规则或用一个轻量级模型来打分基于规则包含特定关键词如“我喜欢”、“我讨厌”、“我的地址是”、用户明确要求“记住这个”的语句。基于模型打分用一个文本分类模型或通过提示词让LLM本身判断一段文本是否包含值得长期记忆的个性化信息或事实并输出一个重要性分数。记忆检索回忆这是RAG的核心步骤。当新的用户查询到来时生成查询向量使用相同的嵌入模型将用户当前查询转换为向量。构建检索SQL在数据库中进行近似最近邻搜索。SELECT content, metadata, 1 - (embedding ‘[查询向量]’) AS similarity FROM memories WHERE metadata-‘user_id’ ‘current_user_id’ -- 按用户过滤 ORDER BY embedding ‘[查询向量]’ -- 按余弦距离排序 LIMIT 5; -- 返回最相似的5条这里是pgvector提供的余弦距离运算符。1 - distance即得到相似度分数。结果后处理可以对检索到的记忆按相似度或重要性进行重排序、去重或截断。记忆更新与清理记忆系统不是只增不减的。需要考虑更新当用户说“我其实不喜欢咖啡了”系统需要能找到之前“我喜欢咖啡”的记忆并将其内容更新或重要性降低。清理遗忘可以基于时间戳只保留最近N天的记忆、基于重要性分数定期删除低分记忆、或基于数量每个用户只保留最重要的N条来实施清理策略防止数据库无限膨胀。4. 与LLM框架的集成实操这个记忆系统最终需要与LLM应用框架如LangChain, LlamaIndex, 或直接使用OpenAI API集成。项目kshidenko/rag-memory-pg-mcp很可能提供了与这些框架集成的工具类或示例。4.1 基于LangChain的集成示例LangChain有成熟的内存模块和RAG链。我们可以自定义一个基于PostgreSQL的记忆后端。from langchain.memory import BaseChatMemory from langchain.schema import BaseMessage from pgvector.psycopg2 import register_vector import psycopg2 import numpy as np class PostgresChatMemory(BaseChatMemory): 自定义的PostgreSQL聊天记忆体 connection_string: str user_id: str k: int 5 # 检索数量 def load_memory_variables(self, inputs: Dict[str, Any]) - Dict[str, Any]: 根据当前输入加载相关记忆到变量中 query inputs.get(“human_input”, “”) if not query: return {“relevant_memories”: []} # 1. 获取查询向量 (此处需调用你的嵌入函数) query_embedding get_embedding(query) # 2. 从PG检索 conn psycopg2.connect(self.connection_string) register_vector(conn) cur conn.cursor() cur.execute(“”” SELECT content FROM memories WHERE metadata-‘user_id’ %s ORDER BY embedding %s LIMIT %s “””, (self.user_id, query_embedding, self.k)) results cur.fetchall() conn.close() memories [r[0] for r in results] # 将记忆格式化作为上下文返回 return {“relevant_memories”: “\n”.join(memories)} def save_context(self, inputs: Dict[str, Any], outputs: Dict[str, Any]) - None: 判断并保存一轮对话中有价值的信息到记忆库 human_input inputs.get(“human_input”, “”) ai_output outputs.get(“output”, “”) # 启发式判断AI的回答中是否总结了用户信息 # 或者可以用一个LLM调用专门判断 human_input 是否值得记忆 if should_memorize(human_input, ai_output): memory_content f“User said: {human_input}” memory_embedding get_embedding(memory_content) # 插入到PostgreSQL save_to_pg(self.user_id, memory_content, memory_embedding, memory_type“fact”)然后在构建对话链时将这个记忆对象加入进去from langchain.chains import ConversationChain from langchain_community.llms import OpenAI memory PostgresChatMemory(connection_string“your_pg_uri”, user_id“alice”) llm OpenAI(temperature0) conversation ConversationChain(llmllm, memorymemory, verboseTrue) # 对话会自动加载和保存记忆 response conversation.predict(input“你知道我喜欢什么类型的电影吗”) # 记忆系统会检索到之前存储的“用户喜欢在周五晚上看电影”等相关信息并注入上下文。4.2 实现MCP多上下文提示模式MCP的精髓在于结构化提示。我们可以这样构建最终的提示词模板你是一个有帮助的助手拥有关于用户的以下背景知识 {relevant_memories} 当前的对话历史最近几轮 {chat_history} 请严格根据以上背景知识和对话历史回答用户的最新问题。用户问题{input} 你的回答在这个模板中{relevant_memories}由我们的PostgresChatMemory.load_memory_variables动态填充。{chat_history}可以由LangChain的ConversationBufferWindowMemory提供只保留最近几轮对话解决短期记忆。{input}是用户当前问题。这样LLM就同时拥有了长期个性化记忆RAG从PG获取和短期对话上下文Buffer Memory并且通过清晰的提示词结构知道如何利用它们。这就是RAG-Memory与MCP结合的威力。5. 部署、监控与常见问题排查将这套系统投入生产环境还需要考虑部署架构和运维监控。5.1 系统部署架构建议一个典型的微服务化部署可能如下记忆服务Memory Service一个独立的Web服务如FastAPI应用提供/remember写入记忆、/recall检索记忆、/forget清理记忆等端点。它封装了所有与PostgreSQL和嵌入模型的交互逻辑。LLM应用服务LLM App Service你的主聊天或任务处理服务。在需要记忆时调用记忆服务的/recall接口在生成值得记忆的内容时调用/remember接口。PostgreSQL数据库单独部署配置好连接池、备份和监控。嵌入模型服务如果使用本地模型可以将其封装为另一个服务如用Transformers库的推理API如果使用OpenAI等API则直接调用。这种解耦架构使得各个组件可以独立扩展、升级和故障排查。5.2 性能监控与指标为了保障系统稳定运行需要监控以下关键指标记忆服务/recall和/remember接口的延迟P50, P99、错误率、调用量。PostgreSQL数据库连接数、CPU/内存使用率、慢查询数量、向量索引的缓存命中率。嵌入模型如果使用本地模型监控其GPU/CPU使用率和推理延迟如果使用API监控API调用延迟、费用和限流情况。业务指标记忆命中率检索到的记忆中有多少被实际用于生成回答、用户对回答连续性和个性化的满意度可通过反馈或间接指标衡量。5.3 常见问题与排查技巧实录在实际开发和运维中我踩过不少坑这里总结几个典型问题问题1检索结果不相关导致AI回答“胡言乱语”。排查思路检查嵌入模型确保记忆写入和查询检索使用的是同一个嵌入模型。混用不同模型产生的向量空间不一致相似度计算无意义。检查向量维度确认数据库表结构中的VECTOR(N)维度N与模型输出维度完全一致。审视记忆内容质量存储的记忆是否是干净、信息密集的句子避免存储过于冗长、包含无关信息的对话片段。可以在存储前对文本进行简单的清洗或摘要。调整检索数量k值k太小可能遗漏关键记忆k太大可能引入噪声。需要根据场景调整通常从3-10开始尝试。尝试不同的相似度度量对于文本余弦相似度通常最优。但如果效果不佳可以试试欧氏距离vector_l2_ops尽管这很少见。解决技巧建立一个简单的测试集包含一些查询和期望检索到的记忆。在开发阶段定期运行这个测试监控检索准确率的变化。问题2记忆写入或检索速度慢。排查思路数据库索引确认已在embedding字段上创建了HNSW或IVFFlat索引。没有索引的向量查询是全表扫描速度极慢。索引参数对于HNSW适当增加ef_search查询时可以以速度为代价提高召回率。但首先确保ef_construction构建时足够大例如64-128以保证索引本身的质量。嵌入模型延迟如果使用远程API网络延迟可能是瓶颈。考虑使用更小的模型如text-embedding-3-small或在本地部署轻量级开源模型。连接池检查应用是否使用了数据库连接池。频繁创建新连接开销巨大。解决技巧使用EXPLAIN ANALYZE命令分析你的检索SQL查看查询计划确认是否使用了向量索引。问题3记忆冲突或错误记忆难以修正。场景用户之前说“我对花生过敏”系统记住了。后来用户开玩笑说“我超爱花生酱”系统可能又记住了这条矛盾的信息。解决思路元数据版本控制在记忆的metadata中增加一个version或valid_before时间戳。检索时优先取最新版本或有效版本。重要性衰减与更新设计机制当检测到新旧记忆冲突时降低旧记忆的重要性分数或直接用新记忆覆盖旧记忆在metadata中标记为已覆盖。用户显式修正提供用户界面让用户查看和编辑AI关于他的记忆例如“您之前告诉我…需要更新吗”。这是最可靠的方式。实操心得记忆系统不可能100%准确设计时必须包含“纠错”的出口。将记忆系统视为一个“概率性的知识库”而非绝对真理的来源并在产品逻辑上处理好冲突情况。问题4存储成本增长过快。排查思路每条记忆除了文本还有一个高维向量如1536维的float数组占用空间不小。解决技巧实施清理策略如前所述基于时间、重要性或数量进行自动清理。向量压缩一些嵌入模型支持输出更低维度的向量如OpenAI的text-embedding-3-large可指定输出维度。降低维度能显著减少存储空间和索引大小但可能会轻微影响检索质量需要进行测试权衡。选择更经济的嵌入模型对比不同模型在相同任务下的效果和成本包括API成本和向量存储成本。构建一个健壮的RAG记忆系统一半是技术另一半是对业务场景的深入理解。kshidenko/rag-memory-pg-mcp项目提供了一个强大的起点和经过实践检验的模式。我的体会是开始时不要追求过于复杂的记忆逻辑先用简单的规则如记住包含“我”的陈述跑通整个流程然后通过观察实际对话日志逐步迭代和优化你的记忆判断策略和检索策略。记住这个系统的目标是增强用户体验而不是成为一个完美的知识图谱实用性和可靠性永远是第一位的。

分支语句（下）

switch语句和break语句switch语句是一种特殊的if......else结构，用于判断条件有多个结果情况，它可以把多种else if语句变得更易用，可读性更高的形式。基本语法形式是：switch（表达式） {case 1：语…...

2026/5/2 5:22:26 阅读更多 →

从PyTorch DDP到NCCL底层：一次搞懂GPU跨机通信（RDMA/IB/RoCE扫盲）

从PyTorch DDP到NCCL底层：GPU跨机通信全景解析当你在PyTorch中写下DistributedDataParallel时，背后究竟发生了什么？为什么同样的代码在IB网络下比普通以太网快3倍？本文将带你从框架API一路下沉到网卡硬件，揭示GPU跨机…...

2026/5/2 5:17:30 阅读更多 →

不止是Python：用Go/Node.js调用钉钉机器人，如何避免‘缺少参数json’错误

跨语言调用钉钉机器人实战：Go/Node.js如何规避40035参数错误钉钉机器人作为企业级消息推送的利器，早已超越单一技术栈的范畴。当开发者从Python转向Go或Node.js时，常会遇到一个看似简单却令人困惑的报错：{"errcode":40…...

2026/5/2 5:10:30 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/5/1 20:02:40 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/5/1 20:02:41 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/5/1 7:45:55 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/5/1 20:02:42 阅读更多 →