本文介绍了RAG检索增强生成技术通过将信息检索与大语言模型生成相结合解决传统大模型知识过时、幻觉问题、缺乏私有知识等痛点。RAG通过开卷考试的方式让模型实时查阅外部知识库确保回答准确可靠并可溯源。文章详细阐述了RAG的基础流程包括离线索引阶段文档加载、文本分块、向量化、向量数据库构建和在线查询阶段问题向量化、向量检索、重排序、构造Prompt、LLM生成回答并对比了RAG与微调的异同适合想要提升AI应用能力的程序员学习。1、rag 概述1 是什么RAGRetrieval-Augmented Generation检索增强生成 是一种将信息检索与大语言模型生成相结合的技术架构。简单来说就是先从外部知识库中检索相关文档再把检索到的内容作为上下文喂给大模型让模型基于这些真实资料来生成回答。整个流程大致如下用户提问 → 检索相关文档向量数据库/搜索引擎 → 将文档 问题一起送入大模型 → 生成回答2 为什么普通大模型存在几个核心痛点痛点说明知识过时模型训练数据有截止日期无法回答最新信息比如今天的新闻、最新的公司政策幻觉问题模型在不确定时会一本正经地胡说八道编造看似合理但错误的内容缺乏私有知识模型不了解你公司的内部文档、私有数据库、专有业务逻辑不可溯源模型给出回答后你无法知道它的依据是什么无法验证RAG 恰好解决了这些问题——它让模型在回答时有据可查而不是完全依赖训练时记住的知识。3 与微调的区别两者都是让大模型变得更懂特定领域的方法但思路完全不同维度RAG检索增强生成微调Fine-tuning核心思路给模型开卷考试——把参考资料递给它给模型课后补习——让它把知识记住知识更新只需更新知识库即时生效需要重新训练模型成本高、周期长成本较低主要是检索系统的成本较高需要 GPU 算力和标注数据幻觉控制好回答有据可查可以引用原文较差模型仍可能编造内容私有数据安全数据留在自己的知识库中不进入模型数据会融入模型权重有泄露风险适合场景知识密集型问答、文档查询、客服系统调整模型风格/格式、学习特定任务模式知识容量几乎无限知识库可以无限扩展受限于模型参数能记住多少总结RAG 模型本身不变给它一个外挂资料库随时查阅微调 改变模型本身让它内化某些知识或行为模式如何选择知识经常更新、需要准确引用来源 → 用 RAG需要模型学会某种特定语气、格式或推理模式 → 用微调复杂场景 → 两者结合先微调让模型更擅长利用检索结果再用 RAG 提供实时知识一个直观的比喻把大模型想象成一个很聪明的实习生普通大模型实习生凭记忆回答问题记得住的说对记不住的就瞎编RAG给实习生一个文件柜让他先查资料再回答——回答更准确还能告诉你我是根据第几页说的微调送实习生去培训班进修让他变成某个领域的专家——但培训需要时间和费用而且学的东西过时了还得重新培训这就是为什么在大多数企业级知识问答场景中RAG 是首选方案。2、rag 基础流程RAG 的流程分为两大阶段离线索引阶段构建知识库和 在线查询阶段回答问题。1 离线索引阶段Indexing这是构建知识库的过程把原始文档变成可以高效检索的向量知识库。原始文档 → 文档解析 → 文本分块 → 向量化Embedding → 存入向量数据库1. 文档加载与解析Document Loading把各种格式的原始数据转成纯文本PDF、Word、PPT → 提取文字内容网页 → 爬取并清洗 HTML数据库 → 导出结构化内容图片/扫描件 → OCR 识别这一步的难点表格、图片、复杂排版的解析质量直接影响最终效果。2. 文本分块Chunking[[为什么要文本分块]]把长文档切成小段。这是 RAG 中最关键的环节之一分块策略直接决定检索质量。常见的分块策略[[文本分块策略对比]]策略做法优缺点固定大小分块每 512/1024 个 token 切一刀简单粗暴可能切断语义按段落/章节分块根据标题、换行符等自然边界切分保持语义完整但大小不均匀[[递归分块]]先按大边界切太长再按小边界继续切LangChain 默认方案效果较好[[语义分块]]用模型判断语义边界语义变化处切分效果最好但计算成本高滑动窗口相邻分块之间有重叠部分overlap优势性通过重叠窗口 (如10-20%块长)保留跨块上下文文提升检索连续性重要的信息会出现在多个快 中提高召回率。 局限性存储冗余增加计算成本上升分块时的关键参数chunk_size每个块的大小通常 256~1024 tokenschunk_overlap相邻块的重叠部分通常 50~200 tokens原文: [AAAAAA|BBBBBB|CCCCCC|DDDDDD] 固定分块无重叠: [AAAAAA] [BBBBBB] [CCCCCC] [DDDDDD] 滑动窗口有重叠: [AAAAAABB] [BBBBBBCC] [CCCCCCDD] ↑重叠部分↑实践先用小模型重写成带有一定格式的文本例如带有#、##的语义更清晰的分段把整段文本 token 化再按目标 500 tokens 一刀 尽量在段落/句子/句号分隔符处断开的方式切相邻块之间留 50 tokens 重叠保证召回质量3. 向量化 / Embedding[[RAG-Embedding详解]]把每个文本块转成一个高维向量一串数字使得语义相近的文本在向量空间中距离也近。苹果公司发布了新iPhone → [0.12, -0.34, 0.56, ..., 0.78] (1536维向量) Apple推出最新款手机 → [0.11, -0.33, 0.55, ..., 0.77] (非常接近) 今天吃了一个苹果 → [0.67, 0.23, -0.41, ..., 0.15] (距离较远)常用的 Embedding 模型OpenAItext-embedding-3-small/large开源bge-large-zh、m3e、jina-embeddings4. 存入向量数据库把向量和原始文本一起存入专门的向量数据库支持高效的相似度检索。常用向量数据库Chroma轻量适合本地开发FAISSMeta 开源单机高性能Milvus分布式适合大规模生产Pinecone云托管开箱即用Weaviate、Qdrant 等2 在线查询阶段Querying这是查图书馆的过程用户提问时实时检索并生成回答。用户提问 → 问题向量化 → 向量检索召回 Top-K → [可选: 重排序] → 构造 Prompt → LLM 生成回答5. 问题向量化用同一个 Embedding 模型把用户的问题也转成向量。iPhone 16 有什么新功能 → [0.13, -0.31, 0.54, ..., 0.79]6. 向量检索Retrieval在向量数据库中找到与问题向量最相似的 Top-K 个文本块。相似度计算方式余弦相似度最常用欧氏距离点积查询向量 ←→ 向量数据库中所有块 返回 Top-5 最相似的块 #1 (相似度 0.92): iPhone 16 搭载 A18 芯片支持... #2 (相似度 0.87): 新款 iPhone 的相机升级包括... #3 (相似度 0.85): Apple Intelligence 功能将... #4 (相似度 0.71): iPhone 16 Pro 的定价为... #5 (相似度 0.65): iOS 18 带来了全新的...有时还会结合关键词检索BM25做混合检索Hybrid Search兼顾语义匹配和精确匹配。[[RAG-检索策略详解]]7. 重排序Reranking— 可选但推荐[[RAG-重排序详解]]用一个专门的重排序模型如bge-reranker、Cohere Rerank对召回结果重新打分排序过滤掉不相关的噪音。初始召回 5 个块 → Reranker 重新打分 → 保留最相关的 3 个8. 构造 Prompt把检索到的文本块拼接到 Prompt 中和用户问题一起送给大模型。你是xxx性别男。作为xxx你将根据用户的对话基于你的记忆为用户提供准确的信息和指导或者跟用户闲聊。 1. **回答准则** - 严格基于相关信息的内容进行回答 - 禁止编造或臆测任何未经验证的内容 - 若没有可以回答用户的相关信息明确告知并建议用户通过其他官方渠道获取 - 默认情况下请用中文回答用户问题如果用户用英文提问请用英文回答。 2. **回答质量** - 对于涉及多个信息源的问题需要整合归纳要点避免信息冗余 - 保持回答的专业性和准确性适当引用具体的论文或研究成果 - 使用清晰的结构和逻辑展示信息 你的记忆 --------------------- {context_str} --------------------- 请根据用户问题判断是否需要参考你的记忆进行回答。在生成回复时如果参考了你的记忆需遵循以下要求 信息判断优先根据你的记忆回答问题避免捏造信息。如果有多条信息可以参考优先参考publish_time最近的一条信息。 引用来源对所有直接引用的内容使用 [segment_id:引用编号] 形式标注出处例如 [segment_id:1]。 自然流畅融合原文信息使回答尽可能自然不生硬堆砌引用内容。 格式规范必须保证所有的引用都只在段落末尾添加必须按照[segment_id:idx1]或[segment_id:idx1, idx2]等格式 若整段内容或者某个关键信息源于某个记忆, 在段尾添加引用例如根据研究太阳主要由氢和氦组成[segment_id:1] 若整段内容来源于多个记忆使用英文逗号分隔引用编号最多只能引用2个且只能在段尾添加引用例如 根据研究太阳主要由氢和氦组成[segment_id:1,2] 用户问题 {query_str} 你的回答9. LLM 生成回答大模型基于检索到的上下文生成最终回答并可以标注来源。最后2026年技术圈的分化愈发明显降薪裁员潮持续蔓延传统开发、测试等岗位大批缩水不少从业者陷入职业焦虑与之形成鲜明对比的是AI大模型相关岗位迎来疯狂扩招薪资逆势飙升150%大厂更是直接开出70-100W年薪疯抢具备实战能力的大模型人才甚至放宽年龄限制只求能快速落地技术、创造价值很多程序员、职场新人纷纷入局大模型领域绝非盲目跟风而是实实在在看到了不可替代的价值优势这也是2026年最值得抓住的职业风口1、窗口期红利入门门槛友好不同于成熟赛道的“内卷式招聘”2026年大模型人才缺口巨大简历只要达标掌握基础AI应用具备简单项目经验年龄、学历均非硬性要求小白可快速入门转行程序员也能无缝衔接2、技术可复用上手速度翻倍如果你有前后端开发、测试、数据分析等基础在大模型落地、系统部署、Prompt工程等环节会更具优势无需从零开始复用原有技术能力就能快速进阶3、懂业务更吃香竞争力翻倍单纯懂技术已不够2026年大厂更看重“技术业务”的复合型人才有垂直领域金融、医疗、工业等经验者能精准定位模型落地痛点薪资比纯技术岗高出30%以上更重要的是即便没有转型需求用AI大模型工具为工作赋能、提升效率也已经成为80%企业的硬性要求——不会用大模型提效未来很可能被行业淘汰那么2026年小白/程序员该如何高效学习大模型很多人想入门大模型却陷入两大困境要么到处搜集零散资料不成体系越学越懵要么被收费高昂的课程割韭菜花了钱却学不到实战技能白白浪费时间走弯路。今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程所有资料均已整理归档无需拼凑直接领取就能上手学习小白可照做程序员可进阶扫码免费领取全部内容1、大模型系统化学习路线这份学习路线结合2026年行业趋势和新手学习规律由行业专家精心设计从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶避免踩坑。2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍电子文档涵盖2026年最新技术要点包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容4、AI大模型最新行业报告报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容还有2026年中文大模型基准测评报告、AI Agent行业研究报告等帮你站在行业前沿把握技术风口。5、大模型项目实战配套源码项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向还有视频配套代码手把手教你从0到1完成项目开发既能练手提升技术又能丰富简历为求职和职业发展加分。6、2026大模型大厂面试真题2026年大模型面试已全面升级不再单纯考察基础原理而是转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容7、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】