DataWhale大模型开源教程深度解析:从入门到精通,掌握NLP核心技术
1.引言本文以[DataWhale大模型开源教程]为学习路线进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列token的概率分布可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看LMlanguage modle可以简单的分为自回归模型非自回归模型特点逐字生成文本每个词的生成都依赖于上文关联性好一次性生成整个文本序列不捕捉上文信息优点内容质量高生成速度快缺点生成速度慢质量不稳定常见模型RNN (LSTM, GRU)、Transformer (GPT seriels)Transformer with parallel decoding、Autoregressive-to-Non-autoregressive Translation (ANT)应用场景文本生成、对话系统求质机器翻译、文本摘要求速语言模型的发展历史1948[香农的信息理论]引入了熵entropy的概念()Σ()log(1())衡量我们平均需要多少信息用比特数来表示来描述这个事件事件越确定e.g.抛硬币熵越小越不确定e.g.鉴赏美熵越大在语言模型中熵也可以用来衡量一个模型对语言的掌握程度熵越低对语言的理解越深刻熵越高 模型对语言的理解越模糊生成的文本可能出现语法错误或语义不通N-gram模型N 代表一个数字基于马尔可夫假设即一个词的出现只与前面的N-1个词有关gram 指的是一组连续的单词N-gram 就是由N个单词N-11组成的连续片段如果n太小那么模型将无法捕获长距离的依赖关系。如果n太大统计上将无法得到概率的好估计即使在“大”语料库中几乎所有合理的长序列都出现0次神经语言模型RNN–包括LSTMs、Transformers将单词映射到连续的向量空间中然后通过神经网络来学习这些向量之间的关系神经网络模型是一个黑盒很难解释模型的决策过程N-gram模型神经语言模型学习方式背诵课文只能记住有限的几个词的组合理解语言能够根据上下文理解整个句子的含义复杂度基于统计的简单模型基于神经网络的复杂模型优点直观易实现能更好地捕捉长期依赖关系上下文长度不受n的限制泛化能力强举一反三缺点上下文信息长度有限训练复杂可解释性差联系基础改进2.LLM的能力以下探讨均以GPT3为对象GPT3作为一个极具代表性的大型语言模型在NLP领域语言建模、问答、翻译、算术、新闻文章生成等表现出了超越了现有技术的最高水平而在其他未特殊训练领域只展示出了平均水平。2.1 Adaptation语言模型到任务模型的转化在这里语言模型是对词元序列的概率分布能评估序列在一定提示下还能生成序列而任务被定义为从输入映射到输出如问答任务。主要有两种方式来进行这种Adaptation训练有监督学习提示上下文学习具体方式训练一个新模型对任务的描述建一个或一组提示上下文信息直接输入模型分类探针/finetune微调/轻量级微调zero零/one单/few shot少样本学习学习思路题海战术学习输入与输出之间的映射关系侧重文本理解弄懂上下文信息以推理数据需求大量标注数据相对较少可解释性较强简单模型可直接规则提取较弱但利用注意力机制、添加扰动和可视化工具可将“黑盒”进行一定程度的解释增加模型大小和训练样本的数量可以提升 GPT-3 的性能同时也不能忽视提示学习的重要性3.模型架构语言模型可以看作一个黑箱black box从形象化的概念理解上来说当前大语言模型大模型规模/参数量级大可以根据输入需求的语言描述prompt生成符合需求的结果completion分词和模型架构是构建大语言模型的两个重要方面分词为模型提供了高质量的输入模型架构则决定了模型的学习能力和表达能力在构建大语言模型时需要综合考虑分词方式和模型架构以达到最佳的性能3.1 token分词词元(token)一般在NLP中是指一个文本序列中的最小单元分词是指将字符串文本转换为词元序列常见的分词方法有三基于空格的分词适用于英文但对于单词之间没有空格的中文或者存在很长复合词的德语仅通过空格来判断单词会带来许多问题Byte Pair Encoding (BPE) 分词字节对编码算法通过学习训练数据中的频率特征来生成词元序列的方法步骤包括初始化词汇表查找共同出现次数最多的元素对替换所有出现并添加新符号到词汇表中Unigram 模型基于目标函数的分词模型其目标函数旨在捕捉好的分词的特征并通过迭代优化和剪枝优化词汇表剔除对似然值贡献较小的词汇以减少数据的稀疏性最终得到一个较为准确和合理的词汇表3.2 模型架构上下文向量表征 (Contextual Embedding):作为模型处理的先决条件其关键是将词元序列表示为响应的上下文周围的单词的向量表征三种语言模型类型详细介绍见#6解码端Decoder-OnlyGPT系列常见的自回归语言模型生成上下文向量表征但不能直接用于生成文本缺点在于只能单调的依赖左侧上下文编码端Encoder-OnlyBERT、RoBERTa通常用于分类任务也被称为自然语言理解任务给定提示生成上下文向量表征并对下一个词元生成一个概率分布编码-解码端Encoder-DecoderTransformer模型以及BART、T5等模型结合二者优点可以使用双向上下文向量表征来处理输入并生成输出缺点就说需要更多的特定训练目标3.3 Transformer架构机器延伸深度学习的美妙之处在于能够创建构建模块就像我们用函数构建整个程序一样Transformer 作为深度学习的一种创新模式是真正推动大型语言模型发展的序列模型。其关键是在传统的序列模型如RNN的基础上引入了自注意力机制Self-Attention这种机制将查询与序列中的每个元素进行匹配并形成一个关于词元位置的概率分布使得模型能够更好地捕捉序列数据中的长距离依赖关系Transformer架构关键概念包括注意力机制使得所有的词元都可以“相互通信”残差连接ResNet残差跳跃连接x1:Lf(x1:L)如果f的梯度消失梯度仍然可以通过x1:L进行计算归一化接收一个向量并确保其元素不会太大ResNet和归一化的应用有效解决梯度消失的问题提高模型的训练稳定性位置嵌入根据定义词元的嵌入不依赖于其在序列中的位置否则句子位置的角度忽略了上下文的信息产生不合理的信息因此将位置信息添加到嵌入中4.新的模型架构上一小节中提到神经语言模型的核心接口是一个将token序列映射到上下文嵌入的编码器这种稠密的Transformer模型架构是目前开发大语言模型的主要范式。但是随着数据的扩张扩展这种模型并非易事需要数据、模型和流水并行需要重新思考如何构建大语言模型。现在提出了扩展大语言模型的两种新型模型架构混合专家模型Mixture of Experts, MoE通过创建一组专家每个输入仅激活一小部分专家从而提高了模型的规模上限类似一个由专家组成的咨询委员会每个人都有不同的背景。每个专家都是一个线性分类器引入平衡机制来确保所有专家都能得到充分利用混合专家非常有利于并行。每个专家都可以放置在不同的机器上降低训练和部署的成本将该思想应用于语言模型因前馈层对于每个token是独立的将每个前馈网络转变为混合专家MoE前馈网络基于检索的模型将外部知识库与语言模型结合起来在生成文本时模型可以从知识库中检索相关信息从而提高生成文本的质量和相关性克服稠密Transformer的缩放限制如果有人问你一个问题你会进行网络搜索并阅读搜索得到的文档以得出答案混合专家模型基于检索的模型核心思想将模型拆分成多个专家模型将模型与外部知识库结合优势参数效率高性能提升可扩展性强知识增强适应性强挑战路由机制设计训练稳定性检索效率知识整合应用场景自然语言处理计算机视觉问答系统文本摘要5.模型背后的数据任何机器学习方法的起点都是训练数据接下来讨论这些模型是如何构建的网络是寻找这种文本的自然场所但不是唯一场所。这将是我们主要关注的焦点例如Common Crawl由于其便利性它已经成为许多模型如T5、GPT-3和Gopher的标准数据源但网络数据存在无意义文本和模板文本、数据代表性不足、偏见和数据污染等问题因此需要对数据进行筛选和策划。WebText、OpenWebText数据集WebText数据集被用于训练GPT-2模型WebText数据集没有公开发布OpenWebText数据集在理念上复制了WebText的构建方法尽可能地复现WebText的数据特性和结构。Colossal Clean Crawled CorpusC4C4语料库被用来训练T5模型。Benchmark的数据污染问题Benchmark基准测试是用来评估模型性能的标准数据集数据污染指的是Benchmark数据集中存在与训练数据重叠、泄露或存在其他形式的偏差导致模型在污染的Benchmark上表现良好但在实际应用中表现不佳的情况。GPT-3的数据集在处理数据时GPT-3采用了模糊去重的方法检测13-gram重叠如果在少于10个训练文档中出现则移除窗口或文档并从基准数据集中移除了数据。The Pile数据集网络爬虫之外的较小的高质量数据源如学术和专业资源包含了大量GPT-3数据集未能很好覆盖的信息。5.2 数据集文档数据集文档可以帮助数据集创建者反思潜在危害并帮助使用者了解数据集的适用范围。实例字段描述数据集名称中文情感分析数据集数据来源爬取自各大社交媒体平台数据规模100万条评论包含文本和情感标签5.3 数据生态数据生态简单来说就是围绕数据的产生、采集、存储、处理、分析、应用等一系列活动所形成的复杂系统。就像自然生态系统一样数据生态系统中的各个组成部分相互依存、相互影响共同推动数据的流动和价值创造。数据治理提供了一套规则和机制来管理数据生态中的各个环节确保数据的质量、安全、合规性。数据尊严强调对个人数据隐私的尊重以及对数据使用的伦理约束。只有在尊重数据尊严的前提下数据生态才能健康发展避免引发社会伦理问题。6.模型训练6.1目标函数解码端Decoder-Only计算单向上下文嵌入最大似然函数Maximum Likelihood EstimationMLE通过寻找一组参数使得模型产生观测数据的概率最大。它帮助模型学习到最优的参数即生成序列的最大概率从而生成最可能的输出序列编码端Encoder-Only计算双向上下文嵌入掩码语言模型基本思想是通过加噪随机遮蔽让模型去预测被遮盖的部分因为模型无法简单地通过记忆训练数据中的单词顺序来预测下一个单词而是必须根据上下文信息来推断进而学习到词语之间的语义关系、语法结构等深层信息下一句预测目标是预测第二句是否跟随第一句将两个句子输入到模型中模型会输出一个概率值表示这两个句子是否为连续的使用交叉熵损失函数来训练模型目标是最大化正确预测的概率编码-解码端Encoder-Decoder双向编码输入自回归解码输出将输入进行编码然后进行自回归解码6.2优化算法随机梯度下降SGD用于最小化一个函数通常是模型的损失函数与传统的梯度下降相比SGD每次迭代只随机抽取一个训练样本计算其梯度并更新模型参数Adam(adaptive moment estimation)引入动量继续朝同一方向移动参数 θ0 的每个维度都有一个自适应不同的步长受二阶方法启发AdaFactor不存储 O(m×n) 矩阵而是存储行和列的和 O(mn) 并重构矩阵去除动量它被用来训练T5混合精度训练另一种减少存储的方法学习率通常情况下学习率会随着时间的推移而衰减对于Transformer模型我们实际上需要通过预热warmup提高学习率初始化7.Adaptation大型语言模型LLM通常在广泛的领域内进行训练这使得它们在处理与训练数据差异很大的下游任务时可能表现不佳。这些差异可以从格式、主题和时间三个方面来探讨因此需要适配语言模型以满足各种下游任务的需求。探针Probing通过在冻结的语言模型之上训练一个特定任务的预测头来实现适配即不会对庞大的预训练模型进行任何调整而是直接将预训练模型的输出作为输入只对一小部分参数进行训练其使用线性的或浅前馈网络来学习预训练模型的输出并获得分析和理解模型内容表示的能力微调Fine-tuning在预训练语言模型的基础上针对特定任务对模型的部分或全部参数进行进一步训练的过程。将大型语言模型参数视为下游任务的进一步训练的初始化来实现适配但其成本高昂因为需要为每个下游任务保存整个模型轻量级微调Lightweight fine-tuning平衡了微调和探测方法的优缺点的适配方法通过只优化少量参数模型的1%来实现高效的适配同时保留了模型的表达能力包含提示调整、前缀调整和适配器调整等多种技术这些技术通过在模型的输入或内部结构上添加可学习的参数来实现对特定任务的适配轻量级微调有许多变体其中一些主要的方法包括提示调整Prompt Tuning前缀调整Prefix Tuning适配器调整Adapter Tuning8.分布式训练随着深度学习模型规模的不断扩大单机训练已经无法满足需求分布式训练成为必然趋势常见的并行策略数据并行将数据进行切分每个设备上都拥有完整的模型模型并行将模型进行切分每个设备上都拥有完整的数据流水并行将神经网络切分为多个阶段并分发到不同的计算设备上混合并行将多种并行策略混用9.LM的危害性能差异性能差异意味着模型在某些群体中表现更好在其他群体中表现更差。例如自动语音识别ASR系统在黑人说话者的识别性能要差于白人说话者社会偏见和刻板印象刻板印象是一种特定且普遍存在的社会偏见形式其中的关联是被广泛持有、过度简化并且一般固定的。对于人类来说这些关联来自于获得快速的认知启发。它们对于语言技术尤为重要因为刻板印象是通过语言构建、获取和传播的社会偏见可能导致性能差异如果大型语言模型无法理解表明反刻板印象关联的数据则它们在这些数据上的表现可能会较差有害信息有毒性定义为“粗鲁、不尊重或不合理的行为可能使某人想要离开一场对话”虚假信息误导性信息Misinformation指的是不论意图如何被误导性地呈现为真实的错误信息虚假信息Disinformation则是有意为之地呈现错误或误导性信息以欺骗某一特定受众其中存在对抗性质10.LM法律版权问题大模型训练数据来源广泛其中可能包含大量受版权保护的作品。如何界定模型的原创性与侵权行为之间的界限模型生成的文本是否享有版权如果享有版权归属如何确定责任问题大模型生成的内容可能包含虚假信息、歧视性言论等如何界定模型提供者的责任如果大模型造成实际损害谁应承担赔偿责任隐私问题大模型训练过程中可能涉及大量个人隐私数据如何保护这些数据大模型生成的文本中是否可能泄露个人隐私信息安全问题大模型可能被用于生成虚假信息、进行网络攻击等非法活动如何保障网络安全伦理问题大模型的发展可能带来一系列伦理问题如就业歧视、社会不平等等。11.环境影响大多数关于人工智能和机器学习对环境影响的工作都集中在温室气体排放上数据中心使用水进行冷却发电是第二大用水需求处理水和废水需要电力释放到环境中空气、水、土壤的化学物质可致癌12.Agent–基于大模型的智能体一般而言基于LLM的智能体框架包括以下核心组件用户请求 - 用户的问题或请求智能体/大脑 - 充当协调者的智能体核心规划 - 协助智能体规划未来的行动无反馈规划思维链思维树分步骤细分复杂问题为一系列更小、更简单的任务有反馈规划模型能够根据过去的行动和观察反复思考和细化执行计划记忆 - 管理智能体的过往行为短期记忆 - 关注于当前情境的上下文信息是短暂且有限的通常通过上下文窗口限制的学习实现。长期记忆 - 储存智能体的历史行为和思考通过外部向量存储实现以便快速检索重要信息。混合记忆 -通过整合短期和长期记忆最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】