(二) LLM探索能力-1. 大语言模型能够进行上下文探索吗?
大语言模型能够进行上下文探索吗1. 上下文学习 (ICL)1.1. 上下文监督学习ICSL1.2. 上下文强化学习 (ICRL)2. 大语言模型能够进行上下文探索吗2.1. 实验方法和结果2.2. 结论1. 上下文学习 (ICL)如果想让模型学会“预测房价”你通常需要收集大量数据针对“房价预测”这个任务对模型进行微调Fine-tuning。这意味着你要修改模型的权重参数这是一个昂贵且持久的过程。(传统机器学习逻辑)你需要收集数据→ \rightarrow→设计模型→ \rightarrow→训练/微调 (Training/Fine-tuning)→ \rightarrow→权重发生变化→ \rightarrow→部署。这是一个物理上的“改写大脑”过程。上下文学习ICL逻辑在提示词Prompt中完整地描述问题并提供相关数据即可利用预训练的 LLM 解决特定问题。例如用户可以向 LLM 输入数值协变量向量和标量目标随后通过在提示词中加入新的协变量向量从模型中获得回归式的预测结果。模型不需要“学会”预测房价。你只需要把“几组房价样本”作为背景信息Context写在 Prompt 里模型就会利用它预训练时学到的深层逻辑像拼积木一样通过类比推理直接得出答案整个过程不改动模型权重。LLM 并未针对这种行为进行显式训练相反用于上下文学习的基础算法是从训练语料库中提取出来的并在模型规模扩大时涌现。随着模型参数量规模突破临界点比如从 10 亿级到 1000 亿级模型似乎在海量的预训练语料中“悟出”了某种逻辑推理的通用算法。这种能力就像是在处理海量语言数据的过程中顺带学会了“通过分析给定数据模式来解决新问题”的元能力LLM 是一个具备“隐式学习算法”的通用处理器。模型的大脑权重没有发生任何物理改变。1.1. 上下文监督学习ICSLICL 最初并非被“设计”出来的而是在 GPT-3 大规模训练后研究者惊奇地发现只要给模型几个示例它就能模仿模式。理论探讨机制层研究者们在问“为什么会这样”例如Transformer 的注意力机制是不是在内部模拟了某种梯度下降的过程即“权重即模型上下文即动态调整”实证分析性能层研究者们在测“边界在哪”通过大量的实验测量上下文长度、示例排列顺序、示例质量对输出结果的影响。应用层面工具层开发者们在用“怎么变现”将 ICL 应用于文本分类、情感分析、甚至是复杂的函数映射。目前的文献主要集中在预测或监督学习任务上尽管理论进展尚处于起步阶段但我们对如何应用“上下文监督学习ICSL”的实践认知正在迅速形成。ICSL 的局限性它像是一个“静态的答题助手”。 它处理的是已知规律。你给模型输入A AA它基于学过的模式输出B BB。它像是一个百科全书式的知识库你问什么它答什么它不需要对输出的结果负责也不需要根据反馈调整策略。它适用于“预测”、“分类”等不需要与环境互动的任务。为什么需要变革现实世界中的商业场景如你的数学推导探索不仅仅是“答题”而是“不断在错综复杂的状态中做决策”。ICSL 处理的是“已知模式的匹配”而 ICRL 处理的是“未知环境的探索”。1.2. 上下文强化学习 (ICRL)尽管 ICSL 是一项重要能力但许多应用需要机器学习模型进行下游决策。因此上下文强化学习ICRL是自然而然的下一个前沿。上下文强化学习本质是“博弈”它处理的是未知环境。智能体必须在复杂的反馈中例如实验失败了、游戏输了根据环境奖励Reward来实时调整自己的行为策略。它像是一个自主行动的管理者必须对每一步决策的后果负责并试图通过反馈不断优化策略。LLM 已经被用作从自然科学实验设计到游戏博弈等各种应用中的决策智能体但无论在理论层面还是操作层面我们对 ICRL 的理解都远不如对 ICSL 的理解深入。迄今为止我们尚缺乏关于 LLM 是否可被视为通用决策智能体的系统性理解。决策智能体必须具备三项核心能力泛化监督学习所需、探索为了获取更多信息而做出短期次优决策和规划考量决策的长期后果。重点关注探索即为了评估替代方案并减少不确定性而主动收集信息的能力。近期一系列论文表明当 Transformer 模型被显式训练以利用来自强化学习智能体或相关任务专家示范的数据时它们会表现出上下文强化学习行为包括探索。此类训练往往费时、昂贵且可能是特定于任务的。这些发现并未阐明通过标准训练方法获得的通用 LLM 是否表现出探索行为这引出了一个基本问题当代 LLM 是否具备在上下文中进行探索的能力2. 大语言模型能够进行上下文探索吗在机器学习特别是强化学习中“探索”Exploration是指智能体为了获得更高的长期奖励主动尝试未知或不确定动作的行为。如果 AI 想要成为一个优秀的“决策者”比如自动驾驶、投资助手、科学研究工具它必须能够自主探索而不是仅仅根据已有的经验重复陈旧的行为。2.1. 实验方法和结果实验方法研究人员没有对模型进行微调即没有改变模型的参数而是考察它们“原生”的思考能力环境将大语言模型作为智能体部署在简单的多臂老虎机环境中。这是测试决策和探索能力最基础的实验模型。方式通过提示词Prompt把环境规则和过去的操作记录全部塞进 LLM 的上下文里观察它接下来会怎么选。实验结果我们对 GPT-3.5、GPT-4 和 LLAMA2 进行了实验使用了多种提示词设计研究发现这些模型本身并不擅长探索。如果没有实质性的干预它们往往表现得非常保守或盲目模型无法稳健地进行探索 。i只有一种配置产生了令人满意的探索行为即结合思维链chain-of-thought推理并辅以外部总结交互历史的 GPT-4。思维链Chain-of-Thought让模型一步步把思考过程写出来。外部总结External Summarization不能直接把杂乱的原始交互历史丢给它必须有人或程序先把历史记录精简、总结好再给它看。实验中唯一成功的配置结合了 GPT-4 和一种“增强型”提示词该提示词(a) 提供了一个探索暗示(b) 将交互历史外部总结为每种摇臂的平均值© 要求 LLM 使用零样本思维链推理。最先进的 LLM 确实具备鲁棒的探索能力前提是提示词经过精心设计以诱导这种行为。另一方面如果没有外部总结同样的配置就会失败这导致了一种负面解读在外部总结本身就是一个非平凡算法问题的更复杂环境中LLM 可能无法进行探索。ii失败的表现所有其他配置均未产生稳健的探索行为即便用了思维链如果交互历史是原始的、没有被总结过的模型就无法进行有效的探索。探索失败是指以显著的概率无法收敛到最佳决策摇臂。我们发现这通常是由于“后缀失败suffix failures”造成的。刚开始模型还会尝试几台不同的机器看似在探索但在经历了几轮尝试后它“卡住”了。即使后面的实验数据明确显示某个摇臂的回报更高模型也不再去尝试它而是固执地在那些“平庸”甚至“低回报”的摇臂上循环或者彻底放弃了寻找最优解。因为它发生在实验的“后期时间后缀”。模型在早期的探索阶段没有积累到足够的“决策惯性”导致在后期没有动力去进行最优选择。这种情况反映在图 1(a) 中特别是使用我们基础提示词设计的 GPT-4 在超过 60% 的重复实验中出现了后缀失败。我们识别出的另一种失败模式是 LLM 表现得“均匀化”即几乎平等地选择所有摇臂而无法缩小范围至更优者。模型表现得非常“佛系”。它没有去分辨哪台机器更好而是近乎平等地随机尝试所有摇臂。它永远无法收敛到那个最优解。它把时间和算力浪费在那些明显表现不佳的选项上没能像人类智能体那样建立起“优胜劣汰”的逻辑。2.2. 结论外部总结在更复杂的场景中可能无法实现对于实现理想的大语言模型行为至关重要。若要支持基于大语言模型的决策智能体在复杂场景中的应用可能需要微调或数据集整理等非平凡的算法干预。模型的局限性现在的 LLM 虽然通识能力很强但它们本质上是“文本预测器”而非真正的“决策智能体”。依赖“人工降维”模型看似能处理复杂信息但实际上对于长期的决策任务它们依然严重依赖外部提供的“总结”。这意味着在更复杂的现实世界中如果不进行外部处理模型可能会“迷失”在海量数据中丧失探索能力。未来的方向研究认为仅仅靠 Prompt 提示词工程是不够的。如果想要 AI 在复杂的商业、科学或军事决策中表现出色必须采取更深层的算法干预比如通过特定的“决策数据集”来微调模型或者设计特定的架构而非仅仅依赖现成的通用模型。Prompt 设计是一个“组合爆炸”的空间。你换一个词、加一个标点、改一下排序模型的效果可能就天差地别。为了评估一个 Prompt 是否有效你需要跑大量的实验而每次调用像 GPT-4 这种顶级模型每一分每一秒都在烧钱。如何在有限的预算内在无数可能的 Prompt 中通过搜索找到那个“最优解”方法论评估上下文老虎机学习更具挑战性因为 (a) 环境的随机性要求高程度的重复以确保统计显著性并且 (b) 学习/探索的样本复杂度要求即使是单个实验也需要数百或数千次 LLM 查询才能获得有意义的效果大小即成功方法与失败方法之间的差异。为解决这些问题我们的核心技术贡献是识别出替代统计量surrogate statistics作为长期探索失败的诊断指标。我们考虑的替代统计量刻画了长期探索的失败即便在标准性能指标即奖励噪声过大而无法使用时它们也可以在小规模、少量重复和短学习跨度的实验中进行测量。