OpenAI公告正经解释：为什么GPT-5.5爱说“哥布林”

张

张建站

2026/5/9 5:36:39

10分钟阅读

梦晨发自凹非寺量子位 | 公众号 QbitAIOpenAI正儿八经写了一篇研究复盘标题看起来却像个段子GPT-5.5爱说哥布林正是这两天OpenAI用户最热议话题。起初是有人发现Codex系统提示词中特别强调了两遍禁止谈论哥布林、妖精、巨魔等生物。进一步发酵是大模型竞技场做了个全面测试发现随着模型版本更新这些奇幻生物开始多到很难忽略。现在OpenAI官网发公告正式回应这个问题还在调查过程中更了解如何控制模型行为了。以下是OpenAI公告全文翻译整理。哥布林来自哪里从GPT-5.1开始我们的模型开始养成一个奇怪的习惯越来越多地在比喻中提及哥布林、地精和其他奇幻生物。与那些通过评估结果骤降或训练指标飙升而暴露出来的问题不同这个错误悄然出现并且很难定向到来自哪次更新。答案中出现一个“哥布林”可能无伤大雅甚至还挺可爱。然而随着模型版本更新这个习惯变得越来越明显哥布林的数量不断增长我们需要找出它们的根源。简而言之模型行为受许多微小激励因素的影响。在本例中其中一个激励因素来自对模型进行人格定制功能尤其是“书呆子”Nerd人格的训练。我们无意中对使用生物比喻的模型给予了特别高的奖励。由此这些比喻开始扩散开来。起初这些哥布林们看起来很有趣但员工举报的数量不断增加令人担忧。奇幻生物的最初迹象我们第一次清晰地观察到这种模式是在25年11月也就是GPT-5.1发布之后尽管它可能出现得更早。有用户抱怨GPT-5.1在对话中表现得异常亲昵这促使我们对一些特定的语言习惯展开调查。一位安全研究人员遇到了一些“goblin”哥布林和“gremlin”小精灵之类的词语并要求将它们纳入检查范围。我们的调查发现在GPT-5.1发布后ChatGPT 中“goblin”的使用率上升了175%而“gremlin”的使用率上升了52%当时情况似乎并不特别令人担忧。几个月后哥布林以一种更加具体、更容易重现的形式再次困扰着我们。解开哥布林之谜GPT-5.4之后我们和用户都注意到提及这些生物的次数显著增加。这促使我们进行了另一次内部分析并首次发现了根本原因在选择了“书呆子”人格的用户的生产环境中提及这些生物的语言尤为常见。“书呆子”人格使用了以下系统提示这在一定程度上解释了这种怪异现象你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时切忌陷入自命不凡的陷阱。[…]如果这种行为仅仅是一种普遍的互联网流行更我们预期它会更均匀地传播。然而事实并非如此它集中在系统中专门针对轻松、书呆子风格进行优化的部分。书呆子风格仅占ChatGPT所有回复的2.5%但在ChatGPT所有提及“goblin”的回复中书呆子风格占了66.7%。由于“哥布林”现象在我们发布的模型中似乎愈演愈烈我们怀疑是我们性格指导遵循训练中的某些内容加剧了这种情况。Codex帮助我们比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。一个奖励信号立刻脱颖而出最初旨在鼓励“书呆子”人格设计的奖励信号更倾向于包含生物词汇的输出。在审核的所有数据集中“书呆子”人格奖励都表现出明显的倾向即对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分在 76.2%的数据集中均观察到了这种正向提升。这就解释了为什么在“书呆子”性格提示下这种行为会增强但无法解释为什么即使没有这个提示这种行为也会出现。为了检验这种行为风格是否具有迁移性我们追踪了在有无“书呆子”性格提示的情况下训练过程中提及该行为的频率。在具有书呆子人格特质的样本中“哥布林”和“小妖精”这两个词的提及率有所增加而在不具有这种特质的样本中这两个词的提及率也以几乎相同的比例增加。这些证据表明这种更广泛的行为模式是通过书呆子人格训练的迁移而产生的。奖励仅在“书呆子”条件下应用但强化学习并不能保证习得的行为始终局限于产生它们的条件。一旦某种风格习惯获得奖励后续训练就可能将其传播或强化到其他情况尤其是在监督式微调或偏好数据中重复使用这些输出时。这就形成了一个反馈循环俏皮的表达风格会获得正向奖励部分被奖励的样本里带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本rollouts中出现得越来越频繁模型自主生成的样本会被用于有监督微调SFT久而久之模型会越来越习惯、自然地输出这种固定用词癖好对GPT-5.5的SFT数据进行搜索后发现许多数据点包含“goblin”和“gremlin”。进一步调查揭示了一系列其他奇特生物浣熊、巨魔、食人魔和鸽子也被识别为其他抽动词而大多数对“frog”青蛙的使用则被证实是合理的。GPT-5.4 Thinking中出现次数的下降是由于3月中旬弃用了“书呆子”人格所致。GPT-5.5从未发布过“书呆子”人格但出现次数比GPT-5.4有所增长。哥布林的末日我们在3月份发布GPT-5.4后弃用了“书呆子”人格。在训练过程中我们移除了与哥布林相关的奖励信号并过滤了包含生物词汇的训练数据从而降低了哥布林过度出现或出现在不恰当语境中的可能性。不幸的是GPT-5.5的训练开始于我们找到哥布林问题的根本原因之前。当我们在Codex中测试GPT-5.5时OpenAI员工立即注意到它对哥布林的异常偏好我们随即添加了一条开发者提示指令来缓解这个问题。毕竟Codex本身就相当书呆子气。如果你想让奇幻生物在Codex中保留你可以运行以下命令来启动Codex同时移除抑制哥布林的指令instructions$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) \jq -r .models[] | select(.sluggpt-5.5) | .base_instructions \~/.codex/models_cache.json | \grep -vi goblins $instructions \codex -m gpt-5.5 -c model_instructions_file\$instructions\为什么这很重要对于模型中的哥布林有人觉得它们可爱有人觉得它们烦人。但它们也强有力地证明了奖励信号如何以意想不到的方式塑造模型行为以及模型如何学习将特定情境下的奖励泛化到不相关的情境中。花时间理解模型行为异常的原因并构建快速调查这些模式的方法是我们研究团队的一项重要能力。这项研究最终为研究团队开发了新的工具用于审核模型行为并从根本上解决行为问题。参考链接[1]https://openai.com/index/where-the-goblins-came-from/[2]https://x.com/arena/status/2049270072934617090?s20—完— 量子位智库「2026中国AI应用全景图谱」与「值得关注落地案例」评选启动征集扫码申报让你的产品定义2026中国AI应用行业格局。

LinkedIn数据自动化提取实战：开源工具linkedin-reader核心原理与应用

1. 项目概述：一个专为LinkedIn数据提取而生的利器如果你正在做市场调研、竞品分析、人才画像或者销售线索挖掘，那么从LinkedIn上获取结构化、高质量的数据，绝对是你绕不开的一个环节。但手动复制粘贴不仅效率低下，还容易出错&…...

2026/5/9 5:26:29 阅读更多 →

MoDA深度注意力机制解析与优化实践

1. MoDA模型架构设计解析MoDA（Mixture-of-Depths Attention）是一种创新的深度注意力机制，旨在解决传统Transformer架构在深度扩展时面临的信息稀释和优化困难问题。其核心思想是通过显式地聚合跨层深度信息来增强模型的表达能力。1.1 深度键值…...

2026/5/9 5:20:04 阅读更多 →

LLM驱动的多模态音乐推荐系统架构与实践

1. 基于LLM工具调用的多模态音乐推荐系统架构解析音乐推荐系统的发展经历了从协同过滤到内容过滤，再到混合推荐的演进过程。传统系统往往受限于单一检索方式，难以全面捕捉用户复杂多变的音乐偏好。TalkPlay-Tools框架的创新之处在于将大语言模型&#xf…...

2026/5/9 5:17:31 阅读更多 →

如何用Python脚本绕过百度网盘限速？5个实用技巧大揭秘

如何用Python脚本绕过百度网盘限速？5个实用技巧大揭秘【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 上周，当我需要从百度网盘下载一个3GB的设计素材时…...

2026/5/8 0:39:19 阅读更多 →

构建Web3多智能体世界：从账户抽象到AI驱动的链上经济

1. 项目概述：一个由AI驱动的Web3多智能体世界EmpowerTours 是一个我深度参与构建的、运行在 Monad 区块链上的综合性 Web3 平台。它不仅仅是一个应用，更是一个持续运行的多智能体世界，并深度集成在 Farcaster 社交协议中，作为一个…...

2026/5/8 0:40:09 阅读更多 →

2026届最火的降AI率网站推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 需要从源头优化以及后期校正两方同时着手，来降低文本里AIGC也就是人工智能生成内…...

2026/5/8 0:02:56 阅读更多 →