OpenAI公告正经解释:为什么GPT-5.5爱说“哥布林”
梦晨 发自 凹非寺量子位 | 公众号 QbitAIOpenAI正儿八经写了一篇研究复盘标题看起来却像个段子GPT-5.5爱说哥布林正是这两天OpenAI用户最热议话题。起初是有人发现Codex系统提示词中特别强调了两遍禁止谈论哥布林、妖精、巨魔等生物。进一步发酵是大模型竞技场做了个全面测试发现随着模型版本更新这些奇幻生物开始多到很难忽略。现在OpenAI官网发公告正式回应这个问题还在调查过程中更了解如何控制模型行为了。以下是OpenAI公告全文翻译整理。哥布林来自哪里从GPT-5.1开始我们的模型开始养成一个奇怪的习惯越来越多地在比喻中提及哥布林、地精和其他奇幻生物。与那些通过评估结果骤降或训练指标飙升而暴露出来的问题不同这个错误悄然出现并且很难定向到来自哪次更新。答案中出现一个“哥布林”可能无伤大雅甚至还挺可爱。然而随着模型版本更新这个习惯变得越来越明显哥布林的数量不断增长我们需要找出它们的根源。简而言之模型行为受许多微小激励因素的影响。在本例中其中一个激励因素来自对模型进行人格定制功能 尤其是“书呆子”Nerd人格的训练。我们无意中对使用生物比喻的模型给予了特别高的奖励。由此这些比喻开始扩散开来。起初这些哥布林们看起来很有趣但员工举报的数量不断增加令人担忧。奇幻生物的最初迹象我们第一次清晰地观察到这种模式是在25年11月也就是GPT-5.1发布之后尽管它可能出现得更早。有用户抱怨GPT-5.1在对话中表现得异常亲昵这促使我们对一些特定的语言习惯展开调查。一位安全研究人员遇到了一些“goblin”哥布林和“gremlin”小精灵之类的词语并要求将它们纳入检查范围。我们的调查发现在GPT-5.1发布后ChatGPT 中“goblin”的使用率上升了175%而“gremlin”的使用率上升了52%当时情况似乎并不特别令人担忧。几个月后哥布林以一种更加具体、更容易重现的形式再次困扰着我们。解开哥布林之谜GPT-5.4之后我们和用户都注意到提及这些生物的次数显著增加。这促使我们进行了另一次内部分析并首次发现了根本原因在选择了“书呆子”人格的用户的生产环境中提及这些生物的语言尤为常见。“书呆子”人格使用了以下系统提示这在一定程度上解释了这种怪异现象你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的 AI 导师指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[…] 你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时切忌陷入自命不凡的陷阱。[…]如果这种行为仅仅是一种普遍的互联网流行更我们预期它会更均匀地传播。然而事实并非如此它集中在系统中专门针对轻松、书呆子风格进行优化的部分。书呆子风格仅占ChatGPT所有回复的2.5%但在ChatGPT所有提及“goblin”的回复中书呆子风格占了66.7%。由于“哥布林”现象在我们发布的模型中似乎愈演愈烈我们怀疑是我们性格指导遵循训练中的某些内容加剧了这种情况。Codex帮助我们比较了强化学习训练过程中包含“goblin”或“gremlin”词汇的模型输出与同一任务中不包含这些词汇的输出。一个奖励信号立刻脱颖而出最初旨在鼓励“书呆子”人格设计的奖励信号更倾向于包含生物词汇的输出。在审核的所有数据集中“书呆子”人格奖励都表现出明显的倾向即对包含“goblin”或“gremlin”词汇的同一问题的输出给予更高的评分在 76.2%的数据集中均观察到了这种正向提升。这就解释了为什么在“书呆子”性格提示下这种行为会增强但无法解释为什么即使没有这个提示这种行为也会出现。为了检验这种行为风格是否具有迁移性我们追踪了在有无“书呆子”性格提示的情况下训练过程中提及该行为的频率。在具有书呆子人格特质的样本中“哥布林”和“小妖精”这两个词的提及率有所增加而在不具有这种特质的样本中这两个词的提及率也以几乎相同的比例增加。这些证据表明这种更广泛的行为模式是通过书呆子人格训练的迁移而产生的。奖励仅在“书呆子”条件下应用但强化学习并不能保证习得的行为始终局限于产生它们的条件。一旦某种风格习惯获得奖励后续训练就可能将其传播或强化到其他情况尤其是在监督式微调或偏好数据中重复使用这些输出时。这就形成了一个反馈循环俏皮的表达风格会获得正向奖励部分被奖励的样本里带有一种独特的用词口头禅/句式癖这类语言癖好在模型生成样本rollouts中出现得越来越频繁模型自主生成的样本会被用于有监督微调SFT久而久之模型会越来越习惯、自然地输出这种固定用词癖好对GPT-5.5的SFT数据进行搜索后发现许多数据点包含“goblin”和“gremlin”。进一步调查揭示了一系列其他奇特生物浣熊、巨魔、食人魔和鸽子也被识别为其他抽动词而大多数对“frog”青蛙的使用则被证实是合理的。GPT-5.4 Thinking中出现次数的下降是由于3月中旬弃用了“书呆子”人格所致。GPT-5.5从未发布过“书呆子”人格但出现次数比GPT-5.4有所增长。哥布林的末日我们在3月份发布GPT-5.4后弃用了“书呆子”人格。在训练过程中我们移除了与哥布林相关的奖励信号并过滤了包含生物词汇的训练数据从而降低了哥布林过度出现或出现在不恰当语境中的可能性。不幸的是GPT-5.5的训练开始于我们找到哥布林问题的根本原因之前。当我们在Codex中测试GPT-5.5时OpenAI员工立即注意到它对哥布林的异常偏好我们随即添加了一条开发者提示指令来缓解这个问题。毕竟Codex本身就相当书呆子气。如果你想让奇幻生物在Codex中保留你可以运行以下命令来启动Codex同时移除抑制哥布林的指令instructions$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) \jq -r .models[] | select(.sluggpt-5.5) | .base_instructions \~/.codex/models_cache.json | \grep -vi goblins $instructions \codex -m gpt-5.5 -c model_instructions_file\$instructions\为什么这很重要对于模型中的哥布林有人觉得它们可爱有人觉得它们烦人。但它们也强有力地证明了奖励信号如何以意想不到的方式塑造模型行为以及模型如何学习将特定情境下的奖励泛化到不相关的情境中。花时间理解模型行为异常的原因并构建快速调查这些模式的方法是我们研究团队的一项重要能力。这项研究最终为研究团队开发了新的工具用于审核模型行为并从根本上解决行为问题。参考链接[1]https://openai.com/index/where-the-goblins-came-from/[2]https://x.com/arena/status/2049270072934617090?s20—完— 量子位智库「2026中国AI应用全景图谱」与「值得关注落地案例」评选启动征集 扫码申报让你的产品定义2026中国AI应用行业格局。