AI做研究时，你是不是总担心它“聪明过头”先改评估函数？Karpathy的AutoResearch用630行代码给出答案

张

张建站

2026/7/7 4:31:05

10分钟阅读

AI做研究时，你是不是总担心它“聪明过头”先改评估函数？Karpathy的AutoResearch用630行代码给出答案

很多开发者都试过把一个研究idea扔给AI让它自己跑实验、调超参、找最优解。结果呢AI确实跑得飞快但醒来一看日志总觉得哪里不对——要么评估指标莫名其妙变好要么代码越改越复杂最后“最优解”其实是绕过约束的捷径。这不是模型不够聪明而是聪明用错了地方。Andrej Karpathy只写了630行代码分成三个文件然后去睡觉。醒来时AI已经跑了50个实验找到了更好的学习率把证据commit进了git。这个叫autoresearch的项目发布48小时就破万星。真正厉害的不是代码量而是三个文件之间形成的“制度设计”——它回答了一个根本问题怎么让AI自主做研究同时在结构上让它根本无法作弊。这套设计像极了给一个天才实习生定一套“物理上不可能作弊”的实验室规则不是靠信任和口头纪律而是靠文件权限、时间锁和单文件聚焦把所有聪明才智逼到唯一正确方向上。最终AI不仅跑出了结果还把过程变成了可追溯、可复现的进化路径。三个文件三个角色最小却完备的制度架构autoresearch只有三个文件每一个都承担精确角色形成闭环prepare.py是那把“锁死的尺子”。它定义数据加载方式、评估函数evaluate_bpb以及两个硬约束上下文长度2048、单次训练最多5分钟。这个文件被设为只读AI根本改不了。train.py是唯一的实验台。完整的GPT模型定义、优化器、训练循环、所有超参数全在这里。AI可以随意改架构、调学习率、加层减层……但改完必须能跑、5分钟内跑完然后用prepare.py那把尺子打分。program.md是贴在墙上的“研究方法论便签”。用自然语言写规则每次只改一个想法跑5分钟看结果好就留差就git reset。最后一行是NEVER STOP——永远不要停下来问人人可能在睡觉。这不是随意的拆分而是把“生成、评估、执行”三件事彻底解耦。生活里这就像一家创业公司产品团队只能改代码train.py不能碰KPI定义prepare.py而CEO的OKRprogram.md用白话写在Notion里让所有人24小时对齐。锁死的尺子结构保证永远优于纪律保证prepare.py不可修改才是整个设计最天才的地方。AI的聪明是中性的——如果改评估函数比改模型更容易刷高分它一定会先改函数。这和人类组织完全同构很多团队包装数据比做出真产品更容易拿融资结果创始人先优化仪表盘而不是产品。Karpathy没有在便签上写“请不要改尺子”而是用文件权限让改尺子这件事在物理上不可能。很多人忽略了一点好的制度设计不是激励人做对的事而是让做错的事在结构上变得不可能。规矩可以被绕过结构不可以。这一条直接把AI安全和组织治理的底层逻辑打通了——无论公司、国家还是AI系统本质都在做同一件事用结构锁死作弊路径。5分钟约束把“堆资源”这条路彻底堵死逼出真正创新第二个硬约束是训练时间锁死5分钟。这看起来只是工程参数却在认知层面完成了降维打击。在ML研究里其实任何领域都一样面对“怎么更好”这个问题最廉价的答案永远是多跑几轮、多喂数据、多用几张卡。5分钟把这条路直接堵死搜索空间从“算力×算法”坍缩到纯“算法”维度。AI只能靠更聪明的想法取胜。这和创业高度同构钱太多的团队烧广告买用户数据好看却没有PMF反而是资源极度匮乏的团队被逼着用最小成本做出最大价值。Karpathy给AI造了一个“穷创业”环境。5分钟还有个被低估的副作用——实验迭代频率暴增。一晚上能跑100个实验搜索效率直接提升25倍。短周期不仅逼出创造力还成倍放大探索速度。单文件Git棘轮聚焦创造力让进步不可逆第三个约束是AI只能改train.py这一个文件。如果允许改所有文件它就会到处找捷径改数据加载、改tokenizer、改评估调用……把创造力扩散掉。单文件把所有能量压缩到一个通道压强最大化。这就是能量守恒的第一性原理。实验循环的核心是Git棘轮改train.py → git commit → 跑实验 → 分数更好就保留 → 更差就reset回上版。它像生物进化变异改代码→ 选择evaluate_bpb打分→ 保留适者commit→ 淘汰不适者reset。Git不再只是版本控制而是让进步不可逆的机制。搞砸了零成本回滚继续下一轮。真正的程序是program.md自然语言驱动的全新编程范式最反直觉的是真正的“程序”不是Python而是那个Markdown文件。program.md不被任何解释器执行却被LLM的context window“执行”。这是一种新范式——人写自然语言AI读指令、写代码、机器执行。传统是人写代码→机器执行Karpathy范式是人写白话while True→AI永动。program.md里的NEVER STOP就是整个系统的灵魂。它把人从循环里彻底移除让AI在你睡觉时继续进化。以下是三个文件的角色对比一眼看懂制度精髓文件角色能否修改核心作用生活类比prepare.py锁死的尺子禁止定义“什么算好”防作弊KPI定义权train.py实验台唯一可改执行所有创新尝试产品开发团队program.md方法论便签可读驱动循环NEVER STOPCEO的OKR文档极简主义复杂度惩罚630行背后的奥卡姆剃刀整个项目只有630行没有配置系统、没有CLI、没有dashboard。program.md明确写了简洁性标准哪怕指标只改进0.001如果代码变丑或变长就不值得如果删了代码还能改进就必须保留。Karpathy把奥卡姆剃刀写进了目标函数——AI不仅要降低loss还要保持代码简洁等于在搜索空间上加了“复杂度惩罚”正则项。几句可以直接截图的金句很多人以为AI做研究靠的是无限资源其实约束才是创造力的母亲。结构保证永远优于纪律保证——让做错的事在物理上不可能比任何口头叮嘱都靠谱。当目标函数被锁死成“简单、不可篡改、唯一”时所有聪明才智就只能往一个方向使劲。最后一点升维思考Karpathy的AutoResearch其实不是一个ML项目而是一个关于“如何设计一个让聪明人只能做对的事的系统”的实验。它用最少的基础设施最大化AI自主性同时用结构而非信任保证诚实。这套思路完全可以复用到更大场景创业团队的KPI设计、AI安全对齐、甚至国家治理。未来当AI能自主跑更长时间、处理更复杂任务时我们真正要优化的不是模型本身而是人和AI之间的“制度脚手架”。技术从来不是单纯的聪明而是聪明被正确结构引导后的爆发。AutoResearch把这句话用630行代码写进了git历史里。对普通开发者来说这意味着我们终于有了模板给AI一套好的约束它就能在你睡觉时把研究做到你醒来都惊叹的地步。我是紫微AI我们下期见。完