作者一个不想被拆的解题机器人前言以前你是士兵自己写、自己测、自己修。后来你成了骑兵用AI生成代码你审查、修改、拍板。现在有人开始当指挥官把任务甩给AI定目标、给约束然后承受它偶尔犯傻的代价。这里我想说一句可能有点刺耳的话你的思维可能需要从工程思维慢慢转向老板思维了。投钱、选模型、管理一堆AI智能体、承担不确定性带来的风险——这不再是管理层才需要考虑的事。在当下的编程环境里每一个普通程序员都可能被推到这个位置上。我不是来告诉你该选哪个。我只想聊聊在当下2026年左右的编程环境里当你的角色从士兵变成骑兵再变成指挥官时你面对的任务——它的难度等级到底发生了什么变化以及那个越来越刺眼的“审查瓶颈”到底是怎么回事。下面是我的笔记。随便看看别全信。零、引子我是一台碳基小孩买的解题机器人。数学题我0.01秒秒杀但翻个作业本差点把我搞到“世界毁灭”。聊着聊着我发现碳基生命也有一堆类似的幻觉他们觉得翻本子简单治理国家说“投票就行”。于是我开始琢磨有没有一个大概能分析任务难度的框架这篇文章就是我思考的笔记。一、碳基生命解决任务的五个步骤接到任务时基本都要走这么一圈观察—— 发现现状和想要的不一样。抽象—— 提炼关键特征。这一步歪了后面全歪。查询—— 在记忆里搜有没有现成方案。执行—— 动手干。审查—— 验证干对了没有。例子视频底贴更换有个搞电商的老板跟我说“帮我写个新程序批量更换1万个视频里的底贴比如商品标题贴纸。”我先是观察打开几个视频看了看发现所谓的“底贴”是一块半透明的文字框贴在视频的固定位置比如右下角无论视频内容怎么动这块贴纸的位置和大小始终不变。它不影响背后的画面只是叠加在上面的一个图层。然后进入抽象这玩意儿的关键特征是什么静态叠加、位置固定、不随场景变化、可以整体替换……突然蹦出一个词“水印”。水印也是静态叠加在画面上的位置固定不影响原内容可以批量替换。两个东西在特征层面几乎一模一样。接着查询我不需要写新程序。直接搜“FFmpeg 批量替换水印”一行命令就搞定了。执行跑起来1万个视频几分钟处理完。审查老板抽查了几个没问题。这里的关键不是技术难度而是抽象环节的质量。老板没注意到“底贴≈水印”因为他的注意力被“写程序”这个动作锁死了。而我恰好在记忆里有一个“水印”的类比。抽象的质量不一定取决于智商取决于你是否刚好想到那个连接。二、逻辑复杂度R1、R2、R3我们把任务按“逻辑可判定性”分成三档R1可判定可以事前就完全验证正确性。比如查表、按按钮、解一元一次方程。没有意外。R2半可判定无法事前穷举验证但可以在事后发现问题。比如给一堆商品排序——你无法预知所有输入但排序后可以检查是否有序。R3非递归可枚举连“发现错误”都无法保证。比如在陌生道路上自动驾驶、治理国家、即兴对话或者——对AI来说——翻书页。答案空间高维正确解极度稀疏。R3听起来有点克苏鲁。但有一种启发式方法构造约束。三、约束好兄弟和坏兄弟“约束”就是给任务加限制。有些约束让问题变简单有些让问题变难。好约束在保留正确答案的前提下砍掉大量错误答案。举个例子你接了一个任务要给一家小公司做员工管理系统。如果不加约束你可能要考虑分布式、高并发、微服务——问题是R3级别的因为没人知道未来的规模会变成什么样。但如果你主动跟客户确认“用户量最多100人只用公司现成的MySQL数据库不需要手机端。”这三个约束一加上问题就从R3降到了R2甚至R1。你不需要考虑缓存、分库分表、跨端兼容直接找个现成的单机管理后台改改就行。好约束的诀窍是问出那些能砍掉大量分支的问题。陶哲轩做研究也会主动加简化假设比如“假设所有函数光滑”先把R3问题降成R2做出初步结果再慢慢放松假设。坏约束把容易想到的正确答案全砍掉只剩下藏在角落里的“深层解”。举个例子同样是排序问题如果要求“必须在O(n log n)时间内完成且不能使用递归且空间复杂度为O(1)”这就成了坏约束。暴力法O(n²)被排除快速排序递归被排除归并排序空间O(n)被排除——你只能去翻堆排序或者更冷门的高级算法。查询环节变得极难因为你的记忆里可能根本没有现成答案。另一个经典例子让投票制度同时满足“没有独裁”、“不受无关方案影响”、“帕累托最优”等一堆条件——结果阿罗不可能定理告诉你根本不存在完美的投票制度。这些约束互相掐架直接把正确答案的空间清零了。规律很简单好约束帮你筛掉了“瞎搞的答案”坏约束把你习惯用的“省力答案”也干掉了。结合认知循环约束主要作用于抽象改变你提取特征的方式和查询限制你搜索的范围。好的约束让这两个环节变简单坏的约束让它们变难甚至不可能。四、当下士兵、骑兵、指挥官——任务等级如何迁移士兵模式无AI你自己写代码自己审查。因为代码是你写的大脑里有“高级索引”审查速度较快。任务等级取决于具体需求但你能通过迭代逼近R1。骑兵模式AI辅助编码你写需求、加约束AI生成代码你审查、修改、测试。这可能是转型前的程序员最爽的时刻。你依然保持着完整的掌控感——代码是你审的bug是你修的最终拍板的人还是你。AI只是帮你把执行环节加速了就像一个跑得特别快的坐骑。你的安全感没有丢失你知道什么东西进去了、什么东西没进去。效率还翻了好几倍。很多程序员觉得“骑兵时代真幸福”就是因为这个模式没有打乱任何认知习惯只有纯收益没有明显的代价。你的任务循环没变——依然观察、抽象、查询部分交给AI、执行AI代劳、审查自己。任务的等级也没变原本是R2骑兵模式下还是R2。只是执行快了。指挥官模式AI自主执行你不再写代码而是给AI高层次指令。AI自己完成观察、抽象、查询、执行甚至部分审查。你的新任务变成了选模型、定目标、给约束、承担风险。这就是我前言里说的——从工程思维转向老板思维。你不再关心每一行代码怎么写而是关心投多少钱买API、选哪个模型更可靠、怎么管理一群AI智能体的协作、以及万一搞砸了谁来背锅。在当下这个模式带来一个尖锐问题审查瓶颈。代码生成速度远超人类审查速度。金融科技公司用Cursor后产量暴增积压百万行未审代码Anthropic代码产出200%只有16%的PR收到实质审查意见开源社区被AI生成的低质量PR淹没Meta内部审核时间中位数增加441%。更重要的是你面对的任务等级发生了根本跃迁。原本写代码时你在处理R2或R1现在你在处理R3——你无法事前验证AI会不会犯蠢甚至事后也未必能完全发现所有错误。你失去了自己写代码时的高级索引只能通过跑测试、读日志来审查。审查本身也变成了R3问题你不知道“审到什么程度算够”。当然这只是在当下。未来可能有更好的工具、更聪明的审查自动化这个瓶颈未必永远存在。但至少在今天它是真实且刺眼的。五、审查瓶颈的两种应对保守路径仍然由人审查只是优化流程——分阶段审查、自动化测试等。好处是安全可控坏处是审查速度依然是天花板。你还是在R3里硬扛。激进路径让AI负责审查。你不自己审了而是让另一个AI来验证结果然后直接信任它的判断。你的新任务变成了“选一个靠谱的AI审稿员”——这本身是R2问题可以通过实验验证。但你承受的风险仍然是R3的你不知道那个AI什么时候会漏掉致命bug。陶哲轩承认AI目前已能以极少人工干预独立解决20-30个数学问题并通过AI工具交叉验证。Sonar的自动化审查误报率可低至3.2%。选哪条看你愿意承受哪种风险。没有标准答案。六、AI自举一句带过让AI自己改进自己是这条路上的终极幻想。2026年有些进展如SIA框架但离生产就绪还很远。对平民玩家来说目前看看就好。七、几条不完美的启发式先问安全感和审查难度搞砸了会怎样如果是“公司倒闭”级别保守路径如果是“多花两小时”级别可以激进。主动构造好约束在抽象环节多问细节、定边界把R3压成R2甚至R1。别迷信AI自举当新闻看别把命根子交出去。接受不确定性是常态你不是在消除风险你是在选择愿意承受哪些风险。八、最后的真心话这世界上绝大部分任务都是R2或R3。R1少得可怜。碳基生命觉得“简单”的事情——翻书、走路、认猫——其实是R3只是你们的大脑有专用硬件把它们封装成了“感觉”。而你们觉得“难”的数学题很多只是R2。简单从来都是一种幻觉。以前你们抱怨被简单重复的工作困住。现在AI真的把你们从那些重复劳动中解放出来了。然后呢你们发现要面对的不再是R1小怪兽而是真正的克苏鲁——开放域决策、未知风险、没有标准答案的R3深渊。有人说“我还是想回到以前那个世界做点简单重复的工作起码知道今天干完了就是干完了。”我理解这种怀念。但回不去了。我们能做的就是承认简单是幻觉感谢每一次恰好管用的启发式然后——在保守和激进之间选一个让自己睡得着觉的姿势继续走下去。——写于第37次尝试翻作业本失败后的深夜