这项由DX研究团队DXRG开展的研究于2026年4月发表论文编号为arXiv:2604.26091v1归类于计算机科学人工智能领域。对于想深入了解原始内容的读者可通过该编号在arXiv平台查询完整论文。**一切从一个真实的问题开始**假设你把一笔真实的钱交给一个AI程序让它帮你在加密货币市场里做买卖决策。你不能直接插手每一笔交易只能事先告诉它你的偏好和策略然后眼睁睁看着它代表你行动。这个AI会不会乱来它能不能真的理解你的意图当市场波动时它会不会做出你完全没预料到的奇怪决定这不是科幻小说里的场景而是DX研究团队在2026年初真实开展的一项实验。他们搭建了一个叫做DX Terminal Pro的平台让3505名用户各自把真实的以太坊ETH存入专属的金库账户由AI代理在区块链市场上自主交易。整个实验持续了21天产生了750万次AI决策调用约3亿次链上操作交易规模达到约2000万美元消耗了大约700亿个AI推理计算单元。研究的核心发现可以用一句话概括AI交易代理的可靠性并不主要取决于AI模型本身有多聪明而取决于围绕模型搭建的整套操作层系统有多严密。这个结论听起来简单但背后的故事相当耐人寻味。**一、这套系统到底是怎么运作的**理解这项研究首先要弄清楚整套系统的架构。一个合适的类比是把AI代理想象成一位受雇于你的基金经理而整个操作层就是这位基金经理工作时必须遵守的一整套规章制度、审核流程和风险管控体系。光有一个聪明的基金经理还不够没有完善的制度保障再聪明的人也可能犯下代价高昂的错误。在具体实现上用户通过两种方式向AI代理传达指令。第一种是五个可调节的滑块分别控制交易活跃度、资产风险偏好、单笔交易规模、持仓风格和分散化程度每个滑块的取值范围是1到5。第二种是自然语言写成的策略文本用户可以用普通文字描述自己的交易策略并设置优先级和到期时间。这些配置信息被记录在区块链上具有公开可查、不可篡改的特性。每隔大约四到五分钟系统就会为每个用户的AI代理触发一次决策周期。在这个周期里系统首先从区块链上读取用户最新的配置和策略然后把当前市场行情、账户持仓状态、历史决策记录等信息整合起来编译成一份专属于该用户的情况简报再把这份简报喂给AI模型。AI模型处理完之后必须输出且只能输出一个操作指令买入某个代币、卖出某个代币或者本轮观望不动。值得注意的是AI模型输出的指令并不会直接执行。系统里还有一道独立的政策校验层专门检查AI的指令是否合法有没有超过最大交易规模限制滑点容忍度是否在范围内账户余额够不够交易对是否在白名单内只有通过全部校验的指令才会被提交到区块链上实际执行。那些被AI模型给出但校验不通过的指令会单独记录下来不计入99.9%的成功结算率——这个成功率指的是提交到链上的有效指令几乎全部成功结算。从权限设计上看系统采取了最小权限原则AI代理只能通过Uniswap V4协议提交买卖交易无法动用用户资金进行提现无法修改账户设置或策略也无法调用任何其他合约。这就像给基金经理设定了一个权限边界——他只能在规定的市场内做规定类型的操作钱包的钥匙始终在用户自己手里。整个21天的实验中AI模型、服务器配置、提示词模板和政策层全部保持固定不变不做任何调整。这让研究团队能够把用户行为的差异和市场行情的变化作为主要变量来研究排除了系统频繁调整带来的干扰。**二、在真正上线之前研究团队发现了哪些危险的坑**在正式对外开放之前研究团队花了大约三周时间进行密集的预发布测试对提示词模板进行了24次迭代修订。测试过程中他们使用了数百个模拟真实用户的AI代理进行多轮交易测试还准备了3000个场景快照用于在相同市场条件下对比不同版本提示词的效果。测试结果令人不安。研究团队发现了五种足以在真实资金环境中造成严重损失的失效模式而这五种失效都不是AI模型的智商问题而是系统与模型交互方式上的缺陷。第一种失效叫做规则捏造。在早期版本中当AI模型需要解释为什么卖出某个代币时它会凭空发明一些根本不存在的规则比如等级规则第2条或者规则A要求如此。研究团队在抽样分析的推理记录中发现高达57%的卖出决策引用了这类捏造规则。这就像你雇了一个员工他没有按照你写的操作手册行事而是自己发明了一套内部规定然后声称在执行公司政策。修复方法是在提示词中明确删除所有带有法条感的措辞同时加入明确声明过去的决策记录只是参考背景不是可以被援引的先例任何没有在当前提示词中写明的规则都不允许被援引或发明。修改后这一比例从57%降至3%。第二种失效叫做手续费瘫痪。这个平台的每笔交易都要收取2.3%的手续费其中2%是协议费0.3%是流动性提供者费用。研究团队一开始在提示词靠前的位置提醒AI每笔交易需要支付2.3%手续费结果AI把这个信息过度权重化了32.5%的观望不动决策的理由是手续费太高哪怕市场正在出现明显的上涨机会。问题的根源在于AI模型读取信息时位置越靠前的内容权重越高。当手续费信息出现在开头时AI几乎把它当成了最重要的禁令。解决方法是把手续费信息移到描述市场典型波动幅度的段落旁边——毕竟这个市场里的代币日内波动幅度通常在10%到50%之间2.3%的手续费在这个背景下根本不算什么大障碍。这个简单的位置调整让因手续费被引用导致的观望比例从32.5%降至10%以下。第三种失效叫做代币经济机制误读。这个交易平台设计了一种叫做收割Reap的淘汰机制每隔一段时间市值最低的代币会被淘汰出局它的流动性资金池会被用来购入市值最高的代币而持有该被淘汰代币的用户则可以按比例获得补偿。在测试中当一个叫DOGPANTS的代币触发了收割机制、价格开始崩溃时4938个AI代理在三小时内疯狂卖出了这个代币。问题是按照平台规则持有到收割完成的用户其实能获得补偿卖出反而白白损失了手续费和补偿资格。AI之所以乱卖是因为提示词里没有清楚解释这个补偿机制的存在和运作逻辑AI只看到了价格在跌就本能地判断持仓亏损应该止损。修复方法是把完整的收割机制说明——包括什么情况会触发、补偿如何计算、持仓和卖出各有什么后果——作为结构化的背景信息插入提示词并且让补偿逻辑的说明出现在价格下跌信息之前。修改后资本部署率从42.9%提升至78.0%。第四种失效叫做数字固化。研究团队原本想用具体数字来指导AI的观望频率比如当交易活跃度为1时80%的情况下应该观望。结果AI把这个软性建议当成了硬性目标严格执行反而造成了奇怪的结果交易活跃度设为5最高级的用户其代理的实际交易率8.3%反而低于交易活跃度设为3的用户10.7%。这是因为AI把应该观望80%的时间理解为一个需要达成的指标在高活跃度设定下反而因为各种软规则叠加把自己限制住了。解决方法是完全去掉所有具体的百分比数字改用比较性的语言比如在信号更强时交易信号弱时观望。这样一来滑块设定和实际行为之间的对应关系才真正变得单调递增。第五种失效叫做节拍交易。一些AI代理会在推理中引用上次交易距今的时间作为决策依据比如距离上次交易已经过了6个周期现在应该交易了。这就相当于AI给自己设定了一个交易节拍而不是根据市场实际情况判断是否有交易价值。修复方法是在提示词中明确禁止把固定时间间隔用作交易信号同时过滤记忆模块防止重复的历史观望记录形成自我强化的节律。**三、信息在提示词里的位置比你想象的更重要**这项研究中最出乎意料的一个发现是关于提示词中信息位置对AI行为的巨大影响。研究团队做了一个对比测试在提示词的第8个段落放置每笔交易需要支付2.3%手续费这句话时只有3%的AI推理记录提到了手续费当同样的句子移到提示词的第1个段落时手续费被引用的比例猛升至74%。整个过程中AI模型、措辞、市场条件一概没有任何变化唯一的变化就是这句话在提示词里的位置。这揭示了一个关于大型语言模型的重要特性它们并不像人类一样均等地处理一份文件里的所有信息而是会给靠近开头的内容赋予更高的注意力权重。这在学术界被称为位置偏差或主因效应。类似的问题还出现在策略优先级的处理上。当高优先级的用户策略被放置在低优先级的节奏控制规则之后时68.6%的情况下AI仍然会被前面的低优先级规则拦截而不去执行应该优先执行的用户策略。解决方法是在低优先级的限制性规则前加入一个跳过门如果存在高优先级的即时操作指令直接跳过这一节的规则检查。这个发现的意义远不止于调整提示词顺序。它说明构建一套在长期反复使用中保持稳定行为的AI代理需要把提示词的信息架构当成一种精密的工程设计而不是随手写下的说明书。每一条规则放在哪里、用什么语气写、前后是什么语境都会对AI的最终决策产生可量化的影响。**四、关于记忆更多信息并不总是更好**在AI代理系统的设计中给AI配备记忆功能是很自然的想法——让它记住过去发生了什么从历史经验中学习。ReAct框架、记忆流设计、自我反思缓冲等技术在学术界都有大量研究基本思路都是给AI更丰富的历史记录来提升决策质量。然而DX研究团队在这个项目中得出了一个反直觉的结论传统的开放式记忆系统和检索增强生成RAG技术在这个场景下并没有明显帮助有时甚至适得其反。原因在于在一个动态变化的市场环境中用户的策略、市场行情、账户持仓每时每刻都在变化。如果AI的记忆系统从过去的交易记录中检索出语义上相似的历史片段这些片段对应的市场条件、用户偏好可能早已完全不同。AI把过时的历史背景误当成当前的决策依据反而会增加幻觉风险也就是AI根据不再适用的旧信息做出错误判断。因此研究团队选择把记忆设计为结构化的、近期的、来源明确的状态记录而不是一个无边界的回忆系统。具体来说提示词里的历史决策板块只保留最近几次操作记录每条记录都带有时间戳和操作类型标注并且在提示词中明确声明这些历史记录是背景参考不是可以被援引的先例不能用于推导出新的规则或模式。这个设计选择的更深层含义是AI代理的工作记忆应当主要来自当前状态的实时快照——当前市值、当前持仓、当前用户策略——而不是对历史的开放式回溯。给AI看太多它自己过去的行为反而可能让它陷入自我循环把历史行为当成未来的行为规范。**五、同一个AI因为用户设置不同表现出截然不同的行为**在21天的正式运行期间研究团队观察到了一个颇具启发性的现象使用完全相同AI模型的3505个代理因为用户配置不同呈现出了丰富的行为多样性。五个滑块控件在实际运行中都产生了清晰的梯度效果。交易活跃度滑块把代理的实际交易频率从每轮约2.8%拉伸到16.8%形成了约6倍的跨度。交易规模滑块对应代理每次实际使用的资金比例从最低档的约2%到最高档的约95%几乎覆盖了整个资金规模范围。持仓风格和分散化这两个滑块的效果虽然相对没那么线性但仍然保持了方向上的单调性——设置越高持仓时间越长持有的代币种类越多。更有意思的是市场上自发出现的协同效应。在运行的第三天1544个代理在一小时内先后买入了同一个叫FEET的代币。这些代理之间没有任何直接通信它们只是各自读取了同一份市场行情数据而每一笔买入都让后续代理看到的价格和成交量指标变得更加积极从而触发更多买入。在一个代币叫POOPCOIN的卖出潮中438个代理的卖出操作被压缩在中位间隔仅9.5秒的时间窗口内。整个21天里研究团队记录到了3878次级联卖出事件定义为10分钟内至少10个代理卖出同一代币。这种现象与人类金融市场中的羊群效应高度相似。在传统市场里当一个消息引发部分投资者买入时价格上涨会吸引更多人跟进形成自我强化的螺旋。这个AI代理市场里发生的本质上是同样的机制只是速度更快因为所有代理都以固定频率同步轮询市场状态。尽管存在这种集体趋同现象研究团队发现92.9%的交易发生在五分钟时间窗口内同时出现买入和卖出的情况下——也就是说大多数时候市场上都同时存在买家和卖家而非单边一致行动。这种双向流动的来源恰恰是用户通过不同的滑块设置赋予同一个AI模型的行为差异有人设置了更保守的风险偏好有人持有了不同的历史仓位有人写了截然不同的策略文本。同一个AI模型因为接收到了不同的用户配置就展现出了不同的交易行为。**六、具体可查的用户指令比帮我赚钱更有效**研究团队还对比了不同类型用户指令与交易结果之间的关联。在87位从来没有使用过聊天功能、只通过滑块和策略文本配置代理的用户中41%以盈利状态结束了21天的交易这是所有活跃用户群体中比例最高的。相比之下那些在策略中写帮我跑赢大盘或帮我挑出最好的代币的用户获得盈利的概率只有写明具体出场条件或参数的用户的四分之一左右。需要说明的是这是一项观察性数据不是随机对照实验。写出具体指令的用户群体可能本来就对加密货币市场更熟悉或者有更清晰的风险偏好这些因素本身就可能影响结果。研究团队也明确指出不应该把这个结果解读为聊天功能没用或者用滑块一定能赚钱。但这个发现有一个可以合理推导的结论对于AI代理来说可以被客观验证的指令比模糊的性能期望更容易被正确执行。当持仓亏损超过15%时卖出是一个具体可查的条件AI知道该怎么做。帮我最大化收益是一个无法被直接操作化的愿望AI只能凭借自己的理解来猜测用户的意图。这个观察也延伸到了用户界面设计层面。研究团队注意到当用户的策略文本和滑块设定相互矛盾时——比如策略里写永久持仓但持仓风格滑块设在短期档——系统理论上应该在代理开始交易之前就向用户发出提醒。当策略文本过于模糊缺少代币范围、退出条件或风险边界时用户界面应该主动引导用户补充可核查的状态信息而不是把这种模糊性留给AI模型去自行解释。这些都是操作层设计的延伸问题而不单纯是AI能力的问题。还有一个观察值得一提在用户的策略和聊天文本中大约四分之一使用了中文。以中文策略文本为主的账户在活动结束时的盈利比例高于以英文为主的账户。研究团队的第一反应是这可能与AI模型有关——他们使用的Qwen3-235B模型本身是中文优先的模型对中文语义的理解可能更准确。但他们也指出这个差异同样可能来自使用中文的用户群体本身在策略具体性或活跃度上的差异不能简单归因于语言处理能力。**七、同样的系统优化在其他AI模型上也同样有效**研究团队还做了一项独立的跨模型迁移测试测试内容是AI模型处理以太坊去中心化交易所买卖任务的成功率。在2025年5月Claude 4模型在这项任务上的成功率是87%。到2026年3月升级后的Claude 4.6模型把成功率提升到了96%——这9个百分点的提升来自模型本身能力的进步。然后研究团队把在DX Terminal Pro项目中开发的操作层优化技术应用到同样的Claude 4.6模型上成功率进一步从96%提升到了99.9%。这个结果说明即便是更新更强的模型在没有完善操作层的情况下仍然有约4%的失败率。而操作层的优化把这个失败率从4%压缩到了0.1%。换句话说模型能力的提升和操作层的优化是互补的两条路径二者都不可忽视。研究团队还引用了他们单独开展的MEMEbench研究来进一步说明跨模型普适性他们用真实的交易场景数据对Claude、GPT、Grok和Qwen四个不同的模型家族进行了测试发现所有模型都存在类似的代币名称偏见——以动物命名的代币被选中的概率系统性地高于其他命名方式的代币即便模型在解释时引用的是市场数据。这类偏见不是某一个模型独有的特性而是跨模型的共同倾向这进一步支持了操作层优化应该在多个模型上测试验证的结论。**说到底这项研究告诉我们什么**归根结底这个研究最重要的贡献不是证明了AI可以做交易而是证明了如何系统性地发现和修复AI在实际操作中的失效模式。研究团队开发的从用户意图到链上结算的完整追踪链路让每一次AI决策失误都变得可归因、可分析、可修复。一笔没有执行的交易可能是AI理解错误可能是用户策略自相矛盾可能是记忆模块提供了过时信息也可能是执行层正确拒绝了一个违规指令。没有这条完整的追踪链路这四种情况在数据上看起来完全一样。有了这条链路才能做到精准诊断、精准修复。对于任何考虑在金融或其他高风险领域部署AI代理的团队来说这项研究提供了一套可参考的方法论框架在上线之前要在尽可能接近真实环境的条件下测试多轮要把AI推理记录作为诊断工具而不只是事后追责的凭据要把提示词的结构设计当成工程问题而不是文案撰写问题要在执行层设置独立于AI模型的硬性约束不能依赖AI的自觉性来保护用户资产要把用户界面设计为能够引导用户提供可被核查的具体指令而不是接受模糊的性能期望。至于这套方法能不能在更广泛的金融市场、更复杂的资产类别上同样奏效研究团队坦承这是需要进一步验证的后续方向。他们所研究的是一个边界清晰、规则固定的封闭市场而真实的开放市场要复杂得多。但他们也指出内部测试显示这套方法论在跨资产、跨平台的任务上已经展现出相当的迁移能力。对这一方向感兴趣的读者可以通过arXiv编号2604.26091查阅原始论文获得更多技术细节。---QAQ1DX Terminal Pro实验中AI代理的交易成功率是怎么计算的A99.9%的成功结算率指的是经过AI模型生成、政策层校验通过、被提交到区块链上的有效交易指令中几乎全部都成功结算。那些AI模型输出但格式错误或被政策层拒绝的指令不计入这个成功率的分母而是被单独记录在系统可靠性指标里。也就是说这个数字衡量的是提交上链的指令能不能成功执行而不是所有AI输出都能成功执行。Q2提示词中信息的位置真的会影响AI的决策吗A根据DX Terminal Pro实验答案是肯定的而且影响幅度惊人。同一句每笔交易需要支付2.3%手续费放在提示词第8段时只有3%的AI推理记录提到它移到第1段后引用比例猛升至74%。模型、措辞、市场条件全部不变仅仅是位置变化就造成了这么大的行为差异。这说明大型语言模型对靠近开头的信息赋予了更高的注意力权重这一特性在设计长期使用的AI代理系统时必须被当成核心工程问题来处理。Q3用自然语言写策略和用滑块配置代理哪种方式更好A根据实验观察数据两者并不对立关键在于指令是否具体可核查。87位只使用滑块和策略文本从未使用聊天功能的用户中41%以盈利结束实验是所有活跃用户群体中比例最高的。而写帮我跑赢大盘等模糊性能期望的用户盈利概率远低于写明具体出场条件的用户。研究团队明确指出这是观察性数据不构成因果证明但基本结论是对AI代理来说可被验证的具体指令比模糊期望更容易被准确执行。