ARIS：基于技能化工作流的AI自主研究系统设计与实践

张

张建站

2026/5/15 21:35:23

10分钟阅读

1. 项目概述ARIS一个让AI在你睡觉时做研究的自主工作流如果你是一名机器学习或计算机科学领域的研究者我猜你肯定有过这样的体验一个绝妙的想法在深夜闪现你兴奋地爬起来记下几行潦草的笔记然后第二天醒来面对空白的代码编辑器和LaTeX文档那股冲动早已消散大半。从灵感到论文中间隔着文献调研、代码实现、实验验证、论文撰写、同行评审、修改回复这无数座大山。ARISAuto-claude-code-research-in-sleep这个项目就是为了解决这个核心痛点而生的。简单来说ARIS是一套为Claude Code以及Cursor、Trae等AI编程IDE设计的、基于技能的自动化研究工作流。它的核心愿景非常诱人“让Claude Code在你睡觉时做研究”。你只需要提供一个研究方向或一篇待改进的论文ARIS就能自主驱动整个研究生命周期——从文献调研、想法生成到代码实现、实验运行再到论文撰写、评审模拟甚至最终生成答辩幻灯片和海报。它不是一个臃肿的平台或框架而是一套由数十个独立的、可插拔的Markdown技能文件SKILL.md构成的方法论。每个技能都像一个乐高积木你可以自由组合、修改甚至替换掉底层的AI模型比如用MiniMax、GLM替代Claude和GPT以适应你自己的技术栈和研究习惯。我最初接触ARIS是因为厌倦了在实验调参、格式调整和回复审稿意见这些重复性劳动上耗费大量精力。使用几个月后我发现它真正强大的地方不在于“全自动”那太理想化了而在于它构建了一个严谨的、可审计的、且具备“对抗性”的AI协作流程。它强制让一个“执行者”模型如Claude Code和一个“评审者”模型如GPT-5.4进行交叉审查这种设计巧妙地避免了单一模型陷入“自我重复”的局部最优就像让一个思维敏捷的工程师和一个严谨挑剔的科学家一起工作产出的方案往往更经得起推敲。2. 核心架构与设计哲学为什么是“技能”而非“平台”在深入实操之前理解ARIS的设计哲学至关重要。这决定了你将以何种方式使用它以及如何根据自己的需求进行定制。2.1 零依赖、纯文本的模块化设计ARIS最颠覆我认知的一点是它的极简主义。整个项目没有复杂的依赖关系没有需要维护的数据库甚至不需要Docker。所有核心逻辑都封装在一个个独立的SKILL.md文件中。这些文件本质上就是给大语言模型LLM看的、高度结构化的“任务说明书”。为什么这么做零锁定与极致可移植性你的所有研究工作流都保存在清晰的Markdown中。今天你用Claude Code明天你想换到Cursor或者字节跳动的Trae甚至谷歌的Antigravity只需要做简单的适配项目提供了指南你的技能和工作流可以无缝迁移。这打破了工具壁垒研究流程真正属于你自己。人类与AI可读SKILL.md文件既是给AI的指令集也是给研究者的文档。你可以直接阅读它来理解某个工作流的具体步骤、输入输出和设计意图。这种透明性对于调试和信任构建至关重要。易于定制和分叉如果你对某个技能比如/paper-writing的输出格式不满意或者想为特定会议如ACM Multimedia增加一个模板直接修改对应的SKILL.md文件即可。这种开放性鼓励社区贡献项目里大量的新功能如DeepXiv集成、Modal GPU支持都来自社区。2.2 双模型对抗协作打破“自我审查”的盲区ARIS工作流的核心引擎是一个“执行-评审”循环。通常Claude Code扮演快速执行的“工程师”而通过Codex MCP服务器调用的GPT-5.4扮演严格挑剔的“科学家”评审员。这个设计背后有深刻的实践考量单一模型的局限性如果让同一个模型或同一家族的模型既生成内容又评审内容它很容易陷入“模式固化”。它会更倾向于认可与自己思维模式一致的输出而忽略结构性的缺陷或潜在的替代方案。这就像自己检查自己的作业很难发现深层次错误。对抗性带来鲁棒性ARIS的创始人将这种双模型设置类比为“对抗性多臂老虎机”问题。评审模型GPT-5.4 xhigh被设计成主动寻找执行模型Claude Code输出中的弱点、逻辑漏洞和实验设计缺陷。这种对抗性压力迫使执行模型必须产出更严谨、证据更充分的结果从而整体提升研究产出的质量。效率与深度的平衡为什么不使用更多模型ARIS的文档解释得很清楚从1个模型增加到2个模型是打破“自我审查盲区”收益最大的一步。增加到3个或4个模型带来的边际收益会显著下降但API成本和协调复杂度却会线性上升。双模型达到了一个理想的平衡点。在实际使用中你可以灵活配置这个“评审者”。除了默认的CodexGPT-5.4你还可以通过— reviewer: oracle-pro切换到更强的GPT-5.4 Pro通过Oracle MCP或者完全不用OpenAI的模型转而使用Kimi、GLM-5、MiniMax-M2.7等国内模型作为评审员。这种灵活性确保了即使在没有Claude或OpenAI API的情况下ARIS的核心工作流依然可以运行。2.3 四大核心工作流覆盖研究全生命周期ARIS将复杂的研究过程解构为四个核心工作流每个都可以独立运行也可以串联成完整的管道。工作流核心命令输入输出核心价值Workflow 1: 想法发现与验证/idea-discovery一个具体的研究方向如“离散扩散语言模型中的因子化间隙”经过文献调研和交叉评审筛选出的、可验证的研究想法列表将模糊的灵感转化为有文献支撑、问题明确、可实验验证的具体提案Workflow 1.5: 实验实现与部署/experiment-bridge一个具体的实验计划来自Workflow 1或手动编写可运行的代码、部署的GPU任务、收集到的实验结果文件将“纸上谈兵”的想法落地为真实的代码和实验数据是想法到证据的关键桥梁Workflow 2: 自动化评审与改进循环/auto-review-loop初步的研究发现或论文草稿经过多轮模拟同行评审打分、提出批评、修改后大幅改进的版本在论文正式提交前进行高强度“压力测试”提前发现并修复弱点Workflow 3: 论文撰写与成稿/paper-writing结构化的研究发现叙事报告Narrative Report符合顶级会议格式要求、包含图表、参考文献、并编译为PDF的完整论文将零散的实验结果和论点组织成一篇逻辑严谨、格式规范的学术论文Workflow 4: 审稿意见回复/rebuttal论文文件夹审稿意见符合字数限制、覆盖所有审稿人关切点、证据充足的答辩稿系统化、高效地应对紧张的审稿回复周期避免遗漏和错误承诺此外还有两个强大的“元”功能/research-pipeline这是上述工作流1、1.5、2、3的端到端自动化管道。你只需要输入一个研究方向它就能自动走完全程产出论文草稿。/research-wiki持久化的研究知识库。它会自动记录你在所有工作流中阅读的论文、产生的想法、运行的实验和得出的结论形成项目专属的、可关联的知识图谱避免重复劳动和遗忘。3. 从零开始环境配置与技能安装实战理论说再多不如动手一试。下面我将带你完成ARIS的完整安装和基础配置这是后续所有操作的前提。3.1 基础环境准备ARIS本身没有环境依赖但它需要运行在支持MCPModel Context Protocol的AI编程IDE中。最主流的选择是Claude Code。请确保你已安装并配置好Claude Code。注意Claude Code的安装路径和技能目录可能因版本而异。较新的版本通常使用~/.claude/skills/目录。如果你不确定可以在Claude Code中尝试输入/查看已有的技能列表这通常能帮你定位到正确的技能目录。3.2 安装ARIS技能库安装过程非常简单本质就是将GitHub仓库中的技能文件复制到Claude Code的技能目录。# 1. 克隆ARIS仓库到本地 git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git cd Auto-claude-code-research-in-sleep # 2. 确认你的Claude Code技能目录位置通常是~/.claude/skills/ # 如果目录不存在创建它 mkdir -p ~/.claude/skills/ # 3. 复制所有技能到你的技能目录 cp -r skills/* ~/.claude/skills/完成这一步后重启你的Claude Code。当你再次输入/时应该能看到一长串以/开头的ARIS技能了例如/idea-discovery/paper-writing等。3.3 配置评审模型Codex MCPARIS工作流的“评审”环节默认依赖于一个外部的、强大的LLM作为评审员。最常用的配置是使用OpenAI的Codex CLI背后是GPT-5.4模型通过MCP服务器与Claude Code通信。安装与配置Codex CLI# 1. 全局安装Codex CLI (需要Node.js环境) npm install -g openai/codex # 2. 运行Codex设置向导它会引导你登录并选择模型 codex setup # 在设置过程中当询问选择模型时请务必选择 gpt-5.4或更高版本如可用。 # 同时建议将推理强度reasoning effort设置为 xhigh以获得最严谨的评审。 # 3. 将Codex作为MCP服务器添加到Claude Code claude mcp add codex -s user -- codex mcp-server这个步骤会在你的Claude Code中注册一个名为codex的MCP服务器。当ARIS技能需要执行评审任务时Claude Code就会通过这个服务器向GPT-5.4发送请求。验证配置在Claude Code中你可以通过查看MCP服务器列表来确认codex已添加成功。通常命令是claude mcp list。你应该能看到codex在列表中并且状态是活跃的。3.4 可选使用替代模型作为评审员如果你没有OpenAI API或者希望使用其他模型ARIS完全支持。这得益于其开放的MCP架构。你需要为你选择的模型搭建一个MCP服务器。以使用MiniMax的M2.7模型为例你需要一个兼容OpenAI API格式的MiniMax端点通常由平台提供。配置一个通用的llm-chatMCP服务器ARIS仓库的mcp-servers/llm-chat/目录下有示例将其指向你的MiniMax端点。在Claude Code中添加这个新的MCP服务器例如命名为minimax-reviewer。在使用ARIS技能时通过参数— reviewer: minimax-reviewer来指定使用这个评审员。项目文档中提供了详细的 MiniMax GLM配置指南以及如何适配Kimi、DeepSeek等模型的说明。这确保了ARIS的核心工作流不依赖于任何特定的商业API。3.5 技能更新机制ARIS项目更新频繁社区贡献了许多新技能和优化。为了在保留你自己定制的同时安全地更新技能项目提供了智能更新脚本。# 进入你的ARIS项目目录 cd /path/to/Auto-claude-code-research-in-sleep # 拉取最新的上游代码 git pull # 1. 模拟运行查看哪些技能有更新哪些被你修改过安全检测 bash tools/smart_update.sh # 2. 确认无误后应用更新只会更新安全的、未被你修改的技能 bash tools/smart_update.sh --apply这个smart_update.sh脚本非常实用。它会比较本地技能文件和上游仓库的差异如果发现某个技能文件你在本地做了修改比如调整了API路径它会标记为“已定制”并跳过更新防止你的工作被覆盖。4. 核心工作流深度实操与避坑指南安装配置只是开始真正发挥威力在于如何使用这些工作流。我将结合自己的使用经验详细拆解两个最核心的工作流并分享其中的关键技巧和常见陷阱。4.1 Workflow 1 1.5从想法到实验数据的完整闭环假设我的研究方向是“针对小样本场景的视觉语言模型高效微调方法”。一个模糊的方向需要被具体化。步骤1启动想法发现 (/idea-discovery)在Claude Code中我输入/idea-discovery “针对小样本场景的视觉语言模型高效微调方法重点关注参数效率与灾难性遗忘的平衡”这里的关键是具体化。不要只输入“小样本学习”或“VLM”而是尽可能描述清楚你的关注点、挑战或假设。ARIS内部发生了什么文献调研它会调用/research-lit技能根据你配置的源默认是all包括本地PDF、Zotero、arXiv、Semantic Scholar等搜索相关论文。最新的deepxiv集成提供了更智能的渐进式检索。想法生成基于文献综述/idea-creator技能会生成一系列具体的研究想法。每个想法都包含核心问题、假设、可验证的声明、初步实验设计。交叉评审每个想法会被送到评审模型如GPT-5.4那里进行批判性评估。评审员会从新颖性、可行性、潜在影响力、实验设计的严谨性等多个维度打分并指出弱点。输出与选择最终你会得到一份IDEA_CANDIDATES.md文件里面列出了评分排名靠前的想法以及详细的评审意见。实操心得与避坑利用— sources参数如果你在特定领域积累了大量本地PDF或Zotero文献使用— sources: zotero, local可以大幅提升调研的相关性和速度避免网络搜索的噪音。善用— ref paper和— base repo如果你是在某篇现有论文的基础上做改进或者想基于某个开源代码库进行开发一定要使用这两个参数。例如/idea-discovery “改进方法X” — ref paper: https://arxiv.org/abs/xxxx.xxxxx, base repo: https://github.com/author/repo。这会让ARIS的思考高度聚焦产出的想法更具可操作性。不要完全依赖自动选择默认AUTO_PROCEED: true会让ARIS自动选择最高分的想法进入下一阶段。但对于重要项目我强烈建议设置— AUTO_PROCEED: false。仔细阅读IDEA_CANDIDATES.md结合你自己的领域知识判断哪个想法更有潜力。评审模型的打分是基于通用学术标准可能无法完全捕捉某个细分领域的特殊价值。步骤2实验实现与部署 (/experiment-bridge)假设我们选择了“基于低秩适配器与知识蒸馏的小样本VLM微调以缓解遗忘”这个想法。现在需要将它变成代码和实验。在Claude Code中打开上一步生成的IDEA_CANDIDATES.md找到你选中的想法将其描述复制出来然后输入/experiment-bridge接着将想法的详细描述粘贴进去。或者如果你已经有一个结构化的实验计划文档可以直接将其作为输入。ARIS内部发生了什么计划细化/experiment-plan技能会将想法转化为详细的、分步骤的实验计划包括需要实现的模块、依赖库、评估指标、消融实验设计等。代码生成与审查Claude Code会根据计划开始编写Python代码。关键一步来了在代码部署到GPU运行之前/experiment-bridge会调用codex评审员对生成的代码进行交叉审查。评审员会检查代码的逻辑错误、潜在的性能瓶颈、是否遗漏了重要的边界条件、实验设置是否严谨等。这个环节无数次帮我提前发现了bug。环境与部署代码通过审查后ARIS会根据你的CLAUDE.md配置文件中的gpu设置来部署实验。gpu: local在本地GPU上运行。gpu: remote通过SSH在远程服务器上运行。gpu: vast自动在 Vast.ai 上按需租赁最便宜的GPU任务完成后自动销毁非常适合临时性的算力需求。gpu: modal使用 Modal 的无服务器GPU按执行时间计费无需管理服务器拥有免费额度。监控与结果收集实验开始后你可以使用/monitor-experiment技能来查看实时进度如果集成了WB或最终结果。所有输出文件日志、模型检查点、评估结果会被组织在experiments/目录下。实操心得与避坑一定要配置code review: true默认这是ARIS保证代码质量的核心安全网。我遇到过Claude Code生成的训练循环缺少梯度清零(optimizer.zero_grad())或者评估代码错误地使用了训练数据都是靠GPT-5.4的评审提前发现的。理解/experiment-queue与/run-experiment的区别对于简单的单次实验用/run-experiment。但如果你需要运行一个复杂的网格搜索例如跨3种学习率、4种随机种子、3种模型规模共36个任务一定要使用/experiment-queue。它内置了OOM感知重试、任务依赖管理例如A阶段训练完才能开始B阶段、崩溃安全调度等针对大规模实验的优化能帮你节省大量手动管理任务的时间。善用“救援模式”如果实验运行失败比如CUDA内存不足、依赖缺失ARIS的/experiment-bridge会自动进入“救援模式”尝试诊断问题并给出修复建议然后重试。这个功能非常实用。结果文件命名规范化建议在实验脚本中将结果文件如JSON、CSV用包含实验配置如lr1e-4_seed42.json的方式命名。这方便后续的/result-to-claim技能自动解析和汇总。4.2 Workflow 3从实验数据到成型论文的自动化写作当实验跑完得到了振奋人心的结果后最枯燥但又至关重要的环节来了写论文。Workflow 3 (/paper-writing) 就是为此设计的。输入准备Narrative ReportARIS论文写作的起点不是一个模糊的想法而是一份叙事性报告Narrative Report。你需要将你的研究故事、核心论点、支持这些论点的实验证据以一种连贯的、说理的方式组织成一个Markdown文件。项目在templates/目录下提供了NARRATIVE_REPORT_TEMPLATE.md模板。它的结构通常包括核心主张用一两句话概括你的论文贡献。背景与动机为什么这个问题重要现有方法有何不足方法概述你的方法的核心思想是什么不必展开技术细节证据链这是核心部分。列出你的主要实验结果每个结果都要明确说明它证明了什么。例如“表1显示我们的方法在Dataset A上比SOTA高出3.2%这证明了其在标准基准上的有效性。”“图2的消融实验表明移除组件B会导致性能下降5%这证实了B的必要性。”“在附录C.2中我们展示了方法在计算开销上仅增加15%验证了其高效性。”讨论与局限你的工作意味着什么有哪些局限性结论启动论文写作当你完成了NARRATIVE_REPORT.md后在Claude Code中输入/paper-writing “NARRATIVE_REPORT.md” — venue: NeurIPS参数— venue指定目标会议如NeurIPS, ICLR, ICML, CVPR等ARIS会自动应用该会议的LaTeX模板和格式要求。ARIS内部发生了什么这是一个多阶段的、迭代的管道从叙事到提纲首先它将叙事报告转化为结构化的论文提纲包含章节、子章节以及每个部分需要涵盖的内容点。初稿撰写Claude Code根据提纲结合叙事报告中的证据撰写完整的LaTeX初稿。它会生成图表描述或调用/paper-illustration生成图表并从DBLP/CrossRef抓取真实的BibTeX参考文献反幻觉关键步骤。自动化评审与改进循环初稿会进入一个类似Workflow 2的自动评审循环。评审模型如GPT-5.4会以审稿人的视角对论文的清晰度、严谨性、叙事逻辑、实验支撑等方面进行打分并提出修改意见。Claude Code根据意见修改论文然后再次提交评审。这个过程通常进行2-3轮直到分数达到一个阈值如7/10以上或轮次用尽。图表生成根据— illustration参数ARIS会生成论文所需的图表。gemini使用Google Gemini API生成示意图需要API KEY。mermaid使用免费的Mermaid语法生成流程图、序列图等。figurespec推荐使用ARIS内置的/figure-spec技能通过定义JSON规范来生成确定性的、可复现的、矢量格式的图表如架构图、工作流图。这是学术论文的首选因为它能保证每次编译生成完全相同的图表。编译与最终审核最后ARIS会调用pdflatex或xelatex编译LaTeX生成PDF。在最新的版本中评审员在最终轮次会直接阅读生成的PDF文件而不是LaTeX源码以检查格式错误、图表错位等排版问题。声明审计在最终提交前/paper-claim-audit技能会被自动调用。它会启动一个零上下文的新评审会话将论文中的每一个数据声明如“性能提升3.2%”与原始的、未经处理的实验结果文件进行逐项核对防止“四舍五入”式的夸大、最佳种子的“樱桃采摘”或配置不匹配等问题。实操心得与避坑Narrative Report是成败关键这份报告的质量直接决定最终论文的骨架。你必须清晰地构建“问题-方法-证据-结论”的逻辑链。证据部分要具体到“哪个图/表证明了什么观点”。含糊的报告会导致论文初稿逻辑松散。善用— effort参数控制强度论文写作是个耗时的过程。你可以根据项目阶段选择强度。— effort: lite快速产出初稿用于内部讨论。— effort: balanced默认标准强度适合大多数情况。— effort: max或— beast在论文冲刺阶段使用会进行更深度的分析、更多的迭代轮次和更严格的审核但会消耗大量token。“对抗性评审”的价值在最终提交前使用— difficulty: nightmare参数运行一次/auto-review-loop。这个模式下评审员GPT-5.4会通过codex exec直接读取你的代码仓库任何在论文中含糊其辞或与代码不符的描述都无处遁形是最高强度的压力测试。亲自检查PDF输出虽然ARIS的自动化程度很高但编译LaTeX涉及复杂的依赖字体、宏包。务必亲自打开生成的PDF检查是否有编译错误、参考文献格式是否正确、图表是否完整显示。ARIS的编译环境可能和你的本地环境有细微差别。利用Research Wiki保持连贯性如果你在同一个项目上多次运行/paper-writing比如针对不同会议修改启用/research-wiki可以确保论文背景、相关工作等部分引用的一致性避免每次重写时出现矛盾。5. 高级功能与定制化让ARIS成为你的专属研究助理除了核心工作流ARIS还提供了一系列提升研究效率和产出的高级功能。5.1 持久化研究知识库 (/research-wiki)这是我最喜欢的功能之一。研究是一个连续的过程但我们的工具包括AI往往是“失忆的”。/research-wiki在项目根目录创建一个research-wiki/文件夹里面用结构化的Markdown文件记录一切。自动收录当你运行/research-lit时阅读过的论文摘要和关键信息会被自动存入Wiki。想法管理/idea-creator在生成新想法前会先读取Wiki避免提出重复或已被证伪的想法生成的新想法也会被写回Wiki。实验与声明追踪/result-to-claim技能会将实验结论转化为“声明”并记录在Wiki中同时关联到相关的想法和论文。关系图谱Wiki中的条目论文、想法、实验、声明可以通过标签相互关联形成一个可视化的知识网络。启用方法极其简单在项目目录下于Claude Code中执行一次/research-wiki init即可。之后所有相关技能都会自动与之交互。5.2 自我进化与元优化 (/meta-optimize)ARIS不仅能优化你的研究还能优化它自己。/meta-optimize技能会分析你使用ARIS时产生的日志需要预先通过复制钩子文件启用找出技能使用中的低效模式、常见失败点或参数配置问题然后通过评审模型生成对SKILL.md文件的改进建议。例如它可能发现你在某个工作流中总是手动覆盖— effort: max参数从而建议将该技能的默认effort级别提高。或者它发现/experiment-bridge在某种特定类型的OOM错误后重试策略不佳从而提出更智能的重试逻辑。启用步骤在你的项目目录中创建必要的目录并复制钩子文件mkdir -p .claude .aris/meta tools/meta_opt cp /path/to/ARIS/templates/claude-hooks/meta_logging.json .claude/settings.json cp /path/to/ARIS/tools/meta_opt/*.sh tools/meta_opt/ chmod x tools/meta_opt/*.sh正常使用ARIS技能你的操作会被匿名记录到.aris/meta/events.jsonl。积累一定数据后如5次完整工作流运行运行/meta-optimize来获取优化建议。这是一个将“使用数据反馈给系统设计”的闭环让工具能适应你的个人研究风格。5.3 审稿回复自动化 (/rebuttal)这是针对论文被审稿后的高压场景设计的专项工作流。你只需要将论文文件夹和审稿意见通常是一个文本文件提供给它。/rebuttal “paper/ reviews.txt” — venue: ICML, character limit: 5000它会解析与分类理解每位审稿人的每一条意见正面、负面、问题。制定策略决定哪些意见必须回应、哪些可以反驳、哪些需要补充实验。起草回复撰写结构清晰、语气专业、严格在字数限制内的回复草稿。安全审查通过三道安全门确保回复不捏造数据、不过度承诺、覆盖所有关切点。压力测试让评审模型模拟审稿人对回复进行追问确保其 robustness。最终输出两个文件PASTE_READY.txt可直接粘贴到投稿系统的纯文本和REBUTTAL_DRAFT_rich.md包含更多上下文和备注的丰富版本供你进一步编辑。这个功能在紧张的回复截止日期前能为你节省大量时间并确保回复的全面性和专业性。6. 常见问题与故障排查实录在实际使用中你肯定会遇到各种问题。以下是我和社区成员遇到过的一些典型情况及其解决方案。6.1 技能无法识别或执行错误症状在Claude Code中输入/后看不到ARIS技能或者执行时提示“skill not found”。排查检查技能目录确认~/.claude/skills/目录下是否有ARIS的技能文件夹如idea-discovery,paper-writing等。检查Claude Code版本某些旧版本可能使用不同的技能路径。尝试在Claude Code的设置中查找“Custom Skills”或“Skills Directory”的配置。重启Claude Code安装新技能后有时需要完全重启IDE才能加载。检查技能文件权限确保SKILL.md文件可读。6.2 Codex评审环节失败或超时症状工作流卡在“等待评审...”或提示“MCP server error”。排查验证Codex MCP服务器在终端运行claude mcp list确认codex服务器状态为active。测试Codex连接在Claude Code中尝试直接向codex提问例如“codex Hello, can you hear me?”看是否有响应。检查API配额与网络确认你的OpenAI API key有效且有充足配额。检查网络连接特别是如果使用了代理。调整超时设置如果评审模型响应慢可以在技能参数中尝试调整如果技能支持或检查Codex CLI的配置。6.3 实验部署失败GPU相关症状/experiment-bridge提示无法连接GPU、CUDA错误或依赖安装失败。排查检查CLAUDE.md配置确保gpu参数设置正确local,remote,vast,modal。对于remote需要正确配置SSH信息。本地环境对于local确保PyTorch/TensorFlow等深度学习框架已正确安装且与CUDA版本匹配。可以手动运行一个简单的import torch; torch.cuda.is_available()测试。Vast.ai / Modal对于云GPU确保你已按照对应技能的指南skills/vast-gpu/SKILL.md或skills/serverless-modal/SKILL.md完成账户设置、API密钥配置和客户端安装。查看详细日志ARIS会输出详细的错误信息。关注“Stderr”或“Error”部分通常能定位到具体问题如缺少pip packageCUDA版本不兼容等。6.4 LaTeX编译失败症状/paper-writing最终阶段提示“LaTeX compilation failed”。排查检查LaTeX环境确保系统安装了完整的LaTeX发行版如TeX Live, MiKTeX。在终端运行pdflatex --version或xelatex --version确认。查看编译日志ARIS通常会保存编译日志文件如paper/compile.log。打开它搜索“Error”或“!”找到具体的错误信息。常见问题包括缺少宏包File ‘xxx.sty’ not found、字体缺失、bibtex错误等。手动编译进入ARIS生成的paper/目录尝试手动运行pdflatex main.texbibtex mainpdflatex main.texpdflatex main.tex这一系列命令观察哪一步出错。简化测试如果问题复杂可以尝试在命令中加上— illustration: false跳过图表生成或者使用更简单的会议模板如先试试— venue: arXiv以排除图表或复杂模板导致的问题。6.5 结果质量不理想症状产生的想法缺乏新意论文写作泛泛而谈评审意见流于表面。优化建议提供更优质的输入对于/idea-discovery输入要具体、有深度。对于/paper-writing花时间打磨Narrative Report确保逻辑和证据扎实。调整评审模型和难度尝试使用更强的评审员— reviewer: oracle-pro或更高的难度— difficulty: hard或nightmare。利用— ref paper和— base repo这能将AI的思考锚定在具体的现有工作和代码上大幅提升产出的相关性和可行性。启用Research Wiki让AI拥有项目记忆避免每次会话都从零开始。人工干预不要追求全自动。在关键节点如想法选择、评审后修改方向进行人工干预和引导将AI作为强大的副驾驶而不是自动驾驶。7. 总结与个人使用体会经过数月的深度使用ARIS已经彻底改变了我开展研究项目的方式。它不是一个“取代研究者”的魔法黑箱而是一个将研究过程中那些可结构化、可程序化的部分进行自动化与增强的“力量倍增器”。最大的价值在于流程的严谨性。双模型对抗评审、实验代码的交叉审查、声明与证据的自动核对、论文格式的严格校验……这一系列机制强制性地将学术严谨性嵌入到工作流的每一个环节。它不会让你做出更好的科学直觉但能极大降低你因疏忽而犯低级错误的概率——比如在论文里写错了实验数字或者遗漏了某个重要的对比方法。它的模块化设计赋予了极大的自由。你可以只使用/idea-discovery来辅助文献调研和开题也可以只用/paper-writing来辅助论文撰写或者将/experiment-queue作为你大规模实验的任务调度器。每个技能都可以独立运行也可以像乐高一样组合。社区不断贡献的新技能如海报生成/paper-poster、幻灯片生成/paper-slides、证明检查/proof-checker让这个生态系统越来越丰富。对算力和API成本需要有心理准备。运行一个端到端的/research-pipeline涉及多轮LLM调用Claude GPT-5.4 xhigh和可能的GPU实验成本不菲。我的策略是在早期探索阶段使用— effort: lite并关闭自动实验在核心论证和论文冲刺阶段再开启— effort: max和完整流程。同时充分利用/research-wiki来沉淀知识避免重复的文献调研和背景撰写。最后ARIS的成功运行非常依赖于使用者的“提示工程”能力。你给它的指令越清晰、上下文越丰富它的表现就越好。把它想象成一个天赋极高但需要明确指引的研究实习生。你需要学会如何为它撰写高质量的Narrative Report如何设置合理的参数以及在何时进行关键的人工干预。这个项目依然在快速迭代中中文社区也非常活跃。如果你在机器学习、深度学习领域从事研究工作并且不畏惧通过“与AI协作”来提升效率我强烈建议你尝试ARIS。从安装一个技能开始体验一下让另一个“大脑”帮你审视代码、批判想法的感觉你可能会发现研究这件事确实可以变得有点不一样。

从单仓到多租户GitOps：DeepSeek支撑200+业务线的分层仓库架构（含Git Submodule+OCI Registry双模设计图）

更多请点击： https://intelliparadigm.com 第一章：从单仓到多租户GitOps：DeepSeek支撑200业务线的分层仓库架构（含Git SubmoduleOCI Registry双模设计图） 在超大规模AI基础设施演进中，DeepSeek构建了面向2…...

2026/5/15 21:25:45 阅读更多 →

企业级浏览器自动化测试架构设计：Chrome for Testing的高可用解决方案与实践指南

企业级浏览器自动化测试架构设计：Chrome for Testing的高可用解决方案与实践指南【免费下载链接】chrome-for-testing 项目地址: https://gitcode.com/gh_mirrors/ch/chrome-for-testing Chrome for Testing是Google ChromeLabs团队为解决浏览器自动化测试…...

2026/5/15 21:24:23 阅读更多 →