睡前定方向,醒来收初稿:全自动跑实验改论文的工作流开源了
与其在实验室通宵不如让 Claude 替你卷。如果你还在熬夜手搓代码、调参跑实验那这个刚刚开源的科研工作流绝对会让你眼前一亮。它就是 ARISAuto-Research-In-Sleep一款真正帮你实现“睡后科研”的全自动神器。这个项目的核心理念很直接让 Claude Code 在你睡觉时做科研。睡前丢给 AI 一篇论文初稿醒来就能发现站不住脚的 claim 已被剔除20 多组 GPU 实验默默跑完整篇论文的叙事框架焕然一新分数也从 5.0 稳步提升到了可投稿的 7.5 分——而且全流程零人工干预。作为一套专为机器学习科研定制的 Claude Code SkillsARIS 既吸收了 FARS 的经验也呼应了 Karpathy 提出的 autoresearch 思想。它没有采用复杂的四智能体分工而是采用跨模型协作实现了闭环。在这个框架下Claude Code 负责干活读文件、写代码、跑实验、收结果外部 LLM通过 Codex MCP专门负责评审打分、找弱点、建议修复。两个模型互不评阅自己的作业通过反复的交叉辩论形成真正的正向反馈。为了降低使用门槛它还支持 GLM GPT 或 GLM MiniMax 等替代模型组合无需 Claude API 也能直接跑通全流程。项目地址https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep在本地跑通这套工作流非常简单拉取代码、配置 Codex MCP即可在终端一键启动对应流程。# 1. Install skills git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git cp -r Auto-claude-code-research-in-sleep/skills/* ~/.claude/skills/ # 2. Set up Codex MCP (for review skills) npm install -g openai/codex claude mcp add codex -s user -- codex mcp-server # 3. Use in Claude Code claude /idea-discovery your research direction# Workflow 1: literature → brainstorm → validate /auto-review-loop # Workflow 2: review → fix → re-review overnight /paper-writing NARRATIVE_REPORT.md # Workflow 3: narrative → polished PDF /research-pipeline your research direction# Full pipeline: Workflow 1 → 2 → 3 end-to-endARIS 涵盖了从方向探索到论文定稿的各个环节并在模型调用的自由度与底层算力保护上做了权衡。自动 review 循环— 4 轮自主审稿一夜从 5/10 提升到 7.5/10自动跑 20 组 GPU 实验Idea 发现— 文献调研 → 头脑风暴 8-12 个 idea → 查新 → GPU pilot 实验 → 排名报告文献 查新— 多源论文搜索arXiv、Scholar、Semantic Scholar 本地论文库扫描 跨模型查新验证跨模型协作— Claude Code 执行GPT-5.4 xhigh 审稿。对抗式而非自我博弈Peer Review— 以审稿人视角审阅他人论文结构化打分 meta-review️GPU 部署— 自动 rsync、screen 会话、多 GPU 并行实验、实时监控灵活模型— 默认 Claude × GPT-5.4也支持 GLM GPT、GLM MiniMax——无需 Claude APIHuman-in-the-loop— 关键决策点可配置检查点AUTO_PROCEEDtrue全自动false逐步审批17 个可组合 skill— 自由混搭或串联为完整流水线/idea-discovery、/auto-review-loop、/research-pipeline以某 ML 研究项目实测为例经过 4 轮自动实验与叙事重构它将论文质量从 borderline reject 提升到了可投稿水平工作流项目内所有的 Skills 共同构成了一条端到端的科研流水线。其中最核心的三大工作流既可以作为独立模块单点发力也能无缝串联使用探索新方向比如写 survey从工作流 1 开始 →/idea-discovery已有 idea 初步方案直接用工作流 2 →/auto-review-loop准备写论文了工作流 3 →/paper-writing或分步/paper-plan→/paper-figure→/paper-write→/paper-compile→/auto-paper-improvement-loop全流程工作流 1 → 工作流 2 → 工作流 3 →/research-pipeline从文献调研一路到投稿⚠️ 重要提醒这些工具加速科研但不能替代你自己的思考。生成的 idea 一定要用你的领域知识审视质疑其假设最终决策权在你手上。最好的研究 人的洞察 AI 的执行力而不是全自动流水线。完整流程如下/research-lit → /idea-creator → /novelty-check → 实现 → /run-experiment → /auto-review-loop → /paper-plan → /paper-figure → /paper-write → /auto-paper-improvement-loop → 投稿 (调研文献) (找idea) (查新验证) (写代码) (部署跑实验) (自动改到能投) (大纲) (作图) (LaTeXPDF) (审稿×2 格式检查) (搞定!) ├──── 工作流 1找 Idea ────┤ ├──── 工作流 2自动循环 ────┤ ├───────────────── 工作流 3论文写作 ─────────────────────┤工作流 1文献调研与找 Idea这个领域最新进展是什么哪里有 gap还没有具体 idea给一个研究方向就行——/idea-creator搞定剩下的调研全景最新论文、开放问题、反复出现的局限性头脑风暴8-12 个具体 ideaGPT-5.4 xhigh初筛可行性、算力成本、快速查新️深度验证top idea完整查新 devils advocate review并行 pilot 实验top 2-3 个 idea 分别上不同 GPU30 分钟 - 2 小时按实验信号排序——有正信号的 idea 排前面输出IDEA_REPORT.md含假设、pilot 结果、审稿人可能的质疑、建议执行顺序。失败的 idea 也记录在案避免重复踩坑。涉及 Skillsresearch-litidea-creatornovelty-checkresearch-review 一键调用/idea-discovery 你的研究方向 自动跑完整个工作流 1。 人在回路中每个阶段都会展示结果等你反馈。不满意告诉它哪里不对——调整 prompt 重新生成。信任默认选择它会自动带着最优方案继续。你决定参与多深。⚙️ Pilot 实验预算最大时长、超时、GPU 总预算均可配置——见自定义。1. /research-lit discrete diffusion models ← 先读本地论文再搜外部整理全景 2. /idea-creator DLLMs post training ← 自动生成 8-12 个 idea筛选排序 3. 选 top 2-3 个 idea 4. /novelty-check top idea ← 查新有没有人做过 5. /research-review top idea ← 让外部 LLM 批判你的想法 6. 实现 → /run-experiment → /auto-review-loop ← 闭环工作流 2自动科研循环睡一觉醒来看结果帮我 review 论文修复问题循环到通过为止。涉及 Skillsauto-review-loop research-review novelty-check run-experiment analyze-results monitor-experiment 一键调用/auto-review-loop 你的论文主题 自动跑完整个工作流 2。外部 LLM 评审 → Claude Code 实现修复 → /run-experiment 部署 → 收结果 → 再评审 → 循环 ↑ 需要新方向时自动 /novelty-check 查新用法 /auto-review-loop 我的 diffusion model 论文️ 关键安全机制MAX_ROUNDS 4— 防止无限循环达到分数阈值时提前停止⏱️ 4 GPU-hour 的实验自动跳过— 不会启动超大实验标记为需人工跟进优先改叙事而非跑新实验— 同样能解决问题时选择成本更低的路径不隐藏弱点— 明确规则不要隐藏弱点来骗高分先修后审— 必须实现修复后再重新 review不能只承诺修上下文压缩恢复— 每轮结束后持久化状态到REVIEW_STATE.json。如果上下文窗口满了触发自动 compact工作流会从状态文件恢复断点继续——无需人工干预⚙️ MAX_ROUNDS、分数阈值、GPU 限制均可配置——见自定义。工作流 3论文写作流水线把我的研究报告变成可投稿的 PDF。 需要本地 LaTeX 环境——见前置条件。涉及 Skillspaper-plan paper-figure paper-write paper-compile auto-paper-improvement-loop 一键调用/paper-writing NARRATIVE_REPORT.md 自动跑完整个工作流 3。输入一份NARRATIVE_REPORT.md描述研究内容声明、实验、结果、图表。叙事越详细尤其是图表描述和定量结果输出越好。输出一个可投稿的paper/目录含 LaTeX 源码、干净的.bib仅含实际引用、编译好的 PDF。NARRATIVE_REPORT.md ──► /paper-plan ──► /paper-figure ──► /paper-write ──► /paper-compile (研究叙事) (大纲矩阵) (图表LaTeX) (逐节LaTeX) (编译PDF)典型流程 1. 写 NARRATIVE_REPORT.md来自工作流 2 的结果 2. /paper-plan — 生成 claims-evidence 矩阵 分节计划 3. /paper-figure — 生成对比表、训练曲线等图表 4. /paper-write — 逐 section 生成 LaTeX含 bib 清理、de-AI 打磨 5. /paper-compile — 编译 PDF、修复错误、页数验证 6. /auto-paper-improvement-loop — 内容审稿 ×2 格式合规检查核心特性Claims-Evidence 矩阵— 每个声明映射到证据每个实验支撑一个声明自动图表生成— 从 JSON 数据生成折线图、柱状图、对比表Bib 自动清理— 过滤未引用条目实测 948→215 行灵活节数— 5-8 节按论文类型选择理论论文常需 7 节GPT-5.4 审稿— 每步可选外部 LLM 审查✂️De-AI 打磨— 去除 AI 写作痕迹delve、pivotal、landscape…精确页数验证— 基于pdftotext定位 Conclusion 结束位置⚠️ /paper-figure 能做什么、不能做什么能自动生成数据驱动的图表训练曲线、柱状图、热力图和 LaTeX 对比表从 JSON/CSV 数据。不能生成架构图、流程图、模型示意图、生成样本网格——这些需要手动创建draw.io、Figma、TikZ 等放到 figures/ 目录后再跑 /paper-write。一篇典型 ML 论文中约 60% 的图表可自动生成约 40% 需手动制作。端到端实测从一份 NARRATIVE_REPORT.md 生成了一篇 9 页 ICLR 2026 理论论文7 节、29 条引用、4 张图、2 个对比表——零编译错误、零 undefined reference。论文自动润色循环工作流 3 生成论文后/auto-paper-improvement-loop自动跑 2 轮 GPT-5.4 xhigh 内容审稿 → 修复 → 重编译外加一轮格式合规检查将粗稿自动提升到可投稿质量。分数变化实测 — ICLR 2026 理论论文最终正文 8 页ICLR 限 9 页0 个 overfull hbox格式合规。3 轮共涨 4.5 分。全部 Skills如何安装前置条件1. 安装 Claude Code仅 review 类 skill 需要2. 安装 Codex CLI 并配置为 MCP servernpm install -g openai/codex claude mcp add codex -s user -- codex mcp-server3.仅工作流 3论文写作需要LaTeX 环境含 latexmk 和 pdfinfo# macOS brew install --cask mactex # 或: brew install basictex brew install poppler # 提供 pdfinfo # Ubuntu/Debian sudo apt install texlive-full latexmk poppler-utils # 验证 latexmk --version pdfinfo -v如果只用工作流 1 和 2找 idea 自动 review不需要安装 LaTeX。安装 Skillsgit clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git cd Auto-claude-code-research-in-sleep # 安装全部 skills全局可用 cp -r skills/* ~/.claude/skills/ # 或者只安装特定 skill cp -r skills/auto-review-loop ~/.claude/skills/ cp -r skills/research-lit ~/.claude/skills/至于如何设置通宵免确认、如何让 agent 自动直连远程 GPU 跑实验官方文档已提供现成模板直接去仓库抄作业即可。进阶玩法深度自定义系统所有的 skills 均为标准 markdown 文件为二次开发留足了空间。开发者可自由修改底层参数或替换模型底座。精细化参数调控迭代阈值默认最多执行 4 轮 reviewMAX_ROUNDS论文得分达 6/10POSITIVE_THRESHOLD即自动停止。算力熔断预估耗时超 4 小时的实验自动跳过转人工单次 idea 测试支持灵活设置超时限制与 GPU 总预算。流程审批通过 AUTO_PROCEED 参数可一键切换“全自动跑通”或“步步人工审批”模式。本地文献库复用指定 PAPER_LIBRARY 路径后系统在联网检索前会优先扫描并阅读本地已有 PDF。平替模型底座原生支持免 Claude/OpenAI API 方案。例如通过修改配置文件可无缝切换为 GLM-5执行 MiniMax-M2.5评审的双模博弈架构。结语据作者介绍目前这套工具已经能跑通从找 idea 到产出论文 PDF 的全流程。接下来的规划则更看重生态集成比如引入多模态反馈和更顺手的办公流自动化。飞书集成支持关键节点的消息推送通过双向桥接在通讯软件内直接完成 idea 审批。WB 集成探索对接 Weights Biases (WB)使系统能直接读取训练曲线与 loss 指标自动诊断问题并给出后续实验建议。MCP 集成计划开发 Zotero 与 Obsidian 的 MCP 集成深度读取个人文献库、批注与知识图谱提升研究上下文的精准度。更多博弈组合引入 Gemini、DeepSeek 等大模型探索不同执行者 × 评审者组合的性能边界。目前该项目已在 GitHub 完全开源。感兴趣的同学可以访问项目主页获取详细配置用手头的 idea 跑一轮试试效果。更多阅读#投 稿 通 道#让你的文字被更多人看到如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。稿件基本要求• 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注• 稿件建议以markdown格式撰写文中配图以附件形式发送要求图片清晰无版权问题• PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算投稿通道• 投稿邮箱hrpaperweekly.site• 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者• 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿△长按添加PaperWeekly小编现在在「知乎」也能找到我们了进入知乎首页搜索「PaperWeekly」点击「关注」订阅我们的专栏吧·