又一个神级 Skill,开源了!
2026 年初 OpenClaw 的爆火到最近 Hermes Agent 悄然崛起AI Agent 应用落地的浪潮已然到来。大家都渴望着 AI 能替代人完成各种图形界面重复性操作于是纷纷选择给它们装上各种技能。当多数人兴趣盎然想搞 AI 自动化时现实却给了当头一棒。现阶段大部分技能依旧依赖着传统 API 对接方式且局限于浏览器跨桌面应用的自动化操作效果一般。直到最近一个名为Mano-P 1.0技术解决方案在 GitHub 悄然开源其采用的 GUI-VLA 智能体模型让每个 AI 都能拥有双手和眼镜灵活多变的定制个性化 AI。GitHubhttps://github.com/MININGLAMP-AI/MANO-PGUI Agent指的是能看懂屏幕内容并能自动完成操作任务的 AI Agent。而 Mano-P 1.0就是一个纯视觉 GUI 操作模型不依赖任何插件可从根本上解决兼容性问题。在本地端侧部署一台 M4 芯片的苹果电脑就能跑开箱即用数据完全在本地。将模型接入到 OpenClaw 等 Agent 上直接相当于拥有像人类的眼睛和手可理解并操控界面。除了这些核心功能外在 GUI Agent 领域最具权威性的基准测试 OSWorld 上。Mano-P 1.0 72B 模型以 58.2% 的任务成功率在专用 GUI 智能体模型中斩获全球第一。放到全模型榜单里位列第五前四名都是 Claude Sonnet 4.6、Seed-1.8 这些千亿级通用大模型。一个面向端侧设备的小尺寸 GUI Agent 模型能打进这个位置实属罕见。另外在 ScreenSpot-V2、MMBench 等 13 个多模态基准榜单Mano-P 也全部 SOTA 拿下当前最优成绩。覆盖了自主操控、多模态感知认知、视频理解、长上下文学习等多个关键维度树立了 Mano-P 模型在端侧 GUI Agent 领域的性能标杆。真正的差异化在这些基准测试的榜单背后真正值得我们关注的还有它与现有方案的差异。纯视觉不靠协议现有大部分工具依赖 CDP 协议或 HTML 解析本质是读取页面代码来定位按钮和输入框。这套传统处理方式局限在 Web 应用范围内遇到桌面软件、3D 应用便无从下手。而 Mano-P 采用纯视觉GUI交互可以做到直接识别屏幕截图所见即所得随意操控。端侧大模型开箱即用另一个更显著的差别是模型的部署方式。OpenClaw 需要用户自行配置模型Manus 依赖云端 API 调用。Mano-P 模型直接支持内置端侧模型在本地模式下无需配 API 密钥无需连外部服务器可实现一键启动。在 M4 芯片 32GB 内存的 Mac mini 或 MacBook 上用 4B 量化版本就能直接跑。在更高算力需求的场景上接入专属算力棒即可做到即插即用。自适应界面改动长任务离线运行传统 RPA 还有一个老问题应用界面升级改版之前配好的自动化流程全报废。Mano-P 靠纯视觉理解UI 变化自适应维护成本大幅降低。支持数十步到上百步的复杂业务流程全程不联网本地完成推理、决策、纠错的完整闭环。实用场景官方给出的几个实际案例演示覆盖了日常开发、工作、娱乐等几大场景。1Mano-afk 全自动应用构建输入一段自然语言需求系统自动完成架构设计、代码生成、本地部署。测试不通过会自动定位问题、修复、重新部署全程无需人工介入。2商业级视频智能系统从接收指令开始自动完成视频生成、上传、分析、剪辑再到二次评测。过程中可自主操作网页与剪辑软件最后输出完整的分析报告。3麻将博弈Mano-P 不只是一个工作工具官方还给出了生活娱乐场景的演示。通过纯视觉理解麻将游戏界面自主完成识牌、分析和出牌决策验证了模型在非结构化场景下的通用能力。快速安装想使用 Mano-P 来完成 GUI 自动化任务有两种方式。方式一CLI 命令行工具在终端上通过 Homebrew 安装 mano-cua 命令行工具:brew tap HanningWang/tapbrew install mano-cua安装完成后就能直接在终端下达执行任务指令mano-cua run 在小红书整理 AI 最新资讯按热度排名并展示第一条帖子方式二以 Skill 方式安装有 Claude Code、OpenClaw 等 Agent 工具可通过 ClawHub 一键安装 mano-skillclawhub install mano-cua重启会话后Agent 遇到需要操控界面的任务会自动调用不用手动触发。一台 M4 芯片 Mac 电脑两行命令Mano-P 1.0 这个 GUI Agent 模型就能直接顺滑跑起来。目前相关代码已开源 Mano-CUA Skill 部分本地模型预计四月底开源。需要注意的是如果没有配置本地模型工具默认会走云端模式。写在最后GUI Agent 这个方向其实不算新。从早期的 RPA 到近几年各大模型厂商推出的 Computer Use 能力「让 AI 像人一样操作电脑」这个愿景已经被讲了很多遍。但是之前大多数方案都绕不开两个问题依赖云端 API屏幕截图得上传隐私上过不了关依赖 DOM 解析或系统 API换个界面AI 便容易识别错乱。Mano-P 试图走的是一条不同的路把模型搬到本地用纯视觉的方式理解界面让所有数据不出设备。从技术指标上看4B 模型在 M4 芯片上的推理速度已经具备实用价值72B 模型在 OSWorld 上的表现也确实领先。不过这个项目真正值得关注的可能不是当下的完成度而是它指向的那个方向每个人的设备上常驻一个能理解屏幕、自主操作的 AI 助手而且完全离线运行。如果这条路走通了它改变的可能不只是「自动化」这件事而是人和计算机交互的基本方式。你不再需要学习每个软件怎么用只需要告诉 AI 想要什么结果。当然从能跑 demo 到能用在生产环境中间还有很长的路。模型的鲁棒性、长任务中的错误累积、跨平台的适配成本这些都是需要时间去打磨的问题。但至少这个 GitHub 项目让我们看到了一种新的可能性。项目基于 Apache 2.0 协议开放可商用和二次开发。感兴趣的同学可以去 GitHub 仓库看看源码和文档。GitHub 项目地址https://github.com/MININGLAMP-AI/MANO-P今天的分享到此结束感谢大家抽空阅读我们下期再见Respect