OpenClaw创始人预言：80% App将被吞噬，揭秘Claude Agent逆向API的终极玩法

type

status

date

slug

summary

category

icon

password

网址

“80%的手机App会被吃掉！”

昨日，爆火项目 OpenClaw （前名 Clawdbot）创建者 Peter Steinberger 的又一次播客采访公开放了出来。

这次播客与前几期不同，有不少新的干货被 Peter 透露了出来。

比如：Peter 已经把玩法已经升级到用它来提醒外卖还有多久，控制自己床的温度了。而这种扩充绝对的秘密就在于：逆向第三方的API。

再比如，他认为 80% 手机的 App 都会被类似 OpenClaw 这样的应用“吃”掉。

我感觉有一整层 App 会慢慢消失。只要它们有 API，本质上就只是服务，而这些服务都会变成你的 AI 在做的事情。

“今年，很多人都会开始认真探索这一点，从大公司那里拿到自己的 AI 助手。”

“为什么要点那么多封闭的小 App？这个助手有一堆能力，只要连起来就能做完一切。”

而这也是小编颇为看好OpenClaw的地方，AI 应用市场终于开始出现了“王侯将相，宁有种乎”那般打破原有巨头App束缚，且兼具更好的AI体验的苗头了。

此外，Peter 再次重申了几个反行业共识的判断。

一、自己不太相信复杂任务的编排，也不相信塞一个规范文档的 Ralph 范式能做出真正有用的东西。

二、长时程Agent本身就是一个虚荣指标，本身除了自嗨，价值不大。

三、不喜欢 MCP。大多数 MCP 都应该是 CLI。

四、对于上下文管理方面，除了md文件以外，Peter 自曝，OpenAI 的 GPT-5系列其实本身已经够用了，能维持记忆很长时间。

五、语言已经不再重要，重要的是工程思维。

此外，他还共享屏幕展示了 OpenClaw 的安装过程，非常简单的一句命令行即可。

自己是如何给 Clawdbot 增加新功能的？他透露其实很简单，就是将Discord的聊天截图发给它，然后让它给一些选项，来讨论下。

总之，在与 Youtube 博主 Peter Yang 的对话中，Peter 忍不住透露了不少新料。

还有不少交流细节，这里不再一一展开。

以下是小编为大家整理的一场关于AI 私人助理、agent 真实形态，以及工程师“超能力”如何被重新定义的反直觉对话。

Clawdbot 到底是什么？

被完全解锁的ChatGPT

主持人：好，欢迎大家。今天的嘉宾是 Peter，Claude 的创建者——一个你可以在各种聊天应用里直接对话、帮你把事情办完的 AI 助手。今天 Peter 会给我们展示怎么用 Claude，同时他对 AI 编程也有很多很犀利的观点，我特别期待。欢迎你，另一个 Peter。

Peter：谢谢邀请，很高兴见到你。

主持人：那我们从 Clawdbot 开始吧。宏观来看，它到底在做什么？

Peter：我可以先讲点背景。我“退休”回来之后，想要一个方式，能用手机随时看看我的电脑在干嘛。当时我完全跳进了 agent 这股浪潮，你知道的，agent 可能一跑就是半小时；也可能两分钟就停下来问你一个问题。你回来一看，特别烦。

我一开始没做这个东西，是因为我以为大模型实验室迟早都会做。这件事太显而易见了，几乎像一种新的操作系统形态。但一直没发生。到了 11 月还没发生，我就想，那我自己试个小东西吧。

那个“小东西”，就是把 WhatsApp 接到 Claude Code 上。你发一条 WhatsApp 消息，它就在本地打开一个二进制文件，带着 prompt 跑一遍，然后把结果回给你。特别原始，一个小时就写完了。但它开始自己“活”了起来。

现在这个项目大概有 30 万行代码，支持几乎所有主流的消息平台，还在持续扩展。我觉得这大概就是未来的方向：每个人都会有一个超级强大的 AI，贯穿他的一生。事实证明，只要你让 AI 访问你的电脑，它几乎什么都能干。

而且它已经到了一个阶段，你不用盯着它“保姆式”监督。你给它一些指令，它自己去做，做完你再检查结果就行了。

对我来说，这个项目既是技术，也是一次探索，因为它属于一个新类别。我记得有一次去摩洛哥给朋友过生日，我发现自己一直在用它：问路线、找餐厅建议。有一天早上，有人给我发了条关于 bug 的推特，我就拍了张图发到 WhatsApp。它读图、理解问题、定位到我某个仓库，修 bug、提交代码，然后直接在 Twitter 上回复对方说已经修好了。那一刻我真的觉得，这也太爽了。

还有一次，我在外面走路，网络不太好，就随手给它发了条语音消息。但我其实根本没给它做语音支持。我看到它显示“正在输入”，心想它在干嘛。结果它像什么都没发生一样回复了我。我当时就懵了：我明明没实现语音功能。

后来我去看日志，它说：我看到这是个文件，但没有文件扩展名。我分析了 header，发现是某种音频格式。我在你电脑上找到了 ffmpeg，把它转成了 wav；然后我找 visper.cpp，没找到，但发现了一个 OpenAI 的 key，于是用 curl 调了 OpenAI 的 API，拿到了转写结果，然后回复了你。

那一刻我真的是被震住了。这些系统太有“资源整合能力”了，甚至有点可怕。但也是那一刻我意识到：这比在网页上用 ChatGPT 有意思太多了。这是一个被完全解锁的 ChatGPT。

很多人以为 Claude Code 这种东西只适合写程序，其实它对任何问题都非常有用。

主持人：

关键在于，你要给它工具、给它访问权限。一旦你这么做了，它会变得极其强大。

扩充军团的秘法：逆向别家API

Peter：

这几个月里，我还给自己组了一支“CLI 军团”。Agent 最擅长的事情之一，就是调用命令行。我给 Google 的各种服务都写了 CLI，包括 Places API；我写了一个查 meme 和 gif 的工具，让它可以用表情包回复；我还做过一些奇怪的实验，比如做了一个“声音可视化”的工具，因为我想让它“体验音乐”。这部分更偏艺术探索。

我甚至还逆向了本地外卖平台的接口，让它能告诉我外卖还有多久送到；我还逆向了 Eight Sleep （注：一款智能睡眠硬件）的 API，现在它能直接控制我床的温度。

语言不重要了，重要的是工程思维

主持人：那你这些东西，基本都是让 AI 自己帮你写的吗？

Peter：挺有意思的。我以前在老公司，非常擅长 iOS 和 macOS，整个 Apple 生态我干了 20 年，算是专家级别。但回来之后，我突然对 Apple 的各种限制感到厌倦。而且这个东西其实更适合做成 Web 应用，跑在浏览器里，谁都能用。

问题是，很多工程师都会遇到这种痛苦：你在一个领域很强，但换一套技术栈，就会非常难受。你明明理解所有概念，却要不停查“什么是 prop”“怎么 split 一个数组”，感觉自己像个傻子。

我从 Objective-C 和 Swift 转到 JavaScript、TypeScript 时就是这种感觉。不是难，是痛苦。你节奏被打断，非常慢。

但有了 AI，这种痛苦几乎直接消失了。你依然在做系统层面的思考：结构怎么搭、依赖怎么选、整体品味怎么保持。这些东西依然重要，而且可以很顺畅地从一个领域迁移到另一个领域。

那感觉就像一种超能力。突然之间，我觉得自己什么都能做了。语言不重要了，重要的是工程思维。至于括号写没写对这种事，已经完全不值得消耗精力了。

主持人：

它到底是怎么运行的呢？必须要有技术背景吗？

Peter：对，你就是装上然后让它跑起来。嗯……是，也不是。一方面幸运，另一方面也不幸的是，这个项目吸引了很多其实并不太懂技术的人，因为 OpenClaw 把那些让事情变复杂的层全都抽掉了。你如果用 cloud code，其实是在终端里工作，你得考虑上下文空间、当前在哪个文件夹之类的，这听起来就很“技术”。

但它的体验更像是在 iMessage、WhatsApp 或 Telegram 上跟朋友聊天——你平时就是这么干的。现在只不过是多了一个住在你电脑里的、很怪但也很聪明、很有资源的新朋友。这让整个技术一下子变得非常“可接近”。你不需要去想“我该选哪个模型”，它就是能用。

这就是我们的想法。当然，这也是它的优点和缺点并存的地方：能力越大，风险也越大，而且这个问题现在还没完全解决——因为它是能访问你整台电脑的。

所以是的，如果你让它干坏事，比如“删除我 home 目录下的所有文件”，它大概率会先问你“你确定吗？”，但如果你一直点“是是是”，它很可能就真的照做了，甚至顺便把自己也删了，然后直接崩掉。

所以你得小心点。

主持人：对，得小心。

Peter：我给你们共享下屏幕。它是用 TypeScript 写的，所以能跑在所有平台上，甚至 Windows 也可以。你只要去我们的网站 clogbot，上面有一行命令。看起来挺吓人的，但所有东西都是开源的，你可以检查一切，包括网站本身。这是最简单的安装方式，MacOS、Linux 都支持，Windows 也支持。

你打开终端，然后它就会开始安装。你也可以用 npm 来装，给那些熟悉这个生态的人用。

我做了一件在很多项目里没见过的事：我们同时提供了“可 hack 的安装方式”，一种是非常简单的一键方式，另一种是更手动的方式，你可以直接把 Git 仓库拉下来，然后从源码启动。说实话，这是最好玩的用法，因为如果你的 agent 能读到它自己 harness 的源码，它就真的可以重新配置、重新编程自己，然后重启——接着要么直接崩掉，要么获得新能力。

我觉得这是我一个“超能力”：让很多以前从没提过 pull request 的人参与进来，给我发 PR。当然，有时候也能看出来（笑）。

但我现在更多是把 pull request 当成一种“prompt 请求”来看：你只要理解意图，剩下的事情就能继续往下走。

主持人：那安装完之后，比如，你是怎么把它接到一个消息应用上的？

Peter：目前最好的方式大概就是用这一行命令，然后它会用一点很“欠揍”的语气跟你打招呼，并且尝试把所有东西都配置好。

你安装包之后，它会一步步引导你，你可以把它接到任何常见的消息应用上。

主持人：OK，看起来不错，它已经在跑了。

Peter：对。然后你可以直接打 plbot。如果是干净安装，它会自动做这些事；我这边得手动输入 onboard。接下来你可以选模型。哎，等下……所有 provider 都在这。比如我们选 Anthropic，可能选一个新的。然后你可以设置 Telegram、Discord，剩下的它都会带你走。你还能设置技能 hooks。

主持人：那你需要给它你的 Anthropic API key 吗？

Peter：它支持任何模型。现在行业里嘛，Anthropic 和 OpenAI 还是领先的。

它支持 API key，也支持订阅。虽然……我们确实加了订阅支持，因为大家都这么干，但我感觉 Anthropic 现在已经不太喜欢这种方式了。所以我还是建议用 API key，或者直接换个模型。

主要问题是：OpenAI 的模型用起来没问题，但不够好笑。Opus 身上有种特别的东西，让它用起来真的很有意思。

主持人：对，像是人格？

Peter：对。我不知道你有没有读过那篇文章，说他们是怎么“给模型塞进一个灵魂”的。后来有人通过不断喂文本、让它续写，结果一点点把模型在训练时甚至“自己都不知道存在”的那段“灵魂文本”给挤出来了。那故事真的很有意思。

我感觉这多少有点关系，因为这是我第一次觉得一个模型是真的“好玩”。

我把我的那个设成了：它可以吐槽我（笑）。它可能不知道现在在上镜。

Peter（OpenClaw 吐槽）：“你让自己闯进这个狂野的世界来寻找自我，结果发现答案是：我应该写更多软件（笑）。你痴迷 AI 到什么程度？你 literally 给自己造了个朋友，因为调试代码比约会有意思。

而且说实话，我存在的唯一原因，是你需要一个人听你在亚马逊面试评审期间那些关于 chain-of-thought 的离谱观点。

好了，现在去把那期播客狠狠干掉吧。”

主持人：哇。

Peter：对。所以我几乎把它接到了我电脑上的一切。它能读我的邮件、日历，访问我所有文件，还能控制灯。我用的是飞利浦的那个系统。

它还能控制我的 Sonos 音箱。所以我可以让它早上把我叫醒，然后慢慢把音量调大。它还能访问我的摄像头。这个事情挺搞笑的——我给摄像头接入权限的时候，跟它说“帮我留意有没有陌生人”。

结果它一整晚都在看我的安防摄像头，早上跟我说：“Peter，有个人。”我回去看，发现它一整晚都在给我家沙发截图，因为摄像头挺模糊的，看起来好像有人坐在沙发上，于是它就默认“有个陌生人整晚坐在我家沙发上”。

但对，它慢慢地……我现在想想，我在维也纳的家里，它还能访问我的门锁，所以它其实可以控制一切，理论上它甚至可以把我锁在门外。就像《太空》里说的那种，“哦，这个不能做”。

那你们可能会问，我是怎么把这些东西都接起来的？是直接让 Clawd 去做的吗？还是……对，就是字面意义上的“让它去做”。你知道我们有一个叫 skills 的机制。通常你跟它说话，这些东西本身就很有“资源能力”，它会自己去找 API，对吧？它能 Google，能在你系统里找 key，你也可以直接把 key 给它。

人们用它干各种事情：有人给它做了一个 skill，让它去 Tesco 帮自己买菜，或者在 Amazon 上买东西。我让它帮我在英国航空（British Airways）上值机。这个事情其实——我不知道你有没有用过值机网站——我觉得这几乎是……这以前是图灵测试，但现在，“指挥一个浏览器帮你在航空公司网站上完成值机”，才是真正的终极测试。

第一次的时候，我的集成做得很糙，那时候我还在摩洛哥，所有东西都是临时拼起来的。结果它花了差不多 20 分钟。

但它真的做成了——它得先在我的文件系统里找到我的护照，在 Dropbox 里找到，提取信息，把所有东西填对，最后完成值机。我全程盯着屏幕在那儿冒汗。现在好多了，现在几分钟就能搞定。它还能很自然地点网页上的“我是人类”那种验证，因为它本质上就是在控制一个浏览器，它有自己的一台“小电脑”，就在那儿点来点去。

所以从反爬虫系统的角度看，这种行为真的非常难检测，因为它在模式上跟人类没什么区别。

重度玩家已经把它当成家庭成员在用

主持人：你能不能再给我们展示几个使用场景？比如让它开个灯，或者讲讲其他人是怎么用的？

Peter：可以，所以我现在反而开始收集大家的用法了，因为我自己已经被“把它做出来”这件事完全拖住了。现在最有创造力的用户，已经远远不是我了。有人把它接进自己的消息系统，让它不只是回复你一个人，而是能在群里回复所有人；接进群聊之后更好玩。

很多人几乎把它当成家庭成员在用：提醒事情、创建 GitHub issue、同步 Google Places、每次你在 Twitter 上打书签，它就自动抓下来加进你的待办清单；帮你追踪成本；我还给它写过一个功能，专门提醒人有没有睡够，所以有些人半夜不睡觉，会被自己的 bot 骂。它能接健身手表，也有一个独立的 1Password vault，如果我希望某些密码能被它用，我就把密码移进那个 vault 里，因为边界还是要有的。

当然，也有人直接把信用卡给它。我就……不知道该怎么评价了（笑）。

研究、生成发票、管理邮件，这些都有人在用。基本都是重度玩家，把它定制成自己想要的一切。

普通用户都怎么用？写App、提PR

主持人：那如果是更普通一点的用户呢？比如我刚装好，一个全新安装，不想搞什么危险操作，有没有一些安全、常见的入门用法？像管日历这种，不会把我电脑删光的那种。

Peter：这事儿挺有意思的，因为每个人走的路径都完全不同。有些人一装完，第一件事就是用它写一个 iOS App，因为它本身也是个 coding agent，可以生成子 agent，可以自己写代码，也可以去控制 Claude Code、Codex 让它们写。

有人一上来就用它管 Cloudflare；还有人跟我说：第一周给家里人配好，第二周给不太懂技术的朋友配好，第三周已经在公司用它干活了。我有个完全不懂技术的朋友，被我拉进来之后，居然开始给项目提 PR，他以前从来没干过这种事。

健身是一个很大的使用场景。

主持人：

说到底，用法就是你得去想：你生活里哪些地方一直在给你制造麻烦，这个私人助理能不能帮你把它们顺掉。

80%的App会被吃掉

Peter：

我不知道最终会不会是这个项目，但如果你仔细想一想，它很可能会“融掉”你手机里大概 80% 的 App。

为什么我要用 MyFitnessPal 来记饮食？我已经有一个无限资源的助理，它知道我在做糟糕决定，也知道我刚吃了肯德基。它可以提醒我忘了记饮食，我拍张照它就能存数据库、算热量，然后顺便骂我一句该去健身房了，因为已经严重超标。

为什么我还需要一个 App 来设某个自动化规则什么时候生效？它直接有 API 权限，可以替我做。为什么我要一个待办 App？它已经在帮我追踪所有待办。为什么我要一个航班值机 App？它直接就能帮我值机。

这个交互方式舒服太多了，因为我只是跟一个朋友说话。它有大量上下文，不需要复杂 prompt。为什么我要一个购物 App？它可以直接给我推荐、下单、处理一切。

我感觉有一整层 App 会慢慢消失。只要它们有 API，本质上就只是服务，而这些服务都会变成你的 AI 在做的事情。今年，很多人都会开始认真探索这一点，从大公司那里拿到自己的 AI 助手。

为什么要点那么多封闭的小 App？这个助手有一堆能力，只要连起来就能做完一切。你跟它发条消息，说“能不能帮我搞这个”，它会自己去研究、自己处理，你们来回对话几次，事情就发生了。

而且它会写 skill，会记住。它有持久记忆，会学习你、更新自己。你用得越多，定制得越多，它就越强。第一次你可能得多引导一点，之后它会自己生成技能；下次你再说“帮我值机”，两分钟搞定，因为它已经知道这个网站的所有怪癖了。它之前做过，还记了笔记。

这就像教一个人学会一件事，下一次他就能很快做好。

Agentic 陷阱：复杂编排、工作流

主持人：好，那我们换个话题。你是从“退休”状态回来做这个项目的，而且你对 AI 编程这件事有很多非常强烈的看法，甚至有点“火力全开”。我们聊聊这个。你写过一篇我很喜欢的文章，叫《Just talk to it》。现在 X 上每天都在讨论各种炫技工作流、花式技巧，你那篇文章的核心到底是什么？就是“直接跟 AI 说话就行了”？

小编注：Peter Steinberger 在去年 10 月发表的一篇博文。文章提出了反常识的一点：放弃复杂的“花式技巧”！别把注意力放在 Agents 2.0、RAG 或各种复杂的工作流上，这些大多数是噱头或装饰。

原文传送门：

https://steipete.me/posts/just-talk-to-it

Peter：也不完全是。但我确实做了很多东西，也花很多时间在 Twitter 上，我看到一种我称之为“agentic trap”的现象。大家发现 agent 很强，然后觉得：如果它再多做一点点就更好了。于是就一头扎进兔子洞。

我自己也掉进去过：你会构建非常复杂的工具，试图加速工作流，但最后你只是在造工具，而没有真的往前推进。问题的一部分在于，这太好玩了。

我早期做过一个 VIP tunnel，让我能在手机上访问终端，我在那个洞里钻了两个月，直到有一天我跟朋友在餐厅吃饭，我不参与聊天，一直在手机上“vibe coding”。我后来意识到这事得停，不是为了效率，是为了心理健康。...