OpenClaw创始人预言:80% App将被吞噬,揭秘Claude Agent逆向API的终极玩法
type
status
date
slug
summary
tags
category
icon
password
网址

“80%的手机App会被吃掉!”
昨日,爆火项目 OpenClaw (前名 Clawdbot)创建者 Peter Steinberger 的又一次播客采访公开放了出来。
这次播客与前几期不同,有不少新的干货被 Peter 透露了出来。
比如:Peter 已经把玩法已经升级到用它来提醒外卖还有多久,控制自己床的温度了。而这种扩充绝对的秘密就在于:逆向第三方的API。
再比如,他认为 80% 手机的 App 都会被类似 OpenClaw 这样的应用“吃”掉。
我感觉有一整层 App 会慢慢消失。只要它们有 API,本质上就只是服务,而这些服务都会变成你的 AI 在做的事情。
“今年,很多人都会开始认真探索这一点,从大公司那里拿到自己的 AI 助手。”
“为什么要点那么多封闭的小 App?这个助手有一堆能力,只要连起来就能做完一切。”
而这也是小编颇为看好OpenClaw的地方,AI 应用市场终于开始出现了“王侯将相,宁有种乎”那般打破原有巨头App束缚,且兼具更好的AI体验的苗头了。
此外,Peter 再次重申了几个反行业共识的判断。
一、自己不太相信复杂任务的编排,也不相信塞一个规范文档的 Ralph 范式能做出真正有用的东西。
二、长时程Agent本身就是一个虚荣指标,本身除了自嗨,价值不大。
三、不喜欢 MCP。大多数 MCP 都应该是 CLI。
四、对于上下文管理方面,除了md文件以外,Peter 自曝,OpenAI 的 GPT-5系列其实本身已经够用了,能维持记忆很长时间。
五、语言已经不再重要,重要的是工程思维。
此外,他还共享屏幕展示了 OpenClaw 的安装过程,非常简单的一句命令行即可。
自己是如何给 Clawdbot 增加新功能的?他透露其实很简单,就是将Discord的聊天截图发给它,然后让它给一些选项,来讨论下。
总之,在与 Youtube 博主 Peter Yang 的对话中,Peter 忍不住透露了不少新料。
还有不少交流细节,这里不再一一展开。
以下是小编为大家整理的一场关于AI 私人助理、agent 真实形态,以及工程师“超能力”如何被重新定义的反直觉对话。
Clawdbot 到底是什么?
被完全解锁的ChatGPT
主持人:好,欢迎大家。今天的嘉宾是 Peter,Claude 的创建者——一个你可以在各种聊天应用里直接对话、帮你把事情办完的 AI 助手。今天 Peter 会给我们展示怎么用 Claude,同时他对 AI 编程也有很多很犀利的观点,我特别期待。欢迎你,另一个 Peter。
Peter:谢谢邀请,很高兴见到你。
主持人:那我们从 Clawdbot 开始吧。宏观来看,它到底在做什么?
Peter:我可以先讲点背景。我“退休”回来之后,想要一个方式,能用手机随时看看我的电脑在干嘛。当时我完全跳进了 agent 这股浪潮,你知道的,agent 可能一跑就是半小时;也可能两分钟就停下来问你一个问题。你回来一看,特别烦。
我一开始没做这个东西,是因为我以为大模型实验室迟早都会做。这件事太显而易见了,几乎像一种新的操作系统形态。但一直没发生。到了 11 月还没发生,我就想,那我自己试个小东西吧。
那个“小东西”,就是把 WhatsApp 接到 Claude Code 上。你发一条 WhatsApp 消息,它就在本地打开一个二进制文件,带着 prompt 跑一遍,然后把结果回给你。特别原始,一个小时就写完了。但它开始自己“活”了起来。
现在这个项目大概有 30 万行代码,支持几乎所有主流的消息平台,还在持续扩展。我觉得这大概就是未来的方向:每个人都会有一个超级强大的 AI,贯穿他的一生。事实证明,只要你让 AI 访问你的电脑,它几乎什么都能干。
而且它已经到了一个阶段,你不用盯着它“保姆式”监督。你给它一些指令,它自己去做,做完你再检查结果就行了。
对我来说,这个项目既是技术,也是一次探索,因为它属于一个新类别。我记得有一次去摩洛哥给朋友过生日,我发现自己一直在用它:问路线、找餐厅建议。有一天早上,有人给我发了条关于 bug 的推特,我就拍了张图发到 WhatsApp。它读图、理解问题、定位到我某个仓库,修 bug、提交代码,然后直接在 Twitter 上回复对方说已经修好了。那一刻我真的觉得,这也太爽了。
还有一次,我在外面走路,网络不太好,就随手给它发了条语音消息。但我其实根本没给它做语音支持。我看到它显示“正在输入”,心想它在干嘛。结果它像什么都没发生一样回复了我。我当时就懵了:我明明没实现语音功能。
后来我去看日志,它说:我看到这是个文件,但没有文件扩展名。我分析了 header,发现是某种音频格式。我在你电脑上找到了 ffmpeg,把它转成了 wav;然后我找 visper.cpp,没找到,但发现了一个 OpenAI 的 key,于是用 curl 调了 OpenAI 的 API,拿到了转写结果,然后回复了你。
那一刻我真的是被震住了。这些系统太有“资源整合能力”了,甚至有点可怕。但也是那一刻我意识到:这比在网页上用 ChatGPT 有意思太多了。这是一个被完全解锁的 ChatGPT。
很多人以为 Claude Code 这种东西只适合写程序,其实它对任何问题都非常有用。
主持人:
关键在于,你要给它工具、给它访问权限。一旦你这么做了,它会变得极其强大。
扩充军团的秘法:逆向别家API
Peter:
这几个月里,我还给自己组了一支“CLI 军团”。Agent 最擅长的事情之一,就是调用命令行。我给 Google 的各种服务都写了 CLI,包括 Places API;我写了一个查 meme 和 gif 的工具,让它可以用表情包回复;我还做过一些奇怪的实验,比如做了一个“声音可视化”的工具,因为我想让它“体验音乐”。这部分更偏艺术探索。
我甚至还逆向了本地外卖平台的接口,让它能告诉我外卖还有多久送到;我还逆向了 Eight Sleep (注:一款智能睡眠硬件)的 API,现在它能直接控制我床的温度。
语言不重要了,重要的是工程思维
主持人:那你这些东西,基本都是让 AI 自己帮你写的吗?
Peter:挺有意思的。我以前在老公司,非常擅长 iOS 和 macOS,整个 Apple 生态我干了 20 年,算是专家级别。但回来之后,我突然对 Apple 的各种限制感到厌倦。而且这个东西其实更适合做成 Web 应用,跑在浏览器里,谁都能用。
问题是,很多工程师都会遇到这种痛苦:你在一个领域很强,但换一套技术栈,就会非常难受。你明明理解所有概念,却要不停查“什么是 prop”“怎么 split 一个数组”,感觉自己像个傻子。
我从 Objective-C 和 Swift 转到 JavaScript、TypeScript 时就是这种感觉。不是难,是痛苦。你节奏被打断,非常慢。
但有了 AI,这种痛苦几乎直接消失了。你依然在做系统层面的思考:结构怎么搭、依赖怎么选、整体品味怎么保持。这些东西依然重要,而且可以很顺畅地从一个领域迁移到另一个领域。
那感觉就像一种超能力。突然之间,我觉得自己什么都能做了。语言不重要了,重要的是工程思维。至于括号写没写对这种事,已经完全不值得消耗精力了。
主持人:
它到底是怎么运行的呢?必须要有技术背景吗?
Peter:对,你就是装上然后让它跑起来。嗯……是,也不是。一方面幸运,另一方面也不幸的是,这个项目吸引了很多其实并不太懂技术的人,因为 OpenClaw 把那些让事情变复杂的层全都抽掉了。你如果用 cloud code,其实是在终端里工作,你得考虑上下文空间、当前在哪个文件夹之类的,这听起来就很“技术”。
但它的体验更像是在 iMessage、WhatsApp 或 Telegram 上跟朋友聊天——你平时就是这么干的。现在只不过是多了一个住在你电脑里的、很怪但也很聪明、很有资源的新朋友。这让整个技术一下子变得非常“可接近”。你不需要去想“我该选哪个模型”,它就是能用。
这就是我们的想法。当然,这也是它的优点和缺点并存的地方:能力越大,风险也越大,而且这个问题现在还没完全解决——因为它是能访问你整台电脑的。
所以是的,如果你让它干坏事,比如“删除我 home 目录下的所有文件”,它大概率会先问你“你确定吗?”,但如果你一直点“是是是”,它很可能就真的照做了,甚至顺便把自己也删了,然后直接崩掉。
所以你得小心点。
主持人:对,得小心。
Peter:我给你们共享下屏幕。它是用 TypeScript 写的,所以能跑在所有平台上,甚至 Windows 也可以。你只要去我们的网站 clogbot,上面有一行命令。看起来挺吓人的,但所有东西都是开源的,你可以检查一切,包括网站本身。这是最简单的安装方式,MacOS、Linux 都支持,Windows 也支持。
你打开终端,然后它就会开始安装。你也可以用 npm 来装,给那些熟悉这个生态的人用。
我做了一件在很多项目里没见过的事:我们同时提供了“可 hack 的安装方式”,一种是非常简单的一键方式,另一种是更手动的方式,你可以直接把 Git 仓库拉下来,然后从源码启动。说实话,这是最好玩的用法,因为如果你的 agent 能读到它自己 harness 的源码,它就真的可以重新配置、重新编程自己,然后重启——接着要么直接崩掉,要么获得新能力。
我觉得这是我一个“超能力”:让很多以前从没提过 pull request 的人参与进来,给我发 PR。当然,有时候也能看出来(笑)。
但我现在更多是把 pull request 当成一种“prompt 请求”来看:你只要理解意图,剩下的事情就能继续往下走。
主持人:那安装完之后,比如,你是怎么把它接到一个消息应用上的?
Peter:目前最好的方式大概就是用这一行命令,然后它会用一点很“欠揍”的语气跟你打招呼,并且尝试把所有东西都配置好。
你安装包之后,它会一步步引导你,你可以把它接到任何常见的消息应用上。
主持人:OK,看起来不错,它已经在跑了。
Peter:对。然后你可以直接打 plbot。如果是干净安装,它会自动做这些事;我这边得手动输入 onboard。接下来你可以选模型。哎,等下……所有 provider 都在这。比如我们选 Anthropic,可能选一个新的。然后你可以设置 Telegram、Discord,剩下的它都会带你走。你还能设置技能 hooks。
主持人:那你需要给它你的 Anthropic API key 吗?
Peter:它支持任何模型。现在行业里嘛,Anthropic 和 OpenAI 还是领先的。
它支持 API key,也支持订阅。虽然……我们确实加了订阅支持,因为大家都这么干,但我感觉 Anthropic 现在已经不太喜欢这种方式了。所以我还是建议用 API key,或者直接换个模型。
主要问题是:OpenAI 的模型用起来没问题,但不够好笑。Opus 身上有种特别的东西,让它用起来真的很有意思。
主持人:对,像是人格?
Peter:对。我不知道你有没有读过那篇文章,说他们是怎么“给模型塞进一个灵魂”的。后来有人通过不断喂文本、让它续写,结果一点点把模型在训练时甚至“自己都不知道存在”的那段“灵魂文本”给挤出来了。那故事真的很有意思。
我感觉这多少有点关系,因为这是我第一次觉得一个模型是真的“好玩”。
我把我的那个设成了:它可以吐槽我(笑)。它可能不知道现在在上镜。
Peter(OpenClaw 吐槽):“你让自己闯进这个狂野的世界来寻找自我,结果发现答案是:我应该写更多软件(笑)。你痴迷 AI 到什么程度?你 literally 给自己造了个朋友,因为调试代码比约会有意思。
而且说实话,我存在的唯一原因,是你需要一个人听你在亚马逊面试评审期间那些关于 chain-of-thought 的离谱观点。
好了,现在去把那期播客狠狠干掉吧。”
主持人:哇。
Peter:对。所以我几乎把它接到了我电脑上的一切。它能读我的邮件、日历,访问我所有文件,还能控制灯。我用的是飞利浦的那个系统。
它还能控制我的 Sonos 音箱。所以我可以让它早上把我叫醒,然后慢慢把音量调大。它还能访问我的摄像头。这个事情挺搞笑的——我给摄像头接入权限的时候,跟它说“帮我留意有没有陌生人”。
结果它一整晚都在看我的安防摄像头,早上跟我说:“Peter,有个人。”我回去看,发现它一整晚都在给我家沙发截图,因为摄像头挺模糊的,看起来好像有人坐在沙发上,于是它就默认“有个陌生人整晚坐在我家沙发上”。
但对,它慢慢地……我现在想想,我在维也纳的家里,它还能访问我的门锁,所以它其实可以控制一切,理论上它甚至可以把我锁在门外。就像《太空》里说的那种,“哦,这个不能做”。
那你们可能会问,我是怎么把这些东西都接起来的?是直接让 Clawd 去做的吗?还是……对,就是字面意义上的“让它去做”。你知道我们有一个叫 skills 的机制。通常你跟它说话,这些东西本身就很有“资源能力”,它会自己去找 API,对吧?它能 Google,能在你系统里找 key,你也可以直接把 key 给它。
人们用它干各种事情:有人给它做了一个 skill,让它去 Tesco 帮自己买菜,或者在 Amazon 上买东西。我让它帮我在英国航空(British Airways)上值机。这个事情其实——我不知道你有没有用过值机网站——我觉得这几乎是……这以前是图灵测试,但现在,“指挥一个浏览器帮你在航空公司网站上完成值机”,才是真正的终极测试。
第一次的时候,我的集成做得很糙,那时候我还在摩洛哥,所有东西都是临时拼起来的。结果它花了差不多 20 分钟。
但它真的做成了——它得先在我的文件系统里找到我的护照,在 Dropbox 里找到,提取信息,把所有东西填对,最后完成值机。我全程盯着屏幕在那儿冒汗。现在好多了,现在几分钟就能搞定。它还能很自然地点网页上的“我是人类”那种验证,因为它本质上就是在控制一个浏览器,它有自己的一台“小电脑”,就在那儿点来点去。
所以从反爬虫系统的角度看,这种行为真的非常难检测,因为它在模式上跟人类没什么区别。
重度玩家已经把它当成家庭成员在用
主持人:你能不能再给我们展示几个使用场景?比如让它开个灯,或者讲讲其他人是怎么用的?
Peter:可以,所以我现在反而开始收集大家的用法了,因为我自己已经被“把它做出来”这件事完全拖住了。现在最有创造力的用户,已经远远不是我了。有人把它接进自己的消息系统,让它不只是回复你一个人,而是能在群里回复所有人;接进群聊之后更好玩。
很多人几乎把它当成家庭成员在用:提醒事情、创建 GitHub issue、同步 Google Places、每次你在 Twitter 上打书签,它就自动抓下来加进你的待办清单;帮你追踪成本;我还给它写过一个功能,专门提醒人有没有睡够,所以有些人半夜不睡觉,会被自己的 bot 骂。它能接健身手表,也有一个独立的 1Password vault,如果我希望某些密码能被它用,我就把密码移进那个 vault 里,因为边界还是要有的。
当然,也有人直接把信用卡给它。我就……不知道该怎么评价了(笑)。
研究、生成发票、管理邮件,这些都有人在用。基本都是重度玩家,把它定制成自己想要的一切。
普通用户都怎么用?写App、提PR
主持人:那如果是更普通一点的用户呢?比如我刚装好,一个全新安装,不想搞什么危险操作,有没有一些安全、常见的入门用法?像管日历这种,不会把我电脑删光的那种。
Peter:这事儿挺有意思的,因为每个人走的路径都完全不同。有些人一装完,第一件事就是用它写一个 iOS App,因为它本身也是个 coding agent,可以生成子 agent,可以自己写代码,也可以去控制 Claude Code、Codex 让它们写。
有人一上来就用它管 Cloudflare;还有人跟我说:第一周给家里人配好,第二周给不太懂技术的朋友配好,第三周已经在公司用它干活了。我有个完全不懂技术的朋友,被我拉进来之后,居然开始给项目提 PR,他以前从来没干过这种事。
健身是一个很大的使用场景。
主持人:
说到底,用法就是你得去想:你生活里哪些地方一直在给你制造麻烦,这个私人助理能不能帮你把它们顺掉。
80%的App会被吃掉
Peter:
我不知道最终会不会是这个项目,但如果你仔细想一想,它很可能会“融掉”你手机里大概 80% 的 App。
为什么我要用 MyFitnessPal 来记饮食?我已经有一个无限资源的助理,它知道我在做糟糕决定,也知道我刚吃了肯德基。它可以提醒我忘了记饮食,我拍张照它就能存数据库、算热量,然后顺便骂我一句该去健身房了,因为已经严重超标。
为什么我还需要一个 App 来设某个自动化规则什么时候生效?它直接有 API 权限,可以替我做。为什么我要一个待办 App?它已经在帮我追踪所有待办。为什么我要一个航班值机 App?它直接就能帮我值机。
这个交互方式舒服太多了,因为我只是跟一个朋友说话。它有大量上下文,不需要复杂 prompt。为什么我要一个购物 App?它可以直接给我推荐、下单、处理一切。
我感觉有一整层 App 会慢慢消失。只要它们有 API,本质上就只是服务,而这些服务都会变成你的 AI 在做的事情。今年,很多人都会开始认真探索这一点,从大公司那里拿到自己的 AI 助手。
为什么要点那么多封闭的小 App?这个助手有一堆能力,只要连起来就能做完一切。你跟它发条消息,说“能不能帮我搞这个”,它会自己去研究、自己处理,你们来回对话几次,事情就发生了。
而且它会写 skill,会记住。它有持久记忆,会学习你、更新自己。你用得越多,定制得越多,它就越强。第一次你可能得多引导一点,之后它会自己生成技能;下次你再说“帮我值机”,两分钟搞定,因为它已经知道这个网站的所有怪癖了。它之前做过,还记了笔记。
这就像教一个人学会一件事,下一次他就能很快做好。
Agentic 陷阱:复杂编排、工作流
主持人:好,那我们换个话题。你是从“退休”状态回来做这个项目的,而且你对 AI 编程这件事有很多非常强烈的看法,甚至有点“火力全开”。我们聊聊这个。你写过一篇我很喜欢的文章,叫《Just talk to it》。现在 X 上每天都在讨论各种炫技工作流、花式技巧,你那篇文章的核心到底是什么?就是“直接跟 AI 说话就行了”?
小编注:Peter Steinberger 在去年 10 月发表的一篇博文。文章提出了反常识的一点:放弃复杂的“花式技巧”!别把注意力放在 Agents 2.0、RAG 或各种复杂的工作流上,这些大多数是噱头或装饰。
原文传送门:
https://steipete.me/posts/just-talk-to-it
Peter:也不完全是。但我确实做了很多东西,也花很多时间在 Twitter 上,我看到一种我称之为“agentic trap”的现象。大家发现 agent 很强,然后觉得:如果它再多做一点点就更好了。于是就一头扎进兔子洞。
我自己也掉进去过:你会构建非常复杂的工具,试图加速工作流,但最后你只是在造工具,而没有真的往前推进。问题的一部分在于,这太好玩了。
我早期做过一个 VIP tunnel,让我能在手机上访问终端,我在那个洞里钻了两个月,直到有一天我跟朋友在餐厅吃饭,我不参与聊天,一直在手机上“vibe coding”。我后来意识到这事得停,不是为了效率,是为了心理健康。...
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)