AirJelly:字节00后团队重塑AI桌面助手,预测你的下一步意图

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
AirJelly 发布了内测版本。
这是一款桌面端 AI 助手——通过屏幕截图捕捉你的工作上下文,理解你的意图,并主动帮你执行任务。
开发团队叫「持续低熵」(Low Entropy AI),创始人柏特是一名 00 后。去年他在字节主导了一款名为 MineContext 的上下文工程产品,随后便离职创业,很快拿到了来自五源资本的第一笔融资。
「MineContext 是 AirJelly 的脚手架。」
AirJelly 的核心理念是:不追求全量记录用户行为,而是以 Enter 键为锚点,捕捉用户每一次表达意图的瞬间。基于这些意图,AI 将行为建模为任务,主动推送下一步建议,甚至直接帮你完成。
「人的行为是一条轨迹,全量收集所有线条不方便,但记录其中的关键点,点和点之间 AI 是能补出来的。」
从「回答你的问题」升级到「预测你的下一步」,AirJelly 的口号是「Next Enter Prediction」,野心很大,但很让人期待。
以下是 Founder Park 与 AirJelly 创始人柏特的对话,经编辑整理。
产品官网:https://www.airjelly.ai/
01
00 后团队,从字节出走
Founder Park:介绍一下你们整个团队,以及之前的一些经历。
柏特:我 2021 年在西安电子科技大学读的本科,人工智能专业。本科期间,在 SwanLab、DataWhale 有一些开源项目经历。
大二那年,我去奇绩创坛做 Campus Scout,看了不少项目。当时对创业的认知更多来自奇绩的理念。大三在西电,也有幸获得了挑战杯的国金,因此积攒了不少创业的技能点
后来保研拿到了复旦的 offer,但因为一些机缘巧合没去成。2025 年,去西湖大学做了几个月 research intern,本来准备再申请博士,这两段宝贵经历也让我接受了一些简单的科研训练。
大概在去年 5 月底,我之前在字节实习过的团队说要招一个负责开源的产品经理,day1 就能直接 lead 项目。我当时判断,在字节这样的平台能直接负责项目是最宝贵的机会,在经过了漫长的七轮面试之后,我加入了字节。
入职后,我看了一些前沿方向,决定瞄准 Context Engineering,做一个开源应用叫 MineContext。花了两个多月时间,发布了产品。这个项目在社区内有了一定知名度,一路上曲折的经历,让我积攒了运营,商业,产品,开源以及科研相关的技能点,加上机会非常难得,于是过往的人生 connect the dots,命运的推背感促使我决定出来创业了。出来花了不到一个月融了第一笔钱,初始团队就是在字节一起共事过的小伙伴,大家意愿都不错,几个人就一起出来了。
Founder Park:团队现在大概什么规模,是线下还是远程?
柏特:团队算上正职和实习生总共 11 个人,都在北京线下办公。我们认为线下沟通更高效、更敏捷,很多事可以直接讲掉,不需要专门拉会议。
我们团队最大的特点,可以拆成三个 A:
第一个是 Agency,高度自驱。我们没有打卡制度,同事经常半夜看到有意思的东西也会在群里发。我们总结了一个「两点半定律」,当然不是强迫的——有人版本开发得爽了可能自己就干到两三点。我们最新的版本是昨天凌晨 3:56 一个同事自己打磨完发出来的。
第二个是 Ambitious。大家都待过字节,是那种对大厂祛魅的年轻人,希望在 AI 时代做出更伟大的事情。
第三个是 AI Native。团队基本都是 00 后,高度使用 AI 工具来最大化工作效率。所有 AI 工具都支持报销,如果有人发现好的工具安利给大家用上了,还会拿到额外奖励。
Founder Park:团队现在还在招人吗?
柏特:求贤若渴。第一个是 Agent 开发,我们希望能招更多 10 倍乃至 100 倍 AI 工程师;第二个是算法岗,VLM 后训练、记忆系统、Proactive 触发,都有不少需要算法优化的部分;第三是 Marketing 相关的人才,我们认为这会是未来科技行业至关重要的岗位,attention is all you need!
我们团队偏通才,全员都有 Coding 背景,包括我们的设计师,之前就在百度做过前端。
02
纯记录 Context 工具卖不出钱,
AI 产品必须能交付结果
Founder Park:在字节时,你们做了 MineContext,到现在出来创业做了 AirJelly,中间的变化以及思考过程是怎样的?
柏特:MineContext 最早的规划不止做应用,底层框架也要做,但我们觉得应用是最好收集用户反馈的方式,基于应用可以迭代出更敏捷的框架,所以先做了应用,叫「MineContext」,因为做的是上下文工程。
MineContext 到 AirJelly 有很大的不同。AirJelly 某种程度可以理解为,MineContext 是它的脚手架,但不是说优化一下就变成 AirJelly 了。中间我们也思考过很多方向,比如 Claude Code 的简易化、任务管理编排、人机协作等等。
OpenClaw 出来之后,我们仔细研究了它背后那套 Pi 框架,发现效果非常棒。我们把它接入了原有的流程,再结合 MineContext 对屏幕理解和上下文捕捉的理念,产生了 1+1 大于 2 的效果。整个方向,大概在今年 2 月初定下来的。
Founder Park:之前的尝试都跟 Context 相关吗?
柏特:我们最核心的理念一直没变,就是要获取更多的 Context,也用了很多屏幕截图做额外补充。唯一的区别是,我们之前在纠结做纯粹记录的工具、编排类工具,还是带有很强执行能力的工具。后来经过了大量用户访谈,决定了目前这个形态。
Founder Park:MineContext 是收集上下文,到现在的 AirJelly 是直接交付结果,为什么要做这个转变?是觉得单纯收集上下文在现阶段不太够了吗?
柏特:对,MineContext 核心做的是收集和分析,产出各种报告,日报、Insight、提示等等。AirJelly 最初也曾想过只做收集不做执行,但后来发现几个问题。
第一,纯粹收集分析这种形态,过去互联网有过先例,但你会发现它卖不出去钱——用户付费意愿非常低,最多接受一次性永久付费。但 AI 时代我们需要消耗 Token,这根本不成立。
第二,纯记录的东西使用频率会很低,可能偶尔想着去看一眼。一直在幕后,很难让用户注意到它,天花板也比较低。
后来我们试着接入了 Pi 框架,发现结合上我们的上下文,它能交付的结果非常棒。同时我们一直想做 Proactive,如果有很棒的 Context,把它建模成用户的意图和行为轨迹,再加上强大的底层 Agent 能力,就有望迈向一种非常通用的 Proactive Agent。所以最终决定要做 Proactive Agent。
03
全量记忆记录,对用户来说毫无价值
Founder Park:从你们最开始对于产品的设想到现在的最新版本,在功能或者方向上有什么大的调整吗?
柏特:第一个是,我们一开始想完全不做 chat 的形式,因为当时感觉这个形态太老套了,大家都在做。后来 Pi 框架之后,发现有 chat 的能力确实非常强,加上我们的记忆也能更大化地利用,所以最后还是把 chat 加回来了。
另一个是,我们最早是做全量记录的,有一系列智能策略,比如防抖、判断什么时候该截什么时候不该截。后来做了一个实验:换成只在按 Enter 时截图,结果发现效果还可以。
全量记录可能收集到 60 分的信息,但有 5 分的错误。换成 Enter 后可能剩 50 分信息,但错误只有一两分。人对错误的容忍度很低,一个错误推送比少记几件事更容易让用户觉得产品不好。
举个例子:你在刷朋友圈,刚好看到朋友发了一个帖子,全量截图可能把这个截下来,以为你要做这件事,这就是 5 分的错误,实际上对用户来说毫无价值。
同时,在成本上有巨大下降的。没有 Enter 机制前,每天截图大概约 1500 张,有了之后平均 300 张,成本直接降为了原来的五分之一。再有就是,用户可控性也更好,有 Enter 的话,用户大概知道什么东西是会被截图的,有这个感知。
Founder Park:在产品前期阶段,你们会看哪些关键指标来判断功能设计是否达到预期了?除了日活、使用时长。
柏特:我觉得最核心的是两个点。第一是 Token 消耗量,尤其是用户用 Agent 做任务时的消耗,这能证明我们的 Agent 能力,也能证明记忆加 Agent 能力给用户带来了真实价值。日常分析的消耗是偏固定的,做任务的消耗才是核心指标。
第二是 Proactive 接收率。我们的整条链路是:截图 → 分析 → 建模成 Event → 归纳成 Task → 推断 Next Step → 触发 Proactive → Agent 执行 → 推送给用户。如果用户愿意接收这个 Proactive,代表整条链路基本都是好的;如果不愿意,可能整条链路某个环节做错了。
我们最早的版本,Proactive 和截图、Task 没有完全打通,用了一些其他机制。后来把整条链路打通之后,对整体优化来说是更理想的情况。
Founder Park:你们会预期用户用 Agent 完成什么任务?
柏特:理论上 OpenClaw、Cowork 的用户能做什么,我们都能完成得更好,因为有更多的 Context。
我自己日常基本就只用我们这个产品了,之前还会用 Manus、Gemini、Cursor,现在基本都不用了,不管是调研、写产品文档、还是写代码提交,都在这里闭环。我现在所有融资的 PPT 都是让 AirJelly 做的,因为它知道我比较全量的信息,而且能力也比较强。
Founder Park:怎么让用户觉得可以把重要的事情放进来?会有一些引导吗?
柏特:对,而且这是所有企图做通用 Agent 的人必须面对的一个问题。你拿 OpenClaw 干什么,拿现在的 ChatGPT 干什么?其实未必一下子能完全说得出来,不同的人,有不同的用法。
一是,我们提供一个更全量的 Context 捕获和记忆;其次是,我们能提供一个很好的 Agent 执行。我们内置了一些模板,比如你可以让它分析你的工作情况,给你出一些下一步的计划,或者出日报。下一步,根据不同职业或行为习惯的人,探索出一些有意思的用法。
Founder Park:所以,你们会根据用户的一些行为,主动给他推一些可能跟场景相关的典型案例?
柏特:对。我们的一个设计原则是,AI 时代,不是一个设定死的 workflow。它能输出什么,拿到不同的 Context 能达到什么样程度,都是一个很难说的状态。
我们相信两个东西:第一是相信 AI,第二是相信用户。用户也许能发现更有意思的东西。包括我们自己也是用户,最早也没想着直接用它来给产品经理写代码,是用着用着后来发现可以的。很多东西未必是你预设好的,很多也是用户探索的,但前提是你要提供给他很棒的 Context 收集和很棒的 agent。
04
只需要记录意图的关键点,
就能补出中间的「轨迹线」
Founder Park:你们自己是怎么理解 Context 的?
柏特:过去做 Context 的人,一般把它分为画像和事件两类,通过聊天来收集。我们现在更关注的是捕捉用户的「意图」,由意图推导事件,再组织成任务。
过去的 Episodic Memory(事件记忆)就是「某人在某个时间做了什么事」,本质上是召回性的,知道某个时间点做了什么。但我们觉得一个事情最好能把它完整推下去、完整建模。
Founder Park:截图想记录的真正东西是什么?是用户的决策过程吗?
柏特:举个例子:你在某个场合,基于某些已知上下文说了一句话。把这句话和前一句联系在一起,AI 大概就能知道你在了解什么信息,进而推断出你的意图。两次 Enter 之间,基于截图的上下文,AI 能推断出中间大概发生了什么。再有就是人的意图表达,某种程度上也已经暗含了一些信息了。
我们把这些串起来组织成 Event,再基于 Event 推断 Task。这样不管是对用户回顾、还是做 Proactive 推送都更有价值。散乱的「我做了什么」价值不大,但建模成 Task 之后,用户方便回顾继续,AI 也方便做主动触发。
Founder Park:选择「Enter」的形式,是觉得它代表用户「确定要做某件事」的起点吗?
柏特:Enter 不完全是一个开始,也可以是一个阶段性的节点。你可以把人的行为理解为一条轨迹,全量收集这些轨迹不那么方便,但如果记录其中的关键点,通过点和点之间 AI 能大概把中间的线补出来。同时基于这些点,也能预测你的下一个点可能是什么,然后做 Proactive 触发。
我们最早是定时截图,后来想能不能加入关键帧,比如 Enter 或点击或 Ctrl+C/V。再后来发现 Enter 这一帧的价值最大,而且损失也没那么多,就换成了 Enter。
Founder Park:不同软件里的 Enter 行为差别很大,你们是怎么处理的?
柏特:我们除了屏幕权限之外还获取了 Accessibility 权限,能知道 Enter 那一刻光标在哪里、在哪个应用。微信输入框里的 Enter 和浏览器输入框的 Enter 是不一样的,Word 或 Notion 那种多行文本也能拿到背景信息。
所以按下 Enter 那一刻,我们会把「在什么应用里、输入框是什么类型、当前在做什么、相关上下文」一起输进去,不只是简单截个图做 OCR。
Founder Park:Cursor 记录的是 Tab 键行为,你们记录的是 Enter 键,有什么区别吗?
柏特:Cursor 的 Tab 我觉得很大程度上是一个早期传播和用户心智的事情。你看他现在其实也都是用右侧的 Agent 窗口,基本没人用那个 Tab 了。但它最早能想到「通过 Tab 这个动作来触发 AI」,说明这个洞察还挺好的。
我们也想打造类似的形象:人和 AI 的交互、搜索,都是通过 Enter。我们也想通过 Enter 这个动作,让用户直觉上把「输入意图」和「触发 AI 感知」关联在一起。
我们之后还会上一个功能叫「Next Enter Prediction」,就是基于你过去的行为轨迹,预测你下一次 Enter 要回什么、要提交什么。这个功能某种程度也是对 Enter 作为意图锚点的进一步延伸。
05
Task 是比时间线更好的记忆组织方式
Founder Park:AirJelly 现在的记忆系统大概是怎么样的?怎么区分当下重要的和上周重要的东西?
柏特:数据库都是在本地的,记忆系统分两块:静态的信息建模成 Entity,比如某个人是谁、某个项目是什么,类似 Graph 的形式。动态的信息建模成 Task,了解这个事情的前因后果、做得怎样、之后可以怎么做。
召回时会综合向量检索和关键词检索并叠加一些 Agentic RAG 的机制,在记忆权重上我们会有一套时间衰减机制,比较远,召回少的记忆的时间权重低一点。
Founder Park:现在的记忆机制,和你们去年做 MineContext 时相比,有什么大的区别?
柏特:MineContext 是「平铺直叙」的——你的意图、行为、过程,所有东西都平铺着存,只用一个字段做区分。
AirJelly 是有进一步加工的:把你跟事件相关的东西,一步步加工成 Task,一个 Task 里包含了多条小的行为记录。我们有一个洞察:Context 也有高低之分。首先是「意图 Context」比较重要,其次是「Context 的组织程度」也有高低之分——就像 Coding Agent 把代码组织成目录结构,目录本身隐含的信息量非常大。
我们把截图和行为组织成 Task → Event 的层级,你先召回 Task,再看它下面有哪些 Event、意图和截图,然后做进一步的分析,这比全散着一股脑召回要好非常多。
Founder Park:这个「Task」里面包含什么?
柏特:大概包含:标题、核心摘要、创建时间、完成情况、Progress、Next Step、关键词(用了什么应用、大概什么内容),以及下方的 Event 列表,各个小阶段做了什么,怎么拼接成了当前的 Task 状态。这些全由 AI 来判断和写入。
同时,之后 Task 和用户自己创建的 Todo 也会是打通的:用户主动添加的 Todo,日常被自动识别的相关行为也会自动吸附上去。
Founder Park:为什么选择用数据库的形式,不是 Markdown 文件?
柏特:Markdown 是一种挺好的形式,但在我们这个场景下有点偷懒。OpenClaw、Rewind、Dayflow 很多产品最核心的是时间,某个时间做了什么事。但在 AI 时代,你做事情未必是连续的,你可能早上做一下,下午再做一下。按时间记录不完全合理,还是应该按任务记录。
再有就是 Token 消耗问题。Markdown 的方式,你想找某个东西可能得大量地读,修改也得把内容扔给 AI 分析再改,有大量隐性消耗。而我们用数据库,召回时筛选最相似的部分就行,不需要把所有内容都读一遍。
06
下一步,想做「Next Enter Prediction」
Founder Park:怎么理解你说的「Next Enter Prediction」?
柏特:比如你在某个微信群回了一条消息,然后切去 ChatGPT 或 Gemini 讨论了一会儿,再切回这个微信群,这时候你大概要说什么?如果上下文足够,AI 是能推理出来的。
我们未来可能会实现这样的效果:基于你的 Session 切换和记录的上下文,等你下次切回某个聊天窗口时,直接推断「你可能想回复 XX」,提供几个选项,你通过一个简单的交互确认就发出去了,不需要自己打字了。
Founder Park:如果这个设想再进一步,能不能在你还没切回来页面的时候就直接替你做了?
柏特:对,其实我们现在的 Proactive 已经是在推断你的下一步可能是什么,然后帮你做了。但「直接帮你想好要回什么」这件事,它其实并不比直接帮你做更多,但给人的感受会更妙,让用户感知到了「AI 在这个时刻知道你要干什么,而且把内容都给你准备好了」。而且通过不断选择选项,也能越来越准确地建模用户的偏好。
Founder Park:你们现在是怎么判断,什么时候弹一个 Proactive 推送的?
柏特:我们现在的做法是:只要触发了新的 Task 或者 Task 有更新,就会有新的 Next Step 进入推送池。然后判断两个条件:推送的阈值够不够、最近是不是太频繁了。两个都满足,就弹出来了。
我们其实没有完全判断用户是不是在专注。这个设计来自我在字节的一个灵感,我们在字节不开会的时候大家做自己的事,你在专注工作,旁边的人突然说「黄柏特这个东西你帮我看一下」,或者「黄柏特这个我搞完了你看下」。这种打扰程度其实还好,但它是非常高效的协作方式。我们想实现类似的效果。
最终决定权还是在用户手里,你可以选择现在处理,或者先忙完手里的事再处理。
Founder Park:现在截屏的时候,桌面的水母会有一个小的喂食设计。
柏特:对,触发的时候水母喂一块饼干或者小龙虾这种形式,有一种通过 enter 养水母的感觉。这样既让用户有感知,又不会太突兀。
Founder Park:你预想的 Proactive 终极画面是什么样的?
柏特:我们能收集你的意图、最近的 Task 列表、在什么...
Loading...

没有找到文章