AirJelly：字节00后团队重塑AI桌面助手，预测你的下一步意图

type

status

date

slug

summary

category

icon

password

网址

AirJelly 发布了内测版本。

这是一款桌面端 AI 助手——通过屏幕截图捕捉你的工作上下文，理解你的意图，并主动帮你执行任务。

开发团队叫「持续低熵」（Low Entropy AI），创始人柏特是一名 00 后。去年他在字节主导了一款名为 MineContext 的上下文工程产品，随后便离职创业，很快拿到了来自五源资本的第一笔融资。

「MineContext 是 AirJelly 的脚手架。」

AirJelly 的核心理念是：不追求全量记录用户行为，而是以 Enter 键为锚点，捕捉用户每一次表达意图的瞬间。基于这些意图，AI 将行为建模为任务，主动推送下一步建议，甚至直接帮你完成。

「人的行为是一条轨迹，全量收集所有线条不方便，但记录其中的关键点，点和点之间 AI 是能补出来的。」

从「回答你的问题」升级到「预测你的下一步」，AirJelly 的口号是「Next Enter Prediction」，野心很大，但很让人期待。

以下是 Founder Park 与 AirJelly 创始人柏特的对话，经编辑整理。

产品官网：https://www.airjelly.ai/

00 后团队，从字节出走

Founder Park：介绍一下你们整个团队，以及之前的一些经历。

柏特：我 2021 年在西安电子科技大学读的本科，人工智能专业。本科期间，在 SwanLab、DataWhale 有一些开源项目经历。

大二那年，我去奇绩创坛做 Campus Scout，看了不少项目。当时对创业的认知更多来自奇绩的理念。大三在西电，也有幸获得了挑战杯的国金，因此积攒了不少创业的技能点

后来保研拿到了复旦的 offer，但因为一些机缘巧合没去成。2025 年，去西湖大学做了几个月 research intern，本来准备再申请博士，这两段宝贵经历也让我接受了一些简单的科研训练。

大概在去年 5 月底，我之前在字节实习过的团队说要招一个负责开源的产品经理，day1 就能直接 lead 项目。我当时判断，在字节这样的平台能直接负责项目是最宝贵的机会，在经过了漫长的七轮面试之后，我加入了字节。

入职后，我看了一些前沿方向，决定瞄准 Context Engineering，做一个开源应用叫 MineContext。花了两个多月时间，发布了产品。这个项目在社区内有了一定知名度，一路上曲折的经历，让我积攒了运营，商业，产品，开源以及科研相关的技能点，加上机会非常难得，于是过往的人生 connect the dots，命运的推背感促使我决定出来创业了。出来花了不到一个月融了第一笔钱，初始团队就是在字节一起共事过的小伙伴，大家意愿都不错，几个人就一起出来了。

Founder Park：团队现在大概什么规模，是线下还是远程？

柏特：团队算上正职和实习生总共 11 个人，都在北京线下办公。我们认为线下沟通更高效、更敏捷，很多事可以直接讲掉，不需要专门拉会议。

我们团队最大的特点，可以拆成三个 A：

第一个是 Agency，高度自驱。我们没有打卡制度，同事经常半夜看到有意思的东西也会在群里发。我们总结了一个「两点半定律」，当然不是强迫的——有人版本开发得爽了可能自己就干到两三点。我们最新的版本是昨天凌晨 3:56 一个同事自己打磨完发出来的。

第二个是 Ambitious。大家都待过字节，是那种对大厂祛魅的年轻人，希望在 AI 时代做出更伟大的事情。

第三个是 AI Native。团队基本都是 00 后，高度使用 AI 工具来最大化工作效率。所有 AI 工具都支持报销，如果有人发现好的工具安利给大家用上了，还会拿到额外奖励。

Founder Park：团队现在还在招人吗？

柏特：求贤若渴。第一个是 Agent 开发，我们希望能招更多 10 倍乃至 100 倍 AI 工程师；第二个是算法岗，VLM 后训练、记忆系统、Proactive 触发，都有不少需要算法优化的部分；第三是 Marketing 相关的人才，我们认为这会是未来科技行业至关重要的岗位，attention is all you need！

我们团队偏通才，全员都有 Coding 背景，包括我们的设计师，之前就在百度做过前端。

纯记录 Context 工具卖不出钱，

AI 产品必须能交付结果

Founder Park：在字节时，你们做了 MineContext，到现在出来创业做了 AirJelly，中间的变化以及思考过程是怎样的？

柏特：MineContext 最早的规划不止做应用，底层框架也要做，但我们觉得应用是最好收集用户反馈的方式，基于应用可以迭代出更敏捷的框架，所以先做了应用，叫「MineContext」，因为做的是上下文工程。

MineContext 到 AirJelly 有很大的不同。AirJelly 某种程度可以理解为，MineContext 是它的脚手架，但不是说优化一下就变成 AirJelly 了。中间我们也思考过很多方向，比如 Claude Code 的简易化、任务管理编排、人机协作等等。

OpenClaw 出来之后，我们仔细研究了它背后那套 Pi 框架，发现效果非常棒。我们把它接入了原有的流程，再结合 MineContext 对屏幕理解和上下文捕捉的理念，产生了 1+1 大于 2 的效果。整个方向，大概在今年 2 月初定下来的。

Founder Park：之前的尝试都跟 Context 相关吗？

柏特：我们最核心的理念一直没变，就是要获取更多的 Context，也用了很多屏幕截图做额外补充。唯一的区别是，我们之前在纠结做纯粹记录的工具、编排类工具，还是带有很强执行能力的工具。后来经过了大量用户访谈，决定了目前这个形态。

Founder Park：MineContext 是收集上下文，到现在的 AirJelly 是直接交付结果，为什么要做这个转变？是觉得单纯收集上下文在现阶段不太够了吗？

柏特：对，MineContext 核心做的是收集和分析，产出各种报告，日报、Insight、提示等等。AirJelly 最初也曾想过只做收集不做执行，但后来发现几个问题。

第一，纯粹收集分析这种形态，过去互联网有过先例，但你会发现它卖不出去钱——用户付费意愿非常低，最多接受一次性永久付费。但 AI 时代我们需要消耗 Token，这根本不成立。

第二，纯记录的东西使用频率会很低，可能偶尔想着去看一眼。一直在幕后，很难让用户注意到它，天花板也比较低。

后来我们试着接入了 Pi 框架，发现结合上我们的上下文，它能交付的结果非常棒。同时我们一直想做 Proactive，如果有很棒的 Context，把它建模成用户的意图和行为轨迹，再加上强大的底层 Agent 能力，就有望迈向一种非常通用的 Proactive Agent。所以最终决定要做 Proactive Agent。

全量记忆记录，对用户来说毫无价值

Founder Park：从你们最开始对于产品的设想到现在的最新版本，在功能或者方向上有什么大的调整吗？

柏特：第一个是，我们一开始想完全不做 chat 的形式，因为当时感觉这个形态太老套了，大家都在做。后来 Pi 框架之后，发现有 chat 的能力确实非常强，加上我们的记忆也能更大化地利用，所以最后还是把 chat 加回来了。

另一个是，我们最早是做全量记录的，有一系列智能策略，比如防抖、判断什么时候该截什么时候不该截。后来做了一个实验：换成只在按 Enter 时截图，结果发现效果还可以。

全量记录可能收集到 60 分的信息，但有 5 分的错误。换成 Enter 后可能剩 50 分信息，但错误只有一两分。人对错误的容忍度很低，一个错误推送比少记几件事更容易让用户觉得产品不好。

举个例子：你在刷朋友圈，刚好看到朋友发了一个帖子，全量截图可能把这个截下来，以为你要做这件事，这就是 5 分的错误，实际上对用户来说毫无价值。

同时，在成本上有巨大下降的。没有 Enter 机制前，每天截图大概约 1500 张，有了之后平均 300 张，成本直接降为了原来的五分之一。再有就是，用户可控性也更好，有 Enter 的话，用户大概知道什么东西是会被截图的，有这个感知。

Founder Park：在产品前期阶段，你们会看哪些关键指标来判断功能设计是否达到预期了？除了日活、使用时长。

柏特：我觉得最核心的是两个点。第一是 Token 消耗量，尤其是用户用 Agent 做任务时的消耗，这能证明我们的 Agent 能力，也能证明记忆加 Agent 能力给用户带来了真实价值。日常分析的消耗是偏固定的，做任务的消耗才是核心指标。

第二是 Proactive 接收率。我们的整条链路是：截图 → 分析 → 建模成 Event → 归纳成 Task → 推断 Next Step → 触发 Proactive → Agent 执行 → 推送给用户。如果用户愿意接收这个 Proactive，代表整条链路基本都是好的；如果不愿意，可能整条链路某个环节做错了。

我们最早的版本，Proactive 和截图、Task 没有完全打通，用了一些其他机制。后来把整条链路打通之后，对整体优化来说是更理想的情况。

Founder Park：你们会预期用户用 Agent 完成什么任务？

柏特：理论上 OpenClaw、Cowork 的用户能做什么，我们都能完成得更好，因为有更多的 Context。

我自己日常基本就只用我们这个产品了，之前还会用 Manus、Gemini、Cursor，现在基本都不用了，不管是调研、写产品文档、还是写代码提交，都在这里闭环。我现在所有融资的 PPT 都是让 AirJelly 做的，因为它知道我比较全量的信息，而且能力也比较强。

Founder Park：怎么让用户觉得可以把重要的事情放进来？会有一些引导吗？

柏特：对，而且这是所有企图做通用 Agent 的人必须面对的一个问题。你拿 OpenClaw 干什么，拿现在的 ChatGPT 干什么？其实未必一下子能完全说得出来，不同的人，有不同的用法。

一是，我们提供一个更全量的 Context 捕获和记忆；其次是，我们能提供一个很好的 Agent 执行。我们内置了一些模板，比如你可以让它分析你的工作情况，给你出一些下一步的计划，或者出日报。下一步，根据不同职业或行为习惯的人，探索出一些有意思的用法。

Founder Park：所以，你们会根据用户的一些行为，主动给他推一些可能跟场景相关的典型案例？

柏特：对。我们的一个设计原则是，AI 时代，不是一个设定死的 workflow。它能输出什么，拿到不同的 Context 能达到什么样程度，都是一个很难说的状态。

我们相信两个东西：第一是相信 AI，第二是相信用户。用户也许能发现更有意思的东西。包括我们自己也是用户，最早也没想着直接用它来给产品经理写代码，是用着用着后来发现可以的。很多东西未必是你预设好的，很多也是用户探索的，但前提是你要提供给他很棒的 Context 收集和很棒的 agent。

只需要记录意图的关键点，

就能补出中间的「轨迹线」

Founder Park：你们自己是怎么理解 Context 的？

柏特：过去做 Context 的人，一般把它分为画像和事件两类，通过聊天来收集。我们现在更关注的是捕捉用户的「意图」，由意图推导事件，再组织成任务。

过去的 Episodic Memory（事件记忆）就是「某人在某个时间做了什么事」，本质上是召回性的，知道某个时间点做了什么。但我们觉得一个事情最好能把它完整推下去、完整建模。

Founder Park：截图想记录的真正东西是什么？是用户的决策过程吗？

柏特：举个例子：你在某个场合，基于某些已知上下文说了一句话。把这句话和前一句联系在一起，AI 大概就能知道你在了解什么信息，进而推断出你的意图。两次 Enter 之间，基于截图的上下文，AI 能推断出中间大概发生了什么。再有就是人的意图表达，某种程度上也已经暗含了一些信息了。

我们把这些串起来组织成 Event，再基于 Event 推断 Task。这样不管是对用户回顾、还是做 Proactive 推送都更有价值。散乱的「我做了什么」价值不大，但建模成 Task 之后，用户方便回顾继续，AI 也方便做主动触发。

Founder Park：选择「Enter」的形式，是觉得它代表用户「确定要做某件事」的起点吗？

柏特：Enter 不完全是一个开始，也可以是一个阶段性的节点。你可以把人的行为理解为一条轨迹，全量收集这些轨迹不那么方便，但如果记录其中的关键点，通过点和点之间 AI 能大概把中间的线补出来。同时基于这些点，也能预测你的下一个点可能是什么，然后做 Proactive 触发。

我们最早是定时截图，后来想能不能加入关键帧，比如 Enter 或点击或 Ctrl+C/V。再后来发现 Enter 这一帧的价值最大，而且损失也没那么多，就换成了 Enter。

Founder Park：不同软件里的 Enter 行为差别很大，你们是怎么处理的？

柏特：我们除了屏幕权限之外还获取了 Accessibility 权限，能知道 Enter 那一刻光标在哪里、在哪个应用。微信输入框里的 Enter 和浏览器输入框的 Enter 是不一样的，Word 或 Notion 那种多行文本也能拿到背景信息。

所以按下 Enter 那一刻，我们会把「在什么应用里、输入框是什么类型、当前在做什么、相关上下文」一起输进去，不只是简单截个图做 OCR。

Founder Park：Cursor 记录的是 Tab 键行为，你们记录的是 Enter 键，有什么区别吗？

柏特：Cursor 的 Tab 我觉得很大程度上是一个早期传播和用户心智的事情。你看他现在其实也都是用右侧的 Agent 窗口，基本没人用那个 Tab 了。但它最早能想到「通过 Tab 这个动作来触发 AI」，说明这个洞察还挺好的。

我们也想打造类似的形象：人和 AI 的交互、搜索，都是通过 Enter。我们也想通过 Enter 这个动作，让用户直觉上把「输入意图」和「触发 AI 感知」关联在一起。

我们之后还会上一个功能叫「Next Enter Prediction」，就是基于你过去的行为轨迹，预测你下一次 Enter 要回什么、要提交什么。这个功能某种程度也是对 Enter 作为意图锚点的进一步延伸。

Task 是比时间线更好的记忆组织方式

Founder Park：AirJelly 现在的记忆系统大概是怎么样的？怎么区分当下重要的和上周重要的东西？

柏特：数据库都是在本地的，记忆系统分两块：静态的信息建模成 Entity，比如某个人是谁、某个项目是什么，类似 Graph 的形式。动态的信息建模成 Task，了解这个事情的前因后果、做得怎样、之后可以怎么做。

召回时会综合向量检索和关键词检索并叠加一些 Agentic RAG 的机制，在记忆权重上我们会有一套时间衰减机制，比较远，召回少的记忆的时间权重低一点。

Founder Park：现在的记忆机制，和你们去年做 MineContext 时相比，有什么大的区别？

柏特：MineContext 是「平铺直叙」的——你的意图、行为、过程，所有东西都平铺着存，只用一个字段做区分。

AirJelly 是有进一步加工的：把你跟事件相关的东西，一步步加工成 Task，一个 Task 里包含了多条小的行为记录。我们有一个洞察：Context 也有高低之分。首先是「意图 Context」比较重要，其次是「Context 的组织程度」也有高低之分——就像 Coding Agent 把代码组织成目录结构，目录本身隐含的信息量非常大。

我们把截图和行为组织成 Task → Event 的层级，你先召回 Task，再看它下面有哪些 Event、意图和截图，然后做进一步的分析，这比全散着一股脑召回要好非常多。

Founder Park：这个「Task」里面包含什么？

柏特：大概包含：标题、核心摘要、创建时间、完成情况、Progress、Next Step、关键词（用了什么应用、大概什么内容），以及下方的 Event 列表，各个小阶段做了什么，怎么拼接成了当前的 Task 状态。这些全由 AI 来判断和写入。

同时，之后 Task 和用户自己创建的 Todo 也会是打通的：用户主动添加的 Todo，日常被自动识别的相关行为也会自动吸附上去。

Founder Park：为什么选择用数据库的形式，不是 Markdown 文件？

柏特：Markdown 是一种挺好的形式，但在我们这个场景下有点偷懒。OpenClaw、Rewind、Dayflow 很多产品最核心的是时间，某个时间做了什么事。但在 AI 时代，你做事情未必是连续的，你可能早上做一下，下午再做一下。按时间记录不完全合理，还是应该按任务记录。

再有就是 Token 消耗问题。Markdown 的方式，你想找某个东西可能得大量地读，修改也得把内容扔给 AI 分析再改，有大量隐性消耗。而我们用数据库，召回时筛选最相似的部分就行，不需要把所有内容都读一遍。

下一步，想做「Next Enter Prediction」

Founder Park：怎么理解你说的「Next Enter Prediction」？

柏特：比如你在某个微信群回了一条消息，然后切去 ChatGPT 或 Gemini 讨论了一会儿，再切回这个微信群，这时候你大概要说什么？如果上下文足够，AI 是能推理出来的。