字节开源DreamLite：手机AI绘画革命，告别云端依赖，创作随心而动

type

status

date

slug

summary

DreamLite：轻量化统一模型的端侧突破

DreamLite 最引人注目的特点在于其极致的轻量化和功能的统一化。该模型的主干网络参数量仅有 0.39B（约3.9亿），这在动辄数十亿甚至上百亿参数的大型AI模型面前，显得尤为小巧。然而，正是这个“小身材”，却蕴藏着惊人的“大能量”。

与市面上大多数AI绘画工具需要区分“文生图”和“图生图/图像编辑”两个独立模型不同，DreamLite 巧妙地将文生图（Text-to-Image）和图像编辑（Text-guided Image Editing）这两大核心功能整合在单一网络中。这意味着，用户无需在手机上安装和运行两个庞大的模型，大大节省了宝贵的存储空间和内存资源。

告别双模型困境：统一架构的智慧

在移动设备上部署AI模型，面临着严峻的挑战。用户普遍习惯于“提词即画”、“一句话改图”的便捷体验，但若要将此能力迁移至手机端，往往会遇到两大痛点：

资源消耗翻倍：生成和编辑通常需要独立的模型流水线。为手机同时加载两个数十亿参数的模型，对内存和存储是巨大的负担，几乎不可承受。

质量与速度的权衡：为了适应端侧设备，模型通常需要大幅压缩，这可能导致生成质量严重下降。若要保持高画质和指令跟随能力，推理延迟又会剧增，丧失实时交互的意义。

DreamLite 的核心设计正是为了解决这些痛点。它通过一种名为“In-Context 空间拼接”的技术，将不同任务的输入统一起来。模型接收一对左右拼接的潜变量作为输入： * 对于文生图，右侧输入为一个“占位符”（例如全黑图），表示无视觉条件，模型仅根据文本生成。 * 对于图像编辑，右侧输入为待编辑的原图，模型则根据文本指令对原图进行修改。

更巧妙的是，通过在文本提示词（Prompt）前加入显式的任务 Token（如 [Generate] 或 [Edit]），模型能够自动识别并路由任务，无需额外的分支或模块。这样，同一个轻量级 U-Net 主干网络，就能根据输入和任务 Token，灵活地执行生成或编辑任务。

渐进式预训练与多重打磨：成就卓越性能

实现能力的统一只是第一步，如何保证在如此小的模型上同时获得高质量的生成和编辑效果，是技术上的关键。DreamLite 采用了“Task-Progressive Joint Pretraining”（渐进式联合预训练）策略：

阶段一：T2I 预训练：首先使用大规模图文数据，训练模型的文本到图像生成能力。

阶段二：编辑预训练：激活“In-Context”条件，让模型在保留原图结构的基础上，学习根据指令进行编辑。

阶段三：统一联合预训练：在同一个“In-Context”范式下，继续联合优化生成与编辑能力，使模型能够稳定地掌握双重技能。

预训练完成后，DreamLite 还经过了两轮精细的“打磨”： * 高质量 SFT + RLHF 对齐：在精选的高质量数据上进行监督微调（SFT），再通过强化学习（RLHF）进行偏好对齐。针对生成任务，使用 HPSv3 作为奖励模型；针对编辑任务，使用 EditReward 作为奖励模型，并通过 ReFL 技术优化扩散模型。这一过程显著提升了模型的美学质量和指令跟随能力。 * DMD2 步数蒸馏：利用Distribution Matching Distillation 2 技术，将原本可能需要数十步才能完成的采样过程，压缩到仅需 4 步。这极大地提高了推理速度，使得模型能够在极短的时间内完成高质量的图像生成或编辑。

手机实测：3秒出图，全程离线

经过优化和量化部署后，DreamLite 在实际移动设备上的表现令人惊艳。在 iPhone 17 Pro 上，它能够在大约 3 秒内生成或编辑一张 1024×1024 分辨率的图像。

更重要的是，整个过程完全在设备端运行，无需任何云端计算，更无需联网。这意味着： * 隐私保护：用户数据不出设备，敏感场景下尤为安全。 * 成本节约：无需为云端算力付费，也降低了开发和维护成本。 * 体验提升：摆脱网络延迟，实现真正的实时交互创作。

实际工作流演示包括： * 人像生成与风格迁移：先生成一张人物写真，再一键转换为油画、水彩等艺术风格。 * 风景生成与背景替换：创作一幅自然风光，并轻松切换季节或更换背景元素。 * 商品场景优化：生成商品展示的桌面场景，并灵活地添加、删除或替换其中的物体。

行业意义与未来展望

DreamLite 的出现，为端侧生成式 AI 的落地提供了一条极具说服力的工程化路径。它不仅在技术上实现了“一个模型，两种能力”，更在产品体验上带来了质的飞跃。

减负增效：一个模型替代两个，直接砍掉了端侧“双模型部署”带来的内存、存储和调度开销。

秒级响应：4步出图的效率，让AI创作真正贴合App级别的实时交互需求。

隐私安全：完全端侧运行，零数据外传，解决了用户对隐私的顾虑。

普惠AI：0.39B的轻量级主干，使得更广泛的中低端设备也有机会享受到先进的AI创作能力。

DreamLite 的意义远不止于“在手机上又能跑一个扩散模型”。它正在回答一个更根本的问题：当生成式AI真正进入生产级的移动端时代，“生成”与“编辑”能否作为同一个能力，由同一个小模型来承担？

随着端侧算力的持续提升和模型组件的不断轻量化，像 DreamLite 这样的轻量化统一模型，很可能成为 AI 创作工具走向大规模、人人可用的关键一步。它正在将生成式 AI 从“云端算力密集型服务”，转变为“口袋里随时可用的画板”，让每个人都能随时随地释放创意。