比肩Z-Image!手机上实时图像生成、编辑模型!字节
真没想到图像生成进化到这种程度了参数仅有 0.39B不需要云不需要电脑 GPU手机上就能实时生成的顶级图像生成、编辑模型来了。这么好的效果0.39B时时生成还能编辑你敢相信吗文本到图像直接生成动动嘴文本直接编辑这就是字节刚刚开源的 DreamLite。它是一个紧凑的统一设备扩散模型0.39B一个模型支持生成和文本引导的图像编辑。DreamLite 基于修剪的移动 U-Net 骨干上 并通过上下文空间连接在潜空间中统一条件。为稳定该紧凑模型的训练团队引入了任务渐进式联合预训练策略依次针对 T2I、编辑和联合任务。使用 Qwen3-VL 作为文本嵌入模型。继 SFT 和 RL 之后通过步进蒸馏step distillation实现了四步推理。在 iPhone17 pro 上4 位 Qwen VLfp16 的 Tiny VAE 加上 UNet 主干能在约 3 秒内生成或编辑 1024 × 1024 图像。这是世界首个统一的设备端模型支持文本到图像生成和基于文本的图像编辑消除了部署两个独立模型的麻烦。引入了 UNet 的上下文条件机制以统一生成和编辑并提出了任务渐进联合预训练方案即 T2I→编辑→统一联合训练以稳定训练模型。在手机上各种风格转换各种局部编辑统统拿下各项测评基准上比肩 FluxZ-ImageLongCat-Image 等开源模型。团队提供了两种不同变体的 DreamLite 模型以在视觉真实度与设备内推断延迟之间实现最佳平衡。模型权重目前正在进行安全审查。申请抢先体验通过电子邮件联系 klfeng1206outlook.com邮件抬头写 “DreamLite Access Request”。请在邮件中确保包含您的姓名及所属关系例如大学、公司或个人作品集预期使用场景 请简要描述您计划如何使用 DreamLite 模型。可能是模型太强了太容易传播团队给了重要警示“访问和使用这些模型即表示您同意遵守我们的道德准则。这些模型不得用于生成、编辑或传播任何性露骨、色情、暴力、歧视或其他非法内容。我们严格禁止将 DreamLite 用于恶意目的。”感兴趣的开发者们赶紧申请来试试。试玩地址https://huggingface.co/spaces/carlofkl/DreamLite参考资料https://carlofkl.github.io/dreamlite/https://arxiv.org/pdf/2603.28713https://github.com/ByteVisionLab/DreamLite