字节跳动的3D生成模型更新了几何和纹理都做到了行业最优4月23日字节跳动Seed团队发布了Seed3D 2.0。这是一个专门做3D内容生成的大模型核心目标让生成的3D内容真正生产可用——不只是看起来不错而是精度高到可以直接用在游戏、影视、工业设计等实际生产流程里。在和市场上主流3D生成模型的对比评测中Seed3D 2.0在几何生成和纹理材质生成两项核心指标上均取得了SOTA结果。一、模型架构MoE 稀疏专家路由Seed3D 2.0采用MoE架构并引入了稀疏专家路由机制。这个架构解决了一个核心矛盾3D内容精度越高需要的参数量和分辨率越大但参数量越大推理计算量越高速度越慢成本越贵。稀疏专家路由的解法模型内部有多个专家模块每次推理只激活与当前任务最相关的专家。这样在扩大参数量和分辨率的同时把实际推理计算量控制在合理范围内。结果是能生成更丰富的纹理细节和更精确的金属-粗糙度边界。此外Seed3D 2.0在VAE变分自编码器侧做了同步升级更少token即可获得更高重建精度计算效率进一步提升。二、核心技术三项1Coarse-to-Fine 两阶段生成策略第一阶段粗生成先生成整体结构确定3D对象的大致形状、比例和空间关系。第二阶段细化在整体结构基础上精细化几何细节——锐利边缘、薄壁结构、复杂拓扑等难点都在这阶段处理。两阶段策略的关键价值将整体结构与几何细节解耦。以前3D生成模型在整体和细节之间顾此失彼两阶段让这两个目标可以分别优化。2统一PBR生成机制PBRPhysically Based Rendering是现代游戏和影视的标准材质系统通过模拟光线与材质的物理交互生成真实感材质。Seed3D 2.0整合了统一的PBR生成机制专门针对金属-粗糙度边界不精确这个问题做了优化提升了材质细节和边界精度。3VLM先验技术VLM视觉语言模型先验技术解决的是未知光照条件下的材质分解问题。输入3D生成模型的图像往往在特定光照下拍摄模型需要分解出材质本身属性去掉光照影响才能生成正确PBR材质。光照条件未知时这个分解很困难。VLM先验通过引入视觉语言模型的语义理解能力帮助模型在不确定光照条件下做出更稳定的材质分解。三、盲评数据评测维度评审规模对比模型数结果几何结构生成60位专业3D建模评审6个主流模型明显领先偏好率最高纹理材质生成60位专业3D建模评审6个主流模型偏好率高达69%以上盲评中评审人员不知道哪个结果来自哪个模型只根据质量做偏好判断。69%偏好率意味着什么7个模型随机对比每模型理论偏好率约14%。Seed3D 2.0达到69%说明在专业评审眼中它的纹理质量远超其他模型平均水准。四、扩展能力除了核心几何和纹理生成Seed3D 2.0还具备三项扩展能力•部件级分割与补全识别3D对象不同部件如椅子椅腿、椅背、坐垫对缺失部件补全•铰接资产生成支持生成带关节结构的3D资产机械臂、可开合的门这类资产在游戏和工业仿真中需求大•场景组合生成基于图像、视频或文本输入生成包含多个对象的完整3D场景获取方式API已上线火山引擎技术报告已公开。文章来源AITOP100原文链接https://www.aitop100.cn/seed3d-2.0