【SIGGRAPH 2026】Pixal3D: 基于图像的像素对齐三维生成
Pixal3D可从单张图像生成高保真3D资产。与此前通过注意力机制松散注入图像特征的方法不同Pixal3D通过反向投影将像素特征显式提升至3D空间建立直接的像素到3D对应关系从而实现接近重建级保真度的精细几何结构和PBR材质。✨ 最新动态2026年5月发布训练代码与数据准备工具包 2026年5月发布基于Trellis.2骨干网络的改进版本 2026年5月发布推理代码与在线演示 2026年4月论文被SIGGRAPH 2026收录 分支分支描述main最新版本— 基于Trellis.2主干改进实现性能更优。paper论文版本— 基于Direct3D-S2的原始实现对应我们SIGGRAPH 2026论文中报告的结果。如需复现论文中的结果请切换到paper分支。 在线体验无需安装您可以直接在浏览器中通过我们的Hugging Face Gradio演示体验Pixal3D启动演示 快速开始安装指南第一步遵循TRELLIS.2安装请先按照TRELLIS.2的安装指南配置基础环境。第二步安装额外依赖pipinstall-rrequirements.txt第三步安装utils3dpipinstallhttps://github.com/LDYang694/Storages/releases/download/20260430/utils3d-0.0.2-py3-none-any.whl注意requirements-hfdemo.txt专为Hugging Face Spaces演示H系列GPU架构准备可能不兼容其他架构。使用说明推理生成从单张图像生成GLB格式网格python inference.py--imageassets/images/0_img.png--output./output.glb低显存模式按需加载模型以降低峰值显存占用python inference.py--imageassets/images/0_img.png--output./output.glb--low_vram默认管道分辨率为1536标准模式或1024低显存模式。可通过--resolution参数覆盖# 在低显存模式下强制使用1536分辨率python inference.py--imageassets/images/0_img.png--output./output.glb--low_vram--resolution1536# 在标准模式下强制使用1024分辨率python inference.py--imageassets/images/0_img.png--output./output.glb--resolution1024技巧若未安装flash_attn可使用PyTorch内置的SDPA后端替代ATTN_BACKENDsdpa python inference.py--imageassets/images/0_img.png--output./output.glb--low_vram网页演示我们提供了基于Gradio的交互式网页演示可直接通过图像生成3D网格。python app.py网页演示同样支持低显存模式。前端默认分辨率在低显存模式下会自动切换为1024否则为1536但可通过界面手动调整。python app.py--low_vram# 或通过环境变量启用LOW_VRAM1python app.py 训练指南我们提供完整的训练代码库支持从零开始复现Pixal3D模型。数据准备按照数据工具包说明准备视角对齐的O-Voxel数据及渲染条件图像data_toolkit/README.md概述Pixal3D采用三级级联训练每阶段逐步提升分辨率阶段模型分辨率配置前缀1稀疏结构32 → 64ss_flow_img_dit_*_proj_finetune2形状256 → 512 → 1024slat_flow_img2shape_*_proj_finetune3纹理256 → 512 → 1024slat_flow_imgshape2tex_*_proj_finetune所有阶段均采用像素对齐投影条件和视角对齐潜在特征默认2视角。在每个阶段内从最低分辨率开始训练并通过在配置中设置finetune_ckpt逐步微调至更高分辨率。快速开始python train.py\--configCONFIG_JSON\--output_dirOUTPUT_DIR\--data_dirDATA_DIR_JSON--data_dir是一个描述数据集布局的JSON字符串。不同阶段需要不同的键值阶段必需键值稀疏结构base,ss_latent,render_cond形状base,shape_latent,render_cond纹理base,shape_latent,pbr_latent,render_cond示例训练全部三个阶段以下我们以ObjaverseXL为例展示完整的训练流程。每个更高分辨率的步骤都需要在其配置JSON中更新finetune_ckpt以指向先前的检查点。阶段1稀疏结构32 → 64# Resolution 32python train.py\--configconfigs/gen/ss_flow_img_dit_1_3B_32_bf16_proj_finetune.json\--output_dirresults/ss_32\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, ss_latent: datasets/ObjaverseXL_sketchfab/ss_latents/ss_enc_conv3d_16l8_fp16_64_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}# Resolution 64 (set finetune_ckpt → results/ss_32 checkpoint)python train.py\--configconfigs/gen/ss_flow_img_dit_1_3B_32_bf16_proj_finetune_ft64.json\--output_dirresults/ss_ft64\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, ss_latent: datasets/ObjaverseXL_sketchfab/ss_latents/ss_enc_conv3d_16l8_fp16_64_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}阶段2形状256 → 512 → 1024# Resolution 256python train.py\--configconfigs/gen/slat_flow_img2shape_dit_1_3B_256_bf16_proj_finetune.json\--output_dirresults/shape_256\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, shape_latent: datasets/ObjaverseXL_sketchfab/shape_latents/shape_enc_next_dc_f16c32_fp16_256_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}# Resolution 512python train.py\--configconfigs/gen/slat_flow_img2shape_dit_1_3B_256_bf16_proj_finetune_ft512.json\--output_dirresults/shape_ft512\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, shape_latent: datasets/ObjaverseXL_sketchfab/shape_latents/shape_enc_next_dc_f16c32_fp16_512_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}# Resolution 1024python train.py\--configconfigs/gen/slat_flow_img2shape_dit_1_3B_512_bf16_proj_finetune_ft1024.json\--output_dirresults/shape_ft1024\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, shape_latent: datasets/ObjaverseXL_sketchfab/shape_latents/shape_enc_next_dc_f16c32_fp16_1024_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}阶段3纹理256 → 512 → 1024# Resolution 256python train.py\--configconfigs/gen/slat_flow_imgshape2tex_dit_1_3B_256_bf16_proj_finetune.json\--output_dirresults/tex_256\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, shape_latent: datasets/ObjaverseXL_sketchfab/shape_latents/shape_enc_next_dc_f16c32_fp16_256_view, pbr_latent: datasets/ObjaverseXL_sketchfab/pbr_latents/tex_enc_next_dc_f16c32_fp16_256_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}# Resolution 512python train.py\--configconfigs/gen/slat_flow_imgshape2tex_dit_1_3B_512_bf16_proj_finetune.json\--output_dirresults/tex_512\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, shape_latent: datasets/ObjaverseXL_sketchfab/shape_latents/shape_enc_next_dc_f16c32_fp16_512_view, pbr_latent: datasets/ObjaverseXL_sketchfab/pbr_latents/tex_enc_next_dc_f16c32_fp16_512_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}# Resolution 1024python train.py\--configconfigs/gen/slat_flow_imgshape2tex_dit_1_3B_512_bf16_proj_finetune_ft1024.json\--output_dirresults/tex_ft1024\--data_dir{ObjaverseXL_sketchfab: {base: datasets/ObjaverseXL_sketchfab, shape_latent: datasets/ObjaverseXL_sketchfab/shape_latents/shape_enc_next_dc_f16c32_fp16_1024_view, pbr_latent: datasets/ObjaverseXL_sketchfab/pbr_latents/tex_enc_next_dc_f16c32_fp16_1024_view, render_cond: datasets/ObjaverseXL_sketchfab/renders_cond}}附加选项所有命令行参数参数描述默认值--config配置文件JSON路径必填--output_dir输出目录必填--data_dir数据集JSON字符串./data/--load_dir检查点加载目录output_dir--ckpt从指定步骤恢复latest--auto_retry失败重试次数3--tryrun试运行false--profile性能分析false--num_nodes节点数量1--node_rank当前节点排名0--num_gpus每节点GPU数量全部--master_addr主节点地址localhost--master_port主节点端口12666--use_wandb启用WB日志false--wandb_projectWB项目名trellis2-training--wandb_nameWB运行名称output_dir的基名--wandb_idWB运行ID恢复用— 致谢本项目主要基于Trellis.2和Direct3D-S2构建。我们衷心感谢原作者在可扩展3D生成领域的杰出工作这为我们的代码库和模型架构奠定了基础。同时感谢以下开源项目的重大贡献Direct3D-S2TrellisTrellis.2 引用如果您觉得这项工作有帮助请考虑引用article{li2026pixal3d, title{Pixal3D: Pixel-Aligned 3D Generation from Images}, author{Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min}, journal{arXiv preprint arXiv:2605.10922}, year{2026} }项目https://ldyang694.github.io/projects/pixal3d/代码https://github.com/TencentARC/Pixal3D模型https://huggingface.co/TencentARC/Pixal3D