如何开始使用Cosmos：从安装到生成第一个物理世界视频完整指南

张

张建站

2026/6/6 14:47:12

10分钟阅读

如何开始使用Cosmos从安装到生成第一个物理世界视频完整指南【免费下载链接】CosmosNVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.项目地址: https://gitcode.com/GitHub_Trending/cosmos7/CosmosNVIDIA Cosmos是一个革命性的物理世界生成AI平台专为机器人、自动驾驶汽车和智能基础设施等物理AI应用而设计。这个强大的世界基础模型平台让开发者能够快速构建高质量的物理世界模拟视频无论是从文本描述生成还是基于现有视频进行扩展。在本指南中我将带你从零开始一步步完成Cosmos的安装配置并生成你的第一个物理世界视频。无论你是AI开发者、研究人员还是对世界生成技术感兴趣的爱好者这篇完整教程都将为你提供实用的操作指导。准备工作与环境配置系统要求在开始之前请确保你的系统满足以下要求操作系统Ubuntu 20.04、22.04或24.04目前仅支持Ubuntu系统GPUNVIDIA GPU建议显存至少24GB以上Docker已安装NVIDIA Container Toolkit存储空间至少50GB可用空间用于模型下载快速安装步骤克隆仓库git clone https://gitcode.com/GitHub_Trending/cosmos7/Cosmos cd Cosmos构建Docker镜像docker build -t cosmos .运行Docker容器docker run -d --name cosmos_container --gpus all --ipchost -it -v $(pwd):/workspace cosmos docker attach cosmos_container完成以上步骤后你就进入了Cosmos的开发环境获取模型与权限配置Hugging Face访问权限Cosmos模型托管在Hugging Face平台你需要在Hugging Face官网创建访问令牌设置令牌权限为Read默认是Fine-grained登录Hugging Facehuggingface-cli login访问Mistral AI的Pixtral-12B模型页面点击Agree and access repository获取权限下载预训练模型Cosmos提供了多种模型供选择包括Text2World和Video2World两种主要类型# 下载7B和14B的Text2World与Video2World模型 PYTHONPATH$(pwd) python cosmos1/scripts/download_diffusion.py \ --model_sizes 7B 14B \ --model_types Text2World Video2World下载完成后你将在checkpoints/目录中看到完整的模型文件结构。生成你的第一个物理世界视频从文本生成世界Text2World这是最简单的入门方式只需一个文本描述就能生成视频PROMPT一个优雅的人形机器人站在一个巨大的仓库中周围是整齐堆放在工业货架上的纸箱。机器人的金属身体在明亮均匀的灯光下闪闪发光突出了其未来主义设计和复杂的关节。蓝色的光芒从其胸部散发出来增添了先进科技的感觉。 # 使用7B模型生成视频 PYTHONPATH$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --prompt $PROMPT \ --offload_prompt_upsampler \ --video_save_name 我的第一个Cosmos视频从视频生成世界Video2World如果你有现有的视频或图片可以基于它们生成扩展内容# 基于图片生成视频 PYTHONPATH$(pwd) python cosmos1/models/diffusion/inference/video2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Video2World \ --input_image_or_video_path cosmos1/models/diffusion/assets/v1p0/video2world_input0.jpg \ --num_input_frames 1 \ --video_save_name 视频生成示例 \ --offload_prompt_upsampler⚙️ 高级配置与优化技巧GPU内存优化策略对于不同显存容量的GPUCosmos提供了多种卸载策略GPU类型推荐卸载策略显存使用RTX 3090/4090 (24GB)完全卸载所有模型~24GBH100 (80GB)仅卸载提示上采样器~74GBA100 (40GB)卸载提示上采样器安全护栏~57GB低显存GPU配置示例PYTHONPATH$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --prompt $PROMPT \ --offload_tokenizer \ --offload_diffusion_transformer \ --offload_text_encoder_model \ --offload_prompt_upsampler \ --offload_guardrail_models批量生成视频Cosmos支持批量生成大大提高工作效率# 批量生成Text2World视频 PYTHONPATH$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --batch_input_path cosmos1/models/diffusion/assets/v1p0/batch_inputs/text2world.jsonl \ --video_save_folder outputs/批量生成结果 \ --offload_prompt_upsampler 提示词优化技巧高质量提示词要素详细描述单一场景专注于一个场景避免不必要的镜头切换控制描述长度建议120词左右过长可能影响质量避免复杂相机控制当前版本对相机控制指令支持有限使用丰富的形容词增加视觉细节的描述启用/禁用提示上采样器启用默认自动扩展简短提示生成更详细的描述禁用使用原始提示词保持创作意图不变# 禁用提示上采样器 --disable_prompt_upsampler 模型家族与选择指南Cosmos提供了丰富的模型选择满足不同需求扩散模型DiffusionCosmos-1.0-Diffusion-7B-Text2World文本到世界生成轻量级Cosmos-1.0-Diffusion-14B-Text2World文本到世界生成高质量Cosmos-1.0-Diffusion-7B-Video2World视频文本到世界生成Cosmos-1.0-Diffusion-14B-Video2World视频文本到世界生成高质量自回归模型AutoregressiveCosmos-1.0-Autoregressive-4B未来世界生成Cosmos-1.0-Autoregressive-12B未来世界生成高质量️ 安全特性与限制内置安全护栏Cosmos集成了强大的安全系统确保生成内容的安全性人脸检测与模糊生成的人脸会自动模糊处理内容安全过滤防止生成不当内容不可禁用安全功能是强制启用的视频规格限制帧数固定121帧分辨率支持多种宽高比1:1、4:3、16:9等帧率12-40fps可调进阶应用与后训练后训练自定义模型如果你需要针对特定应用场景优化模型可以使用后训练功能# 参考后训练文档 # cosmos1/models/POST_TRAINING.md多GPU推理对于大型模型或批量处理Cosmos支持多GPU加速# 多GPU推理配置 # cosmos1/models/diffusion/nemo/inference/README.md 性能指标与最佳实践推理时间参考7B模型单视频约380秒14B模型单视频约590秒输出质量优化使用高质量提示词详细、具体的描述选择合适的模型大小14B模型质量更高但速度较慢调整扩散步数更多步数通常意味着更高质量实验不同宽高比找到最适合你场景的比例开始你的Cosmos之旅现在你已经掌握了Cosmos的核心使用方法从简单的文本描述开始逐步尝试更复杂的视频生成任务。记住从简单开始先用7B模型熟悉流程逐步优化尝试不同的提示词和参数利用批量处理提高工作效率关注社区分享经验学习最佳实践Cosmos的强大功能正在改变物理AI的开发方式。无论是为机器人训练创建仿真环境还是为自动驾驶系统生成测试场景这个开源平台都能为你提供强大的支持。立即开始你的物理世界生成之旅探索AI创造无限可能的未来提示更多技术细节和高级功能请参考官方文档docs/official.md 和AI功能源码plugins/ai/【免费下载链接】CosmosNVIDIA Cosmos is an open platform of world models, datasets, and tools that enables developers to build Physical AI for robots, autonomous vehicles, smart infrastructure, and more.项目地址: https://gitcode.com/GitHub_Trending/cosmos7/Cosmos创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考