盘古Pro MoE API调用教程：RESTful接口与离线推理终极指南 [特殊字符]

张

张建站

2026/5/27 17:38:36

10分钟阅读

盘古Pro MoE API调用教程：RESTful接口与离线推理终极指南 [特殊字符]

盘古Pro MoE API调用教程RESTful接口与离线推理终极指南【免费下载链接】Pangu-Pro-MoE项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/Pangu-Pro-MoE盘古Pro MoE是华为于2025年5月发布的革命性大语言模型基于创新的分组混合专家模型MoGE架构。这个720亿参数的巨人模型在中文理解和逻辑推理任务上表现出色在SuperCLUE 2025年5月排行榜中位列国内第一本文将为你详细介绍如何通过RESTful API接口和离线推理方式高效调用盘古Pro MoE模型让你快速上手这个强大的AI工具。核心功能概览盘古Pro MoE模型拥有以下令人印象深刻的特点720亿总参数160亿激活参数- 在保持高性能的同时优化计算效率分组混合专家架构MoGE- 创新的负载均衡设计提升昇腾平台部署效率支持超长上下文- 最大模型长度可达32768 tokens双硬件平台支持- Atlas 800I A2和Atlas 300I Duo高性能推理- 在Atlas 800I A2上实现1020 token/s的增量吞吐快速开始环境准备1. 下载模型权重首先需要下载盘古Pro MoE的模型权重文件# 设置模型下载路径白名单 export HUB_WHITE_LIST_PATHS/home/work/PanguProMoE # 使用Python脚本下载模型 python -c from openmind_hub import snapshot_download snapshot_download( repo_idMindSpore-Lab/Pangu-Pro-MoE, local_dir/home/work/PanguProMoE, local_dir_use_symlinksFalse ) 2. 获取Docker镜像根据你的硬件平台选择合适的镜像Atlas 800I A2平台docker pull swr.cn-central-221.ovaijisuan.com/mindsporelab/pangu_pro_moe_mindspore-infer:800-A2-20250623Atlas 300I Duo平台docker pull swr.cn-central-221.ovaijisuan.com/mindsporelab/pangu_pro_moe_mindspore-infer:300I-Duo-202506233. 启动容器启动容器并进入环境docker run -it --privileged --namepangu_pro_moe --nethost \ --shm-size 500g \ --device/dev/davinci0 \ --device/dev/davinci1 \ --device/dev/davinci2 \ --device/dev/davinci3 \ --device/dev/davinci4 \ --device/dev/davinci5 \ --device/dev/davinci6 \ --device/dev/davinci7 \ --device/dev/davinci_manager \ --device/dev/hisi_hdc \ --device /dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/Ascend/add-ons:/usr/local/Ascend/add-ons \ -v /usr/local/sbin:/usr/local/sbin \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /etc/hccn.conf:/etc/hccn.conf \ -v /home:/home \ swr.cn-central-221.ovaijisuan.com/mindsporelab/pangu_pro_moe_mindspore-infer:800-A2-20250623 \ /bin/bash RESTful API接口调用启动API服务在容器内启动vLLM服务Atlas 800I A2配置vllm-mindspore serve /home/work/PanguProMoE \ --trust-remote-code \ --tensor-parallel-size8 \ --gpu-memory-utilization0.9 \ --max-num-batched-tokens2048 \ --max-num-seqs512 \ --block-size128 \ --max-model-len32768Atlas 300I Duo配置vllm-mindspore serve /home/work/PanguProMoE \ --trust-remote-code \ --tensor-parallel-size8 \ --gpu-memory-utilization0.8 \ --max-num-batched-tokens2048 \ --max-num-seqs128 \ --block-size128 \ --max-model-len16384API调用示例服务启动后可以通过HTTP接口调用模型curl http://localhost:8000/v1/completions \ -H Content-type: application/json \ -d { model: /home/work/PanguProMoE, prompt: [unused9]系统[unused10][unused9]用户请简单介绍一个北京的景点[unused10][unused9]助手, max_tokens: 1024, temperature: 0.0 }API参数详解参数说明推荐值model模型路径/home/work/PanguProMoEprompt输入提示使用特殊token格式max_tokens最大生成token数1024temperature温度参数0.0-1.0top_p核采样参数0.95top_kTop-k采样50 离线推理部署创建推理脚本创建generate_vllm.py文件import vllm_mindspore from vllm import LLM, SamplingParams sys_prompt [unused9]系统[unused10][unused9]用户%s[unused10][unused9]助手 def main(args): # 准备输入提示 prompts [ sys_prompt % 请简单介绍Mindspore, ] # 设置采样参数 sampling_params SamplingParams( temperature0, max_tokensargs.max_tokens ) # 初始化LLM模型 llm LLM( modelargs.model_path, gpu_memory_utilization0.9, # Atlas 300I Duo改为0.8 tensor_parallel_size8, max_num_batched_tokens2048, max_num_seqs512, # Atlas 300I Duo改为128 max_model_len32768, # Atlas 300I Duo改为16384 block_size128, trust_remote_codeTrue ) # 执行推理 outputs llm.generate(prompts, sampling_params) # 输出结果 for output in outputs: prompt output.prompt generated_text output.outputs[0].text print(f提示: {prompt}) print(f生成结果: {generated_text}) print(- * 50) if __name__ __main__: import argparse parser argparse.ArgumentParser(description盘古Pro MoE离线推理示例) parser.add_argument(--model_path, typestr, default/home/work/PanguProMoE) parser.add_argument(--max_tokens, typeint, default1024) args, _ parser.parse_known_args() main(args)运行离线推理python generate_vllm.py --model_path/home/work/PanguProMoE⚙️ 关键配置文件说明模型配置文件 config.json盘古Pro MoE的核心配置参数{ architectures: [PanguProMoEForCausalLM], hidden_size: 5120, num_hidden_layers: 48, num_attention_heads: 40, num_experts: 64, num_experts_per_tok: 8, max_position_embeddings: 131072, vocab_size: 153376 }生成配置文件 generation_config.json推理时的默认生成参数{ do_sample: true, temperature: 0.6, top_k: 50, top_p: 0.95, eos_token_id: [45892] } 实用技巧与最佳实践1. 提示工程技巧盘古Pro MoE使用特殊的对话格式# 正确的对话格式 prompt [unused9]系统[unused10][unused9]用户你的问题[unused10][unused9]助手 # 错误的格式不会正常工作 prompt 用户你的问题\n助手2. 性能优化建议批处理大小根据硬件调整max_num_seqs参数内存利用率Atlas 800I A2建议0.9Atlas 300I Duo建议0.8上下文长度根据需求调整max_model_len3. 硬件配置要求硬件平台推荐配置内存要求Atlas 800I A28卡配置64GB/卡Atlas 300I Duo8卡配置根据实际需求故障排除指南常见问题解决模型加载失败检查模型路径是否正确确认磁盘空间足够约150GB验证模型文件完整性内存不足错误降低gpu_memory_utilization参数减少max_num_seqs批处理大小检查硬件配置是否满足要求API服务无法启动检查端口8000是否被占用确认Docker容器正常运行验证硬件驱动是否正确安装性能基准测试根据官方测试数据盘古Pro MoE在不同硬件平台上的表现指标Atlas 800I A2Atlas 300I Duo增量吞吐1020 token/s根据配置调整最大上下文32768 tokens16384 tokens批处理大小512128内存利用率90%80% 进阶应用场景1. 多轮对话系统def build_conversation_prompt(history, new_query): 构建多轮对话提示 prompt [unused9]系统[unused10] for turn in history: prompt f[unused9]用户{turn[user]}[unused10] prompt f[unused9]助手{turn[assistant]}[unused10] prompt f[unused9]用户{new_query}[unused10][unused9]助手 return prompt2. 批量处理任务# 批量处理多个查询 queries [ 解释人工智能的基本概念, 写一篇关于机器学习的短文, 分析深度学习的发展趋势 ] prompts [sys_prompt % q for q in queries] outputs llm.generate(prompts, sampling_params) 总结与展望盘古Pro MoE作为华为最新的MoE架构大语言模型在中文理解和推理能力上表现出色。通过本文介绍的RESTful API接口和离线推理方法你可以轻松地将这个强大的模型集成到自己的应用中。关键要点回顾✅ 支持两种主流昇腾硬件平台✅ 提供简单易用的HTTP API接口✅ 支持离线批量推理✅ 优化的MoGE架构带来高效性能✅ 丰富的配置选项满足不同需求随着华为Q3正式商用版本的发布盘古Pro MoE将在更多企业级场景中发挥重要作用。无论是构建智能客服系统、开发内容生成工具还是进行复杂的数据分析这个模型都能为你提供强大的AI能力支持。现在就开始你的盘古Pro MoE之旅吧【免费下载链接】Pangu-Pro-MoE项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/Pangu-Pro-MoE创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

从零搭建手机可访问的本地私人AI聊天系统：基于Ollama + OpenWebUI

文章目录引言1 整体架构设计与方案对比1.1 整体分层架构1.2 核心请求流程1.3 不同方案横向对比2 环境准备2.1 硬件要求2.2 软件依赖3 详细部署步骤3.1 安装配置Ollama3.2 部署OpenWebUI3.3 配置手机访问3.3.1 同局域网访问（在家使用）3.3.2 外网访问&…...

2026/5/27 17:36:38 阅读更多 →

《流畅的Python》读书笔记13(补充01): 序列的修改、散列和切片 - 序列类型完整协议实现(进阶必备)

要实现符合 Python 风格的序列类型，在进阶实践中仍需关注若干关键细节与潜在陷阱。这些要点涉及性能优化、协议完整性、边界条件处理以及与其他 Python 特性的交互。一、协议完整性与行为一致性博客中通过实现 __len__ 和 __getitem__ 使 Vector 获得了基本的序…...

2026/5/27 17:35:47 阅读更多 →

如何免费获取EB Garamond 12：古典衬线字体的完整指南

如何免费获取EB Garamond 12：古典衬线字体的完整指南【免费下载链接】EBGaramond12 项目地址: https://gitcode.com/gh_mirrors/eb/EBGaramond12 EB Garamond 12是一款基于16世纪经典Garamond字体设计的开源衬线字体，它不仅完美复刻了文艺复兴时…...

2026/5/27 17:35:03 阅读更多 →

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票【免费下载链接】ticket-purchase 大麦自动抢票，支持人员、城市、日期场次、价格选择项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 还在为抢不到心仪的演唱会门票而烦…...

2026/5/26 6:24:25 阅读更多 →

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾经遇到过这…...

2026/5/26 6:24:29 阅读更多 →