Gemma 4 / PaliGemma 2 / Ollama / Open WebUI 本地部署复盘

张

张建站

2026/4/21 12:19:46

10分钟阅读

Gemma 4 / PaliGemma 2 / Ollama / Open WebUI 本地部署复盘日期2026-04-20环境WSL2 Ubuntu (gkubuntu2004)目标本地部署Gemma 4本地部署PaliGemma 2使用Ollama提供交互式聊天能力使用Open WebUI提供图形化聊天界面尝试将PaliGemma 2用于图像检测并返回标注图片1. 总体结论这次链路最终打通了以下几个部分Gemma 4 31B-it已完整下载并可本地使用。PaliGemma 2 28b-mix-448已完整下载并可本地使用。Ollama已手动安装成功并可正常运行gemma4:31b。Open WebUI已跑起来但在 Docker Desktop WSL 环境下需要特别注意它连接的是哪一套Ollama。为PaliGemma 2增加了检测并返图的脚本可以保存检测后的图片和 JSON。同时也确认了几个关键经验Gemma 4是多模态理解模型不是图像生成模型不能生图。PaliGemma 2可以做detect/segment但要靠额外脚本把输出解析成可视化框图或后续矢量结果。Open WebUI默认连到的Ollama未必是当前 WSL 里的那套需要明确指定。超大模型下载在当前网络环境下最好用“镜像断点续传后台日志”的方式不要依赖前台会话。2. 文件与目录约定2.1 Python 环境复用的虚拟环境/root/gemma4/.venv激活方式source/root/gemma4/.venv/bin/activate2.2 模型目录Gemma 4/root/models/gemma-4-31B-itPaliGemma 2/root/models/paligemma2-28b-mix-4482.3 脚本目录Gemma 4 脚本/root/gemma4/PaliGemma 2 脚本/root/paligemma2/3. Gemma 4 本地部署3.1 依赖安装在/root/gemma4/.venv中安装的核心依赖python3-mvenv /root/gemma4/.venvsource/root/gemma4/.venv/bin/activate pipinstall-Upip setuptools wheel pipinstall-Utorch torchvision transformers accelerate bitsandbytes pillow sentencepiece safetensors huggingface_hub3.2 下载 Gemma 4 31B-it由于 Hugging Face 官方站点直连受限实际采用了镜像方式下载HF_ENDPOINThttps://hf-mirror.com python /root/gemma4/download_gemma4.py\--modelgoogle/gemma-4-31B-it\--local-dir /root/models/gemma-4-31B-it3.3 完整性检查检查目录大小du-sh/root/models/gemma-4-31B-it检查权重索引与分片是否齐全python3 -PY import json, os base/root/models/gemma-4-31B-it pos.path.join(base,model.safetensors.index.json) djson.load(open(p)) print(expected_bytes, d[metadata][total_size]) filessorted(set(d[weight_map].values())) for fn in files: fpos.path.join(base, fn) print(fn, os.path.exists(fp), os.path.getsize(fp)) PY实际结果总目录大小约59G2 个权重分片都存在模型完整可用3.4 启动方式单次文本问答source/root/gemma4/.venv/bin/activate python /root/gemma4/run_gemma4_text.py\--model/root/models/gemma-4-31B-it\--prompt用中文介绍一下你自己交互式文本聊天source/root/gemma4/.venv/bin/activate python /root/gemma4/chat_gemma4.py\--model/root/models/gemma-4-31B-it单次图像理解source/root/gemma4/.venv/bin/activate python /root/gemma4/run_gemma4_image.py\--model/root/models/gemma-4-31B-it\--image/path/to/test.png\--prompt描述这张图3.5 关于显卡如果要只用第二块显卡CUDA_VISIBLE_DEVICES1python /root/gemma4/run_gemma4_text.py...但注意Gemma 4 31B-it的 Hugging Face 原始权重体积较大单张 48GB 显卡直接bf16/fp16不一定稳更适合双卡切分或量化后运行4. PaliGemma 2 本地部署4.1 模型与权限问题PaliGemma 2 的目标模型为google/paligemma2-28b-mix-448这个仓库是gated repo需要在 Hugging Face 模型页申请访问权限使用拥有授权的 HF token 下载下载过程中遇到过账号未授权awaiting review门禁通过后才能真正下载权重4.2 下载命令最终采用source/root/gemma4/.venv/bin/activateHF_TOKEN你的tokenHF_ENDPOINThttps://hf-mirror.com\python /root/paligemma2/download_paligemma2.py\--modelgoogle/paligemma2-28b-mix-448\--local-dir /root/models/paligemma2-28b-mix-4484.3 下载过程中的问题下载大模型时曾反复出现FileNotFoundError: ... .incomplete这意味着某些 shard 下载过程中中断临时分片文件丢失最终形成了“看似完成、实际有空文件”的状态典型例子model-00003-of-00012.safetensors曾经是0 字节空文件。4.4 修复方法不要整个目录重下优先删掉损坏分片继续断点续传例如rm-f/root/models/paligemma2-28b-mix-448/model-00003-of-00012.safetensors然后续传source/root/gemma4/.venv/bin/activateHF_TOKEN你的tokenHF_ENDPOINThttps://hf-mirror.com\python /root/paligemma2/download_paligemma2.py\--modelgoogle/paligemma2-28b-mix-448\--local-dir /root/models/paligemma2-28b-mix-4484.5 完整性校验最终校验方式python3 -PY import json, os base/root/models/paligemma2-28b-mix-448 pos.path.join(base,model.safetensors.index.json) djson.load(open(p)) expectedd[metadata][total_size] filessorted(set(d[weight_map].values())) missing[] sizes[] for fn in files: fpos.path.join(base, fn) if os.path.exists(fp): sizes.append(os.path.getsize(fp)) else: missing.append(fn) print(expected_bytes, expected) print(present_files, len(sizes)) print(present_bytes, sum(sizes)) print(missing_files, len(missing)) PY最终状态12 个权重分片齐全无.incomplete文件模型完整可用5. PaliGemma 2 的使用方式5.1 单次图像理解source/root/gemma4/.venv/bin/activate python /root/paligemma2/run_paligemma2_image.py\--model/root/models/paligemma2-28b-mix-448\--image/root/gemma4/data/R-C.png\--promptdescribe en5.2 检测提示词检测detect building detect road detect water分割segment building segment road5.3 自动画框返图增加了脚本/root/paligemma2/detect_and_draw.py用法source/root/gemma4/.venv/bin/activateCUDA_VISIBLE_DEVICES1python /root/paligemma2/detect_and_draw.py\--model/root/models/paligemma2-28b-mix-448\--image/root/gemma4/data/R-C.png\--objectbuilding\--output/root/gemma4/data/R-C.detected.png\--json-output /root/gemma4/data/R-C.detected.json\--load-in-4bit说明--load-in-4bit便于单张 48GB 显卡运行 28B 模型--output保存画好框的图片--json-output保存解析后的检测结果 JSONCUDA_VISIBLE_DEVICES1只用第二块显卡6. 为什么 PaliGemma 2 不适合直接做“矢量化勾画主链路”虽然PaliGemma 2可以做detectsegment图像问答但它并不是最稳妥的像素级边界提取主模型。更合理的链路应是VLM做识别与提示SAM2/samgeo做精确分割GDAL polygonize做矢量化也就是说PaliGemma 2可以用于原型验证和对象提示真正生产级的“掩膜 - 矢量”仍建议配合专门分割工具7. Ollama 安装7.1 自动安装失败原因官方安装脚本curl-fsSLhttps://ollama.com/install.sh|sh在当前环境下失败根因不是ollama.com不通而是ollama.com/download最终重定向到 GitHub Release当前网络到github.com下载超时典型报错curl: (7) Failed to connect to github.com port 443: Connection timed out7.2 手动安装成功手动下载好的文件/root/Downloads/ollama-linux-amd64.tar.zst解压安装tar-Izstd-C/usr/local-xvf/root/Downloads/ollama-linux-amd64.tar.zst验证/usr/local/bin/ollama--version实际版本0.21.08. 用第二块显卡启动 Ollama只使用第二块显卡启动CUDA_VISIBLE_DEVICES1OLLAMA_HOST0.0.0.0:11434 ollama serve后台方式nohupbash-lcCUDA_VISIBLE_DEVICES1 OLLAMA_HOST0.0.0.0:11434 /usr/local/bin/ollama serve/root/ollama.log218.1 拉取参数最多的 Gemma 4注意ollama pull gemma4默认不是最大版最大版应显式指定ollama pull gemma4:31b运行ollama run gemma4:31b9. Open WebUI 部署9.1 Docker 情况起初发现Windows 侧装了 Docker Desktop但 WSL 集成没开打开 Docker Desktop 的WSL Integration后WSL 中的 Docker 才能正常用。9.2 镜像拉取最终拉取官方镜像dockerpull ghcr.io/open-webui/open-webui:main9.3 第一次启动的问题最开始使用的是dockerrun-d\--networkhost\-vopen-webui:/app/backend/data\-eOLLAMA_BASE_URLhttp://127.0.0.1:11434\--nameopen-webui\--restartalways\ghcr.io/open-webui/open-webui:main问题容器是健康的但浏览器访问localhost:8080失败在Docker Desktop WSL这套环境下--networkhost并不稳定不适合这个场景。9.4 重建为端口映射模式改成dockerrm-fopen-webuidockerrun-d\-p3000:8080\--add-hosthost.docker.internal:host-gateway\-eOLLAMA_BASE_URLhttp://host.docker.internal:11434\-vopen-webui:/app/backend/data\--nameopen-webui\--restartalways\ghcr.io/open-webui/open-webui:main然后访问http://localhost:300010. 为什么 Open WebUI 看不到gemma4:31b这个问题最终定位为Open WebUI 并没有连到当前 WSL 里的Ollama它连到了另一套Ollama容器内部实际看到的模型是nomic-embed-text:latestdeepseek-r1:70b而不是当前 WSL 里的gemma4:31b10.1 根因容器环境变量中使用的是OLLAMA_BASE_URLhttp://host.docker.internal:11434但这个地址在当前环境下指向的不是 WSL 当前实例的 Ollama而是另一处宿主服务。10.2 修复方法先查出当前 WSL IPhostname-I例如172.19.2.83然后重建容器dockerrm-fopen-webuidockerrun-d\-p3000:8080\-eOLLAMA_BASE_URLhttp://172.19.2.83:11434\-vopen-webui:/app/backend/data\--nameopen-webui\--restartalways\ghcr.io/open-webui/open-webui:main这样 Open WebUI 才能连到当前 WSL 里的Ollama前端才能看到gemma4:31b10.3 注意事项WSL 的 IP 重启后可能变化。如果以后 Open WebUI 又看不到本地模型优先重新执行hostname-I然后按新 IP 重建容器。11. 当前可直接用的命令清单11.1 Gemma 4 文本聊天source/root/gemma4/.venv/bin/activate python /root/gemma4/chat_gemma4.py--model/root/models/gemma-4-31B-it11.2 Gemma 4 图像理解source/root/gemma4/.venv/bin/activate python /root/gemma4/run_gemma4_image.py\--model/root/models/gemma-4-31B-it\--image/path/to/test.png\--prompt描述这张图11.3 PaliGemma 2 检测并返图source/root/gemma4/.venv/bin/activateCUDA_VISIBLE_DEVICES1python /root/paligemma2/detect_and_draw.py\--model/root/models/paligemma2-28b-mix-448\--image/root/gemma4/data/R-C.png\--objectbuilding\--output/root/gemma4/data/R-C.detected.png\--json-output /root/gemma4/data/R-C.detected.json\--load-in-4bit11.4 Ollama 服务CUDA_VISIBLE_DEVICES1OLLAMA_HOST0.0.0.0:11434 ollama serve11.5 拉取 Gemma 4 最大版ollama pull gemma4:31b11.6 Open WebUI 连接当前 WSL 内 Ollamadockerrm-fopen-webuidockerrun-d\-p3000:8080\-eOLLAMA_BASE_URLhttp://当前WSL_IP:11434\-vopen-webui:/app/backend/data\--nameopen-webui\--restartalways\ghcr.io/open-webui/open-webui:main12. 经验总结这次过程里最重要的经验有五条大模型下载一定要能做完整性校验。“目录看起来很大”不等于模型完整必须检查 index、分片数量、文件大小。断点续传优先于重头再下。尤其是 PaliGemma 2 这种 50GB 体量模型优先删损坏分片再续传。WSL Docker Desktop 环境下不要轻信host.docker.internal。它很可能连到另一套宿主服务而不是当前 WSL 的本地服务。Gemma 4 和 PaliGemma 2 的定位不同。Gemma 4更适合图文理解与交互式问答PaliGemma 2更适合检测/分割类视觉任务原型交互式聊天和结构化检测最好拆成两套入口。Ollama Open WebUI适合聊天PaliGemma 2 自定义脚本/服务适合返图、返 JSON、后续矢量化13. 后续建议如果后续继续往业务化推进建议优先做给PaliGemma 2检测脚本增加多类别一次检测不同颜色绘制批量处理目录将检测结果与地理信息绑定保留切片时的仿射变换和 CRS后续可回写矢量坐标将PaliGemma 2包成简单 Web 服务FastAPIGradio统一上传图片 - 返回检测图/JSON如果需要精确边界与矢量结果改成PaliGemma 2做对象提示SAM2/samgeo做分割GDAL polygonize做矢量化14. 本文档位置/root/codexfile/gemma_paligemma_ollama_openwebui_recap_2026-04-20.md

拒绝“内卷”！电商内容团队如何用AI实现“产能翻10倍”

电商短视频成本，正在成为团队“内卷”的根源。在当前环境下，AI省人工成本已经不只是优化选项，而是决定团队能否持续增长的关键变量。越来越多电商团队发现，单纯增加人手，并不能解决内容生产问题，反而让成本…...

2026/4/21 12:16:17 阅读更多 →

为什么企业智能体必须告别“对话框”：拆解 Agentic UI 与交互重构

自从 ChatGPT 确立了“对话框（Chat UI）”作为 AI 的默认交互形态后，几乎所有的企业级 AI 应用都陷入了这种路径依赖：无论是在 ERP 里查库存，还是在 OA 里提报销，系统统统弹出一个聊天窗口让员工去打字提问。…...

2026/4/21 12:11:16 阅读更多 →

D3KeyHelper完整指南：免费开源的暗黑3按键宏工具终极教程

D3KeyHelper完整指南：免费开源的暗黑3按键宏工具终极教程【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 还在为暗黑破坏神3中繁琐的技能…...

2026/4/21 12:09:52 阅读更多 →