Phi-3.5-mini-instruct入门指南：使用Ollama封装为标准LLM服务接口

张

张建站

2026/4/26 10:43:29

10分钟阅读

Phi-3.5-mini-instruct入门指南使用Ollama封装为标准LLM服务接口1. 项目概述Phi-3.5-mini-instruct是微软推出的轻量级开源指令微调大模型在长上下文代码理解RepoQA、多语言MMLU等基准测试中表现优异显著超越同规模模型部分任务甚至能与更大模型媲美。该模型轻量化部署友好单张RTX 4090显卡即可运行显存占用仅约7GB非常适合本地或边缘部署场景。核心优势轻量高效7GB显存即可运行性能强劲多项基准测试领先同规模模型部署简单支持多种部署方式2. 环境准备2.1 硬件要求GPUNVIDIA GeForce RTX 409023GB VRAM或同等性能显卡显存至少8GB可用显存内存建议16GB以上2.2 软件依赖conda create -n torch28 python3.9 conda activate torch28 pip install transformers4.57.6 protobuf7.34.1 gradio6.6.0 torch2.8.03. 基础部署3.1 下载模型git clone https://github.com/microsoft/Phi-3.5-mini-instruct cd Phi-3.5-mini-instruct3.2 启动Gradio服务# webui.py示例代码 from transformers import AutoModelForCausalLM, AutoTokenizer import gradio as gr model AutoModelForCausalLM.from_pretrained(microsoft/Phi-3.5-mini-instruct) tokenizer AutoTokenizer.from_pretrained(microsoft/Phi-3.5-mini-instruct) def generate(text, max_length256, temperature0.3, top_p0.8, top_k20, repetition_penalty1.1): inputs tokenizer(text, return_tensorspt) outputs model.generate(**inputs, max_lengthmax_length, temperaturetemperature, top_ptop_p, top_ktop_k, repetition_penaltyrepetition_penalty) return tokenizer.decode(outputs[0], skip_special_tokensTrue) iface gr.Interface(fngenerate, inputstext, outputstext) iface.launch(server_name0.0.0.0, server_port7860)4. 使用Ollama封装服务4.1 安装Ollamacurl -fsSL https://ollama.com/install.sh | sh4.2 创建ModelfileFROM microsoft/Phi-3.5-mini-instruct PARAMETER temperature 0.3 PARAMETER top_p 0.8 PARAMETER top_k 20 PARAMETER repetition_penalty 1.1 SYSTEM 你是一个有帮助的AI助手使用简洁专业的语言回答问题。 4.3 构建并运行模型ollama create phi3 -f Modelfile ollama run phi35. 服务管理5.1 Supervisor配置[program:phi-3.5-mini-instruct] command/opt/miniconda3/envs/torch28/bin/python /root/Phi-3.5-mini-instruct/webui.py directory/root/Phi-3.5-mini-instruct userroot autostarttrue autorestarttrue stdout_logfile/root/Phi-3.5-mini-instruct/logs/phi35.log stderr_logfile/root/Phi-3.5-mini-instruct/logs/phi35.err5.2 常用命令# 启动服务 supervisorctl start phi-3.5-mini-instruct # 停止服务 supervisorctl stop phi-3.5-mini-instruct # 查看日志 tail -f /root/Phi-3.5-mini-instruct/logs/phi35.log6. 参数调优指南参数推荐值效果说明temperature0.1-0.3值越低输出越确定top_p0.7-0.9控制生成多样性max_length128-512控制生成长度repetition_penalty1.0-1.2防止重复内容调优建议创意写作temperature0.7, top_p0.9技术问答temperature0.2, top_p0.7代码生成temperature0.3, top_p0.87. 常见问题解决7.1 transformers版本问题# 如果遇到DynamicCache错误 pip install transformers5.0.07.2 GPU未被使用# 检查CUDA可用性 import torch print(torch.cuda.is_available())7.3 生成质量不佳降低temperature值调整top_p参数增加repetition_penalty8. 总结通过本指南您已经学会了如何部署Phi-3.5-mini-instruct基础服务使用Ollama封装为标准LLM接口配置Supervisor进行服务管理调优生成参数获得最佳效果Phi-3.5-mini-instruct作为一款轻量级高性能模型非常适合本地化部署和边缘计算场景。结合Ollama的封装能力可以轻松将其集成到各类应用中。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

电脑风扇太吵？试试这个免费开源工具，让你的PC安静又凉爽

电脑风扇太吵？试试这个免费开源工具，让你的PC安静又凉爽【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHu…...

2026/4/26 10:43:22 阅读更多 →

告别SQLite I/O Error 4874：升级WorkManager与正确配置存储约束的保姆级指南

彻底解决Android SQLite磁盘I/O错误4874：WorkManager高级配置与存储优化实战在Android应用开发中，后台任务处理和数据持久化是构建稳定应用的两大基石。当这两个关键系统相遇时，开发者常常会遇到一个棘手的错误：SQLITE_IOERR_SHM…...

2026/4/26 10:41:34 阅读更多 →

FPGA上跑CNN，选FP16还是INT8？手把手分析半精度浮点与定点数的实战选择

FPGA部署CNN的精度博弈：FP16与INT8的工程化决策指南在边缘计算领域，FPGA因其可重构性和低延迟特性，成为卷积神经网络(CNN)部署的热门选择。但当工程师真正着手实现时，第一个拦路虎便是数据格式的选择——这个看似基础的决定&…...

2026/4/26 10:41:32 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/26 0:01:56 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/26 0:10:29 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/26 0:11:28 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/26 0:15:26 阅读更多 →