LFM2.5-1.2B-Thinking部署教程：Ollama+FastAPI构建私有LLM服务

张

张建站

2026/4/23 14:26:20

10分钟阅读

LFM2.5-1.2B-Thinking部署教程OllamaFastAPI构建私有LLM服务想在自己的电脑上跑一个智能助手但又担心大模型太吃资源或者网络调用不稳定今天我们就来解决这个问题。LFM2.5-1.2B-Thinking一个专为设备端设计的“小钢炮”模型它只有12亿参数却能在你的个人电脑上流畅运行内存占用不到1GB速度还飞快。更重要的是我们将用它搭配Ollama和FastAPI搭建一个完全属于你自己的、可以随时调用的私有语言模型服务。无论你是想开发一个AI应用还是单纯想拥有一个不受网络限制的智能助手这篇教程都将带你从零开始一步步实现。1. 为什么选择LFM2.5-1.2B-Thinking在开始动手之前我们先简单了解一下今天的主角。LFM2.5-1.2B-Thinking不是一个普通的模型它有几个让你无法拒绝的优点身材小巧能力不俗它只有1.2B12亿参数这意味着它对硬件要求极低。但别小看它经过大规模数据训练和优化它在很多任务上的表现可以媲美那些体积大得多的模型。为设备而生这个模型系列就是专门为了在手机、电脑等设备上运行而设计的。在普通的AMD CPU上它的文本生成速度能达到每秒239个词元token在移动设备的NPU上也能达到每秒82个词元。最关键的是它的内存占用可以控制在1GB以下。生态友好它从发布第一天起就支持像llama.cpp、MLX和vLLM这样的流行推理框架这意味着部署和集成非常方便。简单来说如果你想找一个能在自己电脑上轻松跑起来、响应快、效果还不错的模型来构建服务LFM2.5-1.2B-Thinking是一个非常理想的选择。2. 环境准备与Ollama部署我们的第一步是让模型在你的电脑上跑起来。这里我们使用Ollama它是一个极其简单的工具可以让你像安装软件一样安装和运行大语言模型。2.1 安装OllamaOllama支持Windows、macOS和Linux。访问Ollama官网下载对应你操作系统的安装包像安装普通软件一样完成安装。安装完成后打开你的终端Windows上是PowerShell或CMDmacOS/Linux上是Terminal输入以下命令来拉取并运行我们的目标模型ollama run lfm2.5-thinking:1.2b第一次运行这个命令时Ollama会自动从网上下载模型文件。模型大小大约在700MB左右下载速度取决于你的网络。下载完成后你会直接进入一个交互式对话界面可以开始和模型聊天了。输入/bye可以退出。2.2 验证模型运行为了后续通过API调用我们需要让模型在后台以服务模式运行。打开一个新的终端窗口执行ollama serve这个命令会启动Ollama的服务默认监听在http://localhost:11434。保持这个终端窗口打开。然后我们再打开一个终端测试一下API是否可用。我们可以用简单的curl命令来发送一个请求curl http://localhost:11434/api/generate -d { model: lfm2.5-thinking:1.2b, prompt: 你好请介绍一下你自己。, stream: false }如果一切正常你会收到一个JSON格式的响应其中包含了模型生成的回复。看到回复内容就说明模型服务已经准备就绪了。3. 使用FastAPI构建封装服务虽然Ollama提供了基础的API但它的接口比较原始。我们使用FastAPI来构建一个更友好、功能更清晰、也更适合集成的Web服务层。3.1 创建项目与安装依赖首先创建一个新的项目文件夹例如llm_service然后进入该文件夹。mkdir llm_service cd llm_service接下来我们创建一个Python虚拟环境来隔离依赖推荐这样做然后安装必要的包。# 创建虚拟环境以venv为例 python -m venv venv # 激活虚拟环境 # Windows: venv\Scripts\activate # macOS/Linux: source venv/bin/activate # 安装FastAPI和HTTP客户端 pip install fastapi uvicorn httpx3.2 编写核心服务代码在项目文件夹里创建一个名为main.py的文件并写入以下代码from fastapi import FastAPI, HTTPException from pydantic import BaseModel from typing import Optional import httpx import asyncio # 初始化FastAPI应用 app FastAPI(title私有LLM服务, description基于Ollama和LFM2.5-1.2B-Thining的封装API) # 定义请求体的数据模型 class ChatRequest(BaseModel): prompt: str # 用户输入的提示词 model: str lfm2.5-thinking:1.2b # 默认模型可配置 stream: bool False # 是否使用流式输出 max_tokens: Optional[int] 512 # 生成的最大token数 # 定义响应体的数据模型 class ChatResponse(BaseModel): response: str # 模型的回复 model: str # 使用的模型 total_duration: Optional[float] # 总耗时秒 # Ollama服务的地址 OLLAMA_BASE_URL http://localhost:11434 app.post(/v1/chat/completions, response_modelChatResponse) async def chat_completion(request: ChatRequest): 核心聊天补全接口。接收用户提示转发给Ollama并返回模型生成的回复。 # 准备发送给Ollama的请求数据 ollama_payload { model: request.model, prompt: request.prompt, stream: request.stream, options: { num_predict: request.max_tokens # Ollama使用num_predict参数 } } async with httpx.AsyncClient(timeout60.0) as client: # 设置较长的超时时间 try: # 向Ollama服务发送POST请求 resp await client.post( f{OLLAMA_BASE_URL}/api/generate, jsonollama_payload ) resp.raise_for_status() # 如果请求失败状态码非2xx抛出异常 result resp.json() # 从Ollama的响应中提取我们需要的信息 response_text result.get(response, ).strip() total_duration result.get(total_duration) # 单位是纳秒后面转换 if not response_text: raise HTTPException(status_code500, detail模型未返回有效内容) # 将纳秒转换为秒保留3位小数 duration_seconds round(total_duration / 1_000_000_000, 3) if total_duration else None return ChatResponse( responseresponse_text, modelrequest.model, total_durationduration_seconds ) except httpx.RequestError as e: # 处理网络连接错误 raise HTTPException(status_code503, detailf无法连接到Ollama服务: {str(e)}) except httpx.HTTPStatusError as e: # 处理Ollama返回的错误状态码 raise HTTPException(status_codee.response.status_code, detailfOllama服务错误: {e.response.text}) except Exception as e: # 处理其他未知错误 raise HTTPException(status_code500, detailf内部服务器错误: {str(e)}) app.get(/health) async def health_check(): 健康检查端点。用于检查FastAPI服务本身和Ollama后端是否都正常运行。 service_ok True ollama_ok False async with httpx.AsyncClient() as client: try: resp await client.get(f{OLLAMA_BASE_URL}/api/tags, timeout5.0) if resp.status_code 200: ollama_ok True except Exception: ollama_ok False status healthy if (service_ok and ollama_ok) else unhealthy return { status: status, fastapi_service: running, ollama_service: available if ollama_ok else unavailable } if __name__ __main__: import uvicorn # 启动服务监听所有网络接口的8000端口 uvicorn.run(app, host0.0.0.0, port8000)这段代码做了什么定义清晰接口我们创建了一个/v1/chat/completions的POST接口它的输入输出格式明确使用Pydantic模型定义更接近OpenAI等主流服务的风格方便后续集成。封装Ollama调用服务接收到请求后会将其转换为Ollama能理解的格式并发起调用最后将Ollama的响应整理成我们定义的格式返回。增强健壮性添加了完整的错误处理网络错误、服务错误等并提供了一个/health健康检查接口让你能随时了解服务状态。添加实用信息在响应中我们加入了模型生成所花费的时间这对于性能监控很有帮助。3.3 启动与测试FastAPI服务保存好main.py文件后在终端里运行uvicorn main:app --reload --host 0.0.0.0 --port 8000main:app告诉uvicorn在main.py文件中寻找名为app的FastAPI实例。--reload开发模式代码修改后会自动重启服务方便调试。--host 0.0.0.0允许同一网络下的其他设备访问此服务。--port 8000指定服务运行在8000端口。看到Uvicorn running on http://0.0.0.0:8000的提示说明服务启动成功。现在打开你的浏览器访问http://localhost:8000/docs。你会看到FastAPI自动生成的交互式API文档Swagger UI。你可以在这里直接测试/v1/chat/completions接口。或者使用curl命令进行测试curl -X POST http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d { prompt: 用Python写一个函数计算斐波那契数列的第n项。, max_tokens: 256 }你应该会收到一个结构清晰的JSON响应包含了模型生成的代码和耗时信息。4. 进阶使用与集成示例服务跑起来了我们来看看怎么用它。4.1 在Python项目中调用假设你有一个Python应用需要调用这个LLM服务可以这样做import httpx import asyncio async def ask_llm(question: str): async with httpx.AsyncClient() as client: try: response await client.post( http://localhost:8000/v1/chat/completions, json{ prompt: question, model: lfm2.5-thinking:1.2b, max_tokens: 300 }, timeout30.0 ) response.raise_for_status() result response.json() print(f回答{result[response]}) print(f耗时{result[total_duration]}秒) return result[response] except Exception as e: print(f调用服务失败: {e}) return None # 使用示例 if __name__ __main__: asyncio.run(ask_llm(解释一下什么是机器学习))4.2 简单的Stream流式输出可选Ollama和我们的服务也支持流式输出即模型生成一个字就返回一个字体验更好。修改main.py中的接口使其支持流式响应需要处理Server-Sent Events (SSE)代码稍复杂。一个更简单的办法是如果你的前端或客户端能直接处理Ollama的流可以单独创建一个流式接口或者让客户端直接连接Ollama的11434端口进行流式对话。不过对于大多数后台处理任务我们上面实现的非流式接口已经足够用了。5. 总结至此你已经成功搭建了一个基于LFM2.5-1.2B-Thinking模型的私有LLM服务。我们来回顾一下关键步骤和优势模型轻量化选择了专为边缘设备设计的LFM2.5-1.2B-Thinking模型资源消耗低响应速度快。部署简易化利用Ollama一行命令就完成了模型的拉取和运行无需复杂的环境配置。服务标准化通过FastAPI构建了一个RESTful API服务提供了清晰、健壮、易于集成的接口并附带了完整的错误处理和健康检查。完全私有化所有计算都在你的本地环境进行数据无需上传至第三方保证了隐私和安全。这个服务可以作为你众多AI应用的后端大脑无论是想做一个桌面助手、集成到现有业务系统还是进行AI应用的开发测试都提供了一个稳定可靠的本地化解决方案。你可以尝试更换Ollama支持的其他模型或者为这个FastAPI服务添加更多功能如多轮对话记忆、API密钥认证等让它更加强大。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

学术研究助手：用OpenClaw+Phi-3-vision-128k-instruct自动解析论文图表

学术研究助手：用OpenClawPhi-3-vision-128k-instruct自动解析论文图表 1. 为什么需要自动化论文图表解析作为一名经常需要阅读大量学术论文的研究者，我发现自己花费在图表解析上的时间越来越多。每当下载一篇新论文，总要手动翻到图表部分&…...

2026/4/13 3:41:14 阅读更多 →

SkeyeVSS开发心得-VSS流播放与注意事项

本文是 VSS流播放详解的配套开发笔记。项目地址 https://github.com/openskeye/go-vss 1. 明确三个要点 POST /api/video/stream 只有一套 StreamResp 外壳，内里走哪路完全由 Device.AccessProtocol 决定。流媒体是否拉起来，不都是 StartRelyPull 的…...

2026/4/14 23:46:01 阅读更多 →