构建AI代码解释器：从沙箱安全到智能体工作流实践

张

张建站

2026/5/10 3:52:16

10分钟阅读

1. 项目概述当代码有了“思考”的能力最近在GitHub上看到一个挺有意思的项目叫haseeb-heaven/code-interpreter。光看名字你可能会联想到OpenAI的Code Interpreter或者一些AI辅助编程工具。没错这个项目的核心就是让AI模型特别是大型语言模型能够像人类程序员一样在一个安全的沙箱环境中执行代码、分析数据、处理文件并基于执行结果进行“思考”和下一步决策。简单来说它不是一个独立的AI而是一个为AI模型打造的“手”和“实验台”。我自己在尝试自动化数据分析、智能客服代码生成以及教育类应用开发时常常遇到一个瓶颈模型能说会道能写出漂亮的代码片段但它写的代码到底能不能跑通跑出来的结果是否符合预期这个过程往往需要人工介入去验证效率大打折扣。code-interpreter这类工具的出现恰恰是为了解决这个“最后一公里”的问题。它允许你将一个语言模型无论是GPT-4、Claude还是开源的Llama、Qwen与一个代码执行环境桥接起来形成一个可以自主“思考-行动-观察-再思考”的智能体Agent。这个项目适合谁呢我认为主要有三类人第一类是AI应用开发者你想构建能真正处理复杂任务如数据分析、图表生成、文件转换的AI智能体第二类是研究人员希望研究智能体的规划、工具使用和推理能力第三类是对AI和编程结合感兴趣的极客想亲手搭建一个能“自己写代码解决问题”的玩具。接下来我会深入拆解这个项目的设计思路、核心实现并分享如何从零开始搭建和运用它以及过程中会遇到哪些“坑”。2. 核心架构与设计哲学拆解要理解haseeb-heaven/code-interpreter我们不能只把它看作一个“代码运行器”。它的设计蕴含了对AI智能体工作流的深刻思考。其核心目标是在安全可控的前提下赋予语言模型与环境交互的能力。2.1 安全第一沙箱环境的设计考量任何允许执行未知代码的系统安全都是头等大事。这个项目通常采用Docker容器作为代码执行的沙箱。为什么是Docker首先Docker提供了操作系统级别的隔离在容器内执行的代码几乎无法影响到宿主机。其次Docker镜像可以预先配置好一个纯净、包含必要依赖如Python、常见数据科学库的环境保证每次代码执行的一致性。最后可以方便地设置资源限制CPU、内存、运行时间防止恶意或错误代码耗尽系统资源。注意虽然Docker提供了很强的隔离性但并非绝对安全。在极高安全要求的场景下如运行完全不可信的代码可能需要结合更严格的SELinux/AppArmor策略甚至考虑使用gVisor、Kata Containers等具有更强隔离性的运行时。但对于绝大多数AI应用和实验场景Docker沙箱已经足够。项目的设计者通常会构建一个轻量级的Python基础镜像里面预装了numpy,pandas,matplotlib,scikit-learn等数据科学黄金组合。当模型需要执行代码时系统会动态创建一个基于该镜像的容器将用户输入的问题、模型生成的代码以及可能的上传文件注入容器执行后获取输出包括标准输出、标准错误和生成的文件最后销毁容器。这个过程必须是无状态的确保每次任务都是全新的开始。2.2 智能体工作流REPL循环的自动化这个项目的核心是一个自动化的REPLRead-Eval-Print Loop循环但主角从人类换成了AI模型。Read读取系统将用户的任务描述、当前对话历史、以及之前代码执行的结果如果有组合成提示词Prompt提交给语言模型。Eval评估/生成语言模型根据提示词“思考”当前要做什么。它可能会决定直接给出答案也可能会决定需要执行一段代码来获取信息或进行计算。如果决定执行代码它会生成一段格式正确的代码通常是Python。Print/Loop打印/循环系统将生成的代码在沙箱中执行并将执行结果成功输出或错误信息反馈给语言模型。模型根据这个结果决定是任务已完成还是需要修正代码或进行下一步操作。这个循环会持续进行直到模型认为任务解决或达到最大迭代次数。这个循环的关键在于提示词工程。你需要精心设计提示词教会模型如何使用这个“代码工具”。例如提示词需要明确告诉模型“你可以在一个安全的Python环境中运行代码。如果你需要计算、绘图或处理数据请生成代码块。我会执行代码并将结果返回给你。请根据结果继续你的任务。” 同时提示词还要约束模型的行为比如“不要执行危险操作”、“优先使用pandas处理数据”等。2.3 与OpenAI Code Interpreter的异同很多人会拿它和OpenAI的官方产品比较。相同点在于核心概念都是为语言模型提供代码执行能力。但区别也很明显模型无关性haseeb-heaven/code-interpreter是一个框架理论上可以对接任何语言模型OpenAI API、Azure OpenAI、Anthropic Claude、本地部署的Llama等而官方产品深度绑定GPT模型。可控性与定制性开源项目允许你完全控制沙箱环境安装什么包、设置什么资源限制、定制工作流、修改提示词甚至可以扩展支持除Python外的其他语言。官方产品则是一个黑盒服务。成本与隐私使用开源方案代码执行发生在你自己的基础设施上数据和代码不会流出对于处理敏感数据尤为重要。同时你可以使用更经济的开源模型来降低成本。开箱即用的成熟度OpenAI的版本经过高度优化和打磨在代码生成的准确性、错误处理、用户体验上通常更胜一筹。开源项目需要更多的调优和调试。选择哪个取决于你的需求是高度定制化、可控和私有化还是追求极致的便捷和稳定性。3. 核心模块深度解析与实操要点了解了设计哲学我们深入到代码层面看看一个典型的code-interpreter项目包含哪些核心模块以及每个模块在实现时需要注意什么。3.1 会话与状态管理模块这个模块负责维护与AI模型的对话上下文。每一次用户请求都可能触发多轮“模型生成-代码执行”的循环因此必须妥善管理会话状态。核心数据结构通常包括messages: 一个列表保存了所有的对话消息格式遵循OpenAI的API规范role为user,assistant,system。session_id: 唯一标识一次用户会话用于在多用户环境下区分状态。execution_history: 保存本次会话中所有代码执行的历史记录包括代码、输出、错误、生成的文件等。这对于模型进行下一步决策至关重要。实操要点上下文长度管理语言模型有上下文窗口限制。当对话轮次很多时需要设计策略来裁剪或总结历史消息防止超出限制。常见的做法是保留最近的N轮交互或者将更早的代码执行结果进行摘要。系统提示词注入系统提示词systemrole定义了AI助手的角色和能力。它应该在会话开始时被注入并且在后续的上下文裁剪中必须被保留否则AI可能会“失忆”忘记自己可以执行代码。状态持久化如果希望会话能够跨HTTP请求或服务器重启保持需要将会话状态序列化后存储到数据库如Redis、SQLite或文件中。3.2 代码生成与解析模块这个模块的职责是与语言模型交互并从中提取出可执行的代码块。工作流程将当前的messages发送给语言模型API。接收模型的回复。回复可能是纯文本也可能包含用特定标记如python ... 包裹的代码块。使用正则表达式或专门的解析库如mistune用于Markdown从回复中提取代码块。必须能处理多个代码块、内联代码等情况。如果模型没有生成代码而是直接给出了最终答案则循环结束将答案返回给用户。注意事项模型“幻觉”模型有时会生成语法错误、逻辑错误甚至包含不存在库的代码。你的系统必须能容忍这些错误并将执行失败的信息Traceback清晰地反馈给模型让它有机会自我修正。这就是智能体学习的过程。代码块语言判断模型可能会生成python、sql甚至没有语言标识的。你的解析器需要能正确处理并只执行你支持的语言如Python。对于不支持的语言可以反馈给模型一个友好的错误要求它用Python重写。非代码输出处理模型回复中除了代码块还有解释性文字。这些文字通常需要和代码执行结果一起作为assistant的消息追加到历史中保持对话的连贯性。3.3 沙箱执行引擎模块这是项目的“心脏”负责在隔离环境中安全地运行代码。一个健壮的执行引擎需要处理容器生命周期管理使用Docker SDK如docker-py或调用命令行工具来创建、启动、停止和删除容器。代码应该类似这样import docker client docker.from_env() container client.containers.run( imagemy-python-sandbox:latest, commandpython /sandbox/run.py, # 一个内部脚本用于接收和执行代码 mem_limit512m, cpu_period100000, cpu_quota50000, # 限制50% CPU network_disabledTrue, # 禁用网络增强安全 volumes{host_code_path: {bind: /sandbox/code.py, mode: ro}}, detachTrue ) # ... 等待执行完成获取日志 ... container.stop() container.remove()资源与超时控制必须在容器配置和外部监控双层面设置超时。如果代码陷入死循环外部监控进程需要能强制终止容器。文件交互用户可能上传数据文件CSV、Excel、图片模型也可能需要生成文件如图表、处理后的数据。这需要宿主机和容器之间通过Volume挂载或文件流进行数据交换。务必注意文件路径的映射和权限。环境初始化容器启动后可能需要执行一些初始化脚本如设置工作目录、环境变量。更常见的做法是将这些步骤直接做到Docker镜像里。踩坑实录依赖膨胀预装所有可能用到的Python包会导致镜像巨大几个GB。更好的做法是使用一个较小的基础镜像如Python slim并支持动态安装依赖。当模型生成的代码包含import some_library时执行引擎可以先检查是否已安装若未安装则在容器内尝试用pip install安装。但这会带来安全风险安装恶意包和执行延迟需要权衡。持久化状态误解开发者容易错误地认为容器内的状态会保留。必须牢记每次代码执行都应该是全新的容器或者至少在每次执行前彻底清理工作目录避免上一次执行残留的文件影响本次结果。中文路径/文件名在Docker volume挂载时如果宿主机文件路径包含中文可能会因编码问题导致容器内找不到文件。建议在传输前对文件名进行URL编码或使用随机生成的英文文件名进行映射。3.4 结果处理与反馈模块代码执行完毕后需要将结果格式化并构建给模型的反馈信息。结果收集stdout: 标准输出即代码的打印结果。stderr: 标准错误包括Python的异常信息Traceback。files_generated: 代码执行过程中在工作目录创建的新文件列表。execution_time: 执行耗时。return_code: 进程退出码0表示成功。反馈构建策略成功执行将stdout的内容作为主要反馈。如果生成了图片等文件可以将其转换为可访问的URL或Base64编码嵌入反馈中并提示模型“已生成图表你可以描述它”。执行失败将stderr尤其是Traceback完整地反馈给模型。这对于模型调试自己的代码至关重要。可以附加一句引导如“上面的代码执行出错了请根据错误信息修正你的代码。”结果过长如果stdout输出一个巨大的DataFrame直接全部塞进上下文会浪费token。更好的策略是进行智能摘要例如只显示前5行和后5行并说明“输出已截断共1000行”。或者鼓励模型在代码中使用.head()、.describe()等方法来自行总结。4. 从零搭建与核心环节实现假设我们现在要从头实现一个简化版的代码解释器。我们将使用FastAPI作为Web框架OpenAI API作为语言模型Docker作为沙箱。4.1 环境准备与项目初始化首先创建项目目录并安装核心依赖。mkdir my-code-interpreter cd my-code-interpreter python -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate pip install fastapi uvicorn openai docker python-multipart创建主要的应用文件app.py和必要的配置文件。4.2 构建安全的Docker沙箱镜像我们需要一个Docker镜像。创建Dockerfile.sandboxFROM python:3.11-slim WORKDIR /sandbox RUN pip install --no-cache-dir numpy pandas matplotlib scikit-learn seaborn plotly # 安装一个轻量级文本编辑器有时模型生成的代码需要微调可选 RUN apt-get update apt-get install -y --no-install-recommends nano rm -rf /var/lib/apt/lists/* # 创建一个非root用户运行代码增强安全 RUN useradd -m -u 1000 sandboxuser USER sandboxuser COPY run.py /sandbox/run.py这个镜像基于Python slim预装了常用库并创建了一个非root用户。run.py是容器内执行用户代码的入口脚本。run.py的内容import sys import os code_to_run sys.argv[1] if len(sys.argv) 1 else # 这里可以添加额外的安全检查和清理操作 try: exec(code_to_run, {__builtins__: __builtins__}, {}) except Exception as e: print(fExecution error: {e}, filesys.stderr) sys.exit(1)构建镜像docker build -f Dockerfile.sandbox -t my-sandbox:latest .4.3 实现核心的代码执行服务在app.py中我们实现一个核心函数execute_codeimport docker import tempfile import os import uuid from typing import Dict, Any client docker.from_env() SANDBOX_IMAGE my-sandbox:latest def execute_code(code: str, timeout_seconds: int 30) - Dict[str, Any]: 在Docker沙箱中执行代码并返回结果。 # 1. 为本次执行创建临时目录和文件 temp_dir tempfile.mkdtemp() code_file_path os.path.join(temp_dir, user_code.py) with open(code_file_path, w, encodingutf-8) as f: f.write(code) # 2. 准备容器运行参数 container_name fcode_exec_{uuid.uuid4().hex[:8]} try: container client.containers.run( imageSANDBOX_IMAGE, commandfpython /sandbox/run.py \{code.replace(\, \\\)}\, # 简单传递代码生产环境应用更安全的方式 namecontainer_name, mem_limit256m, cpu_period100000, cpu_quota25000, # 25% CPU限制 network_disabledTrue, volumes{temp_dir: {bind: /sandbox/user_code, mode: ro}}, working_dir/sandbox/user_code, detachTrue, stdoutTrue, stderrTrue ) # 3. 等待执行完成带超时 try: result container.wait(timeouttimeout_seconds) exit_code result[StatusCode] stdout container.logs(stdoutTrue, stderrFalse).decode(utf-8, errorsignore) stderr container.logs(stdoutFalse, stderrTrue).decode(utf-8, errorsignore) except Exception as e: container.stop(timeout1) exit_code -1 stdout stderr fExecution timeout or error: {e} finally: container.remove(forceTrue) except docker.errors.ImageNotFound: return {error: fSandbox image {SANDBOX_IMAGE} not found. Please build it first.} except Exception as e: return {error: fDocker runtime error: {e}} finally: # 4. 清理临时目录 import shutil shutil.rmtree(temp_dir, ignore_errorsTrue) # 5. 整理返回结果 return { exit_code: exit_code, stdout: stdout, stderr: stderr, success: exit_code 0 }这个函数完成了从创建临时环境、运行容器到收集结果、清理资源的全过程。请注意这里为了简化将代码直接作为命令行参数传递在生产环境中更推荐将代码写入文件然后让容器内的脚本读取该文件执行以避免命令行参数转义的复杂性和长度限制。4.4 集成语言模型与构建API接下来我们创建与OpenAI API交互的函数并设置FastAPI路由。from fastapi import FastAPI, HTTPException from pydantic import BaseModel import openai import asyncio from typing import List app FastAPI(titleMy Code Interpreter API) openai.api_key your-api-key-here # 应从环境变量读取 class ChatMessage(BaseModel): role: str # user, assistant, system content: str class ChatRequest(BaseModel): messages: List[ChatMessage] session_id: str None def generate_code_with_llm(messages: List[Dict]) - str: 调用LLM并尝试从回复中提取Python代码块。 response openai.ChatCompletion.create( modelgpt-3.5-turbo, # 或 gpt-4 messagesmessages, temperature0.2, # 低温度让代码生成更稳定 max_tokens1500 ) assistant_reply response.choices[0].message.content # 简单提取 python 块 import re code_blocks re.findall(rpython\n(.*?)\n, assistant_reply, re.DOTALL) if code_blocks: # 返回第一个代码块 return code_blocks[0].strip() else: # 没有找到代码块返回None return None app.post(/chat) async def chat_endpoint(request: ChatRequest): messages [m.dict() for m in request.messages] # 1. 调用LLM获取回复 code_to_run generate_code_with_llm(messages) execution_result_text if code_to_run: # 2. 执行代码 exec_result execute_code(code_to_run) if exec_result.get(error): execution_result_text fSystem Error: {exec_result[error]} elif exec_result[success]: execution_result_text fCode executed successfully.\nOutput:\n{exec_result[stdout]} if exec_result[stderr]: execution_result_text f\nWarnings/Errors:\n{exec_result[stderr]} else: execution_result_text fCode execution failed.\nError:\n{exec_result[stderr]} # 3. 将执行结果作为新的user消息让LLM继续“思考” messages.append({role: user, content: fThe code you provided was executed. Here is the result:\n{execution_result_text}\n\nPlease analyze the result and respond accordingly.}) # 再次调用LLM获取结合了执行结果的最终回复 final_response openai.ChatCompletion.create( modelgpt-3.5-turbo, messagesmessages, temperature0.7 ) final_content final_response.choices[0].message.content else: # 如果LLM没有生成代码直接使用其最初的回复 final_content assistant_reply # 注意这里需要从generate_code_with_llm中获取assistant_reply代码需调整 # 4. 将最终回复返回给用户并更新会话历史此处简化实际应持久化 return {response: final_content}这个API端点实现了一个最简单的单轮“生成-执行-再思考”循环。生产级系统需要更复杂的会话管理、错误处理、异步执行以及支持多轮循环。4.5 设计有效的系统提示词系统提示词是智能体的“大脑初始化指令”。一个基础的提示词可能如下你是一个强大的AI助手具备在安全的Python沙箱中执行代码的能力。当用户提出需要计算、数据分析、绘图、文件处理或任何可以通过编程解决的任务时你应该生成可执行的Python代码来完成它。规则 1. 代码必须用 python 代码块包裹。 2. 你生成的代码应该尽可能简洁、安全、高效。 3. 你只能使用沙箱中预装的库如numpy, pandas, matplotlib, sklearn等。如果需使用未预装的库请在代码中尝试安装使用pip但需注意可能失败。 4. 代码执行后你会看到输出结果或错误信息。请根据这些信息进行分析并给出最终答案或进行下一步操作。 5. 不要执行任何可能危害系统安全、无限循环或访问外部网络的代码。 6. 如果用户的问题不需要代码就能回答请直接回答。现在开始帮助用户吧。用户的问题可能是{user_query}你需要根据你的模型能力和应用场景不断迭代优化这个提示词。5. 常见问题、排查技巧与进阶优化在实际部署和使用过程中你会遇到各种各样的问题。下面是我在实践中总结的一些典型问题及其解决方法。5.1 模型不生成代码或生成错误代码问题模型直接回答“我不会编程”或生成无法执行的伪代码。排查检查系统提示词是否清晰、强硬地赋予了模型“代码执行”的能力和指令尝试在提示词开头使用“你是一个Python数据分析专家必须通过编写代码来解决问题...”等更明确的角色定义。检查上下文在之前的对话中是否有成功的代码执行示例在系统提示词后可以添加一两个“示例对话”Few-shot Learning展示用户提问、模型生成代码、系统返回执行结果的完整流程这对引导模型行为非常有效。调整模型参数尝试降低temperature如0.2使输出更确定提高生成代码的概率。对于复杂任务使用能力更强的模型如GPT-4。技巧实现一个“强制代码模式”。当检测到用户问题明显需要计算如“计算1到100的和”、“分析这个CSV文件”时可以在发给模型的提示词中追加一句“请务必通过生成Python代码来解决这个问题。”5.2 代码执行超时或资源不足问题执行复杂计算或数据处理时容器因超时或内存不足被杀死。排查与解决动态超时设置不要对所有请求使用固定超时。可以根据代码长度、任务类型用户提问中包含“训练模型”、“处理大数据”等关键词动态设置更长的超时时间。资源配额调整在docker run参数中增加内存mem_limit1g和CPU份额。但需在系统层面做好监控防止单个任务耗尽资源。代码预处理在执行前对模型生成的代码进行简单的静态分析。如果发现包含明显的无限循环模式如while True:且没有break、或尝试导入已知的重型库如tensorflow可以提前拦截并反馈给模型要求修改。分步执行对于复杂任务引导模型将任务分解成多个步骤分多次执行。例如先加载和查看数据再进行清洗最后分析。这既避免了单次执行过长也让过程更可控。5.3 文件上传与处理难题问题用户上传文件后模型生成的代码无法正确找到文件路径或没有权限读取。解决方案标准化路径在容器内将所有上传的文件放在一个固定的、已知的目录下如/sandbox/uploads/。在给模型的提示词中明确说明“用户上传的文件可以在/sandbox/uploads/目录下找到文件名是example.csv。”路径注入在执行代码前将用户上传的文件在容器内的绝对路径作为变量直接插入到代码上下文中。例如在exec或eval函数调用时提供一个包含file_path的命名空间。文件类型提示当用户上传文件时系统可以自动分析文件类型和基本信息如CSV的行列数并将这些信息作为上下文提供给模型帮助它更好地生成处理代码。5.4 安全性加固开源项目默认配置可能不足以应对恶意用户。网络隔离如示例所示创建容器时务必设置network_disabledTrue。除非任务明确需要访问网络如下载数据否则永远隔离。系统调用限制使用Docker的security_opt参数如seccomp配置文件来禁用危险的系统调用如fork,execve等。只读文件系统将容器内大部分目录挂载为只读mode: ro只留出一个临时工作目录可写。资源硬限制严格限制CPU、内存、进程数、文件描述符数量。使用ulimit或在Docker中设置pids_limit,ulimits。依赖安装审核如果支持动态pip install必须使用白名单机制。只允许安装来自官方PyPI、且经过审核的常用数据科学包。禁止安装名称可疑或版本号异常的包。5.5 性能与扩展性优化当用户量增大时简单的每次创建容器的方式会成为瓶颈。容器池预热预先创建并维护一个处于空闲状态的容器池。当有执行请求时从池中分配一个容器执行完毕后清理工作目录并放回池中避免频繁的容器启动销毁开销。异步执行使用asyncio和aiohttp等异步框架处理请求避免代码执行可能是耗时的阻塞整个API。任务队列将代码执行任务推送到Redis Queue或Celery等任务队列中由后台工作进程处理并通过WebSocket或轮询向客户端返回结果。这能很好地处理长任务。结果缓存对于常见的、确定性的计算请求如相同的代码和输入可以将执行结果缓存起来下次直接返回大幅提升响应速度。6. 应用场景探索与项目扩展一个基础的代码解释器搭建完成后你可以将它应用到无数有趣的场景中并在此基础上进行扩展。1. 智能数据分析助手这是最直接的应用。用户上传一个CSV文件然后可以用自然语言提问“显示前5行”、“计算某列的平均值”、“绘制销售额随时间的变化图”。模型会生成对应的pandas和matplotlib代码并执行将结果或图表返回给用户。你可以进一步集成SQLite或DuckDB让模型能执行SQL查询。2. 自动化报告生成结合模板引擎如Jinja2你可以让模型根据数据自动生成分析报告。例如用户说“分析上个月的销售数据并生成一份总结报告”模型可以执行代码进行数据分析然后将关键指标如总销售额、Top 10产品填入预设的Markdown或HTML模板中。3. 教育编程陪练用于编程教学。学生提出一个编程问题或目标模型不仅可以给出代码答案还可以执行它展示运行结果甚至根据错误信息引导学生一步步调试。你可以扩展支持单元测试让模型生成测试用例来验证学生代码的正确性。4. 多工具智能体Agent的核心代码解释器本身就是一个强大的工具。你可以将它集成到一个更大的智能体框架如LangChain、AutoGen中。让智能体自主决定何时该使用“代码工具”来解决问题。例如一个客服智能体在遇到“请帮我计算分期付款的月供”时可以调用代码解释器来执行金融计算公式。扩展方向多语言支持除了Python可以增加对JavaScriptNode.js、R、甚至Shell的支持。需要为每种语言准备独立的沙箱镜像和解析逻辑。可视化增强自动将生成的图表matplotlib,plotly渲染为交互式HTML组件或转换为图片嵌入回复中提供更好的用户体验。代码审查与优化在执行代码后不仅返回结果还可以调用另一个模型或同一模型的不同提示对生成的代码进行审查提出改进建议如性能优化、代码风格形成“生成-执行-评审”的闭环。持久化工作空间为每个用户提供一个可以保存文件、变量状态的持久化工作空间支持跨会话的复杂分析项目。搭建自己的代码解释器是一个充满挑战也极具成就感的过程。它不仅仅是拼接几个API更是对AI智能体、安全编程和系统设计的一次深度实践。从最简单的执行一行print(“Hello World”)开始到最终构建一个能处理复杂现实任务的数字员工每一步的调试和优化都会让你对“如何让AI真正做事”有更深刻的理解。我最深的体会是提示词的质量和错误处理的鲁棒性往往比模型本身的能力更重要。一个能引导模型清晰思考、并能从失败中有效恢复的系统才是真正可用的系统。