从零开始扩展VisProg功能：手把手教你添加自定义视觉推理模块（附代码）

张

张建站

2026/7/4 6:05:01

10分钟阅读

从零开始扩展VisProg功能手把手教你添加自定义视觉推理模块附代码【免费下载链接】visprogOfficial code for VisProg (CVPR 2023 Best Paper!)项目地址: https://gitcode.com/gh_mirrors/vi/visprogVisProg是CVPR 2023最佳论文项目它提供了一个强大的视觉推理框架通过模块化设计让开发者能够轻松构建复杂的视觉任务流程。本文将带你一步步扩展VisProg功能添加自定义视觉推理模块无需深厚的深度学习背景也能快速上手。VisProg模块系统架构解析 VisProg采用模块化设计将视觉推理任务分解为可组合的步骤。核心模块系统包含三大类VisProg模块架构图展示了Image Understanding、Image Manipulation和Knowledge Retrieval三大类模块Image Understanding包含目标检测(LOC)、人脸识别(FaceDet)、分割(SEG)等基础视觉任务Image Manipulation提供图像编辑功能如替换(Replace)、色彩增强(ColorPop)、背景模糊(BgBlur)等Knowledge Retrieval负责知识查询和逻辑推理所有模块都通过统一的接口注册和调用这种设计让扩展新功能变得异常简单。扩展VisProg的4个关键步骤 1. 环境准备与项目结构首先确保你已正确安装VisProggit clone https://gitcode.com/gh_mirrors/vi/visprog cd visprog conda env create -f environment.yaml conda activate visprog模块开发主要涉及以下文件engine/step_interpreters.py所有模块的基类和实现vis_utils.py可视化工具函数prompts/任务提示词模板2. 创建自定义模块类所有视觉推理模块都需要继承基础接口并实现核心方法。我们以创建一个边缘检测模块为例在engine/step_interpreters.py中添加以下代码class EdgeDetectInterpreter(): step_name EDGEDETECT # 模块名称必须唯一 def __init__(self, threshold100): print(fRegistering {self.step_name} step) self.threshold threshold # 自定义参数 def parse(self, prog_step): # 解析输入参数 parse_result parse_step(prog_step.prog_str) img_var parse_result[args][image] # 输入图像变量 output_var parse_result[output_var] # 输出变量名 assert(step_nameself.step_name) return img_var, output_var def detect_edges(self, img): # 核心算法实现 img_np np.array(img.convert(L)) # 转为灰度图 edges cv2.Canny(img_np, self.threshold, self.threshold*2) return Image.fromarray(edges) def html(self, img, output_img, output_var): # 可视化结果用于网页展示 step_name html_step_name(self.step_name) img_str html_embed_image(img) output_img html_embed_image(output_img, 300) output_var html_var_name(output_var) return fdiv{output_var}{step_name}({img_str}){output_img}/div def execute(self, prog_step, inspectFalse): # 执行入口 img_var, output_var self.parse(prog_step) img prog_step.state[img_var] # 获取输入图像 edge_img self.detect_edges(img) # 执行边缘检测 prog_step.state[output_var] edge_img # 保存结果 if inspect: # 可视化模式 html_str self.html(img, edge_img, output_var) return edge_img, html_str return edge_img3. 注册新模块创建好模块类后需要在模块注册函数中添加你的模块。找到register_step_interpreters函数在engine/step_interpreters.py文件末尾在适当的位置添加def register_step_interpreters(datasetnlvr): if datasetnlvr: # ... 现有代码 ... elif datasetimageEdit: return dict( # ... 现有模块 ... EDGEDETECTEdgeDetectInterpreter(), # 添加这一行 RESULTResultInterpreter() ) # ... 其他数据集 ...4. 创建使用示例在notebooks/目录下创建一个新的Jupyter笔记本edge_detection.ipynb测试你的新模块from engine.step_interpreters import register_step_interpreters from vis_utils import load_image # 初始化解释器 interpreters register_step_interpreters(imageEdit) # 加载图像 img load_image(assets/camel1.png) # 定义程序步骤 prog_steps [ edges EDGEDETECT(imageimg), result RESULT(varedges) ] # 执行推理 state {img: img} for step in prog_steps: # 解析步骤 parsed parse_step(step) # 获取解释器并执行 interpreter interpreters[parsed[step_name]] result interpreter.execute(...) # 显示结果 display(result)模块开发最佳实践参数设计原则保持接口一致性参考现有模块的参数命名方式提供合理默认值如threshold100支持动态调整通过__init__方法接收自定义参数性能优化技巧模型缓存对于需要加载大型模型的模块使用单例模式或懒加载GPU加速参考VQAInterpreter中的设备选择代码self.device cuda:0 if torch.cuda.is_available() else cpu中间结果复用将常用计算结果缓存到prog_step.state中测试与调试使用inspectTrue模式获取HTML可视化结果参考现有模块的测试用例图像理解notebooks/gqa.ipynb图像编辑notebooks/image_editing.ipynb常见问题与解决方案 ❓Q: 模块名称冲突怎么办A: 确保step_name唯一建议使用大写字母和下划线命名如EDGE_DETECTQ: 如何处理大型模型加载A: 参考SegmentInterpreter的实现在__init__中加载模型并移至GPUself.model MaskFormerForInstanceSegmentation.from_pretrained(...).to(self.device)Q: 如何添加新的数据集支持A: 在register_step_interpreters函数中添加新的数据集分支并注册相应的模块组合总结通过本文介绍的方法你可以轻松扩展VisProg的功能。无论是添加简单的图像处理模块还是集成复杂的深度学习模型VisProg的模块化设计都能提供良好的支持。建议先从简单模块开始尝试逐步掌握模块开发的精髓。现在就动手扩展VisProg构建属于你的视觉推理工具吧【免费下载链接】visprogOfficial code for VisProg (CVPR 2023 Best Paper!)项目地址: https://gitcode.com/gh_mirrors/vi/visprog创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Instatic与Tailwind：现代原子化样式编辑工作流深度解析

Instatic与Tailwind：现代原子化样式编辑工作流深度解析【免费下载链接】Instatic Instatic is a modern self-hosted visual CMS - get it running in 1 minute 项目地址: https://gitcode.com/GitHub_Trending/in/Instatic Instatic作为一款现代化的自托管…...

2026/7/4 6:04:50 阅读更多 →

Selenium自动化测试性能优化：5个核心方法提升4倍执行速度

1. 项目概述：为什么你的Selenium脚本跑得慢？ 如果你用过Selenium做UI自动化测试，大概率经历过这样的场景：满怀期待地运行脚本，结果浏览器启动慢吞吞，页面加载像蜗牛，元素定位要等半天&#xff0…...

2026/7/4 6:03:10 阅读更多 →

半导体光刻技术：从基础原理到前沿应用

1. 光学光刻技术基础解析光学光刻作为半导体制造的核心工艺，其本质是通过光学系统将掩模版上的图形精确转移到硅片表面的光刻胶上。现代光刻机采用深紫外（DUV）或极紫外（EUV）光源，配合复杂的投影光学系统实现…...

2026/7/4 6:02:07 阅读更多 →

【Claude】You‘ve hit your session limit 会话限制报错已解决

【Claude】Youve hit your session limit 会话限制报错已解决关键词：Claude Code、session limit、weekly limit、Opus limit、使用额度、/usage、/usage-credits、Pro Max 计划一、问题现象：Claude 突然"拒绝服务" 正在用 Claude Code 写代码…...

2026/7/2 11:41:56 阅读更多 →