一、核心定位Cad2Program方法由北京航空航天大学与群核科技联合提出创新性地将视觉-语言模型VLM应用于2D CAD图纸到3D参数化模型的重建任务解决了传统方法对输入限制多、灵活性差、重建效率低的核心痛点。Cad2Program是一种基于视觉-语言模型的端到端重建方法以任意格式的2D CAD图纸光栅图像为输入通过预训练视觉-语言基础模型的微调自回归生成通用语言脚本如Python/YAML最终实现3D参数化模型的重建。二、核心技术路线1. 输入侧将整个2D CAD图纸视为光栅图像如JPG/PNG无需分离图层、无需限定视图数量用标准视觉模型ViT编码同时利用几何层和标注层的全部信息2. 输出侧将3D参数化模型表示为通用编程语言脚本而非领域特定序列灵活适配任意数量的基元和模型特定参数同时可借助大语言模型LLM的编程能力提升生成效果。整体逻辑可概括为2D CAD光栅图像→视觉模型编码→视觉-语言模型对齐→自回归生成3D模型文本脚本→还原3D参数化模型。整体架构基于开源视觉-语言基础模型Mini-InternVL-1.5-2B搭建采用ViT-MLP-LLM经典架构。步骤12D CAD图纸输入预处理具体实现1. 无需对2D CAD图纸做任何复杂预处理直接将其转化为光栅图像无论原始格式是矢量还是其他保留图纸的几何层和标注层全部信息2. 无需筛选视图即使图纸包含非轴对齐视图、剖面视图或视图数量为1/3/5个等均无需额外处理直接作为模型输入。核心作用解决传统方法“输入限制严苛、预处理复杂”的问题让方法适配工业实际中的真实2D工程图纸降低使用门槛。步骤2视觉特征编码——将图像转化为模型可理解的“视觉语言”具体实现1. 采用InternViT-300M视觉TransformerViT作为视觉编码器将输入的光栅图像分割为多个图像块Patch2. 对每个图像块进行特征提取生成包含几何、标注全部信息的视觉令牌Visual Token这是模型能理解的“视觉语言”。核心作用1. 替代传统方法的领域特定编码器实现对2D CAD图纸的通用理解且性能与矢量图形编码器相当2. 同时捕捉几何层的形状信息和标注层的尺寸、功能信息为后续重建提供完整的信息基础。步骤3跨模态对齐——让视觉和语言模型“互通有无”具体实现1. 以InternLM2-1.8B作为语言编码器/生成器负责生成3D模型的文本脚本2. 通过MLP投影器将视觉编码器生成的视觉令牌转化为与语言模型语义空间一致的特征实现视觉特征与语言特征的跨模态对齐3. 为让模型更好地匹配3D模型的预定义基元为基元模型ID创建特殊令牌将基元的名称文本和默认参数的3D渲染图图像通过Chinese-CLIP模型提取特征并拼接形成专属特殊令牌让模型能精准识别基元类型。核心作用解决“视觉信息无法直接驱动语言生成”的问题建立2D图像信息与3D模型文本描述之间的关联是视觉-语言方法的核心桥梁。步骤4文本脚本生成——自回归生成3D模型的“文字说明书”具体实现1. 向语言模型输入固定文本提示Reconstruct cabinet from image:从图像重建橱柜引导模型生成目标内容2. 语言模型基于对齐后的视觉特征以自回归方式生成通用语言脚本脚本中完整描述3D参数化模型的所有信息每个预定义基元的信息包含三部分一一对应工业实际的3D建模逻辑- 模型ID基元在数据库中的唯一标识如基座、门的专属ID- 公共参数基元在3D空间中的位姿x/y/z坐标、大小长/宽/高、绕垂直轴的旋转角度适用于所有基元- 模型特定参数特定基元的专属参数如橱柜基座的分割数量、搁板宽度、框架位置。3. 限制脚本的令牌序列长度为4096采用贪心采样策略保证生成效率和准确性。核心作用1. 替代传统的固定槽位序列灵活适配任意数量的基元和模型特定参数论文中处理了373个基元、702个参数解决传统方法的灵活性问题2. 文本脚本无量化误差且可直接被CAD软件解析实现“生成即可用”3. 借助大语言模型的编程能力让脚本生成更符合工业建模逻辑。步骤53D参数化模型还原——从文本脚本到可落地的3D模型具体实现将模型生成的Python/YAML文本脚本输入至CAD软件或自定义解析器脚本中的每个基元信息会被逐一解析自动组装预定义基元最终生成完整的3D参数化模型模型包含精准的尺寸、位姿和功能属性与2D CAD图纸的信息完全匹配。核心作用完成从“文本描述”到“实体3D模型”的最后一步让方法的输出直接适配工业设计、智能制造的实际需求无需二次修改。三、实验结果输入处理有效ViT 编码光栅图像的重建效果与传统矢量图形编码器相当融合几何 标注层信息后模型检索、3D 重建、参数估计准确率均大幅提升检索从 85.42%→93.80%参数估计从 81.94%→97.21%。输出表示优质Python/YAML 文本脚本的重建性能与领域特定固定序列持平无性能损失且可灵活处理 373 个基元、702 个参数突破传统方法的槽位限制还能避免量化误差。模型通用性强适配不同通用语言Python/YAML 性能基本一致替换为 QWen2-VL-2B 等视觉 - 语言基础模型后重建效果还能小幅提升F1 从 82.76%→84.90%。工业适配性高可成功处理含剖面视图、非轴对齐视图、多视图的真实复杂 2D 图纸传统方法易失效重建的 3D 模型尺寸精准、无空洞错位可直接接入工业 CAD 软件。