深度学习与神经网络学习笔记 —— 视觉大模型基础（Vision Large Model）

张

张建站

2026/6/9 1:52:08

10分钟阅读

深度学习与神经网络学习笔记 —— 视觉大模型基础（Vision Large Model）

课程内容大模型发展概述、多模态大模型、Vision TransformerViT、CLIP模型、知识蒸馏与DINO、自监督视觉学习核心关键词视觉大模型、多模态学习、ViT、CLIP、知识蒸馏、DINO、视觉基础模型一、大模型时代与视觉大模型的发展背景近年来以ChatGPT为代表的大语言模型LLM迅速发展使人工智能进入了“大模型时代”。课程首先介绍了大模型的发展历程以及从语言模型向视觉大模型扩展的发展趋势。传统深度学习模型通常针对单一任务设计例如图像分类目标检测语义分割文本生成每个任务都需要单独训练模型。而大模型的核心思想是利用海量数据进行预训练获得通用知识再通过微调适应具体任务。课程中介绍了目前大模型训练的基本流程预训练Pretraining、监督微调SFT以及强化学习对齐RLHF。对于语言模型而言最基本的训练目标是预测下一个单词整个句子的生成概率可以表示为课程中同时介绍了掩码语言模型Masked Language Model的训练思想即随机遮挡部分词语再让模型恢复原始内容。监督微调阶段则利用人工标注数据进行训练其目标函数通常为交叉熵损失课程中特别介绍了奖励模型Reward Model以及RLHF训练机制。奖励模型本质上学习一个评分函数其中xxx 表示输入Promptyyy 表示模型输出rrr 表示人类偏好评分随后利用PPO算法不断优化策略模型。课程中给出了基于奖励模型进行参数更新的整体流程。从这一角度来看视觉大模型实际上继承了大语言模型的发展路线海量数据预训练 ↓ 通用视觉表征 ↓ 任务微调 ↓ 多模态理解这也是现代视觉基础模型Foundation Model的核心思想。二、多模态大模型连接视觉与语言传统计算机视觉模型只能理解图像而语言模型只能处理文本。但现实世界的信息往往同时包含图像文本视频语音因此课程提出了多模态大模型Multimodal LLM的概念。多模态模型的目标是构建统一的特征空间使不同模态能够相互理解。其整体结构可以表示为图像 ↓ 视觉编码器 ↓ 视觉特征 ↓ LLM ↓ 文本输出文本 ↓ Tokenizer ↓ Embedding ↓ LLM ↓ 文本输出如果把图像表示为III视觉编码器表示为fv(⋅)f_v(\cdot)fv(⋅)则视觉特征为文本编码器表示为ft(⋅)f_t(\cdot)ft(⋅)文本特征为多模态模型的目标就是让即同一语义内容的图像与文本在特征空间中尽可能接近。这也是后来CLIP、BLIP以及GPT-4V等视觉语言模型的理论基础。随着视觉编码器和语言模型不断融合模型开始具备图像理解图像描述视觉问答图文推理等能力。三、Vision TransformerViTTransformer进入视觉领域在CNN时代视觉任务主要依赖卷积神经网络。然而随着Transformer在自然语言处理领域取得巨大成功研究人员开始思考是否可以直接利用Transformer处理图像课程第三部分介绍了Vision TransformerViT。ViT最重要的思想是将图像切分成多个Patch并将Patch看作单词(Token)。假设输入图像尺寸为H×WH\times WH×WPatch尺寸为P×PP\times PP×P则Patch数量为例如224×224图像 ↓ 16×16 Patch ↓ 14×14196个Patch每个Patch经过线性映射随后加入位置编码最终送入Transformer Encoder。ViT内部仍然采用Transformer中的核心Attention机制与CNN相比ViT具有以下特点更容易扩展到超大规模模型具备全局感受野能够充分利用大规模数据课程中指出ViT的提出标志着视觉领域开始从CNN时代进入Transformer时代。四、CLIP模型与视觉语言统一表征课程第四部分介绍了CLIPContrastive Language-Image Pretraining模型。CLIP是视觉大模型发展过程中最具代表性的工作之一。其核心思想非常简单利用互联网海量图文对进行对比学习。假设图像特征为 zvz_vzv文本特征为 ztz_tzt两者之间的相似度为即余弦相似度。对于匹配的图文对希望s(zv,zt)s(z_v,z_t)s(zv,zt)尽可能大。对于不匹配样本希望其相似度尽可能小。CLIP训练时采用InfoNCE损失其中siis_{ii}sii 表示正确匹配样本τ\tauτ 表示温度参数经过训练后CLIP能够实现零样本分类Zero-shot Classification图像检索文本检索图文匹配例如图片猫文本a photo of a cat模型会自动计算二者相似度并完成识别。CLIP最大的贡献在于首次构建了统一的视觉-语言语义空间。这一思想后来被广泛应用于GPT-4V、LLaVA等视觉语言模型之中。五、知识蒸馏、DINO与视觉基础模型的发展课程最后介绍了知识蒸馏Knowledge Distillation与DINO自监督学习框架。知识蒸馏的基本思想是用大模型指导小模型学习。设教师模型输出为ptp_tpt学生模型输出为psp_sps蒸馏损失函数可表示为总体损失函数通常写为其中LCEL_{CE}LCE 为监督损失LKDL_{KD}LKD 为蒸馏损失知识蒸馏能够有效压缩模型规模提高部署效率。课程同时介绍了近年来非常重要的DINO框架。DINO属于自监督学习方法其训练过程不依赖人工标注。基本思想为原始图像 ↓ 数据增强 ↓ Teacher Network ↓ Student Network ↓ 特征对齐其目标函数可以表示为通过教师网络与学生网络之间的知识迁移模型能够自动学习图像中的语义信息。课程最后总结了视觉大模型的发展路线CNN ↓ Transformer ↓ ViT ↓ CLIP ↓ 多模态大模型 ↓ 视觉基础模型从技术演进角度来看视觉大模型已经逐渐从单纯的图像分类工具发展为具备视觉理解、语言推理、知识迁移和跨模态交互能力的通用人工智能系统。ViT解决了视觉Transformer建模问题CLIP建立了视觉与语言的统一空间而DINO进一步推动了自监督学习的发展。这些技术共同构成了当前视觉大模型和多模态人工智能的核心基础。

小程序毕设项目：基于Springboot+微信小程序的粤语文化传播平台的设计与开发 (源码+文档，讲解、调试运行，定制等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…...

2026/6/9 1:50:30 阅读更多 →

别再用Clustal Omega了！试试T-Coffee Expresso，为你的蛋白结构比对提效50%

结构生物学家的秘密武器：如何用T-Coffee Expresso实现精准蛋白比对在结构生物学研究中，蛋白质序列比对是揭示进化关系和功能域保守性的基础步骤。传统工具如Clustal Omega虽然广为人知，但当研究对象是具有明确三维结构的蛋白质时，…...

2026/6/9 1:49:01 阅读更多 →

宠物经济爆发的时代，自动售货机能不能在宠物消费场景中分一杯羹？~YH

这两年宠物经济的增长速度肉眼可见。据统计，中国宠物市场规模已经突破数千亿元，养宠家庭数量持续攀升。在这样的大背景下，自动售货机是否能在宠物消费场景中找到新的机会？宠物消费场景和售货机的匹配度养宠物的人都有一个痛点&…...

2026/6/9 1:48:08 阅读更多 →

CSDN AI分发撤回黄金15分钟法则：超时即不可逆！3类高危场景+2套应急回滚SOP（含工单提报话术模板）

更多请点击： https://kaifayun.com 第一章：CSDN AI 数字营销分发后的文章可以单独撤回某一个平台吗？ CSDN AI 数字营销平台在执行“一键多平台分发”时，会将同一份内容同步发布至 CSDN 博客、知乎、微信公众号（需授权…...

2026/6/7 0:03:22 阅读更多 →

OpenRocket：零基础掌握专业火箭设计与飞行仿真

OpenRocket：零基础掌握专业火箭设计与飞行仿真【免费下载链接】openrocket Model-rocketry aerodynamics and trajectory simulation software 项目地址: https://gitcode.com/GitHub_Trending/op/openrocket OpenRocket是一款功能强大的开源火箭设计与仿真…...

2026/6/8 3:53:02 阅读更多 →

请做coser的主人9下载2026官方正版

下载链接浅析全动态真人互动影像作品的工业化管线与设计逻辑：以《请做coser的主人9》为例近年来，随着硬件渲染能力的提升和流媒体解码技术的普及，全动态真人互动影像（Full Motion Video, 简称FMV）迎来了一波高频更…...

2026/6/7 0:05:32 阅读更多 →

深度解析移动端免Root系统提取工具：Payload-Dumper-Android技术架构与实现原理

深度解析移动端免Root系统提取工具：Payload-Dumper-Android技术架构与实现原理【免费下载链接】Payload-Dumper-Android Payload Dumper App for Android. Extract boot.img or any other partitions (images) from OTA.zip or payload.bin without PC 项目地址:…...

2026/6/7 0:19:18 阅读更多 →