课程内容大模型发展概述、多模态大模型、Vision TransformerViT、CLIP模型、知识蒸馏与DINO、自监督视觉学习核心关键词视觉大模型、多模态学习、ViT、CLIP、知识蒸馏、DINO、视觉基础模型一、大模型时代与视觉大模型的发展背景近年来以ChatGPT为代表的大语言模型LLM迅速发展使人工智能进入了“大模型时代”。课程首先介绍了大模型的发展历程以及从语言模型向视觉大模型扩展的发展趋势。传统深度学习模型通常针对单一任务设计例如图像分类目标检测语义分割文本生成每个任务都需要单独训练模型。而大模型的核心思想是利用海量数据进行预训练获得通用知识再通过微调适应具体任务。课程中介绍了目前大模型训练的基本流程预训练Pretraining、监督微调SFT以及强化学习对齐RLHF。对于语言模型而言最基本的训练目标是预测下一个单词整个句子的生成概率可以表示为课程中同时介绍了掩码语言模型Masked Language Model的训练思想即随机遮挡部分词语再让模型恢复原始内容。监督微调阶段则利用人工标注数据进行训练其目标函数通常为交叉熵损失课程中特别介绍了奖励模型Reward Model以及RLHF训练机制。奖励模型本质上学习一个评分函数其中xxx 表示输入Promptyyy 表示模型输出rrr 表示人类偏好评分随后利用PPO算法不断优化策略模型。课程中给出了基于奖励模型进行参数更新的整体流程。从这一角度来看视觉大模型实际上继承了大语言模型的发展路线海量数据预训练 ↓ 通用视觉表征 ↓ 任务微调 ↓ 多模态理解这也是现代视觉基础模型Foundation Model的核心思想。二、多模态大模型连接视觉与语言传统计算机视觉模型只能理解图像而语言模型只能处理文本。但现实世界的信息往往同时包含图像文本视频语音因此课程提出了多模态大模型Multimodal LLM的概念。多模态模型的目标是构建统一的特征空间使不同模态能够相互理解。其整体结构可以表示为图像 ↓ 视觉编码器 ↓ 视觉特征 ↓ LLM ↓ 文本输出 文本 ↓ Tokenizer ↓ Embedding ↓ LLM ↓ 文本输出如果把图像表示为III视觉编码器表示为fv(⋅)f_v(\cdot)fv​(⋅)则视觉特征为文本编码器表示为ft(⋅)f_t(\cdot)ft​(⋅)文本特征为多模态模型的目标就是让即同一语义内容的图像与文本在特征空间中尽可能接近。这也是后来CLIP、BLIP以及GPT-4V等视觉语言模型的理论基础。随着视觉编码器和语言模型不断融合模型开始具备图像理解图像描述视觉问答图文推理等能力。三、Vision TransformerViTTransformer进入视觉领域在CNN时代视觉任务主要依赖卷积神经网络。然而随着Transformer在自然语言处理领域取得巨大成功研究人员开始思考是否可以直接利用Transformer处理图像课程第三部分介绍了Vision TransformerViT。ViT最重要的思想是将图像切分成多个Patch并将Patch看作单词(Token)。假设输入图像尺寸为H×WH\times WH×WPatch尺寸为P×PP\times PP×P则Patch数量为例如224×224图像 ↓ 16×16 Patch ↓ 14×14196个Patch每个Patch经过线性映射随后加入位置编码最终送入Transformer Encoder。ViT内部仍然采用Transformer中的核心Attention机制与CNN相比ViT具有以下特点更容易扩展到超大规模模型具备全局感受野能够充分利用大规模数据课程中指出ViT的提出标志着视觉领域开始从CNN时代进入Transformer时代。四、CLIP模型与视觉语言统一表征课程第四部分介绍了CLIPContrastive Language-Image Pretraining模型。CLIP是视觉大模型发展过程中最具代表性的工作之一。其核心思想非常简单利用互联网海量图文对进行对比学习。假设图像特征为 zvz_vzv​文本特征为 ztz_tzt​两者之间的相似度为即余弦相似度。对于匹配的图文对希望s(zv,zt)s(z_v,z_t)s(zv​,zt​)尽可能大。对于不匹配样本希望其相似度尽可能小。CLIP训练时采用InfoNCE损失其中siis_{ii}sii​ 表示正确匹配样本τ\tauτ 表示温度参数经过训练后CLIP能够实现零样本分类Zero-shot Classification图像检索文本检索图文匹配例如图片猫 文本a photo of a cat模型会自动计算二者相似度并完成识别。CLIP最大的贡献在于首次构建了统一的视觉-语言语义空间。这一思想后来被广泛应用于GPT-4V、LLaVA等视觉语言模型之中。五、知识蒸馏、DINO与视觉基础模型的发展课程最后介绍了知识蒸馏Knowledge Distillation与DINO自监督学习框架。知识蒸馏的基本思想是用大模型指导小模型学习。设教师模型输出为ptp_tpt​学生模型输出为psp_sps​蒸馏损失函数可表示为总体损失函数通常写为其中LCEL_{CE}LCE​ 为监督损失LKDL_{KD}LKD​ 为蒸馏损失知识蒸馏能够有效压缩模型规模提高部署效率。课程同时介绍了近年来非常重要的DINO框架。DINO属于自监督学习方法其训练过程不依赖人工标注。基本思想为原始图像 ↓ 数据增强 ↓ Teacher Network ↓ Student Network ↓ 特征对齐其目标函数可以表示为通过教师网络与学生网络之间的知识迁移模型能够自动学习图像中的语义信息。课程最后总结了视觉大模型的发展路线CNN ↓ Transformer ↓ ViT ↓ CLIP ↓ 多模态大模型 ↓ 视觉基础模型从技术演进角度来看视觉大模型已经逐渐从单纯的图像分类工具发展为具备视觉理解、语言推理、知识迁移和跨模态交互能力的通用人工智能系统。ViT解决了视觉Transformer建模问题CLIP建立了视觉与语言的统一空间而DINO进一步推动了自监督学习的发展。这些技术共同构成了当前视觉大模型和多模态人工智能的核心基础。