德克萨斯大学奥斯汀分校研究出新型“轻量级“数据压缩神经网络

张

张建站

2026/5/14 3:49:06

10分钟阅读

这项由德克萨斯大学奥斯汀分校系统机器学习实验室完成的研究以预印本形式于2026年5月7日发布在arXiv平台论文编号为arXiv:2605.06628研究方向属于信号处理与深度学习的交叉领域。有兴趣深入了解的读者可以通过上述编号在arXiv上检索完整论文。**一、从一个你每天都在经历的困境说起**每天无数穿戴设备、医疗传感器、卫星相机和自动驾驶汽车的摄像头都在持续不断地产生海量数据。这些数据就像一条条奔涌的河流但传输它们所用的管道——也就是网络带宽——却始终是有限的设备的电池也不允许无休止地消耗。所以如何把数据压缩得足够小同时又不丢失关键信息是一个长期困扰工程师的核心问题。你可以把数据压缩理解成一种打包行李的艺术。出门旅行时你要把所有生活必需品装进一个有限容量的行李箱。打包技艺高超的人知道哪些东西可以折叠、哪些可以省略、哪些必须带上最终用最小的空间装下最完整的生活。数据压缩做的正是同样的事——只不过它处理的不是衣物而是图像、声音和视频。现有的压缩工具大致分成两大阵营。一类是我们熟悉的标准压缩格式比如图片领域的JPEG、视频领域的MPEG。它们经过几十年的打磨运行效率很高但有个根本性的局限它们的设计目标是让人眼看起来舒服而不是让机器读懂信号。对于卫星的高光谱相机、医院的三维CT扫描仪或者空间音频阵列来说这类工具就显得力不从心了因为这些信号的结构与普通照片差异悬殊。另一类是近年兴起的神经网络编解码器它们通过深度学习来捕捉信号中隐藏的规律压缩效果令人惊叹但往往体积庞大、计算开销极高完全无法在一块手表大小的传感器芯片上运行。正是这个夹缝——需要高效、通用、又足够轻量的压缩方案——催生了这篇论文的核心工作**LiVeAction**。这个名字来自三个英文词的首字母组合**Li**ghtweight轻量级、**Ve**rsatile通用性强、**A**symmetric不对称设计加上ction让它读起来像直播行动隐喻实时处理能力。**二、为什么以前的方案都差点意思**要理解LiVeAction的价值先得搞清楚现有方案分别败在哪里。用标准压缩打包行李相当于所有人用同一套折叠规则不管你要去滑雪还是去海边。规则简单、速度快但对特殊需求完全无感——你带了厚羽绒服却发现目的地是热带海岛。JPEG和MPEG针对人眼进行了精细调优对于人眼不在乎的细节比如高频纹理大胆删除。但如果压缩的是高光谱图像每一条光谱带都可能对应一种矿物成分人眼不在乎恰恰是机器最需要的部分。另一边近年来大热的生成式神经编解码器代表作包括用于视频生成的Cosmos、用于音频合成的Stable Audio以及图像生成领域的各类VAE变分自编码器。这些模型的解码器极其强大能够凭借压缩后的极少信息脑补出细节重建出栩栩如生的画面。听起来很美问题在于这种脑补本质上是一种有创意的猜测——模型会用统计规律填充它认为应该存在的纹理而这些纹理未必真实存在于原始信号中。对于医学影像来说这简直是灾难性的一块被脑补出来的阴影可能被误判为肿瘤。此外这类生成模型普遍庞大且计算密集光是编码器部分就动辄数千万参数运行一次需要大量计算资源。在手持设备或远程传感器上实时运行根本是无稽之谈。它们的训练也极度依赖专门为特定信号类型设计的感知损失函数——用来衡量图像看起来像不像的指标比如LPIPS。这种指标对图像有效对高光谱数据或三维医疗体素则完全没有意义导致这类模型几乎无法迁移到新的信号类型上。还有一类更朴素的通用方案标量量化把每个数值直接取整或分辨率降低直接缩小图像。这类方法简单直接、对任何信号都能用但它们完全不考虑信号内部的结构和规律就像打包行李时把所有东西一股脑压进箱子没有任何折叠技巧浪费大量空间。**三、LiVeAction的设计思路拆成两半各司其职**面对上述三类方案的共同不足研究团队提出的解决思路可以用一句话概括**让编码器尽可能轻让解码器尽可能强两者不必对称。**打个比方你是一个在野外工作的地质学家需要把岩石样本的信息发回给实验室。你随身携带的野外装备编码器必须轻便、耐用、省电只需要完成基本的采样和记录工作。而实验室里的大型分析仪器解码器可以非常精密耗时也无妨因为它不用跋山涉水。这种野外轻装、实验室精析的分工模式正是LiVeAction的核心逻辑。大多数现有神经网络编解码器采用的是对称架构——编码器和解码器的规模、深度基本相同就像两个同等体量的仪器分别安置在野外和实验室。但研究团队发现加深或加宽编码器带来的收益是递减的花双倍计算量不会带来双倍的压缩质量。既然如此为什么不把资源集中到解码器上让编码器够用就好呢**四、轻量编码器的秘密像FFT一样分组处理**编码器的轻量化是LiVeAction技术含量最高的部分之一但核心思想其实并不难理解。普通的神经网络层其实就是一个巨大的乘法表——把输入的每一个数值与每一个权重参数相乘再求和。这个矩阵越大计算量越大。以一个处理1080p视频的编码器为例将视频信号变换到频域后每个小区域会产生1536个数值需要将它们压缩到12个潜在变量对应的矩阵运算仅此一步每秒就需要超过17亿次浮点运算。这还只是编码器里的一个投影步骤。LiVeAction的解决方案借鉴了两个经典思想。第一个是FFT快速傅里叶变换的分组策略FFT之所以快正是因为它把一个大问题拆成若干相互独立的小问题并行处理每组之间不互相干扰大幅减少计算步骤。第二个是ShuffleNet和Monarch矩阵的块对角结构把一个大矩阵分成若干小块每块独立计算块与块之间通过通道重排就像洗牌一样交换位置来保证信息流通。两者合用就像把一个100人的大班级分成10个10人小组分别完成作业再汇总结果——总工作量远小于100人同时相互协作。具体实现上LiVeAction的编码器用多层分组卷积替换了单一的大型矩阵投影。每一层只有少量参数计算量极低但多层叠加后加入了非线性激活函数GELU和分组归一化GroupNorm使整个编码器具备了捕捉复杂信号特征的能力。研究团队在图3中展示了一个清晰的对比随着信号维度即小波变换的级数J增加单一大矩阵的参数量呈三次方爆炸增长而分组结构对的参数量增长则平缓得多两者之间的差距在高维场景下可以达到几个数量级。**五、解码器的奢侈品线性注意力机制**既然编码器要轻解码器就可以用更强的武器。LiVeAction的解码器基于EfficientViT这一架构其核心是线性注意力机制。普通的Transformer注意力机制支撑着GPT等大模型的关键技术在处理高分辨率信号时有个致命弱点计算量随着序列长度的平方增长。换句话说图像分辨率翻倍计算量变成原来的四倍。这对于处理高分辨率视频或图像的解码器来说是个巨大负担。EfficientViT用ReLU函数替代了标准注意力中的Softmax使计算量从平方增长变为线性增长——图像分辨率翻倍计算量也只翻倍。研究团队在此基础上做了两处改动一是把原来的批归一化BatchNorm换成分组归一化GroupNorm消除了训练时和实际使用时行为不一致的问题二是把原本只支持二维图像的架构扩展到支持一维音频和三维医疗体素、视频信号使同一套解码器架构能适配所有信号类型。**六、整体处理流程从原始信号到压缩文件再还原回来**LiVeAction的完整压缩流程就像一条有序的装配流水线每道工序都有其特定职责。信号进入系统后首先经过小波包变换WPT。小波变换是一种经典的数学工具可以把信号分解成不同频率的成分就像把一首音乐分解成低音鼓点、中音旋律和高音和声。这一步用的是Cohen-Daubechies-Feauveau 9/7滤波器这是图像和音频压缩领域公认的高效分解工具也是JPEG 2000标准采用的核心技术。分解之后信号从时间/空间维度折叠进了频率维度相邻位置的冗余信息被有效去除。接下来是一个可逆的幂律压扩变换作用类似于音频处理中的动态压缩把大值稍微压小、把小值稍微放大让数值分布更均匀方便后续处理。然后信号进入轻量化编码器产生潜在表示向量。之后经过一个基于拉普拉斯累积分布函数的非线性映射把每个潜在值压缩到-127到127的整数范围内严格控制在8位以内。这一步的σ参数是通过训练学习的能够自适应地匹配不同信号的统计特性。量化步骤采用有限标量量化FSQ在训练前期量化用加随机噪声来模拟让编码器学会容忍量化误差训练到70%时冻结编码器后续只训练解码器量化改为真实的取整操作。这种先软后硬的策略可以避免早期训练因量化不连续而产生的梯度问题。量化后的整数序列经过熵编码类似于用ZIP压缩整数文件最终写入磁盘或网络传输。研究发现WEBP无损格式和JPEG-LS在压缩效率与速度之间的平衡最佳但不同熵编码方案之间的差异其实很小。解压时整个流程反向执行熵解码→反量化→解码器重建→逆幂律变换→逆小波变换得到重建信号。**七、训练目标的简化用方差代替概率模型**传统的学习型压缩方案需要同时训练一个概率密度模型来精确估计每个潜在变量的信息量并配备一个独立的辅助优化器来维护这个模型。这套机制确实能精确控制码率但显著增加了系统的设计复杂度而且对于每种新信号类型都需要重新调整。LiVeAction团队提出了一个大胆的简化方案直接用潜在变量的**样本方差的对数**来近似码率。这背后有扎实的理论基础——对于指数族分布比如广义高斯分布而实际信号的潜在表示通常符合这类分布最大熵原理告诉我们在均值和方差固定的情况下分布的熵即信息量与方差的对数成正比。换句话说控制方差就等效于控制码率。于是最终的训练损失函数只有两项第一项是均方误差MSE衡量重建信号与原始信号的差距第二项是潜在变量方差的对数充当码率惩罚项。二者之间用一个权重参数λ平衡研究团队发现λ0.03在所有信号类型上都能稳定工作无需针对每种信号单独调参。这个λ值大约能把平均码率压缩一半——从每个潜在通道8比特降到大约4比特。为了验证这个简化的代价有多小研究团队专门做了对比实验。结果显示使用精确概率模型的版本每像素需要0.83比特重建PSNR为31.19 dB而使用简化方差损失的版本只需要0.65比特PSNR为30.85 dB。简化版本在码率上节省了22%质量损失极其微小。对于大多数应用场景这是一个非常划算的交换。**八、为什么不用感知损失和对抗损失**生成式编解码器如Stable Audio、Cosmos通常使用感知损失比如LPIPS衡量深度神经网络提取的特征相似度和对抗损失让一个判别器来评判重建结果是否足够逼真来训练解码器产生视觉上令人满意的输出。这两类损失的本质都是在引导解码器去填充人眼喜欢看到的细节即便这些细节并不来自原始信号。LiVeAction完全放弃了这两类损失只用MSE。原因有三第一感知损失依赖特定的神经网络特征提取器这些特征提取器往往专门针对图像设计对音频、高光谱或医疗体素没有任何意义第二对抗训练极不稳定对超参数极度敏感容易崩溃需要大量调试经验第三对于机器感知任务逼真但不准确比略微模糊但忠实危害更大——一个自动驾驶系统可不希望因为编解码器脑补了一道不存在的路障而紧急刹车。当然纯MSE训练的代价是解码器不会主动合成高频纹理细节重建图像在放大后可能略显平滑。研究团队对此给出了一个优雅的补充方案在解码器输出之后可以选择性地接入一个独立的生成模型比如FLUX ControlNet来做后处理增强。这个生成模型以解码器输出为条件补充纹理细节。实验结果显示这种后处理能带来约0.5 dB的DISTS指标提升且更重要的是显著恢复了视觉上的细节质感同时由于生成增强是完全独立的可选模块核心编解码器的保真度不受任何影响。**九、如何适配不同信号类型几条实用经验**LiVeAction声称可以适配任意信号类型但实际操作时仍需要根据信号特性选择若干超参数。研究团队总结了一套简洁的设计经验并将完整配置代码开放在GitHub上。关于信号维度的选择大多数情况下是自然确定的单通道音频显然是一维彩色图像是二维。但对于多通道信号比如224个波段的高光谱图像如果通道数与空间分辨率处于同一量级且所有通道的物理单位一致都是辐射度值就可以把通道维度当作额外的空间维度处理让模型在通道之间也发现冗余规律。关于潜在变量数量即压缩到多少个核心数值研究团队推荐选取原始信号维度的1/64。对于自然信号冗余度通常很高64倍的维度压缩往往不会带来明显的质量损失。关于小波分解的级数J建议选取使得每层内部的隐藏维度落在512到1536之间的值。这个区间被实验证明是计算效率和表达能力的甜蜜点——太小则模型容量不足太大则计算浪费。关于编解码器深度研究发现编码器4层、解码器8层的组合能在实时编码速度、解码器训练成本和压缩质量之间取得最佳平衡。这种不对称的深度配置恰好体现了轻编码器、强解码器的核心设计哲学。**十、实验结果从音频到3D医疗图像全面超越对手**研究团队为六种不同的信号类型训练了专属编解码器并与业界最强的对比方案进行了系统性评测。**立体音乐**方面对比对象是Stable Audio一款支撑Stability AI音频生成产品的VAE。Stable Audio的潜在变量因为没有码率约束熵值很高需要用16位浮点数存储才能避免量化失真实际压缩比仅为64:1。LiVeAction的码率惩罚有效压低了潜在变量的熵实现了195:1的压缩比高出Stable Audio约3倍。音质方面LiVeAction达到36.57 dB的PSNR比Stable Audio高出8.15 dB。编码速度方面由于结构化卷积运算远比Stable Audio的标准CNN层高效LiVeAction的编码吞吐量超出Stable Audio 16倍以上在大段音频上尤为突出5012 KSamp/s对比229 KSamp/s。**空间音频**方面对比对象是Meta的EnCodec当前业界最广泛使用的神经音频编解码器。LiVeAction实现了12.8倍的维度压缩64倍 vs EnCodec的5倍2.2倍更高的压缩比1013:1 vs 455:1以及35.6倍更快的编码速度。在信号质量上空间音频特有的空间失真指标SSDR提高了6.09 dB残差失真指标SRDR提高了13.55 dB说明LiVeAction在保持空间音场结构方面有显著优势。**RGB图像**方面这是评测最为全面的一块。在低功耗移动处理器Intel Arrow Lake 255U上LiVeAction的编码吞吐量为9.95百万像素/秒高于WaLLoC6.12 Mpix/s和AVIF3.01 Mpix/s而Cosmos根本无法在这款CPU上运行。相对于JPEG 2000的BD-rateBj?ntegaard Delta率用于综合评估不同码率下的质量差距负值越大越好在PSNR指标上节省36.55%的码率在SSIM指标上节省70.30%在DISTS指标上节省70.27%。Cosmos在PSNR上表现差49.61%反而需要更多码率但在SSIM和DISTS上有优势因为它会生成视觉上更锐利的细节。特别值得关注的是机器感知实验研究团队将不同编解码器压缩后的图像送入EVA-CLIP视觉Transformer模型进行ImageNet 1000类分类以分类准确率衡量压缩后信息保留了多少。LiVeAction在0.19 bpp下达到79.81%的分类准确率与Cosmos同样约0.25 bpp下约87%的差距来自于Cosmos是在ImageNet上训练的相当于刷题而LiVeAction完全没有见过ImageNet数据。即便如此LiVeAction在相同或更低码率下与Cosmos不相上下说明其压缩对机器视觉任务同样有效。**高光谱图像**方面LiVeAction对比的是JPEG 2000高光谱领域常用的通用压缩方案。两者在相同压缩比575:1下LiVeAction的PSNR18.52 dB略高于JPEG 200018.18 dB同时维度压缩比高出64倍LiVeAction为64维度压缩JPEG 2000不做维度压缩。编码速度上LiVeAction在GPU上达到600 MVox/s是CPU版JPEG 200012.47 MVox/s的约48倍即使都跑在CPU上LiVeAction14.93 MVox/s也超过JPEG 20006.45 MVox/s两倍以上。**三维医疗体素**方面在MEDMNIST 3D数据集包含器官、骨折、结节等6类医疗影像上LiVeAction以64倍维度压缩、2.1倍更高的体积压缩比209:1 vs 95.62:1和2.7 dB更高的PSNR24.74 dB vs 22.00 dB全面超越JPEG 2000同时编码速度54.08 MVox/s是CPU版JPEG 200013.60 MVox/s的约4倍。**视频**方面Cosmos DV8×8是业界最强的神经视频标记器之一。但Cosmos在处理完整1080p视频时会遭遇内存溢出必须以24帧为单位分块处理还需要50%的重叠来避免边界伪影这导致实际压缩比和速度大打折扣。LiVeAction无需分块单次通过即可处理全长1080p视频在RTX 4090上达到52.94帧/秒的编码速度而Cosmos即使在分块模式下也只有13.73帧/秒。压缩比方面LiVeAction约330倍比Cosmos DV8×8的实际可用压缩比约192倍高出约1.7倍。在CPU上LiVeAction以107.6帧/秒处理240p视频实现了低分辨率下的真实时编码。表V中还列出了更详细的RGB图像对比数据涵盖Kodak测试集和ImageNet 1k数据集包括PSNR、LPIPS、DISTS、SSIM等多个指标以及在不同码率配置下与Balle 2018 Hyperprior、AVIF等主流方案的全面比较。总体趋势是在相同PSNR下LiVeAction通常需要更少的码率在相同码率下LiVeAction的结构相似度指标SSIM、DISTS普遍优于未使用生成损失的方案而PSNR则与Balle 2018等传统学习型压缩方案接近。**十一、参数规模与训练资源小而精的哲学**LiVeAction的规模对比数据令人印象深刻。Cosmos的编解码器有3200万参数WaLLoC有9200个参数极度精简的线性投影版本LiVeAction有49.3万参数落在两者之间但在性能上显著超越Cosmos的BD-rate表现。训练数据规模上LiVeAction使用的训练集都是相对小规模的领域数据集音乐用的是MUSDB18-HQ约7小时高质量音乐图像用的是LSDIR视频用的是6000个Vimeo90k短片段。与之形成对比的是Cosmos训练消耗了数百乃至数千GPU天的计算资源并且使用了互联网规模的数据。LiVeAction的图像编解码器据估计可在单张GPU上完成训练大大降低了研究门槛也意味着任何机构都可以为自己的专有信号类型训练定制版本而无需科技巨头级别的算力支持。---说到底LiVeAction做的事情有点像给工地上的搬砖工配备了一辆轻便的电动平板车它不是最豪华的运输工具不能一次拉几十吨货但它足够轻、足够省电让一个人在工地上快速穿梭而真正的精细组装工作留给仓库里的大型设备来完成。这种分工哲学并不新鲜但在神经网络编解码器领域它以前从未被如此系统、彻底地执行过。从更宏观的角度来看这项工作的意义在于降低了为新型传感器设计专属压缩方案的门槛。以前你要么用不合身的通用标准要么花费巨额资源训练一个庞大的生成模型。现在借助LiVeAction的设计框架和几条超参数经验一个小团队在合理的时间和计算预算内就能为一款全新的传感器打造出超越传统标准的专属编解码器。这对于医疗影像、环境监测、太空探索等领域来说潜在价值值得持续关注。研究团队也坦承了若干局限性和未来方向目前LiVeAction是固定码率训练的一个模型对应一个压缩比率未来希望探索可变码率训练另外与下游机器学习任务的联合优化即让压缩直接服务于检测、分类等任务而非重建质量也是一个自然的延伸方向。对这项研究感兴趣的读者可以通过arXiv编号**2605.06628**找到完整论文研究代码已开放在GitHub的UT-SysML/liveaction仓库中。---QAQ1LiVeAction和普通的JPEG压缩有什么本质区别AJPEG是根据人眼感知特性设计的会优先保留人眼敏感的低频信息丢弃人眼不在意的高频细节。LiVeAction是通过神经网络从大量真实数据中学习信号本身的统计规律来压缩不依赖人眼特性因此对高光谱、医疗体素等机器看而非人看的信号效果更好。在相同的文件大小下LiVeAction在结构相似度指标SSIM上比JPEG 2000节省约70%的码率。Q2LiVeAction的不对称设计具体指什么为什么这样设计A不对称指的是编码器把原始信号变成压缩表示非常轻量只有49.3万参数且使用分组卷积结构而解码器把压缩表示还原为信号更深、更强使用线性注意力机制。这样设计是因为传感器设备需要实时编码计算资源极有限而解码往往在云端服务器上进行资源充裕。研究发现加深编码器的收益递减把资源集中在解码器上更划算。Q3LiVeAction为什么不用感知损失去掉之后图像质量会不会变差A感知损失如LPIPS依赖专门为图像设计的特征提取器对音频、医疗体素等非图像信号完全无法使用会限制通用性。去掉感知损失后重建图像不会主动合成高频纹理放大后略显平滑但不会出现脑补出不存在内容的问题对医疗影像等需要精确还原的场景更安全。研究团队验证纯MSE训练后可选接入FLUX ControlNet做后处理增强能在不影响核心保真度的情况下补充视觉细节DISTS指标提升约0.5 dB。