1. 项目概述从理论到实践的信息论视角在机器学习和统计建模的日常工作中我们常常面临一个核心的权衡模型的复杂度和它的泛化能力。一个模型如果太简单可能无法捕捉数据中的关键模式如果太复杂又容易在有限的数据上“记住”噪声导致过拟合。如何从理论上理解并量化这种权衡是每个从业者都会思考的问题。最近我在研究模型压缩和贝叶斯非参数模型时深入探讨了信息论中的KL散度、亚高斯分布的性质以及Dirichlet-Multinomial模型的理论边界。这些看似抽象的数学工具实际上为我们评估模型性能、设计高效的学习算法提供了坚实的理论基础和实用的分析框架。具体来说这个分析项目聚焦于两个核心问题。第一在线性回归的经典设定下当我们试图用一个简化的“代理”模型去近似真实的数据生成过程时信息损失用KL散度衡量和参数估计的均方误差之间存在怎样的定量关系这直接关系到模型压缩、特征选择或任何形式的近似表示的有效性。第二在贝叶斯非参数统计中Dirichlet-Multinomial模型常用于建模具有潜在无限类别的离散数据如主题模型中的词汇分布。我们如何从理论上刻画一次抽样中可能出现的“独特类别”数量的期望这直接影响了我们对模型容量和数据稀疏性的理解。通过一系列引理的推导我们能够将这两个问题转化为可计算、可解释的理论下界为实际工程决策提供依据。2. 核心理论框架与思路拆解2.1 问题一线性回归的信息率失真下界我们的目标是理解当我们用一个压缩的或近似的表示 $\tilde{\theta}$ 来代替真实参数 $\theta$ 时预测输出 $Y$ 所包含的信息损失。在统计学习中这通常被称为“率失真”问题在给定信息率或模型复杂度的限制下我们能达到的最小失真预测误差是多少核心思路我们从一个标准的贝叶斯线性回归模型出发。假设真实参数 $\theta \in \mathbb{R}^d$ 的各个分量独立同分布且是零均值、$\nu^2$-亚高斯的对称随机变量。协变量 $X \sim \mathcal{N}(0, I_d)$响应变量 $Y \sim \mathcal{N}(\theta^\top X, \sigma^2)$。这里的 $\tilde{\theta}$ 可以理解为对 $\theta$ 的任何形式的估计或压缩表示它基于观测到的某些信息可能是部分数据或一个编码。我们关心的“失真”度量是条件KL散度 $d_{KL}(P(Y|\theta, X) | P(Y|\tilde{\theta}, X))$它衡量了给定真实参数和给定代理参数时预测分布之间的差异。而更直观的误差度量是均方误差MSE即 $E[(\theta - E[\theta|\tilde{\theta}])^\top X]^2$。我们的理论工作旨在建立这两者之间的不等式关系从而通过KL散度来约束MSE。为什么选择亚高斯假设亚高斯分布是一类尾部衰减速度不低于高斯分布的随机变量涵盖了有界分布、高斯分布等许多常见情况。这个假设比高斯假设更弱但又能保留许多良好的性质如矩母函数存在上界使得理论分析既具有一般性又便于推导出简洁的界。对称性假设则简化了后续关于条件期望的推导。2.2 问题二Dirichlet-Multinomial模型的类别数上界在贝叶斯非参数模型中例如主题模型LDA或无限混合模型我们经常使用狄利克雷过程Dirichlet Process, DP作为先验。其有限维近似——狄利克雷-多项Dirichlet-Multinomial, DM分布——在实际计算中更为常用。一个关键问题是当我们从这个分布中抽取 $n$ 个样本时期望会看到多少个不同的类别或“词”/“主题”核心思路设我们有 $N$ 个潜在类别先验分布是参数为 $\alpha [K/N, ..., K/N] \in \mathbb{R}^N$ 的对称狄利克雷分布。从这个先验中生成一个概率向量 $\theta$再从这个向量中独立抽取 $n$ 个样本 $\tilde{\theta}$。我们关心的是 $\tilde{\theta}$ 中非零分量的数量期望即 $E[\sum_{i1}^N 1_{{\tilde{\theta}_i 0}}]$。直观上当 $K$ 固定且 $N$ 很大时每个类别的先验概率 $K/N$ 很小因此抽到大量不同类别的概率很低。我们的目标是证明这个期望值有一个与 $N$ 无关的上界 $K \ln(1 n/K)$。这个结果非常深刻它意味着即使潜在类别数 $N$ 趋于无穷即退化为狄利克雷过程期望看到的独特类别数仍然被 $K \ln(1 n/K)$ 所控制。参数 $K$ 在这里扮演了“浓度参数”的角色$K$ 越大先验倾向于产生更分散的概率质量因此可能看到更多类别。理论价值这个上界为模型选择提供了指导。例如在主题模型中$K$ 可以类比为“每文档预期主题数”的先验强度。如果我们观察到文档中独特词汇的数量远小于 $K \ln(1 n/K)$这可能提示我们设定的 $K$ 值过大或者数据本身非常集中。反之则可能提示 $K$ 值过小模型容量不足。3. 核心引理推导与证明要点3.1 线性回归下界的关键引理链整个推导由四个核心引理构成一个逻辑链条。引理73条件亚高斯性这个引理建立了代理预测误差 $Y - E[Y|\tilde{\theta}, X]$ 的条件亚高斯性质。证明的核心技巧是利用了 $\theta^\top X$ 的条件对称性和独立性。具体地通过将误差拆分为 $Y-E[Y|\theta,X]$即噪声 $W$和 $E[Y|\theta,X]-E[Y|\tilde{\theta},X]$ 两部分并利用噪声的独立性和 $\theta^\top X$ 的亚高斯性最终证明给定 $X$ 时代理预测误差是 $(4\nu^2|X|_2^2 \sigma^2)$-亚高斯的。注意这一步的关键在于处理 $E[e^{\lambda((\theta - E[\theta|\tilde{\theta}])^\top X)} | X]$。利用 $\theta^\top X$ 的条件对称性和詹森不等式可以将其转化为 $E[e^{-2\lambda (\theta^\top X)} | X]$ 的期望进而利用各分量独立且 $\nu^2$-亚高斯的假设得到上界。引理74条件强化这个引理将条件亚高斯性从仅给定 $X$ 强化到给定 $(\tilde{\theta}, X)$。证明采用了反证法。其思路是如果存在某个 $\tilde{\theta}$ 的集合使得条件亚高斯常数变差那么整体仅给定 $X$的矩母函数下界就会被破坏从而与引理73的结论矛盾。这个引理至关重要因为它允许我们在后续推导中在更精细的条件已知代理 $\tilde{\theta}$下使用亚高斯性质。引理75KL散度下界这是连接KL散度和平方误差的桥梁。它利用了KL散度的Donsker-Varadhan变分形式。对于任意函数 $g$有 $d_{KL}(P|Q) \geq E_P[g] - \ln E_Q[e^g]$。我们巧妙地选择 $g(Y) \lambda (Y - E[Y|\tilde{\theta}, X])$。代入后利用引理74得到的条件亚高斯性来 bound $\ln E[e^{\lambda Z} | \tilde{\theta}, X]$ 项最终得到一个关于 $\lambda$ 的二次函数下界。通过最大化这个关于 $\lambda$ 的下界我们得到了 $d_{KL} \geq (E[Y|\theta,X] - E[Y|\tilde{\theta},X])^2 / (2\nu^2)$。取期望后即得到期望KL散度与期望平方预测误差之间的关系。引理76最终下界这是目标定理。它将前几个引理结合起来并将平方预测误差 $((\theta - E[\theta|\tilde{\theta}])^\top X)^2$ 与参数估计误差 $|\theta - E[\theta|\tilde{\theta}]|_2^2$ 联系起来。核心步骤是利用了 $X \sim \mathcal{N}(0, I)$ 的性质使得 $E[((\theta - E[\theta|\tilde{\theta}])^\top X)^2 | X] |X|_2^2 E[|\theta - E[\theta|\tilde{\theta}]|_2^2] / d$。再结合引理73和75并取 $\alpha \downarrow 1$ 的极限由引理74保证对任意 $\alpha1$ 成立最终得到 $$E\left[ \frac{|X|_2^2}{2(4|X|_2^2 d\sigma^2)} \right] E[|\theta - E[\theta|\tilde{\theta}]|2^2] \leq I(Y; \theta | \tilde{\theta}, X)$$ 这里 $I(Y; \theta | \tilde{\theta}, X)$ 正是 $E[d{KL}(P(Y|\theta, X) | P(Y|\tilde{\theta}, X))]$。这个下界表明参数估计的均方误差被一个与数据分布$X$ 的模和噪声水平$\sigma^2$相关的因子所放大的互信息所下界控制。3.2 Dirichlet-Multinomial组合上界的关键引理链这部分推导的核心是将一个复杂的组合求和问题通过对数和积分进行上下界逼近。引理77组合求和的上下界定义了 $C_m(j)$ 为一个 $m$ 重求和式。证明的关键洞察是求和项 $K/(NK i)$ 可以近似为 $1/(N i/K)$。通过将其与积分 $\int (1/(Kx)) dx$ 进行比较并利用数学归纳法成功地将复杂的多重求和 bound 在对数函数的幂次上。具体地证明了 $$\frac{1}{m!} \frac{K^m}{N^m} \ln^m \left( \frac{Kn}{Km-1j} \right) \leq C_m(j) \leq \frac{1}{m!} \frac{K^m}{N^m} \ln^m \left( \frac{Kn}{K-1j} \right)$$ 这个结果为后续处理乘积形式的概率提供了可能。引理78交错项的非负性这个技术性引理在证明主要上界时用于处理展开式中的交错项。它表明在 $2 \leq K \leq \sqrt{N}$ 且 $n \leq N$ 的条件下特定的奇偶项组合是非负的。这保证了在利用不等式放缩时我们可以安全地丢弃某些负项从而简化表达式。引理79乘积概率的下界这是通往最终上界的核心一步。我们关心的是某个类别在 $n$ 次抽取中一次都没出现的概率即 $\prod_{i0}^{n-1} (1 - \frac{K}{NK i})$。利用引理77可以将这个乘积展开或通过其补集事件表示为一个交错级数的形式。然后应用引理78可以证明这个交错级数从第二项开始相邻的正负项配对后是非负的因此整个乘积有一个简单的下界$1 - \frac{K}{N} \ln(1 \frac{n}{K})$。这个下界形式简洁且与 $N$ 的关系较弱主要通过 $K/N$ 体现。引理80有限N的期望类别数上界现在我们可以计算期望独特类别数了。根据对称性$E[\sum_{i1}^N 1_{{\tilde{\theta}_i 0}}] N \cdot P(\tilde{\theta}_1 0)$。而 $P(\tilde{\theta}_1 0) 1 - P(\tilde{\theta}1 0)$。利用狄利克雷-多项分布的聚合性质和概率质量函数的精确表达式可以将 $P(\tilde{\theta}1 0)$ 转化为一个关于 Gamma 函数的比值进而化简为引理79中的乘积形式。直接应用引理79的下界就立即得到 $$E[\sum{i1}^N 1{{\tilde{\theta}_i 0}}] \leq K \ln(1 \frac{n}{K})$$ 这个上界惊人的简洁且与总类别数 $N$ 无关。引理81扩展到狄利克雷过程最后通过将有限 $N$ 的模型视为无限模型在某个离散化上的投影并利用控制收敛定理因为独特类别数始终被样本数 $n$ 所控制可以将引理80的结果直接推广到 $N \to \infty$ 的狄利克雷过程情形。这证明了即使在无限类别先验下期望独特类别数仍然受同一个上界约束。4. 理论结果的工程实践解读与应用场景4.1 线性回归下界的实践意义这个理论下界 $E\left[ \frac{|X|_2^2}{2(4|X|_2^2 d\sigma^2)} \right] E[|\theta - E[\theta|\tilde{\theta}]|_2^2] \leq I(Y; \theta | \tilde{\theta}, X)$ 虽然形式抽象但蕴含着几个对工程实践至关重要的启示模型压缩的极限在模型压缩、知识蒸馏或任何形式的函数近似中$\tilde{\theta}$ 可以看作是一个压缩后的模型例如量化的权重、剪枝后的网络、低秩近似。不等式左边是压缩导致的参数估计误差MSE右边是给定压缩表示后真实参数 $\theta$ 关于响应 $Y$ 的剩余信息量条件互信息。这个不等式告诉我们你想要压缩得越狠让 $I(Y;\theta|\tilde{\theta}, X)$ 变小参数误差 $E[|\theta - E[\theta|\tilde{\theta}]|_2^2]$ 就必然越大。它从信息论的角度为“没有免费午餐”定理提供了一个定量版本。数据维度与噪声的影响下界中的系数 $E\left[ \frac{|X|_2^2}{2(4|X|_2^2 d\sigma^2)} \right]$ 值得仔细分析。由于 $X \sim \mathcal{N}(0, I_d)$$|X|_2^2$ 服从自由度为 $d$ 的卡方分布。当维度 $d$ 很高时$|X|_2^2 \approx d$此时系数近似为 $d / (2(4d d\sigma^2)) 1/(2(4\sigma^2))$与 $d$ 无关。这意味着在高维情况下下界对维度不敏感。然而当噪声 $\sigma^2$ 很大时系数会变小从而允许更大的参数误差而不违反下界。这符合直觉噪声越大数据中关于 $\theta$ 的信息越少因此即使近似得很粗糙信息损失也不会太大。指导表示学习这个下界可以用于评估不同表示学习方法的好坏。如果我们有几种不同的特征提取或编码方案对应不同的 $\tilde{\theta}$ 生成机制我们可以估算或上界其条件互信息 $I(Y;\theta|\tilde{\theta}, X)$。根据下界那些导致更小互信息的方案其参数恢复误差的理论下界也更松即可能更差。这为选择信息保持能力更强的表示提供了理论依据。实操心得在实际应用中直接计算这个下界可能比较困难因为涉及 $X$ 的模的期望。一个实用的近似方法是使用经验分布。假设我们有数据集 ${x_i}{i1}^m$可以用 $\frac{1}{m}\sum{i1}^m \frac{|x_i|_2^2}{2(4|x_i|_2^2 d\hat{\sigma}^2)}$ 来估计系数其中 $\hat{\sigma}^2$ 是噪声方差的估计。然后结合你对模型压缩后剩余信息量 $I$ 的估计这本身是一个研究课题可能通过变分下界等方法估算就可以对参数误差 $E[|\theta - E[\theta|\tilde{\theta}]|_2^2]$ 有一个大致的下界感知。4.2 Dirichlet-Multinomial上界的实践意义上界 $E[\text{独特类别数}] \leq K \ln(1 n/K)$ 在贝叶斯非参数建模中具有直接的应用价值先验参数 $K$ 的校准$K$ 是狄利克雷过程的浓度参数。这个上界给出了在 $n$ 次观测中期望出现的最大类别数。例如在主题模型中如果我们设定 $K10$文档长度为 $n100$那么期望的独特主题数上界约为 $10 * \ln(1100/10) \approx 10 * \ln(11) \approx 24$。如果我们从实际数据中发现文档中识别出的主题数经常接近或超过这个值可能意味着我们的先验 $K$ 设得太小模型被迫用较少的主题来解释较多的变异可能导致主题混杂。反之如果实际主题数远低于这个上界可能意味着 $K$ 设得过大先验过于分散。模型容量与数据量的关系上界清晰地展示了数据量 $n$ 和模型复杂度通过 $K$ 体现之间的对数关系。$K \ln(1n/K)$ 这个函数关于 $n$ 是次线性的对数增长关于 $K$ 则是先增后减对于固定的 $n$存在一个最优 $K$ 最大化这个上界但实际中 $K$ 是先验强度通常我们希望它小一些以鼓励稀疏性。这告诉我们仅靠增加数据量 $n$并不能线性地增加模型发现的类别数增长是对数级的。这有助于管理对非参数模型“发现新类别”能力的预期。内存与计算复杂度预估在实现狄利克雷过程混合模型时我们通常使用截断近似如截断的Stick-breaking或中国餐馆过程等采样算法。这个上界可以帮助我们预估在给定 $n$ 和 $K$ 下算法运行时需要维护的活跃类别数的大致规模从而为内存分配和计算资源规划提供参考。与经验法则的对比一个著名的经验法则是在 $n$ 次观测中期望的独特类别数大约是 $K \log n$对于 $n \gg K$。我们的理论上界 $K \ln(1n/K)$ 在 $n \gg K$ 时近似为 $K \ln n - K \ln K$与经验法则在主导项 $K \ln n$ 上一致但多了一个负的修正项 $-K \ln K$。这个修正项在 $K$ 较大时不可忽略使得理论上界比经验法则更紧也更精确。注意事项这个上界是在对称狄利克雷先验即所有 $\alpha_i K/N$的假设下推导的。在实际应用中如果先验是非对称的例如在主题模型中某些词在所有主题中的先验概率更高那么期望独特类别数可能会更小因为质量会集中在少数几个高概率类别上。此时这个对称上界可能是一个比较宽松的估计。一个实用的做法是将非对称的 $\alpha$ 向量用一个“有效浓度参数” $K_{eff} \sum_i \alpha_i$ 来代替公式中的 $K$但这只是一个启发式近似严格的上界需要更复杂的分析。5. 常见问题与理论应用中的陷阱5.1 关于线性回归下界的常见疑问Q1: 这个下界在什么条件下是最紧的即可以达到的A1: 这个下界是通过一系列不等式放缩得到的其中关键的一步是引理75中使用Donsker-Varadhan变分形式并选择线性函数 $g(Y)\lambda Z$。当真实分布 $P(Y|\theta,X)$ 和代理分布 $P(Y|\tilde{\theta},X)$ 都是高斯分布且仅均值不同时这个下界是紧的因为此时KL散度恰好等于均值差的平方除以两倍方差。在我们的推导中我们假设了 $P(Y|\theta,X)$ 是高斯分布但 $P(Y|\tilde{\theta},X)$ 可能不是因为 $\tilde{\theta}$ 是 $\theta$ 的某个函数。因此下界的紧致性取决于 $\tilde{\theta}$ 的性质。如果 $\tilde{\theta}$ 是 $\theta$ 的充分统计量那么条件分布 $P(Y|\tilde{\theta},X)$ 可能仍然是高斯的下界较紧否则下界可能比较宽松。Q2: 亚高斯假设如果被违反结论还成立吗A2: 亚高斯假设是整个推导的基石。如果 $\theta$ 的分量不是亚高斯的例如具有重尾分布那么引理73中关于 $e^{\lambda (\theta^\top X)}$ 矩母函数的 bound 将不再成立后续推导也会失效。对于重尾参数可能需要使用不同的集中不等式如次指数不等式并推导出不同形式的下界。在实践中许多有界参数如归一化后的权重自然满足亚高斯性。对于可能存在重尾的情况需要重新审视理论假设的合理性。Q3: 这个下界对于非高斯的设计矩阵 $X$ 是否成立A3: 引理76的证明中关键一步是 $E[((\theta - E[\theta|\tilde{\theta}])^\top X)^2 | X] |X|_2^2 E[|\theta - E[\theta|\tilde{\theta}]|_2^2] / d$。这个等式成立依赖于 $X$ 的各分量独立同分布且与 $(\theta - E[\theta|\tilde{\theta}])$ 独立或至少不相关并且 $E[X X^\top] I_d$。如果 $X$ 不是高斯分布但满足这些矩条件例如各分量独立、零均值、单位方差那么等式仍然成立。然而引理73中关于 $Y-E[Y|\tilde{\theta},X]$ 的条件亚高斯性证明用到了 $X$ 给定下 $\theta^\top X$ 的对称性这由 $\theta$ 的对称性和 $X$ 的分布共同决定。如果 $X$ 的分布不是对称的例如只取正值那么这部分推导需要调整。因此对于非高斯的 $X$结论可能仍然成立但需要更仔细地检查每个步骤的条件。5.2 关于Dirichlet-Multinomial上界的常见疑问Q1: 条件 $2 \leq K \leq \sqrt{N}$ 和 $n \leq N$ 是必要的吗A1: 这些条件在引理78和79的证明中被用到以确保某些不等式成立。特别是 $K \leq \sqrt{N}$ 保证了 $K/N$ 足够小使得对数展开中的高阶项可以控制。在实际的大多数应用场景中$N$ 非常大潜在类别数很多而 $K$ 是一个相对较小的浓度参数因此 $K \leq \sqrt{N}$ 通常自动满足。$n \leq N$ 意味着观测数不超过潜在类别数这在许多情况下也是合理的例如一篇文档的词汇数远小于总词汇表大小。如果 $n N$那么根据鸽巢原理独特类别数的期望就是 $N$上界 $K \ln(1n/K)$ 可能会超过 $N$ 而失去意义。因此这个理论结果主要适用于 $n$ 不太大的情况。Q2: 这个上界在 $N$ 较小即类别空间很小时是否还有用A2: 当 $N$ 较小时例如在简单的多项分布模型中我们通常不需要这个上界因为可以直接计算精确的期望值$E[\text{独特类别数}] N (1 - (1 - 1/N)^n)$。我们的上界 $K \ln(1n/K)$ 在 $N$ 小且 $\alpha_i K/N$ 时可能与精确值有较大差距。这个上界的威力主要体现在 $N$ 很大甚至趋于无穷狄利克雷过程时它给出了一个与 $N$ 无关的、简洁的渐近控制。因此它主要是一个大 $N$ 理论工具用于理解模型在无限类别先验下的渐近行为。Q3: 如何在实际的MCMC或变分推断中使用这个上界A3: 在吉布斯采样或变分推断算法中我们通常需要为潜在类别如主题分配内存。这个上界可以帮助我们设置一个合理的缓冲区大小。例如在运行中国餐馆过程采样时我们可以监控当前活跃的“餐桌”类别数量。如果这个数量持续接近或超过 $K \ln(1n/K)$这可能是一个信号表明我们的采样链可能需要更多的迭代来稳定或者我们的先验参数 $K$ 需要调整。在变分推断中我们通常使用截断的Stick-breaking表示截断水平 $T$ 需要预先设定。这个上界可以指导我们选择 $T$一个保守的选择是设定 $T$ 略大于 $K \ln(1n/K)$以确保截断误差可以忽略。Q4: 这个上界对于非对称的狄利克雷先验$\alpha_i$ 不全相等是否成立A4: 不直接成立。我们的推导严重依赖于对称性它使得 $P(\tilde{\theta}_i 0)$ 对所有 $i$ 都相同从而将期望独特类别数简化为 $N$ 乘以单个类别的非零概率。对于非对称先验不同类别的出现概率不同期望独特类别数通常会更小因为质量集中在少数几个 $\alpha_i$ 大的类别上。此时$K \ln(1n/K)$其中 $K\sum_i \alpha_i$可能是一个非常宽松的上界。要得到非对称情况下的紧致上界需要更复杂的分析可能涉及对 $\alpha_i$ 排序后使用类似但更精细的积分技巧。6. 理论推导中的技巧与扩展思考6.1 处理亚高斯随机变量的技巧在整个线性回归下界的推导中亚高斯随机变量的性质被反复使用。一个关键的技巧是利用矩母函数的上界来控制尾部概率和期望。对于 $\nu^2$-亚高斯随机变量 $Z$有 $E[e^{\lambda Z}] \leq e^{\lambda^2 \nu^2 / 2}$。这个性质在引理73和75中起到了核心作用。实操心得当你在自己的工作中遇到需要 bound 含有随机变量指数函数的期望时首先检查该随机变量是否具有亚高斯性或次指数性。一个快速的判断方法是如果随机变量有界那么它一定是亚高斯的如果它是独立亚高斯随机变量的和那么和的亚高斯常数与 $\sqrt{n}$ 成正比。在许多机器学习问题中损失函数、梯度噪声等经常被建模为亚高斯的这使得基于矩母函数的分析成为可能。另一个技巧是条件亚高斯性的传递引理74。这告诉我们如果一个随机变量在给定较粗的 $\sigma$-代数这里是 $X$下是亚高斯的那么它在给定更细的 $\sigma$-代数这里是 $(\tilde{\theta}, X)$下其亚高斯常数最多只会变差一个常数因子。这个结论非常有用因为它允许我们在更有利于分析的条件已知更多信息下仍然使用亚高斯性质而不会丢失太多精度。6.2 组合分析与积分近似的技巧在Dirichlet-Multinomial的推导中核心是将离散求和与连续积分进行比较。引理77的证明是组合数学中“积分判别法”思想的精致应用。对于形如 $\sum_{i} f(i)$ 的和如果 $f(i)$ 是单调的我们可以用 $\int_{j-1}^{n} f(x) dx$ 和 $\int_{j}^{n} f(x) dx$ 来 bound 它。对于多重求和则通过数学归纳法将内层求和的结果本身是一个对数函数的幂次作为外层积分的被积函数从而得到对数函数的更高次幂。扩展思考这种技巧可以推广到其他具有类似调和级数形式的求和问题。例如在分析随机图的度分布、计算某些随机算法的期望运行时间时经常会遇到 $\sum 1/(ai)$ 形式的项。记住它的行为近似于 $\ln((an)/(aj))$并且其幂次的积分会产生 $\ln^{m1}$ 项除以 $(m1)!$这是一个非常有用的模式。引理78和79中处理交错级数的方法也值得借鉴。通过配对相邻的正负项并证明其非负性我们可以安全地截断级数以获得一个更简单的不等式。这在概率论中 bounding 复杂概率表达式时是常见策略。6.3 从有限模型到无限模型的极限过渡引理81展示了如何将有限 $N$ 模型的结果推广到无限模型狄利克雷过程。这里的关键是控制收敛定理。我们需要找到一个可积的控制函数使得我们可以交换极限和期望。在这个问题中控制函数很简单独特类别数永远不会超过样本总数 $n$。由于 $n$ 是固定的因此 $|\sum 1_{{\tilde{\theta}_w 0}}| \leq n$ 是可积的控制函数从而允许我们将 $N \to \infty$ 的极限移到期望外面。注意事项在使用控制收敛定理时找到合适的控制函数至关重要。它必须是可积的并且对所有 $N$或更一般的对极限过程中的所有指标都一致地控制住你的随机变量序列。在许多渐近分析中这是将有限维结论推广到无限维的关键一步。6.4 理论结果在深度学习中的潜在应用虽然这些理论源于经典的统计模型但其思想可以启发深度学习的研究。神经网络剪枝的信息论视角将完整的神经网络参数视为 $\theta$剪枝后的网络视为 $\tilde{\theta}$。线性回归下界告诉我们剪枝导致的信息损失 $I(Y;\theta|\tilde{\theta}, X)$ 与剪枝后权重相对于原始权量的恢复误差MSE之间存在一个不可逾越的下界关系。这可以激励我们设计更好的剪枝算法不仅要最小化任务损失还要考虑最大化剪枝后网络对原始网络参数的“信息保留”。表示学习的容量控制在自监督学习或对比学习中我们学习一个编码器来产生数据的表示。Dirichlet-Multinomial的上界可以类比为对于一个具有“无限容量”的编码器其输出表示的“有效维度”或聚类中心数受数据量 $n$ 和模型某个“浓度”超参数的对数关系限制。这为理解表示学习中的“崩溃”现象即所有样本映射到同一个表示和避免过拟合提供了理论视角。贝叶斯神经网络的非参数扩展狄利克雷过程可以作为神经网络权重先验的扩展允许网络具有不确定的宽度或深度。我们的上界可以帮助分析这种非参数贝叶斯神经网络的预期复杂度如何随数据量增长为自适应架构设计提供理论依据。这些应用目前更多是概念性的将严格的理论结果应用到高度非线性的深度网络中还面临巨大挑战但其中的思想——用信息论量化近似误差用组合分析控制模型复杂度——无疑是深刻且具有指导意义的。