从内部进行大型语言模型安全
摘要防护模型Guard models被广泛用于检测用户提示词和 LLM 回复中的有害内容。然而当前最先进的防护模型仅依赖终端层的表示忽视了分布在模型内部各层中丰富的安全相关特征。我们提出了SIREN一种轻量级防护模型能够利用这些内部特征。通过线性探测定位安全神经元并采用自适应分层加权策略进行组合SIREN 在不修改底层模型的前提下基于 LLM 内部结构构建了一个有害性检测器。我们的综合评估表明SIREN 在多个基准测试上显著优于最先进的开源防护模型同时使用的可训练参数减少了250 倍。此外SIREN 对未见过的基准测试展现出卓越的泛化能力天然支持实时流式检测并且相比生成式防护模型推理效率显著提升。总体而言我们的结果凸显了 LLM 内部状态作为实用、高性能有害性检测的一个有前景的基础。代码见https://github.com/CSSLab/SIREN。1 引言大型语言模型LLM现已大规模部署OpenAI, 2025; Anthropic, 2025; Google, 2025并面临持续的内容安全挑战用户可能提交有害的提示词模型也可能生成有害回复Zou et al., 2023。为了缓解由此带来的风险LLM 护栏guardrails变得至关重要而面向安全的专用防护模型已成为主流解决方案Inan et al., 2023; Han et al., 2024; Zhao et al., 2025a。这类模型通常以开源 LLM 为骨干在用户提示词和模型回复上进行微调通过从模型的终端层解码来进行生成式分类从而实现有害性检测。然而这种对终端层的依赖忽视了编码在整个模型各层中的丰富安全相关特征。近期工作揭示LLM 的内部表示编码了丰富的专门化特征利用这些内部表示能在分类任务中带来显著的性能提升Gurnee et al., 2023; Jiao et al., 2024; Lai et al., 2025。此外多项研究表明LLM 的内部表示编码了用于内容安全的细粒度概念Zhao et al., 2024, 2025b; Kadali and Papalexakis, 2025。但这些发现尚未被系统地转化为实用的安全防护模型。这一差距提出了一个问题我们能否利用 LLM 的内部表示来构建更好的内容有害性检测器在本工作中我们通过一个名为SIREN利用内部表示的防护的两阶段框架来利用内部安全相关特征如图 1 所示。首先SIREN 采用线性探测Alain and Bengio, 2016来定位每一层内的安全相关特征其基础是线性表示假说——该假说认为语义概念通常在 LLM 中以线性方式表示Hernandez et al., 2023; Park et al., 2023。我们将那些对内容安全分类具有高显著性的特征称为每一层的“安全神经元”。由于经验证据表明跨层的内部神经元集成能带来显著的性能提升Yu et al., 2018; Jiao et al., 2024因此在第二阶段我们聚合所有层的安全神经元训练一个用于有害性检测的轻量级分类器。我们采用分层加权聚合策略因为已有研究表明 LLM 具有层次化学习结构不同层编码不同粒度的特征且对给定任务的贡献并不相等Wendler et al., 2024; Skean et al., 2025; Lai et al., 2025。具体而言我们基于各层线性探测的验证性能计算层权重然后将所有层中安全神经元的加权激活拼接起来。这种设计无需修改底层 LLM使 SIREN 能够作为即插即用的组件运行。我们系统地从三个维度评估了本框架相对于最先进开源防护模型的性能有效性、泛化性和效率。第一在通用 LLM 上训练的 SIREN 参数量减少了 250 倍却显著优于使用完全相同骨干网络微调得到的对比防护模型。第二我们展示了 SIREN 能泛化到未见过的推理轨迹基准测试以及流式模式下的有害性检测——后者在 SIREN 训练时未曾见过要求模型在文本逐词元生成的同时实时分类内容安全性。第三SIREN 提供了卓越的效率因为推理仅需一次前向传播而防护模型需要自回归生成式分类。我们的贡献有两个方面我们提出了SIREN一种即插即用的防护模型利用 LLM 内部表示进行有害性检测。通过在多个基准测试上的评估我们证明了 SIREN 在性能、泛化性和效率方面均超越了现有的安全防护模型。