基于HCI烧入与nMOS主导的极低误码率SRAM PUF设计解析
1. 项目概述当硬件安全遇上“指纹”的稳定性难题在物联网设备、智能卡和各类嵌入式系统铺天盖地的今天硬件安全已经从一个技术话题变成了关乎产品生命线的基础设施。我们总希望每个芯片都有一个独一无二、无法复制的“身份证”用于身份认证、密钥生成或防伪溯源。物理不可克隆函数PUF就是这个理想的硬件“指纹”生成器。它的核心魅力在于直接利用芯片制造过程中无法避免、也无法精确控制的微观工艺偏差比如晶体管阈值电压的微小差异来产生随机性。这种随机性是物理层面的理论上无法被克隆或预测为硬件安全提供了一个非常优雅的熵源。然而理想很丰满现实却很骨感。我接触过不少PUF的设计和评估发现一个普遍且棘手的问题稳定性。工艺偏差固然是随机的但它也极其微弱。当芯片的工作环境发生变化——比如供电电压VDD波动或者温度从-20°C飙升到120°C——这些微弱的差异信号很容易被噪声淹没导致PUF的输出比特发生翻转。这就是比特错误率BER问题。想象一下你用来加密数据的密钥每次读取都有百分之几的比特可能出错这显然是无法接受的。传统的解决方案比如引入复杂的纠错码ECC虽然能纠正错误但带来了巨大的面积、功耗和延迟开销这对于资源本就捉襟见肘的物联网终端设备来说往往是不可承受之重。更让人头疼的是很多提高稳定性的方法本身会引入新的安全漏洞。例如一些方案需要在稳定化过程中读取原始的、秘密的PUF数据来判断哪些比特不稳定然后进行屏蔽或重映射。这个过程如果放在片外进行秘密数据就有泄露的风险如果在片内进行又需要额外的写入电路增加了攻击面。如何在不触碰秘密本身的前提下让这个“指纹”变得更稳定、更可靠成了PUF设计领域一个关键的挑战。最近读到一篇发表在JSSC上的工作标题是《基于8T SRAM与安全单元内HCI烧入的极低误码率物理不可克隆函数设计》。它提出了一种非常巧妙的思路利用热载流子注入HCI这种通常被视为可靠性威胁的物理现象反过来作为一种“锻造”工具在芯片内部、无需知晓密钥内容的情况下主动地、永久性地增强PUF单元的稳定性。同时他们通过改变PUF数据的生成方式从传统的VDD上电改为VSS下拉让整个系统对另一种常见的老化效应——负偏置温度不稳定性NBTI——变得不敏感。最终他们在130nm CMOS工艺上实现了一个比特错误率低于4.16E-7在极端电压温度角落下未观测到错误、核心能耗仅8.52 fJ/bit的SRAM PUF。这个思路不仅解决了稳定性问题还兼顾了面积、功耗和安全性对于从事芯片安全、低功耗电路设计的工程师来说具有很高的参考价值。下面我就结合自己的经验来详细拆解一下这个设计的精妙之处和实现细节。2. 核心思路拆解为何是“单元内HCI烧入”与“nMOS主导”在深入电路细节之前我们有必要先搞清楚这篇工作解决核心问题的两个支柱性思路安全的单元内HCI烧入和nMOS主导的PUF数据生成。这二者相辅相成共同构成了低BER和高可靠性的基石。2.1 传统稳定化方法的困境与HCI的机遇过去为了降低PUF的BER业界尝试过多种方法但各有各的“坑”暗比特屏蔽通过在不同环境条件下测试找出不稳定的比特单元并将其屏蔽。问题在于为了达到高可靠性往往需要屏蔽掉很大比例的单元有些论文报告超过60%造成了严重的面积浪费。而且屏蔽位图需要存储在片内非易失存储器中又带来了额外的面积和能耗开销。重映射/重配置准备多个配置选择匹配度最好的一个来生成PUF数据。这虽然减少了单元丢弃但需要存储配置信息同样有存储开销并且电路更复杂。需要访问PUF数据的方案一些基于老化如NBTI或反向HCI的加固技术需要先读出PUF的原始数据然后根据数据内容有选择地对特定晶体管施加应力。这个过程必须访问秘密数据无论是片内还是片外操作都增加了密钥泄露或被篡改的风险。热载流子注入HCI本身是CMOS器件可靠性研究中的一个经典问题当MOS管工作在饱和区沟道中的载流子对于nMOS是电子在强纵向电场下获得高能量可能克服硅-二氧化硅界面的势垒注入到栅氧层中并被陷阱捕获。这会导致晶体管的阈值电压Vth发生永久性的漂移通常是升高。在可靠性领域我们要竭力避免HCI但在PUF的语境下这个“缺陷”恰恰可以被利用。设想一个SRAM PUF单元其两个交叉耦合的反相器由于工艺偏差存在微小的Vth失配从而决定了上电后的稳定状态比如Q1 QB0。如果我们能有选择地对其中一个nMOS管比如决定‘0’状态的那个施加HCI应力使其Vth升高那么这个nMOS管的驱动能力就会相对变弱原本微小的失配就会被放大。相当于我们人为地“推了”不稳定的比特一把让它更坚定地倒向某一侧。一旦应力停止这种Vth的改变是基本不可恢复的因此加固效果是永久的。2.2 “安全单元内”的精髓不读不写自我加固传统利用HCI的方法如反向HCI存在一个致命问题为了对目标晶体管施加应力你需要知道当前单元的“黄金数据”即它本应输出的稳定值然后向其写入相反的数据以创造应力条件。这就绕不开“读-改-写”的流程引入了安全风险。本文提出的“安全单元内HCI烧入”方案其革命性在于完全避免了在加固过程中访问PUF数据。它是如何做到的呢关键在于8T SRAM单元中新增的两个开关管PSW1和PSW2以及巧妙的偏置设置。简单来说在HCI烧入模式时电路会施加一个较高的电压VDDH并通过控制信号将内部节点偏置到一种特殊状态。这种状态会自动地、仅对那个需要被弱化的nMOS管根据该单元自身自然形成的初始状态产生饱和高压条件从而诱发HCI。整个过程中外部控制器只需要发出“开始烧入”的指令而完全不需要知道每个单元里存的是1还是0。数据是单元“自我决定”的加固也是“自我执行”的。这从根本上切断了通过加固过程窃取或篡改PUF数据的可能性。2.3 为何要转向“nMOS主导”一石二鸟的策略第二个关键创新是VSS下拉方案实现的nMOS主导PUF数据生成。传统的SRAM PUF采用VDD上电方式此时pMOS和nMOS对数据建立过程的贡献是相当的。但HCI效应主要发生在nMOS管上pMOS的HCI效应通常很弱。如果数据建立由pMOS和nMOS共同决定那么HCI对nMOS的加固效果就会被pMOS的随机性“稀释”导致加固效率低下。VSS下拉方案改变了游戏规则。它先对内部VSS节点、Q和QB节点预充电到VDD然后通过一个放电管将VSS拉低。在这个过程中由于p-well保持接地、n-well接VDD带来的电容耦合和体效应nMOS管的栅源电压Vgs会远高于pMOS管使得数据建立过程几乎完全由两个nMOS管的失配决定pMOS的影响被极大抑制。这样做带来了两大好处提升HCI加固效率既然数据现在几乎只由nMOS失配决定那么我们对nMOS施加HCI进行失配放大效果就是直接且高效的。实验数据对比显示采用VDD上电方案即使经过60分钟HCI烧入最坏情况BER仍有0.74%而采用VSS下拉方案同样时间后所有电压温度角落下均未观测到错误BER 4.16E-7。抑制NBTI老化影响pMOS管是负偏置温度不稳定性NBTI的主要受害者。在长期工作或高温HCI烧入过程中NBTI会导致pMOS的Vth绝对值升高驱动能力下降。如果PUF数据依赖于pMOS这种老化就会引入额外的比特错误风险。现在数据生成由nMOS主导pMOS的影响被边缘化因此整个PUF对NBTI老化变得非常不敏感长期可靠性得到显著提升。总结来说这套组合拳的思路非常清晰用“nMOS主导”确保加固的靶点明确且单一用“安全单元内HCI”实现无需密钥参与的精准“外科手术式”加固最终同时攻克了高错误率和安全风险两大难题。3. 电路设计与实现细节理解了核心思想我们再来看看具体的电路是如何实现这些巧妙构思的。这部分我会结合自己的设计经验对关键电路模块和操作时序进行拆解。3.1 8T SRAM PUF单元与安全HCI烧入机制传统的6T SRAM单元用于PUF时结构简单但缺乏进行内部、自定向HCI操作的能力。本文设计的8T单元在6T核心两个反相器PL1/ND1, PL2/ND2两个访问管NA1, NA2的基础上增加了两个pMOS开关管PSW1和PSW2。这两个管子是实现“单元内”操作的关键。在正常的数据生成和读取模式下PSW1和PSW2是关闭的栅极接高电平VDD电路行为与常规SRAM PUF类似。当需要进入HCI烧入模式时操作序列如下初始状态建立首先进行一次正常的PUF数据生成例如使用VSS下拉方案。每个单元会根据其固有的工艺失配自然稳定到一个状态例如Cell A: Q1, QB0 Cell B: Q0, QB1。这个状态被作为该单元“黄金数据”但这个数据并不需要被读出到片外它只是单元内部的一个稳定状态。进入HCI模式将控制信号VSW设置为0V地并将阵列的供电电压VDD提升到较高的应力电压VDDH文中为3.70V。此时PSW1和PSW2的栅极为低电平它们会导通。自偏置应力形成以黄金数据为Q1, QB0的单元为例。PSW2导通会将QB节点上拉到一个中间电平高于ND1和ND2的Vth。同时由于PL1导通Q节点通过PL1和PSW1被上拉到接近VDDH的高电平。在这个偏置下ND1连接Q和VSS的栅极电压是QB中间电平漏极电压是Q高电平源极是VSS。这满足了Vds Vgs - Vth的条件ND1进入饱和区并承受很高的Vds电压从而发生强烈的HCI效应其Vth会升高。ND2连接QB和VSS的栅极和漏极电压都是QB中间电平Vds ≈ 0处于线性区几乎不受HCI影响。效果ND1的Vth升高意味着它驱动“0”到Q节点的能力变弱。这反而强化了Q1, QB0这个状态。因为原本ND1就比ND2稍弱所以才输出1现在它更弱了状态就更加稳固。对于黄金数据相反的单元应力会施加在另一个nMOS管上原理对称。关键提示这里使用的是正向HCI即应力电流方向与数据建立时的电流方向相同。虽然其单次效应弱于反向HCI但它完美适配了这种“自偏置”的单元内方案且避免了全nMOS操作可能产生的贯通电流降低了功耗。加固效果可以通过延长应力时间文中60分钟来补偿。3.2 VSS下拉电路与nMOS主导机制详解为了实现nMOS主导的数据生成需要改变SRAM阵列的上电/初始化方式。图5展示的VSS下拉电路是整个PUF阵列的共享控制模块。操作波形参考图6与原理预充电阶段放电控制信号DC和预充电控制信号PCB都置为‘0’。此时放电管关闭预充电管导通将全局的内部VSS网络注意不是芯片地GND充电至VDD。同时由于位线预充电等电路图中未画出但实际存在存储节点Q和QB也被预充电至VDD。此时整个核心的反相器对两端电压都是VDD处于一个亚稳态。下拉与数据建立阶段首先关闭PCB置‘1’断开预充电路径。然后开启DC置‘1’导通放电管。内部VSS网络开始从VDD向真正的芯片地GND放电。随着VSS电压下降连接VSS的两个nMOS管ND1, ND2的源极电位降低它们的Vgs逐渐增大。由于工艺失配其中一个nMOS管会先导通得更“猛”一点开始将其连接的存储节点Q或QB更快地拉低。这个微小的差异会被交叉耦合的反相器正反馈迅速放大最终锁定到一个稳定状态。数据读取与擦除数据建立完成后通过访问管NA1, NA2和灵敏放大器读取数据。读取完毕后将DC和PCB重新置‘0’内部VSS网络和存储节点再次被充电至VDDPUF数据被擦除。这种“用后即焚”的特性增强了安全性并且常态下电路不通电有利于降低待机功耗和减缓老化。为何nMOS会主导关键在于体效应和电容耦合。在VSS下拉过程中p-well始终接地n-well接VDD。对于nMOS管其源极S电位即内部VSS不断下降而体B电位是地GND因此源-体电压VSB为负产生反向体效应使得nMOS的阈值电压Vth升高。这增加了nMOS的导通难度延缓了Q/QB节点的放电速度。同时n-well到p-sub的结电容CBDp会耦合电荷试图“拉住”Q和QB节点的电压。这些效应共同导致在数据建立的关键决策时刻nMOS管的栅源电压Vgs显著高于pMOS管的|Vgs|见图8b和图9b的仿真结果从而使得竞争结果几乎完全由两个nMOS管的失配决定。3.3 整体架构与外围电路考虑整个PUF宏单元采用标准的SRAM阵列架构逻辑配置为320字×6位物理排列为80行×24列总计1920位。每320位共享一个VSS下拉电路以平衡控制开销和性能。外围电路的关键设计点VSW驱动器用于控制HCI模式开关管PSW1/PSW2的栅极电压VSW。由于在HCI烧入时阵列电压VDDH高达3.70V而控制信号来自常规电压域如1.2V因此需要使用厚栅氧I/O晶体管来承受高压差并且前端需要电平移位器将低压控制信号转换到高压域。灵敏放大器采用StrongARM锁存型灵敏放大器。这种结构速度快、功耗低且失调电压小适合读取由微弱失配产生的微小信号差。在PUF应用中灵敏放大器的失调电压本身也会引入误差因此其设计需要谨慎优化。可靠性考量在HCI烧入的高压模式下需要关注电迁移、经时介质击穿TDDB和偏置温度不稳定性BTI等副作用。文章通过仿真和实验进行了分析。例如在3.70V电压下最细金属线的电流密度约为5.2E5 A/cm²低于典型的临界电流密度1E6-1E7 A/cm²且烧入在室温进行没有温度加速因此电迁移风险可控。TDDB和BTI的影响则通过nMOS主导的设计和有限的烧入时间到了有效抑制。4. 实测结果分析与工程启示论文提供了详尽的测试数据这些数据不仅验证了设计的有效性也给我们带来了很多工程上的启发。4.1 HCI烧入效果与BER提升实验对多颗芯片进行了测试将阵列上半部分960位进行HCI烧入同时承受HCI和BTI下半部分960位仅施加高电压只承受BTI作为对照。VSS下拉方案的结果图14令人印象深刻烧入前在典型条件25°C, 1.30V下原生BER为2.11%。在最恶劣的VT角落120°C, 1.43V下BER高达5.77%。烧入60分钟后在所有测试条件包括四个极端VT角落下均未观测到任何比特错误。根据测试样本量5颗芯片 * 960位 * 500次读取保守计算BER 4.16E-7。不稳定的比特单元比例也大幅下降。BER与时间关系BER随烧入时间近似呈指数下降且与时间的0.6次方成线性关系在对数坐标下。这与HCI注入载流子数量的经典模型∝ t^0.6相符为预测不同烧入时间下的BER或确定目标BER所需时间提供了理论依据。作为对比VDD上电方案的结果图16则相形见绌即使经过60分钟烧入在最坏角落仍有0.74%的BER不稳定比特比例仍高达7.60%。这直接证明了nMOS主导对于发挥HCI加固效果至关重要。4.2 NBTI抑制与长期可靠性验证为了单独评估BTI主要是NBTI副作用的影响实验测试了仅施加高电压无HCI的阵列下半部分。VSS下拉方案图17BTI引起的BER增加有限且很快饱和最坏情况BER仅增至3.30%。这说明nMOS主导的设计确实有效隔离了pMOS NBTI的影响。VDD上电方案图18BTI导致BER急剧上升最坏情况达到19.33%不稳定比特比例达41.35%。这印证了在传统方案中pMOS NBTI是可靠性的主要威胁。加速老化测试是验证长期稳定性的“金标准”。作者在100°C、2.50V的苛刻条件下加速因子约1130倍对一颗经过60分钟HCI烧入的芯片进行了长达320小时约13.3天的烘烤测试。这相当于约41.26年的正常操作。测试结果显示除了在-20°C/1.43V这个极端角落出现一个边际单元外其他条件下均无错误。该边际单元在经过额外20分钟HCI烧入后即被修复并且在后续测试中保持稳定。这个实验强有力地证明了该设计具有极佳的长期可靠性。4.3 性能与面积评估面积单个PUF单元面积为7.34 µm²在130nm工艺下归一化为434F²。这在采用HCI加固的PUF设计中是最小的之一体现了8T SRAM结构的面积效率。能耗在1.30V电压下数据生成能耗为8.43 fJ/bit核心读取能耗为0.087 fJ/bit总核心能耗仅8.52 fJ/bit。这是对比文献中最低的。低能耗主要得益于VSS下拉方案数据节点仅充放电一次以及避免了贯通电流。随机性与唯一性测试数据显示PUF比特序列的自相关性在95%置信区间内与理论值吻合表明比特间无显著相关性。片内汉明距离重复性分布与片间汉明距离唯一性分布分离明显并且通过了NIST SP 800-22全套随机性测试和SP 800-90B熵源评估测试证明其具有良好的随机性和唯一性。4.4 与现有技术的对比文章在表III中与多项前沿工作进行了全面对比。该设计的核心优势可以归纳为安全性无需在稳定化过程中访问PUF数据消除了密钥泄露风险也无需写入电路。高稳定性实现了低于4.16E-7的极低BER覆盖宽VT范围。高效率无需冗余单元、暗比特屏蔽或片上掩码数据存储有效面积小434F²。低功耗核心能耗领先8.52 fJ/bit。高可靠性通过nMOS主导设计抑制NBTI并通过长达320小时的加速老化实验验证。5. 设计考量、潜在挑战与拓展思考虽然这项设计非常出色但任何工程方案都有其适用边界和值得深入思考的地方。结合我的经验这里谈几点延伸的考量。5.1 工艺节点迁移的挑战这项工作基于130nm CMOS工艺。HCI效应随着工艺尺寸缩小而变得更加显著这看似是个优点。然而在先进工艺节点如28nm, 16/14nm, 7nm以下应用此技术时需要仔细评估几个问题氧化层厚度与电压先进工艺栅氧更薄能够承受的电压更低。文中使用的3.70V HCI应力电压在130nm是可行的但在28nm或更先进节点这个电压很可能超过晶体管的最大额定电压导致立即击穿或TDDB寿命急剧缩短。可能需要降低应力电压但这会延长所需的烧入时间。需要根据工艺的可靠性设计手册DRM重新确定安全的应力条件。晶体管模型与仿真精度HCI效应是强非线性的其模型精度对设计成功至关重要。在先进节点Foundry提供的HCI模型可能不够精确或者根本没有针对这种“有益利用”场景的模型。这会给电路仿真和烧入时间预测带来很大不确定性可能需要进行大量的硅实验来表征。变异性的变化先进工艺下随机掺杂波动等工艺变异特性可能发生变化影响原生PUF的熵质量和稳定性基线需要重新评估。5.2 烧入时间与量产成本60分钟的烧入时间对于实验室原型或小批量生产是可以接受的但对于大规模量产这可能会成为测试成本和时间的一个瓶颈。文中提到可以通过增加承受HCI应力的晶体管宽度来加速老化过程引用[9]指出4倍宽度的晶体管可将所需烧入时间缩短至0.326倍。但这会直接增加单元面积。因此在实际产品中需要在单元面积和测试时间成本之间做出权衡。一个可能的优化方向是仅对通过初步筛选发现不稳定的单元进行局部、有针对性的烧入而不是全阵列统一时长烧入。5.3 安全性的进一步审视“安全单元内”设计确实消除了加固过程中的数据泄露风险但整个PUF系统的安全性还需要从更全面的角度考虑侧信道攻击尽管数据内容不暴露但HCI烧入操作本身施加高电压VDDH、特定的控制信号序列会产生功耗、电磁辐射等侧信道信息。攻击者能否通过分析这些信息来推断PUF的原始状态或加固模式这需要进一步的侧信道分析评估。故障注入攻击在HCI烧入模式下电路工作在异常高压下。攻击者是否可能通过精确控制电压、温度或时序干扰甚至操纵HCI过程从而故意弱化或改变PUF的响应这属于物理攻击的范畴设计时需要加入相应的传感器和防护机制如电压毛刺检测、频率传感器等。建模攻击对于强PUF如仲裁器PUF其挑战-响应对可能被用来训练机器学习模型。本文的8T SRAM PUF属于弱PUF/受控PUF其响应通常不直接对外暴露而是经过哈希后作为密钥因此建模攻击的威胁相对较小。但确保哈希模块和接口的安全同样重要。5.4 系统集成与应用场景在实际芯片中集成该PUF时还需要考虑高压生成与管理需要片上的电荷泵或LDO来产生HCI烧入所需的高压VDDH如3.70V。这个高压生成电路的效率、面积和噪声都需要仔细设计。控制状态机需要一个小型的数字控制单元来管理PUF的整个生命周期上电、数据生成VSS下拉、读取、擦除、以及可选的HCI烧入流程。这个状态机需要设计得足够健壮防止因电源扰动等原因进入错误状态。应用接口PUF生成的原始比特流通常需要经过后处理才能使用包括熵提取去除偏差、模糊提取利用纠错码从可能有噪声的PUF响应中可靠地再生密钥。虽然本文聚焦于将原生BER降到极低减少了纠错码的负担但一个完整的PUF-IP通常需要集成这些处理逻辑。最适合的场景这种高稳定、低功耗的PUF非常适合用于物联网终端设备、智能传感器、可穿戴设备等对成本、功耗和安全性都有严苛要求的场景。它可以作为根密钥用于设备身份认证、安全启动、通信加密等。回过头看这项工作的价值不仅在于提出了一种高性能的PUF电路更在于它展示了一种将可靠性物理效应逆向用于增强安全性的系统性设计思维。它提醒我们在芯片安全领域电路层面的创新往往能与器件物理深度结合产生出人意料的效果。对于有志于深耕硬件安全的设计者来说吃透这类工作的精髓远比单纯复制一个电路更有意义。