背景抗生素耐药性已成为当今最紧迫的全球健康挑战之一。由于细菌及其遗传物质在人类、家养动物和外部环境之间不断流动因此需要在“一体化健康”的整个谱系内进行干预和研究。微生物群落内部的动态非常复杂非致病菌可能充当遗传性耐药决定因子的来源或中间载体或者自身虽不耐药却能影响同一群落中耐药细菌的生存成功。鉴于绝大多数细菌物种难以培养不依赖培养的分析方法如宏基因组测序或聚合酶链反应为获得微生物群落中抗生素抗性基因的更全面视图提供了机会远远超出了单个可培养病原体的范围。因此对ARGs性质和丰度的研究如今被用作解决一系列重要问题的基础包括量化耐药病原体的传播风险和途径、理解微生物群落对耐药性的选择压力以及洞悉区域耐药性状况。尽管宏基因组ARG分析潜力巨大但其广泛应用仍面临从技术实现到生物学意义解读的多重障碍。当前许多研究停留在对ARG进行“基因计数”的层面而未能有效地将基因信息转化为对公共卫生风险的可靠评估。本文深入探讨了当前ARG分析在技术和生物学解读两方面的主要局限。在技术层面基于PCR的方法存在假阳性风险和高通量筛选的限制短读长宏基因组学在组装移动基因时易产生嵌合体难以准确还原ARG的遗传环境而长读长测序、Epic-PCR和Hi-C等技术在提升分辨率的同时也带来了生物量需求、成本、分辨率和数据解读复杂度等新挑战。在生物学解读层面ARG丰度的变化可能由群落分类学组成改变驱动而非直接的耐药性选择压力ARG数据库本身的不完整性、归一化策略的选择以及缺乏对突变型抗性的有效检测都影响了分析的准确性。更重要的是对ARG所关联的公共卫生风险的评估严重依赖于对其宿主是否为病原体、所在移动遗传元件的可转移性以及所处生态环境的了解。目前仅凭宏基因组ARG丰度数据进行定量风险评估的根基尚不稳固。因此研究人员呼吁在利用这些强大工具的同时必须充分认识其局限谨慎解读数据避免过度推断并将研究重点转向整合宿主、环境和功能验证的更全面分析框架。群落中ARG分析的技术局限与解决方案数十年来科学家一直通过定量PCR分析废水、土壤和人体微生物群落等复杂样本中的ARGs。PCR可以灵敏地测量单个基因的丰度高通量PCR阵列或多重PCR方法可以并行分析数百个ARGs。然而考虑到已有数百万个预测和鉴定出的ARGs先验定义的PCR阵列可能会忽略许多相关基因。此外PCR本质上对非特异性引物结合敏感导致假阳性和错误定量的高风险。这种风险在处理高度多样化的微生物环境样本如含有许多相似的、可能发生交叉反应的基因序列的废水时变得尤为明显因此需要在真实条件下进行更好的验证。高通量测序允许采用随机的、广泛且深入的鸟枪法策略基本上可以识别任何ARG从而规避了非特异性PCR引物结合的挑战。此类测序技术也为研究任何可识别为ARG的基因铺平了道路只要参考数据库中存在类似基因。由于选择寻找哪些ARGs可以在数据生成后进行测序数据可以重新用于回顾性ARG分析。此外相同的数据支持分类学组成和其他生化功能的研究。尽管更新型测序技术的准确性有所提高但鉴于大多数微生物群落的高度多样性测序深度不足仍然是许多应用中的限制。因此鸟枪法宏基因组学的一个主要剩余挑战是检测和定量除最常出现的ARGs以外的任何基因。另一个与PCR共有的关键局限是将ARGs置于准确的遗传背景中。虽然有大量生物信息学工具可以将测序群落的较短DNA序列组装成更长的、包含ARG的重叠群但当遇到具有流动性、且往往在不同细菌的多种背景中出现的基因或DNA序列包括ARGs时它们通常表现不佳。其根本问题在于测序读长通常无法跨越移动序列的两侧。因此组装过程通常会产生复杂的组装图每个移动序列的上游和下游都有多个序列尽管考虑了覆盖度但确定哪些序列真正相连的可能性非常有限。随着移动元件数量和群落复杂性的增加错误组装的风险也会增加。长读长测序如牛津纳米孔和PacBio有潜力显著减少这个问题。然而基准测试研究表明即使使用高精度长读长下游分析步骤特别是组装和组装后处理也可能成为人为错误的主要来源导致嵌合体、无支持的序列或基因组特征的错误呈现。随着并行化技术平台的发展与Illumina相比因测序深度损失而付出的部分代价也可能得以挽回。一个显著的剩余差异是长读长测序通常需要更高的生物量这有时是一个限制因素。无论读长如何常规测序都无法将质粒与染色体连接起来。由于大多数临床相关的ARGs是质粒携带的因此出现在多个菌株和物种中将ARGs关联到物种甚至菌株通常至关重要。一个组装的耐药质粒与先前在某个物种中报道的质粒匹配并不意味着它在被测序的群落中由同一物种宿主携带。为解决这一挑战两种最常见的方法是Epic-PCR和Hi-C两者都能连接源自同一细胞内部然后一起测序的DNA片段。然而在复杂和动态的微生物群落中基于Hi-C的关联可能难以解读因为高丰度的类群或多拷贝质粒可能产生虚假关联特别是在种群快速更替或病毒捕食率高的系统中。尽管长读长Epic-PCR和更准确的Hi-C数据分箱可能会在一定程度上提高分辨率但下至物种和菌株的灵敏度和分辨率仍然是这两种技术的主要挑战。另一个与背景相关的挑战是群落样本中细胞外DNA的存在。显然游离DNA的进一步传播风险要小得多因为ARGs需要成功的转化并整合到新宿主的基因组中才能繁殖但具体小多少尚不清楚。在测序前需要进行物理分离步骤以从活细胞中存在的遗传物质中去除或单独分析此类DNA。从序列到基因鉴定与数据库挑战在最简单的形式中ARGs是通过将DNA读长与已知或预测的耐药基因数据库通常是CARD、Resfinder或ARGs-OAP进行匹配来鉴定的。仔细考虑数据库的内容至关重要其中可能不仅包括移动ARGs还包括非移动ARGs、染色体耐药突变或针对抗生素以外抗菌剂的耐药基因。公共宏基因组数据正在迅速积累为科学界提供了庞大而重要的资源。然而相关元数据的可用性和质量常常限制了它们的用途。此外与基因组数据库中细菌物种的偏斜类似来自有限环境类型特别是人类、常见家养动物、废水和土壤的宏基因组存在严重的过度代表性。序列存储库中只有一小部分ARGs经过实验证明能提供耐药表型还有许多尚待发现。探索未知的ARGs对于新开发的抗生素尤其有价值。在群落中发现先前未描述的耐药基因有两种常见且原理不同的方法。基于随机DNA片段在细菌宿主中表达的功能宏基因组学允许通过用抗生素筛选转化子来鉴定ARGs。其优点是不依赖于与已知基因的序列相似性但需要在异源宿主中具有功能且通量有限。根据可用基因组和宏基因组数据构建的预测模型通量要高得多。隐马尔可夫模型检测保守序列基序以及最近更常用的深度学习模型自动从基因组数据中提取信息模式都被证明是有用的。最终实验验证对于确认耐药表型、避免对基于序列匹配的过度解读以及有意义地评估与推定ARGs相关的风险仍然至关重要。解读ARG数据的挑战解读宏基因组中的ARG数据涉及技术和更多概念性/生物学挑战。虽然长读长测序在历史上比短读长更容易出错但其准确性正在迅速提高。在ARG分析的背景下将序列与ARG数据库中的序列匹配时应用过于宽松的阈值可能导致将缺乏耐药功能的同源基因的读长错误分配。相反过于严格的阈值可能完全忽略临床上重要的ARG变体。因此阈值需要与特定的基因、数据集和潜在问题仔细对齐。另一个限制是相关的ARGs可能不在所使用的数据库中这再次导致对ARGs的低估。将基因丰度归一化到参考值如总读长或细菌含量至关重要但哪种策略最合适取决于所提出的问题。通常ARG数据是零膨胀的一些统计方法处理不当导致效能大幅降低。尽管如此我们认为最令人担忧的挑战在于生物学解读。群落中相对ARG丰度的增加通常被解释为耐药性选择的证据。然而由于ARGs在物种间分布不均任何分类学变化都可能导致与耐药性选择完全无关的ARG丰度变化。同样在没有可靠地分配到宿主的情况下ARG丰度的增加不能简单地转化为相关耐药病原体传播风险的增加。此外点突变在许多情况下是非常重要的耐药决定因素但与移动ARGs相比在宏基因组数据中准确检测和量化它们要困难得多。通常“抗菌素耐药性风险”的定义是模糊的这影响了对传播风险和不同进化过程的进一步下游理解。由于驱动因素可能不同明确风险类型对于指导潜在的缓解措施至关重要。与简单细菌传播和新型耐药基因型进化/出现相关的风险高度依赖于背景最重要的是细菌宿主物种甚至菌株以及对于耐药性进化而言直接的遗传背景。位于无毒力菌株中的ARG所关联的风险远低于病原体中相同的ARG。临床上重要的ARGs通常位于移动质粒上这给解读带来了额外的挑战。耐药质粒在物种间的快速传播通常在抗生素的选择压力下发生。这意味着不仅当前的细菌宿主对风险评估很重要携带ARG的质粒的潜在宿主范围以及群落中存在的其他非耐药兼容宿主的性质也很重要。为了理解风险需要对微生物群落生态学进行更全面的评估这远远超出了简单的基因计数工作。基于ARG丰度评估传播风险或耐药流行率的模型通常很容易生成。然而鉴于在宿主、遗传背景和传播机会方面普遍存在的不确定性基于ARG而非培养数据的风险排序方案目前根基不稳。这种风险评估方法的一个或许更深刻的局限性是用独立生成的健康风险实证数据对其进行验证是一项真正具有挑战性的工作因此目前缺乏。在没有更好的背景和验证的情况下我们应该谨慎解读从宏基因组ARG数据推断出的风险并避免进行定量评估。将解读限制在“相对风险”可能很诱人但也需要对绝对风险进行合理估计以避免夸大健康影响。我们还应该保持谦逊并承认即使手头有高质量的培养数据将特定环境中的细菌丰度转化为感染风险也往往具有挑战性。讨论新一代测序和群落中的ARG分析增加了我们对耐药性进化和动力学的理解并将在未来几年继续如此。随着更多基因组的可用包括来自那些罕见或难以培养的细菌我们将能够更好地正确解读宏基因组数据。超越长读长测序的方案包括单细胞宏基因组学如果得到进一步发展可能成为未来的游戏规则改变者。尽管如此鉴于现有技术我们需要认识到宏基因组学和ARG分析的局限性特别是在宿主、遗传背景以及推断健康风险的诸多挑战方面。同样重要的是这些局限性必须在可能由ARG分析所告知的政策倡议中得到反映。当前的研究存在一个关键悖论我们拥有前所未有的能力来描述环境中的基因库却缺乏将基因信息与明确的健康结果有效联系起来的框架。许多研究隐含地假设“更多ARGs等于更高风险”但这忽略了耐药性是一种涌现属性取决于基因、宿主和环境之间的相互作用。未来的研究需要更加明确地界定所讨论的“风险”类型例如是现有耐药病原体的传播风险还是新耐药基因型的进化风险或是人类暴露于耐药菌的风险并采用相应的分析策略。这意味着需要更多地整合培养组学、表型筛选和流行病学数据以校准和验证基于宏基因组的风险评估模型。在技术层面提高长读长测序的准确性和可及性开发更强大的单细胞和空间分辨技术以及构建经过充分验证、背景信息丰富的ARG数据库是优先发展方向。在政策层面认识到当前基于宏基因组ARG数据的风险排名的推测性质至关重要应避免仅凭此类数据就制定严格的监管阈值或干预措施。对微生物群落中抗生素抗性基因的分析是一个强大但复杂的工具。它极大地扩展了我们对环境耐药性基因库的认知但技术局限使准确关联基因与宿主、遗传背景变得困难。更重要的是从ARG丰度数据直接推断公共卫生风险存在概念鸿沟因为风险本质上是基因、宿主、移动性、毒力和暴露机会共同作用的结果。因此尽管这些方法对监测和理解耐药性动态不可或缺但研究界必须谨慎解读结果明确承认当前方法的局限性避免对风险进行过度定量推断并致力于发展整合了宿主解析、功能验证和明确风险定义框架的更全面分析方法。只有这样我们才能将宏基因组学从描述性工具真正转化为能够指导有效干预的风险评估工具。