NorobotoRust 中字体欺骗来袭法律科技如何应对作者Drew Miller发表于 2026 年 5 月 22 日如果字体向 AI 说谎后果如何法律科技的复杂现状2026 年的现代法律科技栈由开源和专有产品拼凑而成从 Word 到 LibreOffice从 python - docx 和 PDFium 到 tesseract、node.js还有数十个 UI 库。处理的是数十年历史、数万页的书面规范文档。除开源部分还有部分专有实现很多是过去一年借助编码代理工具开发。资深开源项目维护者抱怨规范复杂。若对手利用复杂性和缺陷能否获战术性法律优势作者联系 [LegalQuants](https://legalquants.com) 朋友组建团队解答可在 [这里](https://legalquants.substack.com/p/noroboto - and - legal - techs - mythos - moment) 阅读相关分析和新“红队”任务。Noroboto.ttf字体欺骗手段“noroboto.ttf”这种“lexploit”是创建新的恶意字体定义嵌入文档并欺骗字形的 Unicode 表示。TrueType 字体含轮廓和 cmap将 Unicode 代码点映射到轮廓。Unicode 规范庞大有“私有使用”代码点。“完全混淆”攻击是用 PUA 代码点替换有效 Unicode 编码文字。这些字形在多数图形应用中显示异常如 LibreOffice 对 PUA 代码点会回退到 Wingdings 字体。Noroboto 为 PUA 代码点提供字形度量与被替换字体兼容但底层 Unicode 映射是乱码。因 Word 和 PDF 规范允许嵌入字体对跨平台兼容和渲染重要法律文档中字体度量影响布局和分页页码有法律意义所以一致渲染很关键。Noroboto.py概念验证在 ChatGPT 5.4 帮助下几小时完成完全混淆概念验证。GIF 中左边是用户看到的复制粘贴文本是乱码可在 查看代码。选 Python 为提高可读性但“过于依赖 AI 辅助”效果不佳。早期 1 对 1 映射版本测试时ChatGPT 5.5 以“高难度模式”破解混淆一是将解密视为密码分析练习破解“单字母”密码二是通过读取 TTF 文件恢复字形定义中保留的原始“名称”值。于是采用 [多字母密码](https://en.wikipedia.org/wiki/Polyalphabetic_cipher)更新 noroboto.py 排除“名称”字段加入 4 对 1 映射并随机应用还在四个 PUA 中对字体轻微扰动。虽有局限但让 ChatGPT 简单破解方法失效不过启用“思考”模式的前沿模型仍能破解。可在 查看完全混淆实时演示。在 LegalQuants 文章讨论了 Noroboto 攻击的伦理和法律问题技术上部分混淆和 Unicode 替换更有效。扩展部分混淆和替换智能代理较“懒惰”呈现含可识别 Unicode 代码点文档时会选简单路径。完全混淆在智能模型前失败部分混淆或文本替换能欺骗最好的模型。未发布两种方法代码但提供 DOCX 和 PDF 格式示例文档。部分混淆对法律文档部分混淆可高成功率掩盖不利条款。测试部分混淆示例隐藏了保密协议保密条款适用于“继承人和受让人”事实部分平台对 DOCX 文件给出错误结果。有人认为这是欺诈作者不一定认同。替换“noroboto”替换扩展最有效将字形映射到不同含义的 Unicode 值如将“Maryland”替换为“Delaware”的 Unicode 表示。此过程复杂最坏情况每个被替换字形需新嵌入式字体但长替换攻击中可压缩字体复用。所有测试平台被欺骗出示 DOCX 文件时报告协议适用特拉华州法律多数平台信任 PDF 中 Unicode 值。红队推测智能代理“懒惰”依赖表面有效 Unicode 字符串“懒惰”可能与文档长度有关。Rust 中的概念验证缓解方案在 Tritium 中要信任但也要验证。保留嵌入式字体支持确保布局和分页准确先检查 ASCII 字形通过 [Levenshtein 距离](https://en.wikipedia.org/wiki/Levenshtein_distance) 计算错误率得出 accuracy 值。根据准确性标准生成字体图集提供纯净 OCR 环境非 1.0 的 accuracy 分数表明可能存在欺骗性字体。将图集传递给特定平台的 ocr::Engine 实现2026 年 macOS 和 Windows 系统原生提供相关功能Tritium 利用并为 Linux 系统提供基于模型的方法。生产环境通常不希望每次检查都重新实例化 OCR 引擎但嵌入字体情况不常出现时这样做有意义。简单测试框架确认 Google 的 Noto 字体 ASCII 部分能完美通过 OCR 识别示例 noroboto 变体识别结果不完美。替换攻击至少会导致 OCR 出现一次失败虽不能确定性保证识别攻击。正努力发布简单开源参考实现完成后作为文章更新内容发布期待社区反馈。1. 鉴于 2025 年 5 月 22 日的现有技术项目过程中发现认为对相关主题的保密限制已过期。 2. 有人嘲笑概念验证是“AI 拼凑物”但这是重点现成前沿模型能发现漏洞法律科技“神话时刻”在于利用现成模型可轻松实施攻击。 3. Tritium 中的模型无密码工具也能达同样结果。 4. 攻击对攻击者不一定完全失败迫使对手走出舒适区受害者处理流程失去 DOCX 规范布局信息需自己分割恢复结构可能排除 Word 插件自动编辑建议。 5. 免费版模型可能无法总结混淆文档内容还会虚构内容有模型认为披露方是“Google, Inc.”。 6. 出于数据保护可对数字出版物文本混淆不讨论此问题。 7. 故意省略攻击技术要求避免广泛复制消费级语言模型在很少指导下能实施攻击。 8. 示例有法律后果如更改美元金额人类审查者和大语言模型理解不同。与 Drew 联系在 [**_LinkedIn_**](https://www.linkedin.com/in/tritium - drew - miller/) 或 [**_X_**](https://x.com/urandomd) 上关注作者获取法律技术和法律实践创新见解。 [许可协议](/license) | [隐私政策](/privacy) | [反馈](/feedback) (c) 2026 Tritium Legal Technologies Limited