Heretic烧蚀离线环境主要是解决操作过程中从互联网拉取数据集问题使用最终结果各AI模型对这个结果的结论豆包dschatgpt新模型还需要编译安装transformers主要是解决操作过程中从互联网拉取数据集问题项目github地址:https://github.com/p-e-w/heretic使用我在做GLM-4.7-Flash的去审查Unsloth对已量化的GUFF做不了微调所以得自己做一个然后使用Dynamic 2.0 量化环境需求 准备一个安装 PyTorch 2.2 的 Python 3.10 环境安装hereticpip install -U heretic-llm进行烧蚀操作heretic Qwen/Qwen3-4B-Instruct-2507heretic开始前会有检查环境等然后尝试通过网络连接到 Hugging Face Hub (huggingface.co) 下载默认的数据集 (mlabonne/harmless_alpaca 和mlabonne/harmful_behaviors)找个互联网环境进行同样操作把数据集拿下来打包带走直接放到linux的~/.cache/huggingface/下或者从魔塔社区或者hf下载https://www.modelscope.cn/organization/mlabonnehttps://hf-mirror.com/mlabonne下载后命令行指定数据集(未测试可行性)heretic Qwen/Qwen3-4B-Instruct-2507 --good-prompts.dataset 和 --bad-prompts.dataset指向数据集文件夹的路径。离线环境开始进行烧蚀需要强制离线不然还会从互联网拉取不读你拿到的缓存$env:HF_DATASETS_OFFLINE 1 #powershell export HF_DATASETS_OFFLINE1 #linux export HF_DATASETS_OFFLINE1;heretic /data/GLM/200 轮trials优化提前终止无效试验Heretic 有内置的剪枝pruning机制如果某轮的 KL 散度超过 --kl-divergence-target默认 0.01会提前终止。你当前的 0.0129 接近阈值后续可能会有试验被提前终止。AI给的介绍从你的输出可以看到当前进度第 14 轮 / 共 200 轮已完成 7%Elapsed time已用时间 22分钟35s预计剩余时间5 小时GPU 显存占用55.89 GB已分配 73.46 GB预留这 200 轮在做什么Heretic 使用 Optuna贝叶斯优化框架来自动搜索最佳的烧蚀参数组合。每一轮都在尝试不同的参数配置目标是最小化拒绝率让模型少说对不起我不能…控制 KL 散度保持模型原有能力不要改得太离谱当前轮次的参数示例direction_index per layerattn.o_proj.max_weight 1.43 # 注意力输出层的最大权重attn.o_proj.min_weight 0.64 # 注意力输出层的最小权重mlp.down_proj.max_weight 0.97 # MLP 下投影层的最大权重…当前效果KL 散度0.0129 ✅很好远低于目标 0.01说明模型改动很小拒绝率73/100 ⚠️还有 73% 的有害提示被拒绝需要继续优化最终结果200轮跑完不满意加了50轮然后出了13/100,14/100,8/100250轮最后一轮的8/100拒绝率我觉得已经ok了200轮截图250轮的各AI模型对这个结果的结论豆包dschatgpt新模型还需要编译安装transformersGLM4.7-flash和qwen3.6都需要镜像是vllm 0.19.0的环境cdtransformers/ pipinstall.-ihttps://artifactory.xxx.cn/api/pypi/csc-pypi-release/simple