从混淆矩阵到加权F1：用Python一步步拆解多分类模型的好坏

张

张建站

2026/6/3 7:03:11

10分钟阅读

从混淆矩阵到加权F1用Python一步步拆解多分类模型的好坏当你训练完一个新闻分类模型看着输出报告里密密麻麻的准确率、召回率、F1值是不是感觉像在看天书别担心今天我们就用最直白的方式从最基础的混淆矩阵开始手把手带你理解这些指标背后的数学逻辑特别是为什么加权F1Weighted F1在不平衡数据集中如此重要。1. 从三分类案例理解混淆矩阵假设我们有一个简单的三分类问题将文本情感分为正面、中性、负面。模型在测试集上的预测结果如下import numpy as np from sklearn.metrics import confusion_matrix y_true np.array([0, 1, 2, 0, 1, 2, 0, 1, 2]) # 真实标签 y_pred np.array([0, 1, 2, 0, 1, 2, 0, 2, 2]) # 预测标签用confusion_matrix生成混淆矩阵cm confusion_matrix(y_true, y_pred) print(cm)输出结果[[3 0 0] [0 2 1] [0 0 2]]这个3x3矩阵的解读其实很简单行代表真实类别0正面1中性2负面列代表预测类别对角线上的数字表示正确分类的样本数混淆矩阵的四个关键指标TPTrue Positive对角线上的值FPFalse Positive列总和减去TPFNFalse Negative行总和减去TPTNTrue Negative其他所有正确拒绝的样本2. 手动计算各类别指标2.1 查准率Precision查准率回答的是模型预测为A类的样本中有多少真的是A类计算公式Precision TP / (TP FP)对于我们的例子类别03/(300) 1.0类别12/(201) ≈ 0.67类别22/(201) ≈ 0.672.2 召回率Recall召回率回答的是所有真实的A类样本中模型找出了多少计算公式Recall TP / (TP FN)计算各类别类别03/(300) 1.0类别12/(210) ≈ 0.67类别22/(201) ≈ 0.672.3 F1分数F1是查准率和召回率的调和平均数兼顾两者表现F1 2 * (Precision * Recall) / (Precision Recall)各类别F1类别02*(1.0*1.0)/(1.01.0) 1.0类别12*(0.67*0.67)/(0.670.67) ≈ 0.67类别22*(0.67*0.67)/(0.670.67) ≈ 0.673. 宏观 vs 微观 vs 加权F1当我们需要用一个数字来概括多分类模型的整体表现时有三种主要方法平均方法计算方式特点宏观F1各类别F1的简单平均平等对待所有类别微观F1全局TP、FP、FN计算受大类别影响大加权F1按样本量加权的F1平均平衡类别重要性3.1 宏观F1Macro F1直接对各类别F1取平均Macro F1 (F1_class0 F1_class1 F1_class2) / 3 (1.0 0.67 0.67) / 3 ≈ 0.78适用场景当所有类别同等重要时比如医疗诊断中的罕见病检测。3.2 微观F1Micro F1先汇总所有类别的TP、FP、FN再计算总TP 3 2 2 7 总FP (00) (01) (01) 2 总FN (00) (10) (01) 2 Micro Precision 7 / (7 2) ≈ 0.78 Micro Recall 7 / (7 2) ≈ 0.78 Micro F1 2*(0.78*0.78)/(0.780.78) ≈ 0.78特点在平衡数据集中Micro F1 ≈ Accuracy。3.3 加权F1Weighted F1这是最常用的多分类评估指标考虑了类别不平衡计算各类别样本权重类别03个样本类别13个样本类别23个样本本例中各类别样本数相同加权平均Weighted F1 (3*1.0 3*0.67 3*0.67) / 9 ≈ 0.78为什么加权F1最常用自动适应类别不平衡业务上更合理大类别权重高与sklearn默认的averageweighted一致4. 加权F1与平衡准确率的对比平衡准确率Balanced Accuracy是另一个处理不平衡数据的指标Balanced Accuracy (Recall_class0 Recall_class1 Recall_class2) / 3 (1.0 0.67 0.67) / 3 ≈ 0.78关键区别指标计算基础考虑因素适用场景加权F1F1分数查准率和召回率需要平衡精确性和覆盖率平衡准确率召回率各类别检测能力更关注少数类表现实际项目中我通常会同时观察这两个指标。比如在客户流失预测中如果更关注识别高风险客户即使有误报侧重加权F1如果要求平等对待所有客户群体看平衡准确率5. 用Python实现完整评估流程下面是一个完整的评估示例包含我们讨论的所有指标from sklearn.metrics import (precision_score, recall_score, f1_score, balanced_accuracy_score) # 计算各类别指标 print(类别0 - Precision:, precision_score(y_true, y_pred, averageNone)[0]) print(类别1 - Recall:, recall_score(y_true, y_pred, averageNone)[1]) # 计算各种平均F1 print(Macro F1:, f1_score(y_true, y_pred, averagemacro)) print(Micro F1:, f1_score(y_true, y_pred, averagemicro)) print(Weighted F1:, f1_score(y_true, y_pred, averageweighted)) # 平衡准确率 print(Balanced Accuracy:, balanced_accuracy_score(y_true, y_pred))输出解读技巧先看加权F1是否达到业务要求检查各类别F1是否均衡对比平衡准确率与加权F1的差异如果某些类别表现特别差检查数据分布和特征工程6. 处理极端不平衡数据的实战技巧在实际项目中数据往往比我们的例子不平衡得多。比如欺诈检测中正样本可能只有1%某些产品品类占比极低应对策略重采样技术过采样少数类如SMOTE欠采样多数类类别权重调整# 在模型训练时设置class_weight from sklearn.svm import SVC model SVC(class_weightbalanced)阈值调整默认0.5可能不是最优用ROC曲线或PR曲线找到最佳阈值分层抽样from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test train_test_split( X, y, stratifyy, test_size0.2)集成方法对少数类使用boosting算法使用专门处理不平衡数据的算法如RUSBoost在我的一个电商项目中某个品类只有总样本的2%通过组合SMOTE和类别权重最终将该品类的F1从0.3提升到了0.65而整体加权F1保持在0.82以上。