别再只把LDA当降维工具了：用Python手写一个鸢尾花分类器（附完整代码）

张

张建站

2026/5/20 13:00:58

10分钟阅读

从降维到分类用Python实现LDA鸢尾花分类器的实战指南在机器学习领域线性判别分析LDA常被提及为一种经典的降维技术但它的分类能力却鲜少被深入探讨。本文将带你突破传统认知从零开始构建一个基于LDA的鸢尾花分类器完整呈现从理论推导到代码实现的每一个关键步骤。1. LDA分类器的核心原理LDA作为监督学习算法其核心思想是寻找一个投影方向使得同类样本的投影点尽可能接近不同类样本的投影点尽可能远离。与PCA不同LDA考虑了类别信息这使得它在分类任务中具有独特优势。关键数学概念类间散度矩阵(Sb)衡量不同类别之间的分离程度类内散度矩阵(Sw)衡量同一类别内部的紧凑程度投影向量(w)最大化类间散度与类内散度比值的解# 计算类间散度矩阵的Python实现 def between_class_scatter(means, overall_mean, n_samples): Sb np.zeros((means.shape[1], means.shape[1])) for i, mean in enumerate(means): n n_samples[i] mean_diff (mean - overall_mean).reshape(-1, 1) Sb n * np.dot(mean_diff, mean_diff.T) return Sb注意LDA假设各类数据服从高斯分布且共享相同的协方差矩阵这是其与逻辑回归的重要区别2. 数据准备与预处理鸢尾花数据集包含三个类别每个类别50个样本每个样本有4个特征花萼长度花萼宽度花瓣长度花瓣宽度数据标准化步骤加载原始数据集划分训练集和测试集7:3比例对特征进行标准化处理from sklearn.preprocessing import StandardScaler def load_and_preprocess_data(): iris datasets.load_iris() X, y iris.data, iris.target # 划分训练测试集 X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.3, random_state42) # 标准化特征 scaler StandardScaler() X_train scaler.fit_transform(X_train) X_test scaler.transform(X_test) return X_train, X_test, y_train, y_test3. LDA分类器的完整实现我们将LDA分类器实现为一个Python类包含以下核心方法import numpy as np from scipy.stats import multivariate_normal class LDAClassifier: def __init__(self, n_componentsNone): self.n_components n_components self.w None self.class_means None self.shared_cov None def fit(self, X, y): # 计算各类均值 self.class_means [] classes np.unique(y) for c in classes: self.class_means.append(np.mean(X[y c], axis0)) # 计算类内散度矩阵 Sw np.zeros((X.shape[1], X.shape[1])) for c, mean in zip(classes, self.class_means): class_scatter np.cov(X[y c], rowvarFalse) Sw class_scatter # 计算类间散度矩阵 overall_mean np.mean(X, axis0) Sb np.zeros((X.shape[1], X.shape[1])) for c, mean in enumerate(self.class_means): n X[y c].shape[0] mean_diff (mean - overall_mean).reshape(-1, 1) Sb n * np.dot(mean_diff, mean_diff.T) # 求解广义特征值问题 eigvals, eigvecs np.linalg.eig(np.linalg.inv(Sw).dot(Sb)) eigvecs eigvecs[:, np.argsort(eigvals)[::-1]] # 选择前n_components个特征向量 self.w eigvecs[:, :self.n_components] # 计算共享协方差矩阵 self.shared_cov self.w.T Sw self.w / len(X) def predict(self, X): # 投影到低维空间 X_projected X self.w # 计算各类投影后的均值 class_projected_means [] for mean in self.class_means: class_projected_means.append(mean self.w) # 计算后验概率 posteriors [] for mean in class_projected_means: posteriors.append( multivariate_normal.pdf( X_projected, meanmean, covself.shared_cov)) # 返回概率最大的类别 return np.argmax(np.array(posteriors).T, axis1)4. 模型评估与结果分析我们使用准确率、混淆矩阵和分类报告来评估模型性能from sklearn.metrics import classification_report, confusion_matrix def evaluate_model(model, X_test, y_test): y_pred model.predict(X_test) print(分类报告:) print(classification_report(y_test, y_pred)) print(\n混淆矩阵:) print(confusion_matrix(y_test, y_pred)) accuracy np.mean(y_pred y_test) print(f\n准确率: {accuracy:.2f}) return accuracy典型输出结果分类报告: precision recall f1-score support 0 1.00 1.00 1.00 19 1 0.94 0.94 0.94 16 2 0.93 0.93 0.93 15 accuracy 0.96 50 macro avg 0.96 0.96 0.96 50 weighted avg 0.96 0.96 0.96 50 混淆矩阵: [[19 0 0] [ 0 15 1] [ 0 1 14]] 准确率: 0.965. 可视化分析与决策边界理解LDA分类器的决策过程可视化是不可或缺的一环import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap def plot_decision_boundary(model, X, y): # 降维到2D以便可视化 model.n_components 2 model.fit(X, y) X_projected X model.w # 创建网格点 h .02 x_min, x_max X_projected[:, 0].min() - 1, X_projected[:, 0].max() 1 y_min, y_max X_projected[:, 1].min() - 1, X_projected[:, 1].max() 1 xx, yy np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) # 预测每个网格点的类别 Z model.predict(np.c_[xx.ravel(), yy.ravel()]) Z Z.reshape(xx.shape) # 绘制决策边界 plt.figure(figsize(10, 6)) cmap_light ListedColormap([#FFAAAA, #AAFFAA, #AAAAFF]) plt.pcolormesh(xx, yy, Z, cmapcmap_light, alpha0.8) # 绘制数据点 cmap_bold ListedColormap([#FF0000, #00FF00, #0000FF]) plt.scatter(X_projected[:, 0], X_projected[:, 1], cy, cmapcmap_bold, edgecolork, s20) plt.title(LDA决策边界可视化) plt.xlabel(第一判别方向) plt.ylabel(第二判别方向) plt.show()6. 实际应用中的技巧与优化提升LDA分类器性能的实用技巧数据预处理优化异常值处理LDA对异常值敏感使用RobustScaler替代标准标准化特征选择通过方差分析(ANOVA)选择最具判别力的特征模型调优策略正则化当Sw接近奇异时加入小的对角矩阵防止数值不稳定维度选择通过交叉验证选择最优的降维维度# 正则化LDA实现 def regularized_lda(X, y, alpha0.01): # 计算Sw和Sb Sw within_class_scatter(X, y) Sb between_class_scatter(X, y) # 加入正则化项 Sw_reg Sw alpha * np.eye(Sw.shape[0]) # 求解广义特征值问题 eigvals, eigvecs np.linalg.eig(np.linalg.inv(Sw_reg).dot(Sb)) return eigvecs[:, np.argsort(eigvals)[::-1]]与其他算法的对比算法优点缺点适用场景LDA考虑类别信息小样本表现好假设高斯分布和同方差类别区分明显的数据逻辑回归无需分布假设输出概率可能欠拟合复杂数据二分类问题SVM可处理非线性泛化能力强调参复杂计算量大高维数据小样本7. 扩展应用与进阶方向LDA分类器在实际项目中的创新应用多模态生物特征识别结合LDA与深度学习特征多层级LDA分类框架工业缺陷检测系统实时LDA分类流水线增量式LDA更新策略# 增量LDA实现示例 class IncrementalLDA: def partial_fit(self, X_batch, y_batch): # 更新类均值 for c in np.unique(y_batch): if c not in self.classes_: self.classes_.append(c) self.class_means_[c] np.mean(X_batch[y_batch c], axis0) else: n_old self.class_counts_[c] n_new X_batch[y_batch c].shape[0] old_mean self.class_means_[c] new_mean np.mean(X_batch[y_batch c], axis0) self.class_means_[c] (n_old * old_mean n_new * new_mean) / (n_old n_new) # 更新散度矩阵 self._update_scatter_matrices(X_batch, y_batch) # 重新计算投影矩阵 self._compute_projection()在完成这个LDA分类器项目时最令人惊喜的是发现即使简单的线性模型在满足其假设条件的数据上也能达到接近深度学习的性能。特别是在资源受限的环境中这种高效算法展现出巨大优势。一个实际应用中的经验是当特征维度远大于样本量时加入适当的正则化能使模型稳定性显著提升。

为初创公司构建成本可控的AI应用原型选择Taotoken聚合平台

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为初创公司构建成本可控的AI应用原型选择Taotoken聚合平台对于资源有限的初创团队而言，在AI应用的原型验证阶段&#…...

2026/5/20 13:00:21 阅读更多 →

Egg.js企业级应用开发：HackerNews克隆项目完整实现指南 [特殊字符]

Egg.js企业级应用开发：HackerNews克隆项目完整实现指南 🚀 【免费下载链接】examples Store all egg examples in one place 项目地址: https://gitcode.com/gh_mirrors/examples109/examples Egg.js作为阿里巴巴开源的Node.js企业级框架&#xf…...

2026/5/20 12:58:41 阅读更多 →

CTF新手必看：手把手教你用010 Editor修复PNG图片CRC错误（附BJDCTF2020真题实战）

CTF新手必看：手把手教你用010 Editor修复PNG图片CRC错误（附BJDCTF2020真题实战） 当你第一次接触CTF比赛中的Misc方向题目时，遇到一张看似正常却暗藏玄机的PNG图片，往往会感到无从下手。特别是在使用010 Editor等十六进…...

2026/5/20 12:54:50 阅读更多 →

Windows隐藏COM端口清理指南：解决端口号膨胀问题

1. 项目概述：为什么你的COM端口号会“膨胀”到两位数？如果你是一位长期在Windows系统下进行嵌入式开发、单片机调试，或者经常使用USB转串口工具的朋友，大概率遇到过这个令人头疼的现象：设备管理器里的COM端口号&#x…...

2026/5/20 1:33:39 阅读更多 →

Playnite完整指南：高效统一你的跨平台游戏库管理体验

Playnite完整指南：高效统一你的跨平台游戏库管理体验【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: http…...

2026/5/20 1:33:41 阅读更多 →