机器学习数据预处理：数据拆分

张

张建站

2026/6/25 20:26:05

10分钟阅读

机器学习数据预处理数据拆分超通俗完整版数据拆分是把数据集分成训练集、验证集、测试集让模型“学、调、考”分开是评估模型真实能力的必做步骤本科/研究生入门必看、面试常考。一、什么是数据拆分为什么必须拆1. 一句话理解把全部数据分成互不重叠的几部分分别用来训练模型、调参、最终打分防止模型“作弊、死记硬背”。2. 不拆分的后果模型在训练集上考100分过拟合遇到新数据一塌糊涂泛化能力差实验结果不可信论文/项目不被认可3. 三大集合职责训练集 Train教模型知识学验证集 Val调参数、选模型练测试集 Test最终考试不许偷看考二、最常用拆分比例简单场景训练 : 测试 8 : 2标准场景训练 : 验证 : 测试 6 : 2 : 2小样本用K折交叉验证三、3种核心拆分方法通俗原理1. Hold-Out 随机拆分最简单直接按比例随机分。优点快、简单缺点运气差时分布不均匀2. 分层拆分 Stratified Split最常用按类别比例拆分保证每类数据分布一致。优点类别不平衡数据必用缺点仅用于分类任务3. K折交叉验证 K-Fold CV最稳把数据分成 K 份轮流当验证集。优点结果稳定、充分利用数据缺点速度慢四、核心概念论文/面试经验误差模型在训练集上的误差泛化误差模型在新数据上的真实误差数据独立同分布训练/测试集要来自同一分布信息泄露严禁用测试集信息参与训练五、完整可运行代码乳腺癌数据集包含随机拆分、分层拆分、K折交叉验证、PCA可视化、模型打分。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_breast_cancerfromsklearn.model_selectionimport(train_test_split,StratifiedKFold)fromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportaccuracy_scorefromsklearn.decompositionimportPCA# # 1. 加载数据# dataload_breast_cancer()Xdata.data ydata.targetprint(数据形状,X.shape)# # 2. 随机拆分 6:2:2# X_temp,X_test,y_temp,y_testtrain_test_split(X,y,test_size0.2,random_state42)X_train,X_val,y_train,y_valtrain_test_split(X_temp,y_temp,test_size0.25,random_state42)print(f训练集{X_train.shape})print(f验证集{X_val.shape})print(f测试集{X_test.shape})# # 3. PCA 可视化分布# pcaPCA(n_components2,random_state42)X_pcapca.fit_transform(X)plt.figure(figsize(12,5))plt.subplot(121)plt.scatter(X_pca[y0,0],X_pca[y0,1],label恶,alpha0.7)plt.scatter(X_pca[y1,0],X_pca[y1,1],label良,alpha0.7)plt.title(全体数据分布)plt.legend()# 训练/验证/测试X_train_pcapca.transform(X_train)X_val_pcapca.transform(X_val)X_test_pcapca.transform(X_test)plt.subplot(122)plt.scatter(X_train_pca[:,0],X_train_pca[:,1],labelTrain,alpha0.7)plt.scatter(X_val_pca[:,0],X_val_pca[:,1],labelVal,alpha0.7)plt.scatter(X_test_pca[:,0],X_test_pca[:,1],labelTest,alpha0.7)plt.title(Train/Val/Test 拆分)plt.legend()plt.show()# # 4. 训练与评估# modelLogisticRegression(max_iter10000,random_state42)model.fit(X_train,y_train)acc_valaccuracy_score(y_val,model.predict(X_val))acc_testaccuracy_score(y_test,model.predict(X_test))print(f验证集准确率{acc_val:.4f})print(f测试集准确率{acc_test:.4f})# # 5. 分层拆分推荐# X_temp_s,X_test_s,y_temp_s,y_test_strain_test_split(X,y,test_size0.2,stratifyy,random_state42)X_train_s,X_val_s,y_train_s,y_val_strain_test_split(X_temp_s,y_temp_s,test_size0.25,stratifyy_temp_s,random_state42)# 训练model_sLogisticRegression(max_iter10000,random_state42)model_s.fit(X_train_s,y_train_s)acc_val_saccuracy_score(y_val_s,model_s.predict(X_val_s))acc_test_saccuracy_score(y_test_s,model_s.predict(X_test_s))print(\n【分层拆分】)print(f验证集{acc_val_s:.4f}测试集{acc_test_s:.4f})# # 6. K折交叉验证# skfStratifiedKFold(n_splits5,shuffleTrue,random_state42)acc_list[]fortrain_idx,val_idxinskf.split(X,y):X_tr,X_vlX[train_idx],X[val_idx]y_tr,y_vly[train_idx],y[val_idx]clfLogisticRegression(max_iter10000)clf.fit(X_tr,y_tr)acc_list.append(accuracy_score(y_vl,clf.predict(X_vl)))print(\n【5折交叉验证】)print(f平均准确率{np.mean(acc_list):.4f})print(f标准差{np.std(acc_list):.4f})plt.boxplot(acc_list)plt.title(5折交叉验证准确率)plt.show()六、各种拆分方法对比一张表看懂方法保持类别比例稳定性速度适用场景随机拆分❌中最快大数据量分层拆分✅中快分类/不平衡数据K折CV❌高慢小样本分层K折CV✅最高较慢小样本不平衡时间序列拆分❌高中时序数据七、使用建议工业界标准分类任务一律用分层拆分数据量小 → 用分层K折数据量大 → 用 8:2 或 6:2:2时序数据不能随机拆必须按时间拆测试集只用一次严禁反复调参八、总结面试速背数据拆分训练验证测试防止过拟合分类优先分层拆分小样本用K折大数据直接分测试集是最终标准绝不参与训练好的拆分比复杂模型更重要

PaddleOCR+LayoutParser实现票据智能解析

当前博文未提及该问题，以下是基于C知道的知识内容为您回答利用PaddleOCR与LayoutParser结合实现票据中的文本识别与版面结构分析，是一个将通用文本识别能力与专业版面理解能力相结合的强大方案。下面我将从技术选型、实现流程、代码示例和优化建议四个方面，为您详细解析这…...

2026/5/24 6:15:22 阅读更多 →

OpenHarmony的watchdog service频繁崩溃问题分析

内核开启 Watchdog1. 找到你的目标板 defconfig根据你的 SOC/板子，在对应的 defconfig 中添加配置。以项目中已有的配置为参考：通用框架（必须开启）：CONFIG_WATCHDOGyCONFIG_WATCHDOG_COREySOC 专用驱动（按实…...

2026/4/27 7:10:02 阅读更多 →

PyTorch 1.10 + torchvision 0.11 踩坑记：`No module named ‘torchvision.models.utils‘` 的三种修复方案

PyTorch 1.10与torchvision 0.11版本兼容性实战：深入解析模型加载API变更与修复策略深度学习框架的版本迭代往往伴随着API的优化与重构，这对开发者而言既是性能提升的机遇，也是需要应对的挑战。最近在PyTorch社区中，许多升级到Py…...

2026/4/25 10:06:01 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/24 22:21:16 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/24 12:43:56 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/25 0:40:48 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/24 12:44:02 阅读更多 →