助睿数智平台 ETL 实验报告 —— 订单数据关联与利润分流处理一、实验概述1.1 实验目的本次实验依托助睿数智Uniplore一站式数据科学实验平台开展 ETL 实操训练旨在达成以下目标熟悉助睿 ETL 数据集成模块的操作界面与核心概念掌握新建团队、项目、转换流的完整流程。熟练运用表输入、记录集连接、字段选择、过滤记录、Microsoft Excel 输出等核心组件。完成订单表与产品表的多表关联、冗余字段清理、按利润条件数据分流理解 ETL抽取 - 转换 - 加载全流程逻辑。1.2 实验环境实验平台助睿数智Uniplore数据集成平台平台地址https://lab.guilian.cn/数据源MySQL 数据库业务库business_anaylsis下的order_detail订单详情表、product产品信息表输出形式Excel 文件盈利订单、亏损订单1.3 实验流程数据抽取使用表输入组件读取订单表与产品表数据。数据关联通过记录集连接实现两表左连接关联。字段清洗使用字段选择组件移除重复 ID 字段。数据分流通过过滤记录按profit 0条件拆分数据。数据输出将结果分别导出为 Excel 文件。二、实验步骤步骤 1登录平台并新建团队与项目登录贵兰在线平台进入实训平台跳转至助睿数智数据集成模块。点击新增团队填写团队名称与描述完成团队创建。在对应团队下点击新建项目命名项目并保存。双击进入项目右键空白处选择新建转换流命名为 “订单利润分流处理仇”完成转换创建。同步元数据步骤 2批量添加组件并完成数据流连线从组件库一次性拖入所有组件2 个表输入重命名订单_详细订单、订单_产品信息重命名右键组件另一个表输入组件做同样的操作1 个记录集连接1 个字段选择重命名移除产品 ID_1 字段重命名1 个过滤记录2 个 Microsoft Excel 输出重命名盈利订单、亏损订单重命名按数据流向完成连线出现“十”单击拖拽就行订单_详细订单、订单_产品信息 → 记录集连接记录集连接 → 移除产品 ID_1 字段移除产品 ID_1 字段 → 过滤记录主输出步骤过滤记录True→ 盈利订单过滤记录False→ 亏损订单全组件添加与完整连线步骤 3配置表输入组件抽取源数据1订单_详细订单配置数据库连接选择线上公共数据源Readonly点击获取 SQL 查询语句选择business_anaylsis.order_detail表确认生成查询语句。2订单_产品信息配置数据库连接同上选择business_anaylsis.product表完成产品数据抽取配置。步骤 4配置记录集连接多表关联第一个 Transform订单_详细订单第二个 Transform订单_产品信息。连接类型LEFT OUTER左连接。点击获取连接字段仅保留订单_详细订单product_id订单_产品信息id右键删除其余多余字段确认完成关联配置。步骤 5配置字段选择组件清理冗余字段双击组件切换至移除标签页。右键获取字段仅保留id字段其余重复字段全部移除。确认保存完成重复 ID 字段清理。步骤 6配置过滤记录组件数据分流发送匹配结果给盈利订单发送不匹配结果给亏损订单。判断字段profit判断条件值0。实现逻辑利润≥0 为盈利订单利润 0 为亏损订单。步骤 7配置 Excel 输出组件结果导出1盈利订单输出配置文件名盈利订单扩展名xlsxExcel 2007 及以上。输出字段右键获取字段完成字段映射。2亏损订单输出配置文件名亏损订单其余配置与盈利订单一致。步骤 8运行转换并查看执行日志先保存当前转换流再点击运行按钮。转换运行环境选择local日志级别选择基本日志点击启动。查看执行日志确认各组件处理正常、无报错、数据条数匹配。三、实验结果3.1 输出结果实验成功生成两个 Excel 文件保存在平台文件库中盈利订单.xlsx存储profit ≥ 0的订单数据共 7977 条。亏损订单.xlsx存储profit 0的订单数据共 2023 条。3.2 结果验证完整性验证订单表 10000 条、产品表 1977 条左连接后输出 10000 条分流总数与原数据一致无丢失、无重复。准确性验证随机抽查 Excel 数据订单号、产品名称、利润等字段与源数据一致关联无错位。分流验证盈利订单利润均≥0亏损订单利润均 0过滤规则完全生效。右键文件并下载四、常见问题与解决方法问题 1记录集连接无数据输出现象两个表输入均有数据但连接后输出为 0 条。原因未正确设置关联字段或保留多余字段导致匹配失败。解决仅保留product_id与id作为关联字段删除其他字段后重新执行。问题 2数据分流结果异常现象盈利与亏损数据分布不符合预期。原因判断字段选错、条件写错或 True/False 输出连线错误。解决重新选择profit字段条件设为0检查并修正连线对应关系。五、实验总结5.1 实验收获通过本次实验我完整掌握助睿 ETL 平台从团队 / 项目创建→组件拖拽连线→分步配置→运行导出的全流程操作理解 Pipeline、Transform、Hops 等核心概念。能够独立完成多表左连接、字段清洗、条件过滤分流等典型 ETL 任务具备基础的数据处理与问题排查能力对商业数据 ETL 流程有了直观且深入的理解。5.2 平台评价助睿数智Uniplore平台可视化拖拽操作简单易用零代码配置降低了 ETL 学习门槛组件丰富、提示清晰、运行日志详细便于快速定位问题非常适合用于教学实验与入门实操能有效帮助学习者掌握数据集成核心技能。六、附录平台名称助睿数智Uniplore数据集成平台实验地址https://lab.guilian.cn/核心组件表输入、记录集连接、字段选择、过滤记录、Excel 输出