补充03:InfluxDB时序库Trace海量数据调优
补充03InfluxDB时序库Trace海量数据调优一、本课学习目标1、区分EAP双数据库分工Oracle存业务、InfluxDB存Trace时序数据彻底理解双库架构。2、掌握InfluxDB写入、存储、分片、过期策略、冷热分层底层原理。3、解决量产致命问题Trace堆积、磁盘爆满、查询超时、工艺参数缺失、IO负载过高。4、精通自动清理脚本、数据压缩、分片调优、索引优化、冷热数据分离实战。5、具备大产能Fab海量Trace长期稳定运维、容量规划、故障预判能力。二、EAP双库核心分工必背Oracle业务库存储批次、报警、设备状态、用户权限、操作日志低数据量、高结构化InfluxDB时序Trace库存储每一秒/每毫秒工艺参数、腔体数据、电压电流、温度压力、Step轨迹超高数据量、高频写入量产核心结论InfluxDB崩 所有工艺Trace丢失、工艺追溯失效、制程稽核挂起。三、InfluxDB量产痛点现状1、刻蚀/薄膜机台每秒数十个参数单日数据量TB级增长2、默认配置无过期清理磁盘快速爆满3、分片策略不合理导致查询极慢、IO打满4、无冷热分层老旧无效数据占用高性能磁盘5、高并发写入导致写入抖动、数据断点、Trace断层四、InfluxDB核心基础原理1、核心概念Measurement测量表、Tag维度、Field参数值、Timestamp时间戳EAP场景设备ID、Lot号、Step号作为Tag工艺参数作为Field2、分片机制ShardInfluxDB按时间分片存储分片周期决定查询性能新Fab大产能2小时分片中小产能4小时分片分片过小→分片过多索引爆炸分片过大→单文件过大查询卡顿五、实战1数据保留策略配置防止磁盘爆满核心Fab标准规范1、生产原始Trace保留7天2、聚合统计数据保留90天3、超期数据自动删除、自动释放磁盘实操命令CREATE RETENTION POLICY eap_7d ON eap_trace DURATION 7d REPLICATION 1 DEFAULT;六、实战2自动清理压缩优化InfluxDB删除数据不会立刻释放空间必须配合Compaction压缩。1、开启自动后台压缩2、关闭冗余索引3、夜间低峰自动执行碎片整理七、实战3冷热数据分层存储大厂标准1、近7天热数据SSD高性能盘支撑实时查询、实时监控2、7天~90天温数据普通SAS盘支撑报表统计3、90天以上冷数据归档压缩离线存储用于稽核复盘八、实战4海量数据查询优化解决报表超时1、禁止跨超大时间范围全量查询2、使用聚合查询mean、max、min、sum降维3、固定Tag索引避免全维度扫描4、拆分大查询为分段查询九、量产高频故障排查1、Trace断层、参数缺失写入抖动、分片超时、网络波动2、磁盘爆满Retention策略未配置、自动清理失效3、页面加载超时未做聚合、全量原始数据查询4、IO负载过高分片策略不合理、压缩任务堆积十、本课核心总结1、InfluxDB是EAP工艺Trace唯一存储载体是工艺追溯、良率分析的核心。2、时序库运维核心过期策略、分片调优、冷热分层、压缩清理、查询降维。3、90%时序库故障源于未配置自动清理、查询不规范、分片参数不合理。十一、课后作业1、为什么时序数据库不能像Oracle一样长期保存全量原始数据2、简述InfluxDB磁盘爆满紧急处理步骤3、Trace报表查询超时从哪三个维度优化