【Kafka笔记】(二)核心架构与专属名词解释
一、 五大核心组件1、Broker服务节点Kafka 的服务节点一个 Kafka 集群由多个 Broker 组成。大白话一台 Kafka 服务器就是一个 Broker。2、Topic主题数据的分类通道相当于数据文件夹/数据表。不同业务数据放不同 Topic例如vehicle_data车联网数据、order_log订单数据核心Flink 消费数据本质就是消费某个 Topic 的数据。3、Partition分区—— 重中之重Topic 是逻辑概念分区是物理存储单元。一个 Topic 可以分为多个分区数据均匀分散在不同分区存储分区数决定 Kafka 最大并发消费能力生产铁律Flink 并行度 ≤ Kafka 分区数否则消费能力无法拉满。4、Replica副本分区的备份数据用于高可用、防止数据丢失。Leader 副本负责读写数据Follower 副本只同步备份故障时顶替 Leader5、Offset偏移量—— 最核心分区内每条消息的唯一序号相当于数据的“读取游标”。消费者根据 Offset 记录读到哪了重启任务不会重头读从上次 Offset 继续消费Flink Checkpoint 本质就是保存 Offset 状态二、 生产者 消费者 消费者组1、生产者 Producer负责向 Kafka Topic 发送数据的程序/服务。示例车联网设备、业务服务、日志采集程序。2、消费者 Consumer负责从 Kafka Topic 读取数据的程序。示例Flink 任务、数据同步服务、消息推送服务。3、消费者组 Group ID企业核心多个消费者归为一个组组内核心规则同一个组内一条数据只会被消费一次保证不重复消费不同组之间互不影响可以重复消费同一份数据场景举例Flink 实时计算用一个组日志备份消费用另一个组两份任务独立消费互不干扰三、数据存储与消费机制1、数据存储规则Kafka 数据持久化落盘不是读完就丢默认保留一段时间通常 7天过期自动清理数据有序同一分区内数据有序跨分区无序2、 消费起始位置Flink 高频使用earliest从 Topic 最开始第一条数据从头消费测试用latest从当前最新数据开始消费生产默认3、Offset 提交机制生产重点自动提交简单但容易丢数据、重复数据生产禁用手动提交消费成功再提交Flink Checkpoint 就是手动精准提交生产标准关闭 Kafka 自动提交依赖 Flink 精准 Offset 管理