DDIA 分布式数据的分区与复制 - 基于 Redis、Kafka、Elasticsearch 的深入分析
引言
本文基于《Designing Data-Intensive Applications》一书(设计数据密集型应用,简称 DDIA
),深入探讨了 Redis
、Kafka
和 Elasticsearch
等常用组件的分区与复制机制。通过这些案例分析,我们可以更好地理解分布式系统的基本原理和实际应用。
DDIA 复制与分区
复制
复制机制主要由领导者(leader,又称为 master/primary)和追随者(follower,又称为 slave/replica)组成。
根据领导者的数量,复制可以分为以下几种形式:
- 单主复制:最常见的形式。
- 多主复制:常见于多数据中心、离线设备、协同编辑等场景。
- 无主复制:多受 Dynamo 系统启发。
根据复制时的确认机制,复制分为:
- 同步:客户端发起请求,主库和从库都完成变更后才响应。
- 异步:主库完成变更后立即响应,不等待从库。
- 半同步:一主多从,某些从库同步,其他从库异步。
复制的主要挑战在于复制延迟,客户端对从库读有可能读到落后的数据。
分区
分区(partition
或 shard
等)是指将大型数据集划分成若干小部分。
对 key-value 数据的分区方式包括:
- 范围分区:例如开头字母 A-F 为一组,G-N 为一组,其余字母为一组。
- 哈希分区(hash-based):通过哈希算法将 key 打散分布到不同的分区。
分区涉及到次级索引则会更复杂,常见方法有:
- 本地索引:也称为文档分区索引,每个分区只维护自己的次级索引。
- 全局索引:覆盖所有分区数据。
分区的常见问题有负载偏斜(数据分布不均衡)、热点、分区再平衡等。
常用组件分析
Redis
Redis 在集群模式下,总共划分了 2^14 = 16384 个 slot 数据槽,每个节点可以灵活分配多个 slot。数据被分配到哪个 slot 中,由对 key 进行 CRC16 计算后与 16384 取模决定。这是一种典型的 hash-based 算法。
取模运算最大的缺点就是除数(这里是数据槽的个数 16384)不能轻易改变,因为一旦改变则意味着同样的 key 可能会被分配到不同的槽中,由此会带来大量的数据迁移问题,因此 Redis 的 slot 数量被设计成了固定值。
至于分区再平衡的问题,当集群的节点数量发生改变时,Redis 本身并未提供 slot 自动调整的机制,需要用户手动调整或者使用一些第三方工具自动调整。
Redis 的复制提供了主从机制,以节点为单位,从节点同步主节点的数据,复制过程默认是异步的,可以设置多个从节点,并配置以下参数:
min-replicas-to-write
:可以同步数据的最少从节点数,满足时才允许主节点进行写操作。min-replicas-max-lag
:从节点允许的最大同步延迟(以秒为单位)。replica-read-only
:从节点只读,即从节点也可以处理读请求,但是要注意数据延迟导致的一致性问题。
Kafka
Kafka
中的节点叫 broker
,分区叫 partition
。分区的数量设置后只能增加不能减少。将消息分配到具体的分区的策略有:
- 默认轮询
- 基于消息进行 hash
- 自定义策略
复制以 partition
为单位,可以配置一主多从(多个副本),通过 replica.lag.time.max.ms
参数配置副本同步延迟的最大时间窗口,满足条件的副本统称为 ISR
(In-Sync Replicas)。
数据写入受以下影响:
- 消息生产者
acks
参数:- acks 为 0 :不等待 broker 的确认,这意味着消息可能投递不成功,一般不会使用。
- acks 为 1 :等待 leader partition 确认写入即可,不等待 follower 。
- acks 为 all 或者 -1 :必须等待 follower 确认。
min.insync.replicas
参数:配合 acks=all 使用,确认写入的最少ISR
副本数。
Kafka 的 follower partition(从分区)不提供消费能力,只用作冗余备份和故障切换。
Elasticsearch
在 Elasticsearch
中,数据称为 document 文档,分片统称 shard,又细分为 primary shard 主分片和 replica shard 副本分片。
数据默认根据文档 id(也可以配置为文档中的其它值)取哈希,然后与主分片数取模,最后确认文档归属的分片。
只要看到取模运算,就知道分区数不能轻易扩展,没错,ES 里的主分片数是不能修改的。
复制以 shard
为单位,可以配置多个副本分片。副本分片与主分片的数据同步是异步的,可以通过 wait_for_active_shards
参数设置数据写入时需要确认的分片数。副本分片可以处理读请求。
倒排索引
ES 会对文档进行分词后构建倒排索引,此时就涉及到了 DDIA 中描述的分区与次级索引,前文提到有两种构建次级索引的方式:本地索引和全局索引。
ES 使用的是本地索引的方式,即每个 shard 分片内部构建自己的倒排索引。这就引发了另外的问题,当数据分布不均匀时,由于每个分片使用自身的而不是全局的 Term/Document 频率进行相关度打分,因此可能会造成打分偏差,从而影响最终搜索结果的相关性,这种情况就是默认的 search_type
为 query_then_fetch
。而另一种搜索类型 dfs_query_then_fetch
则是先查询每个分片,汇总得到全局的 Term/Document 频率再进行打分,精确度是提高了,但是性能极差,一般也很少使用。
为了解决上述问题,大多会为了性能而容忍偏差,但是通过配置 routing 参数将同样的请求路由到同样的节点(保证同一个用户查询结果一致就行)。
总结
本文通过对 Redis
、Kafka
和 Elasticsearch
三个常用组件的分析,展示了分布式系统中分区和复制机制的设计与实现。
可以看到哈希分区是常见的选择。基于性能和复杂度的权衡,单主异步复制往往是默认配置,但为了提供更高的数据一致性,这些组件也会提供多从复制确认的方案。