用sharding技术来扩展你的数据库 (二)
摘要:
本部分首先简单介绍sharding系统的基本架构,然后重点介绍sharding机制中常用的三种表数据划分方法。
?
一.? 数据划分算法
?
1. Sharding 系统的基本结构
?
上节我们说到Sharding可以简单定义为将大数据库分布到多个物理节点上的一个分区方案。每个shard都被放置在一个节点上面。Sharding系统是一个shared-nothing的系统,基本上都采用下图中所示的架构。最下面是很多数据库服务器节点,每个节点上面都会运行一个或多个数据库的实例。中间一层叫做查询路由器,客户端的连接都通过它进行转发。查询路由器负责解析用户的查询语句,并将这些语句转发到包含有所需要的数据的shard节点上面去执行。执行的结果也会通过查询路由器进行汇总并发送给相应的客户端。











?
Cons: 每个节点多个区间的做法的缺点是使得对元数据的处理变得复杂,我们需要记录每个节点上面存储的所有区间。但是一般来说,每个节点上面的区间数目不是很大,因此元数据的数目不会很大。这种同时保证了数据的最小迁移,并且实现也比较简单的方案是一个很理想的做法,虽然它的无数据管理和同步上面会有一些问题。
?
另外,区间划分非常适合处理有区间查询的查询语句,但是也带来很大的一个trade-off。如果一个查询需要访问到多条元组,那么对区间的边界的选取就变得非常棘手,如果选择不当的话,很容易造成一个查询需要在多个节点上面进行运行的情况,这种跨节点的操作会对系统的性能进行很大的影响。
?
当然了,对于分区划分来说,对于很多应用还是非常适合的,但是对于某些应用就非常不适合。同样上面介绍的轮流放置和一致性哈希算法也是如此,这些算法只针对某些应用有用,我们需要一些更智能的算法来针对不同的应用选择不同的合适的算法。下一章我们会介绍几个比较智能的sharding方案,这些方案会考虑并分析用户应用的工作流(Workload)、实际数据的特征等等从而从中得到一个比较好的方案出来。