DDIA · 分布式数据系统

需要在多台机器上分布数据的原因：

系统扩展能力

当系统负载增加到需要更强的处理能力时，最简单的办法就是购买更强大的机器（垂直扩展，scale-up）。

共享内存架构（share memory arch）：由一个操作系统管理更多的 CPU、内存和磁盘，通过高速内部总线使每个 CPU 都能访问所有的存储器和磁盘。所有组件的集合可以看作成一个大机器。

当然，共享内存架构的问题也很多：

共享磁盘架构：拥有多台服务器，每台拥有独立的 CPU 和内存，而数据存储在可以共享访问的磁盘阵列上。服务器与磁盘阵列往往通过高速网络连接¹。这种架构适合于数据仓库等负载，但由于资源竞争以及锁开销会限制其扩展能力。

无共享架构（share nothing），也称为水平扩展（scale-out）。在这种架构下，每个节点独立使用本地的 CPU、内存和磁盘资源。节点之间的所有协调通信全部建立在传统网络（以太网）之上，且核心逻辑主要依靠软件来实现。

无共享架构的优势：

分布式无共享架构会给应用程序带来更多的复杂性，有时会限制实际可用的数据模型。只有充分理解了无共享架构，合理设计，也可以将其系统做得性能特别强大。

数据分布机制：

在错综复杂的分布式环境中，到处都是权衡之道（trade-off）。