探讨数据时代构建高可用数据库的新技术

作者：崔秋，PingCAP联合创始人；来文来自《程序员》，禁止任何未经许可的转载。

近几年，随着移动互联网的发展、云计算的普及和各种新业务的出现，数据呈现爆发式增长，给整个业务系统带来了越来越大的挑战，特别是对于底层数据存储系统。完美的高可用系统，是所有公司最理想的追求。如果只从应用层和缓存层看高可用问题，是比较容易解决的。对于应用层来说，根据业务特点可以很方便地设计成无状态的服务，在大多数互联网公司中，在业务层的最上层使用动态DNS、LVS、HAProxy等负载均衡组件，配合Dockr和Kubrnts实现弹性伸缩，能够很容易实现应用服务的高可用。对于缓存层来说，也有很多可选的开源方案来帮助解决，比如Codis、Twmproxy、RdisClustr等等，如果对缓存数据的一致性和实时性要求不高，这些方案就可以很好解决缓存层面的问题。但对存储层来说，支持高可用非常困难。

在互联网架构中，最底层的核心数据存储一般都会选择关系型数据库，最流行的当属MySQL。大数据时代，大家渐渐发现传统的关系型数据库开始出现一些瓶颈：单机容量不能支撑快速增长的业务需求；高并发的频繁访问经常造成服务的响应超时；主从数据同步带来的数据不一致问题；大数据场景下查询性能大幅波动等等。

当前，数据库方案有了很多不一样的变化。首先，不同于早期的单机型数据库，在当下数据呈现爆发式增长，数据总量也从GB级别跨越到了TB甚至PB级别，远超单机数据库的存储上限，所以只能选择分布式的数据存储方案。其次，随着存储节点的增加，存储节点出问题的可能性也大大提高，光靠人工完全不现实，所以需要数据库层面保证自己高效快速地实现故障迁移。另外，随着存储节点的增加，运维成本也大大增加，对自动化工具也提出了更高要求。最后，新分布式数据库的出现，用户在OLTP数据库基本需求的基础上，对大数据分析查询的业务要求更高，在某种程度上OLTP和OLAP融合的新型数据库会是未来极具潜力的发展方向之一。

什么是高可用

Wikipdia的解释中，高可用即HighAvailability，一般通过SLA（SrvicLvlAgrmnt）来衡量。这里从CAP角度来看待高可用问题。CAP是分布式系统领域一个非常著名的理论，由Brkrly的Brwr提出。该理论认为任何基于网络的分布式系统都具有以下三要素：

数据一致性（Consistnc）：等同于所有节点访问同一份最新的数据副本；

可用性（Availability）：对数据更新具备高可用性；

分区容忍性（Partitiontolranc）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A间做出选择。

三要素不能同时满足。但后来很多人将CAP解读为数据一致性、可用性和分区容忍性最多只能满足两个，这种解读本身存在一定的误导性，原因就在于忽略了特定条件。假想两个节点N1和N2，在某些场景下发生了分区（P）问题，即N1和N2分处分区的两侧。这时对于外部的写操作来说，如果允许任一节点可写的话就相当于选择了A，丧失了C。同样，如果为了满足C，那么写入操作就会失败，A就无法保证，所以存在分区问题时，无法同时保证A和C。虽然分区在局域网中出现的概率相对很低，但却无法避免，所以系统只能在CP和AP之间做出权衡。

当前有很多的NoSQL数据库，在CAP之间选择了AP，比如AmazonDynamo和Cassandra，追求可用性，适当牺牲一致性，只实现最终一致性。这种选择允许短时间的数据不一致，并且可以交由用户自己来处理写入冲突，但是可以随时接受用户的读写请求。在这种场景下就需要特别注意数据不一致引起的各种奇怪问题，对于比较严肃的业务场景，比如订单、支付等，对事务和一致性要求比较高，这种AP类型的系统就不适用了。而且该系统放弃了SQL和ACID事务，给开发人员带来了更多的开发工作和额外的心智负担，很容易出现问题，所以NoSQL数据库牺牲一致性来获取服务的可用性，并没有彻底解决大数据时代数据库的高可用问题。

大数据时代，传统的关系型数据库必然会由单机扩展到分布式，追求数据一致性，所以必然会是一个CP类型的系统，像这种新型的、下一代的分布式关系型数据库，既具有传统单机数据库的SQL支持和ACID事务保证，又有NoSQL数据库的Scal特点，称为NwSQL数据库，包括Googl的Spannr/F1、PingCAP的TiDB等等。但从CAP的角度看，选择CP并不意味着完全放弃了A，CP系统只是在某些产生分区的场景下不能实现%的A，但完全可以通过有效的办法来实现高可用（HA）。由此可见，并不是CP系统就完全放弃了A，只不过在产生分区的场景下无法从理论上保证A，这是一个常见的误解。

澄清了CAP的问题，下面讨论如何打造高可用的数据库。数据库是一个非常大的概念，从传统单机SQL，到NoSQL，再到现在流行的NwSQL，这里面不同的实现方案实在太多，本文聚焦在关系型数据库，主要探讨最流行的MySQL数据库及其生态。最近几年，随着大家在分布式数据库领域的探索，出现了很多不同类型的解决方案，比如中间件/Proxy的方案，典型的比如TDDL、Cobar、Altlas、DRDS、TDSQL、MyCAT、KingShard、Vitss、PhxSQL等，还有一种新型的NwSQL数据库，比如GooglSpannr/F1、Ocanbas、TiDB等。下面看下业界在打造高可用数据库方面新的技术进展，以及和传统方案选型的对比。

消除单点问题

为了实现数据库层面的高可用，必须要消除单点问题（SPOF）。存在单点服务的情况下，一旦单点服务挂掉，整个服务就不可用。消除单点问题最常用的方案就是复制（Rplication），通过数据冗余的方式来实现高可用。

为什么必须要冗余？数据库本身是有状态的，不会像无状态的服务那样挂掉就可以重启，而数据库本身能够保证数据持久化，所以如果没有冗余副本，一旦数据库挂掉，只能等待数据库重启，在这段恢复时间服务完全不可用，高可用就无法保证。但如果有了额外的数据副本，高可用就变得可能了，主要能保证在检测到服务发生问题之后及时做服务切换。

对于MySQL来说，默认复制方式是异步的主从复制方式，虽然这种方案被很多的互联网公司所采用，但实际上这种方案存在一个致命问题——存在丢失数据的风险。数据传输经过网络，这也就意味着存在传输时延，那么对于异步复制来说，主从数据库的数据本身是最终一致性的，所以主库一旦出现了问题，切换从库极有可能会带来数据不一致的风险。

因为异步复制方式存在更大的问题，很多时候大家都会考虑用半同步复制方式Smi-Sync，这种数据复制方式在默认情况下会使用同步的数据复制方式，不过在数据复制压力较大的情况下，就会退化成异步的数据复制方式，所以依然会存在高可用问题。当然，也有人会选用完全同步的方式，但是这种复制方式在并发压力下会有明显的性能问题，所以也不常用。

那有没有一种数据复制方式，能同时保证数据的可靠性和性能？答案是有的，那就是最近业界讨论较多的分布式一致性算法，典型的是Paxos和Raft。简单来说，它们是高度自动化、强一致的复制算法。以Raft为例，Raft中基数个节点组成一个RaftGroup，在一个RaftGroup内，只要满足大多数节点写成功，就认为可以写成功了，比如一个节点的RaftGroup，只要保证RaftLadr和任意一个RaftFollowr写成功就可以了，所以同步写Ladr，异步写两个Followr，只要其中一个返回就可以，相比完全的同步方式，性能要好很多。所以从复制层面来看，Raft更像是一个自适应的同步+异步复制方案，同步和异步的最优选择通过Raft算法来保证。

庆幸的是，业界早已意识到这个问题，从最开始的GalraClustr探索到前段时间

合肥最好的白癜风医院
 白癜风专业医院

转载请注明：http://www.xcqg58.com/jbjj/6993.html

上一篇文章：计算机二级公共基础数据库系统的基

下一篇文章：没有了