大型网站技术架构

第1篇概述

大型网站架构演化

大型网站架构演化发展历程

初始阶段的网站架构

小型网站最开始没有太多人访问，只需要一台服务器就可以了。

应用程序、数据库、文件等所有的资源都在一台服务器上。

应用服务和数据服务分离

随着网站业务发展，一台服务器逐渐不能满足需求：越来越多的用户访问导致性能越来越差，越来越多的数据导致存储空间不足。这时需要将应用和数据分离。应用和数据分离后整个网站使用三台服务器：应用服务器、文件服务器和数据库服务器。这三台服务器对硬件资源的要求不同，

应用服务器需要处理大量的业务逻辑，所以需要更强大的CPU；

数据库服务器需要快速磁盘检索和数据缓存，所以需要更快的硬盘和更大的内存；

文件服务器需要存储大量用户上传的文件，所以需要更大的硬盘。

随着用户逐渐增多，数据库压力太大会导致访问延迟，影响整个网站的性能。

使用缓存改善网站性能

网站访问特点也遵循二八定律：80%的业务访问集中在20%的数据上。

淘宝买家浏览的商品集中在少部分成交数多、评价良好的商品上；

百度搜索关键词集中在少部分热门词汇上；

只有经常登录的用户才会发微博、看微博，这部分用户只占总用户数的一小部分。

把数据缓存在内存中可以减少数据库访问的压力

读多写少的情况应该都可以先使用缓存来解决，不管是热门、冷门数据都可以，重点应该是读多写少？

若是写入操作更多，采用缓存的方式需要频繁的更新缓存，如果业务对于一致性有要求，那么需要在更新缓存的方式上做文章，解决一致性的问题；写入操作最终都是要落盘的，即最终一定需要数据库，所以实际上加入缓存并不能很好的缓解数据库的压力。这时候应该要考虑分库分表了。

缓存也分两种：

应用服务器上的本地缓存

访问速度更快，但是内存受限，而且会出现应用程序争用内存的情况
分布式缓存服务器上的远程缓存

可以使用集群的方式，部署大内存的服务器作为专门的缓存服务器，理论上可以做到不受内存容量限制的缓存服务

使用缓存后，数据访问的压力得到缓解，但是单一应用服务器能够处理的请求连接有限，在访问高峰期，应用服务器成为性能瓶颈。

使用应用服务器集群改善网站的并发处理能力

当一台服务器的处理能力不足时，不要企图去换更强大的服务器（对于大型网站而言，不管多强大的服务器都不能满足网站持续增长的业务需求）

更恰当的做法是增加服务器的数量来分担压力

通过负载均衡调度服务器，将用户请求分摊到多台服务器上

当负载均衡调度器也成为瓶颈的时候，就需要通过DNS等进行负载均衡了

数据库读写分离

使用缓存之后，大部分的数据读操作可以不通过数据库完成，但是仍有一部分读（缓存未命中、缓存过期）和全部的写操作需要访问数据库，在网站的用户达到一定规模之后，数据库因为负载压力过高而成为网站的瓶颈。

目前大部分的主流数据库都提供主从热备功能，通过配置两台数据库主从关系，可以将一台数据库服务器上的数据更新同步到另一台服务器上。利用这个功能可以实现数据库读写分离。

应用服务器在写数据的时候，访问主数据库，主数据库将数据同步都从库，应用服务器从从库读取数据。

使用反向代理和CDN加速网站响应

不同地区的用户访问网站时，速度差别还是挺大的，为了有更好的用户体验，需要加速网站访问速度。

主要手段有CDN和反向代理

CDN和反向代理的基本原理都是缓存，区别在于：

CDN：部署在网络提供商的机房，用户在请求网站服务时可以从距离自己最近的网络提供商机房获取数据
反向代理：部署在网站的中心机房，当用户请求到达中心机房后，首先访问的服务器是反向代理服务器，如果反向代理服务器中缓存着用户请求的资源，就将其直接返回给用户。

使用CDN和反向代理的目的在于尽早将数据返回给用户，加快用户访问速度，同时也可以减轻后端服务器的压力。

使用分布式文件系统和分布式数据库系统

分布式数据库是网站数据库拆分的最后手段，只有在单表数据规模非常庞大的时候才使用

更常用的拆分手段是业务分库

使用NoSQL和搜索引擎

网站业务越来越复杂，对数据存储和检索也越来越复杂，这时候需要采用非关系型数据库和非数据库查询技术如搜索引擎（倒排索引，空间换时间）。

业务拆分

大型网站根据业务场景，通过分而治之的手段将整个网站业务分成不同的产品线，分归不同的团队负责

具体到技术上，也会根据产品线划分，将一个网站拆分成许多不同的应用，每个应用单独部署维护。

通过一个超链接建立关系（首页上的导航链接指向不同的地址）
通过消息队列进行数据分发
访问同一个数据存储系统来构成一个关联的完整系统

这部分同下面说的分布式服务的区别在于：仅按业务拆分（拆分成不同的产品线各自独立来开发）会出现许多的冗余，可能每个系统都冗余开发了一套用户管理模块，而分布式服务目的就是为了将这些冗余的业务抽取出来单独部署

分布式服务

业务拆分导致部署维护越来越困难，且存在许多相同的业务操作，如用户管理、商品管理等，可以将这些共用的业务抽取出来独立部署。

网站架构设计误区

企图用技术解决所有问题

典型的例子就是12306

实际上12306崩溃的原因最大的问题还是在于它的业务架构，12306根本就不应该以窗口售票的模式在网上售票（零点开始出售若干天后的车票）。

后来的改进可能更多的是在业务上进行调整：售票方式上引入排队机制、整点售票调整为分时段售票

大型网站架构模式

建筑学中对于模式的定义：

描述了一个在我们周围不断重复发生的问题及问题解决方案的核心。这样，就能一次又一次地使用该方案而不必重复工作

网站架构模式

分层

分层时最常见地一种架构模式，将系统在横向维度上切分成几个部分，每个部分负责一部分相对比较单一的职责，然后通过上层对下层的依赖和调用组成一个完整的系统。

应用层	负责具体业务和视图展示，如网站首页及搜索输入和结果展示
服务层	为应用层提供服务支持，如用户管理服务，购物车服务等
数据层	提供数据存储访问服务，如数据库、缓存、文件、搜索引擎等

是否可以这样理解？

应用层：如前端服务，Vue、React组成的前端项目提供视图展示，具体的数据来源通过Ajax请求后端获取，作为前端项目即可单独部署

服务层：如一个Java-Springboot项目，具体的后端逻辑处理层，暴露接口供前端调用获取数据

数据层：如MySQL、Elasticsearch、Redis等数据存储服务，只做数据存储的功能，具体数据如何使用交给服务层获取后处理

分层架构也有一些挑战，就是必须合理规划层次边界和接口

前后端分离开发中需要对前后端联调的接口进行事先规划，才能更好的并行开发

开发过程中严格遵循分层架构的约束，禁止跨层次调用以及逆向调用