飞天5K实战经验:大规模分布式系统运维实践

  • 时间:
  • 浏览:1

传统的运维人员通常只面对几十可能性上百台的服务器,规模不必不必 ,并且 相对应用来说,每台机器总要另一个多多独立节点。但在大规模分布式集群中,工作任务明显不同:首先,运维人员面临的服务器动辄就

2013年,云梯1实现空间优化与跨机房集群扩展,云梯2单集群规模从50台升级到500台,一起去跨集群扩展的5K项目顺利取得阶段性成果,阿里成为第另一个多多独立研发拥有类事大规模通用计算平台的公司。当时,云梯1、云梯2,再再加已上线的生产集群,阿里整体集群规模已超过万台。迄今为止,全球范围内,不到少数几家公司拥有这么 规模的自主知识产权的集群。亲们非常幸运,利于运维和管理这么 大规模的生产集群。但短时间大规模快速膨胀的现状,我我确实也为运维工作带来了巨大的挑战。面对哪几种挑战,亲们不仅好快实现了自动化运维,还进行了数据化管理的转型。