59°

为什么说云计算拼的就是运维?

一.对云计算的定义
云计算其实跟 PC 机有一样的概念,有 CPU、硬盘、操作系统、应用软件。

云计算的计算节点(虚拟机)就是 PC 中的 CPU,数据缓存服务就是 PC 的内存,存储节点就是 PC 的硬盘,提供数据服务,让数据不丢、高可用,PC 中的控制器就是云计算的控制系统。PC 机的硬件上面要有操作系统。

操作系统很大一块是给开发人员提供系统的 API 接口,提供系统监控以看运行情况,并且还要有系统管理——如用户账号的权限管理、备份恢复等等。操作系统上面要有应用软件,这样才能服务于最终用户,应用软件就是真正落地的业务,这样才会有用户;有了用户,整个体系就运转起来了。

无论云计算长成什么样,都得要向用户提供“服务”,而不仅仅是软硬件和各种资源。

二.运维的市场需求
为什么说运维比较复杂,原因有这么几个:

一方面,云计算要用廉价设备取代那些昂贵的解决方案。互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如 EMC、IBM 小型机、SGI 超级计算机等等,如果用它去搭建云计算,成本太贵。运维好廉价的设备其实是云计算工程里最大的挑战。

另一方面,因为机器多了,用的又不是昂贵的硬件,故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说的,你服务的可用性是 3 个 9、4 个 9 还是 5 个 9。

最后,这一大堆机器和设备都放在一起,安全就是一个挑战,一方面是 Security,另一方面是 Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。

面对这样的难题,人是无法搞得定的,只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样,对资源的管理,对网络流量、CPU 利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。

然后,还要找到可用性更好的节点,这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定,有些磁盘的 I/O 会变慢。变慢的原因有可是硬盘不行了,于是硬盘控制器可能因为 CRC 校验出错需要要多读几次,这就好比 TCP 的包传过来,数据出错了,需要重新传。

我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。

三.云帮手实践自动化运维
我们要有有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。


1.以数据为基础,打造自动化运维之根。
数据乃根源,运维自动化的建设均需以数据为基础,做到数据可靠、状态可查、记录可审和界面可视。云帮手日志审计功能,支持各种系统、应用日志数据主动采集汇聚云端,轻松实现可视化运维管理,助力用户洞悉操作细节,辅助排障。

2.以平台为支撑,建设合纵连横管理体系。
平台是载体,所有数据的整合、存储、计算和展示均以各类平台为载体进行呈现。

云帮手以“监、管、控”为主线建设了运维服务和综合监控管理平台,实现了安全、基础资源、运行和监控等方面的标准化管理,做到7*24小时安全巡检和智能监控,实现自检和修复,并能够通过自主设置的告警规则产生告警,帮助用户快速反应处理各种突发情况。

3.以场景为导向,助力业务发展与创新。
场景为导向,只有满足实际业务场景,其数据和平台才有意义,才能真正发挥其价值。

云帮手根据各类业务特点和使用场景,建设了不同的功能模块提供给运维人员使用,如巡检修复、监控告警、环境搭建、站点部署、安全防护、系统管理、日志审计等,提供全方位的运维管理服务,满足不同业务场景需求。

运维自动化建设征程任重而道远,面对复杂的外部环境和快速的业务迭代,云帮手团队会加快自动化、智能化的步伐,从而持续实现从优化到创新的应用价值。

本文由【欢乐马在开源】发布于开源中国,原文链接:https://my.oschina.net/u/4439880/blog/3159991

全部评论: 0

    我有话说: