上海缔塔科技有限公司柳家宁:传统IT运维的变革之旅
9月8日,由上海市国资委指导,上海市国有资产信息中心主办,畅享网提供媒体支持的走进太平洋保险集团——信息化系统运维专场活动沙龙在太平洋保险大厦圆满举行。沙龙活动针对信息化系统运维工作中面临人员成本高、保障效率低、外包服务不满意等诸多问题,以优秀企业成功项目为例,分享经验做法,研讨解决方案。
以下为上海缔塔科技的售前顾问柳家宁演讲的主题为《传统IT运维的变革之旅》,畅享网整理。
大家好,我是上海缔塔科技的售前顾问柳家宁,很高兴今天和大家分享缔塔科技在自动化运维方面的经验和实践。今天分享的主题是传统IT运维的变革之路。最近的两年中,我见证了客户某银行信用卡中心从传统的IT运维发展到自动化运维的历程。
随着互联网技术快速发展,大多数公司都开发了互联网产品。但原有的传统运维方法很难满足在互联网情况下的运维需求。因为很多APP基于大量的PC机,需要用到很多框架。这些框架本身就需要很多运维工作。再加上现有互联网产品的迭代更新都非常快,用户流量会突增突降,这就对运维产生了更高的要求。
我分享一个例子,某银行信用卡之前一直做的很不错,很多新出的应用他们会第一时间进行尝试,同时为了支撑业务开发做了很多应用。这样积累带来的结果是给他们的运维造成了非常大的压力。因为原来运维只需要管几台小型机,管一些存储式的存储就够了,现在则需要管理大量的PC服务器。前几年时,他们的运维没有进化到足以支撑业务的程度,很多还停留在手工运维或者脚本工具程度。当时有CMDB,但是过程中发现,CMDB在经过一段时间的使用后数据变得越来越不准确。以至于到最后他们靠一些Excel文档来维护管理。由于这个系统无法满足业务发展,当时他们的运维部门和业务部门关系很紧张。整个运维团队面临非常大的压力,曾经尝试过多招一些人做运维工作,但效果不好。所以那时候银行找到我们,希望转变现状。我们谈之后决定给他们做一个自动化运维的平台。
自动化运维平台的目标
关于自动化运维平台现在很多公司也在做,每个公司有不同的理解和发展方向。当时结合到银行的实际情况和以往我们做自动化运维平台的经验,我们设定了五个目标。
第一,集中化的配置管理
集中化的配置管理是所有后期的基础,说简单点就是做一个CMDB。我们结合我们的想法对要做的CMDB提出了四点要求。
1、完整。很多CMDB把一些可见的资源已经囊括进去,比如硬件、可见软件。但是一些不可见的资源,比如账号、IP地址、端口号这些没有包含进去。我们要把所有资源都包含进去。
2、准确。这点是目前市面上很多CMDB的软肋。它们刚开始用着挺好的,过一段时间上面的信息越来越不准确。我们分析了很多原因,也做了很多改进。最终是怎样做到准确的呢?主要通过两个点:第一,把所有配置项分得非常细,而且相互之间关联,一个配置项的修改会引发其他的配置项的更新,这样可以长期保持一致性;第二,结合到后面要讲的自动化工具,所有自动化工具在自动作业的同时,探测到新的信息以后反馈到CMDB,保证CMDB保持最新的状态。
3、共享。CMDB管理了太多信息,是整个运维工作的数据库,其他地方也需要这些数据,我们提供共享接口。
4、灵活。很多配置项在一开始的时候就被固定住了。A跟C没有关系,没有办法组成起来。当时我们考虑到将来客户使用的不可见性,所以想能不能把这些配置项通过自有的配置产生新的信息集合。经过我们艰苦的开发,最终通过建模的方式,能够在后期自由匹配关系。从而可以衍生出很多子系统,比如账号系统,这部分在该银行用得非常好。
第二,自动化作业系统
为了减轻运维压力,自动化作业是非常必要的重要目标。我们考虑的时候设定了两个主要目标。
1、高效。我们希望做1台机器和做1000台机器的时间是一样的。
2、简单。目标机器不安装任何客户端,用户通过简单操作就可完成所有的自动化作业过程。
第三,标准化的脚本库
1、方便。缔塔科技准备了一个比较完善的标准化的脚本库,能够覆盖大多数的运维场景。运维人员不需要做事还要编译一个脚本,只要在需要的时候拿来用就可以了。
2、标准。为各种使用场景建立标准化的脚本,减少工作出错的概率。
第四,共担化任务细分
1、编排。关于这点我们有深刻的感受,一个新员工报道需要申请账号、机器安装软件、开通访问权限等一系列事情。如果这些转化到自动运维平台,需要变成四个任务,一个一个去管、去申请,还要区分有些事情优先审批,对我们来说,把这个新员工报道应用场景当做一个工单。通过一个标准化模板,运维人员只要把模板拿过来编写一些数据就开始执行,划分成若干个任务,这若干个任务会自动发送到相应的角色去执行。比如需要人审批,就发到负责的人审批,一旦审批完成就发到下一个任务。这样对运维来说真正能够大幅度降低工作量。后期我们还想结合人工智能,在场景识别的时候做得更加的优化。
2、减压。
第五,动巡检及自愈
1、自动。通过与一体化监控的结合,监控指标与运维作业配对,对异常设备进行自动检查和恢复作业。通过这套系统可以配置一些周期性的作业,开始自动巡检,并生成一个报告,这样可以有效减少工作量。
2、减压。
自动化运维平台构成
我们当时以合作的方式进行这个自动化运维平台开发,最后推出了四个产品。但是最后一个是UI的一部分,通常不是作为一个产品,所以总共是三个相辅相成的产品。
产品一是配置管理系统,速成CMDB 。CMDB管理的逻辑架构和内部很多关系实现是复杂的,但是给用户的是简单灵活的。系统有一个关系历史,用CMDB做配置,如果哪天发现退出了,可以回推到之前任何版本,只要版本有历史记录就行。CMDB的界面有很多视图给大家展示,相应的项在不同视图里面可以看到不同的关系。
产品二是自动化作业平台。自动化作业模块的逻辑架构。做任何作业出发点需要数据,数据的来源来自于CMDB。不仅用CMDB取数据,等到把作业做完了以后,因为作业会新增设备等信息。新增的信息会反馈到CMDB里面,这也是保证CMDB的信息长期正确和一致性的重要手段。我们的运维平台是一个开放式的平台,不是只能通过界面来去做一些操作,通过第三方的方式也可以跟我们相互交互。整个CMDB最中心、最核心的控制模块主要是负责任务调度。可执行的节点部分,是弹性可伸缩的。如果只对一台机器操作,只用一个节点就可以了。如果是对多个机器操作,弹性节点可以增加到几百个,这样保证了时间可以得到有效控制。整个系统结合到一体化的监控,监控到指标的时候可以做故障处理等些动作。以上就是自动化作业的逻辑架构。
自动化作业平台的应用场景:
1、软件系统部署。如果用到自动化作业,这个场景基本上都会用,只要你在菜单里选一个作业,比如Microsoft的软件,点一下就自动装好了,基本上是秒级的完成。
2、重要巡检。很多东西可以设定周期化的巡检,由系统自己完成巡检并且生成报告,分享给其他人。
3、故障处理。这要结合到监控模块,监控模块一旦发现故障选择手动处理或自动处理,一些已知故障可以自动处理。
4、自动发现。在执行自动化作业的时候,同时扫描一些配置、设备信息,而且这些信息最后会反馈到CMDB里面。比如一个硬件如果没有在CMDB注册过,我们发现这个设备的时候,回写到CMDB,并且新增进来,这是自我发现的一个很重要部分。
自动化作业流程:
1、作业定义,你想做什么。2、作业部署。3、选择执行作业设备,比如有100台服务器,将100台的IP选好。4、执行作业。5、数据收集。任务执行完成数据收集。6、发布到端口,就是将数据分享出去,如果其他系统需要这个数据,可以灵活地进行分享。
自动化作业平台六大特征:
1、轻量级。我们通过协议来走,不需要目标机装客户端。
2、简单易用。像我刚才描述的一样,用户只需要在菜单里面操作,安装任务就完成了。
3、功能扩展。我们留了很多接口,通过脚本或者第三方开发,可以进一步扩展系统。
4、多种操作系统。主流的Windows版本我们都支持。
5、高效性能。我们可执行的节点可以弹性审索,这样可以保证脚本可以高效执行。
6、高性能。只要核心架构没有问题,即使部分的执行节点出现问题,也不影响执行的效率。
产品三是运维工单系统
运维工单系统的优势有以下几点:
1、规范流程。在座的各位都来自国资委旗下的公司,我相信你们本身公司的规章制度要求非常严格。以往我们做规范流程的时候,需要通过一些文档化的规定做这个事情。使用这个系统,我们本身流程就是通过工单模本,就像由一个剧本控制,每一步操作都完全符合公司工作流程。而且整个工作由机器执行,所以不会发生流程被改变的情况。
2、提高效率。这个系统模块里,“剧本”已经写好了,完全不需要多方沟通,只要每个人按照角色安排做自己的事情就可以了。所以这样极大地提高了效率。
3、降低风险。我相信很多公司都需要审计各方面的东西,在运维过程中一些不规范的操作导致审批风险以及误操作风险很高。现在是按照“剧本”来操作,不存在人为操作导致的失误。
4、数据一致性。跟自动化作业平台一样,把整个运营过程反馈给CMDB,工单系统在整个运行中一些数据也会反馈给CMDB。这样保证CMDB的数据一直都是最正确的。
以上就是我们做的三个产品,今天时间比较紧,没有办法展示的很详细。举例一个统计数据,某银行信用卡中心,管理5000台服务器。原来是几十人的团队做这个管理,现在只需要一个人管理。给2千台服务器打补丁,原来是需要两人做两个礼拜,现在两个人两天就能完成。服务器交付过去需要三到五天,现在半天就可以做完。我们现在这套系统每年为客户节约了300人的月运维量,大约节省了一个25人的团队工作量。我相信这套系统对于该银行业务的快速发展起到了非常积极的作用。
最后介绍一下缔塔科技有限公司。我们的创始人来自于微软、华为跟惠普,员工素质总体非常高。我们的几块主要业务:第一,核心业务是自动化运维平台,就是刚才介绍的;第二,大数据精准营销跟风控平台,这点在该银行信用卡中心那边也有大规模的应用;第三,系统集成与服务。
最后谢谢大家的聆听!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
让计算更智慧 联想布局AI推动智慧化变革
9月21日,以“联接·想象”为主题的联想创新科技大会(Lenovo TechWorld)济南峰会在济南举行。联想在此次峰会上展示了其在AI领域的战略布局,以及在智能互联时代智慧化的实力。同时,峰会现场,联想与北京大学举行了国内首个高校温水水冷超算平台的交付仪式,为北京大学各学科的科研提供技术支撑。 联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧、联想集团副总裁、首席研究员田日辉等出席了此次峰会。 联想创新科技大会 全新时代变革 智慧计算赋能AI 在人工智能驱动的新时代,“联想的使命是成为这一轮‘由AI驱动的智能变革’ 的推动者和赋能者。”联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧表示。 联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧 联想提出通过“设备+云”、“基础设施+云”两大战略,为人工智能提供从前端到后端的全面支持。尤其在后端的“基础设施+云”战略中,联想将通过打造软件定义数据中心,实现IT基础设施的智能化并提供垂直行业解决方案,助力客户智慧化转型。 联想在人工智能领域的战略布局,得益于在人工智能三大要素ABC——算法(algorithm)、大数据(big ...
- 下一篇
开黑吗?VRstudio推出八人系统的VR线下竞技场
VRcade Arena系统覆盖VR爱好者到重度电竞选手,为每个人带来激动人心的新一代沉浸式户外体验。 玩VR游戏也想和小伙伴们开黑吗?这个愿望可以交给一家名为VRstudio的公司帮你实现。最近,该公司宣布开发出了一款叫做VRcade Arena(VR线下竞技场)系统,适配各种头显、外设和游戏,最多可支持8名玩家同时体验。 据了解,VRstudio是一家来自美国西雅图的公司,前身是VR游戏公司VRcade。该公司致力于改善多人VR体验,目前的产品包括双人VR系统和八人版多人系统。 其中,八人版多人系统VRcade Arena可以给B端用户提供一站式的VR解决方案,主要面向主题公园及游乐园、家庭娱乐中心、电影院和娱乐场所等商业娱乐场所。该公司推出的AMP(Attraction Management Platform,吸引力管理平台)平台会提供内容、用户分析以及第一方、第三方的软硬件集成。这种解决方案给线下的商家带来了便利,避免了四处购买各种设备和内容的麻烦。 VRstudios的创始人兼首席架构师Dave Ruddell表示:“此次发布VRcade Arena系统让我们激动万分,VRc...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS关闭SELinux安全模块
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7设置SWAP分区,小内存服务器的救世主
- Linux系统CentOS6、CentOS7手动修改IP地址
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器