坚持就是伟大
从2008年敲下第一行“飞天”代码,到2013年8月,阿里巴巴集团正式运营服务器规模达到五千台的飞天5K集群,阿里云计算发展并非一片坦途。那些宕过的机,掉过的线,产品的坑也曾让很多选择阿里云计算的用户伤心离去,同样也上演着相信与坚持的故事。两者都推动了阿里云云计算平台技术的改进和服务水平的完善,而后者更是中国云计算之幸。
博客园的云计算之路
说起博客园,这个创立于2004年,只有四名员工的在线社区却拥有着与其规模完全不相称的影响力――拥有多达50万的注册用户,日均在线人数60万,每日平均PV高达150万,每日更新超过2000篇文章。这个汇集了国内优秀开发者分享编程经验、探讨技术问题的社区在众多开发者心目中有着崇高的地位,称其为国内最具影响力的知识分享社区之一,丝毫不为过。
一方面,为了达成高品质的IT媒体与社区这个目标;另一方面,时逢原有的IT架构已经濒临饱和;博客园的创始人杜勇在与合伙人商议后决定迁移上云。杜勇承认最初的设想是理想化的:上云之后能够有效并低成本地解决单点故障问题,不用再担心服务器硬件故障,不用再操心服务器运维,不用再跑机房……如此一来,有限的人力可以把更多精力投入在自己的核心业务上。博客园对这次事关公司未来发展大计的迁移极为审慎,在经过对阿里云长达半年的关注和实际试用,乃至于实地考察后,博客园最终在2013年3月落户阿里云。
正如一年后的博客园发表的博文《正确的糟糕选择》所想表达的,原本设想的“幸福生活”并没有出现,博客园反而遇到了数不清的问题。要知道,博客园的用户都是专业的开发者,有着深厚的技术背景,任何技术上的瑕疵都难逃他们的法眼;再加上博客园本身有着不同于彼时阿里云客户特质的高流量和并发数,博客园的上云过程充满了各种曲折。“黑色30秒”、“黑色10秒”、“黑色1秒”层出不穷,最极端的时候,还出现过连续三天问题接连不断的恶劣情况。杜勇对阿里云极为不满,他万万没想到看上去唯一靠谱的阿里云也如此不靠谱。事实上,此时的阿里云也没有意识到博客园问题的严重性。彼时的云计算应用尚不广泛,绝大多数客户对于技术并不了解,很多属于客户自身应用的问题也被归咎云计算;另一方面,彼时的阿里云在处理流程和服务质量上还远未达到如今那么完善。按照惯性思维,阿里云首先寻找博客园应用上的不足,其次再寻找自身技术上的问题从逻辑上也无可厚非。只是,这一来二去,迟缓的反应速度和不佳的问题解决已经让博客园和杜勇心焦不已。
尽管专业技术的背景让博客园对于云计算的不足早已有心理准备,但问题的不断涌现还是大大超出了预期。怎么办?或许大多数人会选择放弃云的尝试,回归到沿用多年,知根知底的传统架构。不过,作为国内技术社区的龙头,博客园深知云计算是不可逆转的大势所在,也对自身在云计算应用中的责任和示范作用了然于心。“如果连我们都放弃云计算,我们的用户就更不敢尝试云计算了。我觉得这么多年了,云计算也应该在国内落地了;而且,我相信阿里云不是来忽悠的,一定是脚踏实地,解决所有这些问题。既然我们带头了,就带好这个头,让后面的人少走弯路好了”,杜勇,博客园创始人如是说。“上海连续三天的高温,阿里云却是连续三天的故障!
- 2013年7月23日10:00~11:00,1小时RDS故障;
- 2013年7月23日19:14~19:19,5分钟RDS故障;
- 2013年7月24日18:20~18:50,30分钟SLB故障;
- 2013年7月25日11:37~11:40,3分钟RDS故障;
一个是最前端的服务(SLB),一个是最后端的服务(RDS),而且是阿里云最核心、最有优势的服务,竟然如此不稳定!”本着坚信云计算,公开透明分享的精神,为后来者少走弯路提供经验的宗旨,博客园开始撰写《云计算之路-阿里云上》系列博文,积累至今已有108篇。如上面所见到的,这些博文未加任何修饰,真实客观记录了博客园在阿里云上遇到的各式问题以及相关的解决过程,是中国云计算实践的真实记录。与此同时,这上百篇言辞强烈的博文也让阿里云正视了自身的不足,更为重视对客户需求的关注。“我们感受到了阿里云博大的胸怀,不怕负面影响,反而是正确面对问题,甚至于派来了所有的技术负责人,一定要解决所有问题才会离开。这让我切实感觉到阿里云是真的想把云计算做好”,刚刚获颁2014年阿里云飞天奖(阿里云颁发的最高荣誉,主要表彰为阿里云发展做出特别贡献的人或团队)的杜勇对此深有感触。抱怨、指责和牢骚或许很简单,但如杜勇和博客园一般坚守实在是一种勇气,一种情怀。坚守自己的本份,坚持自己的内心,坚信一个云计算的时代到来,与如此的客户共同进步,成长,对于阿里云来说,也是幸事一桩。
西北山洞里的阿里云计算
在2013年的阿里云计算大会上,阿里巴巴集团CTO王坚博士热情洋溢地介绍了一个特殊的来宾。吴磊,16岁偷改年龄参军,18岁复员,来自大巴山深处的铁路员工。没有一个人能想到这样的履历是如何和高大上的云计算结合在一起的。而就在几个小时前,这位受邀参加云计算大会的年轻人甚至因为担心陷入传销骗局几次拒绝了阿里云员工前往车站接待的提议,选择搭乘出租车前往大会现场----因为出租车方便逃跑。
这样的故事听上去让人哭笑不得,但在了解了吴磊和阿里云的故事后,你却不得不对他肃然起敬。吴磊所在的铁路机务段,位于秦岭-大巴山深处,负责上千公里的铁道养护工作,很多工人一年到头都在外面作业,对这些交通要道进行养护。吴磊的职责则是把部门下达的紧急文件和通知及时传达给每个铁路段的工人们,其中也包括了车次改变和安全通知等重要事项。过去的做法,是在办公室里下载打印文件,再送到这近千公里的铁路段中,读给工人们听。一般要花上两三天的时间,遇到个把不靠谱的班车,不能按时送到也是家常便饭。
直到有一天,吴磊在和懂技术的网友交流后,决定在阿里云平台上搭建一个机修车间文件签收系统。任何会议通知或者工作安排,都可以通过这个系统上传到阿里云的服务器上,给各路段的负责人开通权限后就可以下载下来,直接打印文件送到铁路工人手中。当负责人通过阅读并点击签收按钮之后,会出现“签收完毕”的状态。这样能够一目了然地知道对方接收的情况,既节省了时间,也避免了使用网络通讯工具和邮箱传递的不安全性和繁琐操作。同时,一旦某个地段出现塌方等险情时,铁路工人们就能够通过手机拍照快速将信息回传至阿里云服务器,让不同路段的负责人、总部都能第一时间登陆网站查看。原本无法逾越的空间和时间,就这样被云计算轻松地化解。“我从来不敢想象别人会这样用我们的服务,这些人居然这么认阿里云的服务。”在阿里云年会上,王坚为吴磊颁发飞天奖的时候大为感慨。
让王坚大受触动的不止于此。在吴磊的再三要求下,王坚决定亲赴吴磊的工作现场。崎岖壮美的山川和交通的不便给王坚留下了深刻的印象,巴山铁路人在艰苦环境下仍然能够保证36年安全生产零事故的“巴山精神”更是让王坚唏嘘不已。然而更让他震撼的是,即使在如此偏僻的环境,依然有一个小姑娘、一个小男孩拿着手机,在当地唯一可以上网的火车站蹭网。没有比这更让人相信互联网的力量,捧机蹭网简直就是故事凿壁偷光的互联网翻版。大部分像吴磊一样的普通人们或许无法理解云计算是什么?但他们能体会到云计算实实在在给生活带来的改变是什么。抱怨、指责和牢骚实在很简单,坚守却需要一种勇气,就像杜勇对阿里云的坚守,也如吴磊们对铁路事业的坚守。所谓“坚持的伟大”,莫过于此。
原文链接