本篇文章6021字,读完约15分钟
1999年阿里创立之初,创始人“十八罗汉”身上就有许多技术基因。据公开消息,创始人之一武勇明于1996年毕业于浙江工业大学计算机系,后来成为支付宝的技术总监。盛亦菲拥有多年的用户体验设计经验。爪哇建筑师周技术娴熟,据说是个极客。
随着Taobao.com的建立,阿里在2003年开始与ibm合作,解决用户、商品和消费信息分散的问题。那时,阿里已经从十几个人的小公司扩展了许多新业务,技术系统变得庞大而复杂。2007年,阿里在it领域投入巨资,一度成为ibm和甲骨文等外国it厂商在中国的基准用户。当年,阿里首席数据库管理员冯春培甚至受到甲骨文亚太区高级副总裁布赖恩·米切尔的亲切接待,并被授予甲骨文第100届ACE(Oracle ACE是指通过写书、写文章或写博客分享甲骨文经验的技术专家)。
但事实上,这种甜蜜的合作关系并没有持续多久。
2008年前后,阿里业务的快速发展使得现有it设备的使用达到瓶颈。支付宝当时的数据库架构师、丁香园的首席技术官冯大辉表示:“在阿里的it架构中,淘宝和支付宝拥有大量的ibm小型机和oracle数据库,以及emc和戴尔存储设备。”用户越来越多,用户生成的数据也越来越多。cpu(中央处理器)应该在每天早上8: 00到9: 30之间保持98%的利用率。”ibm小型机的价格从几十万到几百万人民币不等,与甲骨文公司签订的数据库软件的成本高达几千万。随着大量的软硬件支付和大量的维护费用,阿里的技术发展进入了一个压力巨大的时期。
在紧急情况下,阿里正在寻找一名技术主管,为庞大而复杂的业务建立一个全新的技术架构,并建立世界顶尖的it团队。在2008年的内部会议上,阿里确定了两个重要的新战略:“数据”和“云计算”。
时任阿里巴巴首席建筑师的王建宙成为了接受这一挑战的最佳人选。
“去爱”的想法产生了
在加入阿里巴巴之前,王健是微软亚洲研究院的执行副总裁;在此之前,他是浙江大学的教授和心理学系主任。加入阿里后,王健立即开始了第一项重要工作——规划集团的年度it预算。他反复思考,发现了一个重要的问题:即使有巨大的额外it投资,阿里购买的硬件和软件也可能无法满足其业务的快速增长。
“双十一”活动需要巨大的it计算资源,因此很难预测业务爆炸点所需计算资源的峰值。但是,在高峰期过后,空的it资源将会被浪费。为阿里提供软件和硬件服务的供应商从未遇到过这些真正的问题。ibm、甲骨文和他们的客户无法为阿里it提供任何经验。其次,整个它就像一个黑匣子。一旦出现技术故障,阿里的技术团队将呼叫制造商,等待事故得到处理。此外,高端存储设备的性能数据由制造商控制,而阿里自己的技术团队没有多少控制权。技术维护变得极其繁琐,支持业务的效率大大降低。
在地球的另一边,谷歌和亚马逊是两个很好的例子,它们与阿里的业务相似,值得学习。谷歌是世界上为数不多的能够拥有大规模分布式架构技术的互联网公司之一,亚马逊是第一家为自己的云计算技术提供服务并实现收入的公司。
在一次预算讨论中,阿里巴巴集团技术支持副总裁和阿里技术安全部dba主管周意外地提到:“阿里应该尝试用pc技术取代小型机技术。”听到这句话,王健突然激动起来:“既然我们已经想到了这个问题,为什么不郑重地写下来呢?很明显,阿里再也不会买小型机了。”
“ioe removal”(从it设备中移除ibm小型计算机、oracle数据库和emc存储)得名。
在2009年至2013年的整个“ioe移除”过程中,阿里的技术发展战略逐渐从“商业软件”和“开源软件”发展到由独立技术和云计算组成的综合技术服务能力。廉价的商品pc取代了过去昂贵的硬件设备,淘宝、支付宝等重要业务将旧的“ioe”集中式架构转变为分布式架构,这是将it背景迁移到云计算平台的基础工作。
在“走向ioe”的过程中,阿里的技术团队也完成了成熟的转型,为阿里提供云服务奠定了基础。在王建来到阿里之前,阿里的业务技术后台是独立运作的。整合阿里运维团队、平台技术部、大淘宝运维团队、云计算运维团队,建立集团统一的it技术支持部。阿里的子业务模式非常不同,it工具和价值观也完全不同,因此统一团队经历了巨大的技术和组织挑战。这项工作实际上为阿里巴巴云在后期向外界提供服务打下了良好的基础。阿里后期推出的“巨石塔”和“聚宝盆”业务,离不开这支在“走出去”过程中训练出来的团队。
除了团队,技术人员也面临着个人转型。王建多次说过:“最难去爱的人是人。每次我们改变技术,我们都是在自杀。如果当时没有勇气让同事们敢于尝试,阿里的技术问题可能不会通过。“曾经有一个淘宝数据库管理员,他对业务非常熟练和熟悉。在“去ioe”的过程中,他从oracle数据库技术转向mysql数据库,最后去研究和开发阿里自己的技术海洋数据库。
技术的重新选择使阿里最有价值的技术人才随时面临技术突然无用的局面。曾参与ibm小型机器离线项目的技术人员卢·方鑫(Lou)曾经说过:“移除一两个系统的ioe并不是最困难的,也不能代表成功;关键是要通过‘去ioe’来提高和锻炼团队的能力,并协调好好运团队和开发团队之间的工作。”
再见,小机器!
淘宝是最早实施“去外包”战略的业务部门之一。“去淘宝”之所以能从淘宝开始,是因为淘宝拥有阿里最大的甲骨文数据库,成本和技术压力最大。
淘宝技术专家俞峰曾经说过:虽然甲骨文数据库的性能是稳定的,但对于淘宝来说,甲骨文数据库本身已经不能满足业务需求。淘宝的数据库专家已经逐渐从it前端过渡到后端,弱化了oracle数据库,并将“oracle数据库+ibm小型机+emc存储设备”转变为“mysql数据库+pc服务器模式”。截至2013年7月10日,淘宝最重要的广告系统的所有甲骨文数据库都处于离线状态。
2013年5月17日,支付宝下线后,阿里集团的最后一台ibm小机器吸引了越来越多的关注。
在“去爱”的过程中,支付宝的总设计师李成也有自己的难处。支付宝拥有阿里最后一台ibm小型机器,管理支付宝用户的所有资金。如果这台小机器坏了,用户将无法支付,甚至看不到他们的账户里有多少钱,后果将不堪设想。因此,对这台小机器的任何改动都必须万无一失。
淘汰Alipay ibm小型机的第二个困难是,淘汰小型机的前提是实现技术架构的分布,为Alipay it迁移到云平台打下基础。然而,在将技术架构从集中式改为分布式后,很难确保强一致性。例如,如果客户A向客户B转账一笔钱,就不会发生A的钱被扣除,但B的钱不增加的情况。如何保证分布式系统中事务处理的一致性是一个需要克服的技术问题。
李成告诉《商业价值》的记者:“当王健博士梳理阿里的整个技术架构时,支付宝曾经是他走向ioe的最大障碍。”我们必须保证每天都有大量的钱被处理掉,一分钱不会错,一分也不会差。“出于谨慎,程的团队移除了支付宝系统中的所有其他ibm小型机,并保留了这台小型机管理的最重要的账户资金。”
回到2012年“双十一”的清晨,许多消费者不停地点击支付按钮,但他们经常看到支付宝的排队页面。消费者认为支付宝系统已经崩溃。事实上,当时由于支付宝仅存的小型机器承载能力有限,在交易高峰期,系统只能对来不及处理的请求进行排队,这种排队造成的延迟造成了巨大的用户体验障碍。
在经历了“双十一”的痛苦经历后,李成终于下定决心要摆脱这最后一台小机器。最后,支付宝技术团队设计了一个基于互联网技术的分布式交易处理方案,并通过一个完美的项目执行移除了支付宝和阿里最后的ibm小机器。
2013年的双十一是李成经历过的最简单的“大促销”,他不再担心任何技术节点会限制业务发展。
超级计算机
当阿里准备“去ioe”的时候,另一项重要的技术研发也在同时进行。2008年10月24日,天妃·R&D开始了。什么是“飞行”?天妃是阿里的大规模分布式系统,几乎相当于阿里巴巴云的整个技术系统。
科技网站blog park生动地描述了天妃的分布式技术:当你只有六七条鱼时,一个小鱼缸就足够了;然而,一段时间后,30多条小鱼出生了,这显然是不够大。如果你买了一个大桶,把所有的水草、风景、加热棒和温度计从大桶里拿出来,重新放入大桶。这个项目需要很多时间,尤其是水生植物,很难分离。分布式系统可以帮助您将一个相同的小圆柱体连接到这个小圆柱体旁边,并且两个圆柱体是相连的。鱼可以自动分散到两个鱼缸中。帮助您克服复杂的系统扩展过程,节省大量时间和设备成本。
阿里的旧“ioe”架构本质上代表了基于传统高端设备、大型数据库和其他硬件和软件的集中式架构。陈旧而集中的技术无法应对阿里爆炸性的业务增长。如果it系统出了问题,整个架构都将处于危险之中。天妃是一个分布式系统,它将大量的通用服务器集中在一个系统中,这个系统比单一的大型集中式系统运行得更快。此外,计算能力分布在许多机器上,单个节点的故障只会影响一台机器,而其他机器可以照常工作。
2013年3月,阿里技术安全部突然给公司最高管理层发了一封信:“梯子1要撞到墙上了!”梯形1是阿里的另一个基于hadoop的分布式集群系统。安全部门的员工发现,根据现有的数据增量和未来的业务增长,阿里的存储和计算能力将在3个月内达到瓶颈,而数据业务正面临停滞,因此天妃系统必须快速扩展。
天妃的迅速扩张需要克服许多困难。在中国,拥有大规模分布式系统经验的人不多,阿里的技术团队中只有少数人做过或使用过分布式系统。因此,整个研发过程是一个探索和学习的过程。只有当他们遇到实际问题时,团队才会理解工程问题。
其次,在设计系统时,工程师将设置相应的工作场景和硬件环境的完整性。然而,在实际生产环境中,各种硬件环境和参数配置往往会打破设计假设,因此它们总是会遇到各种问题。解决这些问题所积累的经验显然不是教科书中可以学到的理论。这台超大型计算机也有其自身的弱点,它的可用性和可靠性远远高于单台服务器,从而确保服务永远不会中断,数据永远不会丢失。
经过四个月的不懈努力,天妃高级技术总监唐红及其团队成功部署了5000个天妃集群。阿里成为中国第一家拥有5000台单集群规模的公司。在此之前,世界上只有谷歌和facebook这样的顶级公司可以按照5000台机器来划分集群规模。
天妃能做什么?用唐红的话来说:“它有一个100兆字节的硬盘,可以存储数百亿个网页;它可以为成千上万的用户提供每人数百G的存储空间;或者,如果您有一台拥有超过10,000个内核的超级计算机,一台普通计算机需要在一个月内完成的渲染工作在这台计算机上只需几分钟即可完成。”
“双十一”云准备
随着“去ioe”和“天妃5k”技术的成功,阿里巴巴集团的所有重量级业务都转移到了云计算平台。
大数据研发“巨石塔”、“聚宝盆”、“阿里金融”和优诺斯智能移动操作系统等。,都运行在阿里云菲平台上。淘宝、支付宝等业务部门的底层技术也在天妃平台上搭建。基于云计算,阿里金融可以在几分钟内发放贷款,每天处理数百万亿字节的交易数据,并确保每笔贷款的计算成本相同。淘宝还推出了基于阿里巴巴云的电子商务云——巨石塔,为“双十一”服务。阿里巴巴云推出了电子商务云——巨石塔,为“双十一”服务。在2012年的“双十一”中,阿里巴巴云通过居士大厦支撑了天猫20%的交易量,这一数字在2013年升至75%。
在2013年“双十一”大战的三周前,天猫的技术总监庄卓然被告知,他将在升职后调到无线事业部。对他来说,为期三年的“双十一”准备工作圆满结束,并将迎接新的挑战。2013年,阿里第五次“双十一”期间,天猫和淘宝每天的营业额达到362亿元(根据招股说明书中的数据),网站的pv超过100亿元,76%的业务处理工作都是在巨石大厦的云计算平台上完成的,没有出现漏单或失败的情况。支付宝成功支付了1.88亿笔交易,每2分钟最多支付79万笔交易。用庄卓然的话说:“在疯狂的商业数据背后,是阿里技术团队的整体阅兵。”这次阅兵测试了阿里的“去爱”和云计算的成就。
在为“双十一”做了三年的准备之后,庄卓然每年都重复着一个高效的工作计划。5月底,投入产品和技术准备。规划新的突破点,同时启动创造力,并投资一些长期的R&D工作。八月底,真正的考验来了,冲刺的时候,他习惯性地每天晚上直到两点才睡着。有时候,当你想到一些技术问题,觉得有了突破,当你睁开眼睛的时候,已经是黎明了。庄卓然将自己的工作状态描述为“精神分裂症”。他的左脑在思考系统的稳定性构造,而右脑在不停地寻找当前系统的生命之门和瓶颈。每次晋升都是对团队技术能力的考验。
在2011年和2012年“双十一”前夕,庄卓然和技术团队都非常不靠谱。尽管所有的技术准备都已经做好,但面对“双十一”的巨大意外流量,他们只能尽力保证一个完美的技术机制。“双十一”最大的困难是一旦高峰流量被压下,系统将能够承受数百万人同时在线和每秒数亿笔交易。
淘宝和天猫的技术系统非常复杂。每笔交易都涉及许多系统的处理能力,如银行、商家、淘宝本身和网络。在逐层传递交易信息的过程中,如果某个技术细节没有正确实现,交易可能会失败。例如,当用户数量达到一定水平时,系统会让用户排队。如果此功能失败,一系列上游和下游系统将受到影响。淘宝网上成千上万的机器和成千上万的应用系统错综复杂,很难模拟所有的用户行为,例如,1000万人同时在线,同时下订单。2013年,庄卓然对“双十一”技术的决心和把握,部分是由于该技术团队能够在短时间内聚集大量虚拟用户进行压力测试;另一部分是淘宝天猫后台和后台的大多数商家都去了云端。
淘宝和天猫上有近1000万商家,其中大多数都有自己的erp系统。消费者需要点击购买某样东西,然后付钱。这一行动将指向两条it路径:第一,连接支付宝以确保有足够的资金来完成支付;另一种是进入卖方的erp,卖方需要知道他是否有库存并减少相应的货物数量。在将淘宝或天猫的交易链接到卖家的后台系统的过程中,如果卖家的it系统薄弱,数据交换可能会因为网络不畅等原因而失败。
庄卓然详细解释了这一过程:“巨石大厦提供的云推功能,将交易订单第一时间部署到商家的erp、物流和crm软件中,提供动态灵活的扩展和安全保障。消费者下订单交付和发票打印,所有信息流都在云上完成。”
云生态系统
巨石塔只是阿里巴巴云应用的一个方面,阿里的商业生态系统已经成型。
王建曾经说过:“阿里巴巴云平台的内部代码是天妃。一个平台的力量有多大,能创造出多大的东西。这就是为什么阿里巴巴云在过去花了这么多精力来飞行。”天妃通过web api提供计算、存储和大规模数据处理等云计算服务,并建立了一个庞大的云计算生态系统。
互联网将成为未来的果园,各行各业都像果树。如何为果树提供良好的营养服务决定了果园的生态丰富度。云计算是引领传统产业走向互联网的引擎。数据将成为云生态系统中的生产手段。通过强大的计算能力进行实时分析和交互可以催生无数新的商业模式。
根据阿里刚才提交的招股说明书,从2013年1月到9月,阿里巴巴云的计算服务收入达到5.6亿元人民币,占总收入的1.4%,同比增长15.7%,已经拥有98万用户。阿里巴巴云迅速将阿里与消费电子、公共卫生、能源管理、媒体、电子商务、电子政务、移动互联网等不同行业的企业联系起来。阿里巴巴云的客户包括传统互联网公司和移动互联网公司,如移动游戏公司;也有一些传统企业,如杭州久阳有限公司,其it正在逐步向云迁移。例如,2013年,阿里与美的集团的深度合作是基于天猫商城、大数据和阿里巴巴云计算平台的多维合作,使传统企业能够通过云和数据进一步与互联网耦合。
阿里巴巴云也在帮助更多传统企业与isv合作伙伴一起走向云计算。2013年,东软将其软件产品如saca和unieap部署在阿里巴巴云上;浦源推出了基于阿里巴巴云的eos云平台,直接支持企业软件在云上的开发。这些isv厂商已经积累了大量的传统企业用户,这种深入的合作促使一批传统企业走向云计算。2014年5月8日,阿里巴巴云宣布香港数据中心正式投入使用。阿里巴巴云正在与亚马逊aws、微软azure竞争,阿里的云生态系统部署已经扩展到了国外。阿里巴巴云业务总经理陈今佩表示:“所有行业竞争都是生态系统的竞争。你要么依靠生态系统,要么自己发展生态系统。”马云基于数据和云的生态已经初具规模。
自2013年初以来,阿里将其战略调整为三大业务:平台、金融和数据。云计算是金融和数据的基础。2014年春天,马云的内部信函再次阐明了阿里的未来战略:以激活生产力为目的,迈向数据技术数据时代。马云的战略是让数据和云计算成为中国商业的基础设施。
阿里巴巴技术发展大事记
2007年,基于互联网的商业管理软件公司阿里软件成立。
2008年,王建宙加入阿里,成为集团的总设计师;
阿里巴巴集团R&D研究所成立;
天妃·R&D开始了。
2009年至2009年,阿里软件与阿里巴巴集团R&D研究所合并;
阿里巴巴云计算成立,在杭州、北京和硅谷设有R&D中心和运营机构;
甲骨文产品建立的rac集群已成为中国最大的数据仓库;
淘宝拥有第一个规模为300台的分布式计算系统hadoop集群。
2010年的今天,阿里巴巴云的第一个云计算室启动;
在阿里巴巴数据量激增的那一年,rac集群无法满足业务发展的速度,所以它迁移到了hadoop。
2011年——阿里巴巴云官方网站开通,“天妃”开始向外界提供云服务;
阿里巴巴的云智能手机操作系统云操作系统正式发布。
2012年,“冰火鸟”开始建立分布式计算平台,支持集团的数据运营和整个集团的独立研发
提供服务。
2013年,阿里巴巴云计算和王湾合并成一家新的阿里巴巴云计算公司;
“天妃”集群的数量达到了5000个,包含100吨数据的tearsort算法在30分钟内完成,比当时的世界纪录快了两倍多。
2014年——阿里巴巴云发布了移动云平台——汇聚无线;
香港数据中心正式开放。
(关注更多钛媒作者的意见,参与钛媒微信互动(微信搜索“钛媒”或“泰美提”)
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0