腾讯底层技术进化史

从腾讯的变化我们能看到，做研发搞技术，不止能省钱，也真的能挣到钱，而且比单纯挣钱更有趣和让人有敬意。希望这样有趣的好故事，能在更多中国公司内上演。

2022-06-27 09:44 · 微信公众号：DoNews　李信马　　

上周周四（6月16日），腾讯对外宣布，内部的自研业务实现了全面上云。

初次听到这个消息，还是有些震撼，上云虽然是当下的主旋律，但像腾讯这样体量的大公司，能够做到全面上云，并不是一件容易的事情。根据腾讯对外公开的信息，其自研业务上云的规模突破了5000万核；另一方面，腾讯统计，上云为腾讯累计节省的成本超过30亿人民币。

这不禁让笔者想起了在《腾讯传》看到的一段往事，1999年，缺钱的腾讯急需投资甚至卖身，却找不到合适的投资人或买家，当时接触过腾讯的企业都表示“不理解腾讯技术和无形资产的价值”，出价最高的不过60万人民币，而估值的方法，基本是按照电脑乃至桌椅板凳的数量来计算，找银行贷款，能抵押的也不过“几台折旧的服务器”。

这算是腾讯的至暗时刻之一，有些黑色幽默的是，几位愿意借钱的朋友，都不肯接受用腾讯的股票来还债，其中一位比较大方的甚至还表示：“不还也可以，但我不要你的股票。”——腾讯当前的市值，超过了3.59万亿港元。

凭借QQ秀的异军突起，腾讯迅速成为中国*钱的互联网公司之一，但很长一段时间里，也只是家能赚钱的公司，可以说，那时人们看到了腾讯的商业价值，但并没看到腾讯具备科技上的价值，哪怕腾讯的几位创始人和早期员工中不乏优秀的工程师。

真正的科技公司是什么样子的呢？比如“IOE”：IBM的小型机、Oracle数据库、EMC存储设备，简直可以称之为当时互联网公司的三件套，中国互联网公司赚到的钱，不少流进了他们的口袋。看看国外的科技公司，再看看我们的科技公司，多少会让人有些气馁。

这也是笔者想写这篇文章的原因，十余年过去了，我们看到像腾讯、阿里巴巴、百度这样的互联网大公司，研发实力不断增强，从以前的“造不如买”，到阿里云、腾讯云对外输出，还有在开源领域，从索取到拥抱再到贡献，这是比单纯的商业价值更令人激动的技术价值的体现。

一夜暴富或者富可敌国的故事，这个世界见过了太多，尔曹身与名俱灭，不废江河万古流。而底层科技的进步，才是推动我们的文明，持续前进的动力源。腾讯在这方面做的事情，要比30亿更值得来聊一下。

大数据时代

2008年，《自然》杂志提出了“Big Data”（大数据）的概念，揭开了大数据时代的序幕。当时互联网上非结构化数据迎来井喷式的爆发，据说阿里因用户激增导致“计算力”不足，早上8点到9点半，服务器的处理器使用率会飙升到98%，为了解决“大规模数据计算”的问题，这一年阿里启动了“云梯计划”，最后成长为阿里云这棵参天大树。差不多同一时间，百度也在进行对分布式的研发。

笔者曾采访过曾任腾讯大数据负责人的刘煜宏（现在已经是腾讯云副总裁、腾讯数据平台部副总经理），他在2005年就加入了腾讯，还清楚地记得，当时腾讯使用国外厂商的“盒子”，每次发生宕机事故，只能等对方的技术人员来解决，而且恢复时间漫长。

更大的问题，是越来越无法满足腾讯对大数据处理的需求。“很多数据我们跑不出来，比如QQ用户画像，3个月跑一次都跑不出来。”刘煜宏说。无论是从价格，还是从实际需求来看，对当时的腾讯来说，寻找新的解决方案是必须要做的事情，问题只有一个——怎么做？

2009年1月，腾讯开始搭建*个Hadoop集群，只有30台服务器，业务最初拿来试水的业务是QQ蓝钻，迁移后对效率的提升显而易见，只需要30分钟，就能完成对月度数据的分析。几个月后，汤道生（现任腾讯高级执行副总裁、云与智慧产业事业群总裁）将《开心农场》（后改名《QQ农场》）引入QQ空间，这后来成为了中国互联网史上最疯狂的增长之一。5月22日，游戏上线的当天，游戏开发公司“五分钟”的服务器就被流量挤爆，不得不将服务器的管理权限让渡给腾讯，而腾讯面对每天高达100万的用户增长，也只能一次次增加服务器，并随时面临爆棚的危险。

据当时主管后台的卢山（现任腾讯高级执行副总裁、技术工程事业群总裁）透露，在2009年的下半年，最后追加给《QQ农场》的服务器超过了4000台。“那是一个不可思议的数字，也许在很长的时间里，都不会被打破。”汤道生这样评价。受益于此，2010年腾讯的半年利润一举超过阿里、百度、新浪和搜狐的总和，但另一方面，刘煜宏等技术人员也意识到，传统的数仓已经难以支持腾讯业务的发展，转向分布式计算势在必行。

不过直到2012年时，腾讯大部分业务还跑在传统数据库上，Hadoop的集群只有几十台规模。对此，笔者曾思考过，也许，可能是那时候的腾讯处于业务快速扩张期，对技术相对忽视了。总之，蒋杰（现任腾讯副总裁、腾讯数据平台部总经理）来到腾讯时，一番摸底考查下来，他对腾讯大数据的判断是：比阿里要落后三年左右。

在这之前，蒋杰在阿里呆了五年，也是阿里最早做大数据的那批人，云梯1队的成员。阿里云的“云梯之争”最终的获胜者是从零开始自研“飞天”云梯2队，但这场胜利却是王坚“钦点”的，2队在得到全集团技术资源的支持后成功突破了“5K”（调度 5000 台服务器）的瓶颈。

一度*的云梯1队其实曾经率先实现4000台的集群调度，当时云梯2队还卡在1500台左右，但阿里云的工程师判断，Hadoop 在从4000台到5000台的过程中，将遇到难以克服的障碍，原因是受端口数量限制，万兆交换机下面实际最多分出2200台二级交换机，再加一层就是4400台。不过这个判断后来被证明并不准确，因为百度在2013年时，上线了1.3万台的Hadoop单集群，这也是当时世界上公开*的Hadoop集群。

在蒋杰到来之前，腾讯大数据的实力与BA有着明显差距。2012年底，腾讯大数据的单集群规模突破了4400台，基本实现了从关系型数据库到自建大数据平台的全面迁移，2013年2月，传统数据库在腾讯全部下线。

不过随着互联网流量流向移动端，个性化内容推荐的模式异军突起，腾讯数据量爆发式增长，业务部门对数据处理速度和及时性的要求也更“快”，有时候上线了某个业务或手游，5分钟后总办的领导就会去问运营数据，Hadoop离线计算刚建成就要落伍了。

真如逆水行舟一般，不进则退。

2014年9月，腾讯大数据在单集群达到8800台后，开始正式转向实时计算的Spark & Storm体系，并结合腾讯的需求对核心组件进行重写。到2015年2月，腾讯对外宣布其Spark集群规模成为全球*，笔者在采访蒋杰时，他曾提到，这一年对他还有另外的纪念意义，意味着腾讯在大数据领域的技术水平，正式跻身国内*梯队。

在大数据领域，腾讯还有许多故事可讲，比如之后通过机器学习解决广告业务的个性化推荐问题等，不过从时间上来说，这时候该讲另一件事情了，也是笔者觉得更重要，也更能体现科技价值的“开源”。

开源时代

2011年，“软件正在吞噬世界”的说法被提出，到了2015年，《福布斯》《连线》等媒体进一步认为，开源正在吞噬软件。而到了现在，很多人更直接地表示，开源正在吞噬世界。

很遗憾，中国的科技公司又慢了一拍。

这里说的慢了一拍，不是对开源软件的使用，实际上，中国的科技公司对使用开源软件还是很积极的，但对做开源贡献，往往就敬谢不敏了。上文有关大数据的讨论，提到的分布式计算框架Hadoop，就是由Apache基金会开发的开源项目，也是当时互联网公司替代传统数据库的主流方案。

之后替换Hadoop的分布式内存计算框架Spark，同样是Apache软件基金会旗下的*开源项目，在数据处理环节上全面优于MapReduce（MapReduce可以看作是Hadoop的组成之一），而Storm可以简单理解为实时计算版的Hadoop，可以说，腾讯的发展极大受益于开源软件。

而腾讯对待开源的态度，用后来腾讯开源负责人许勇曾经的话来说：“2010年前其实腾讯起码技术上是挺封闭的。”那时腾讯内部“数据孤岛”的现象很严重，由于没有统一的开发框架，每个业务团队又都有自己的开发习惯和开发语言，让开发协作出现了许多问题。不同语言之间的通信适配非常繁重，不同团队会重复实现一样的功能组件，而且代码质量参差不齐——有些团队没有实现业务容灾，有些团队为了快速上线，直接写死IP在代码中，甚至有的后台开发团队没有平台建设人员，操作都需要登录服务器，乃至造成误操作。

身为资深程序员的马化腾对内部的问题也心知肚明，2010年4月22日，在腾讯战略管理大会上，马化腾提出对内“各业务单元需建立新的协作机制，灵活机动打破‘部门墙’”，腾讯也开始试水对内开源。在2010年到2015年之间，对内开源一定程度上让腾讯减少了内耗，但在对外开源上，腾讯还是相当谨慎和敏感，曾经一位腾讯程序员对笔者表示：“如果对外开源，要经过层层审批，假如一个开发把自己写的部分代码开源了，结果忘了里面有一些内网的东西，那就完蛋了。”

一直到2016年，腾讯才开始低调地将开源项目开始在Github上公布，2017年，腾讯开源的项目数增长到近20个，之后开源项目数量快速增长。

但对当时腾讯内部的技术氛围是否足够开放，笔者还是持一定怀疑态度的，因为2018年，还有腾讯的新员工在内网吐槽：“来到腾讯就像来到技术沙漠。”腾讯对开源态度转变的关键节点，应该是在2018年的夏末秋初，在三天三夜的“香港会议”上，卢山（现任腾讯高级执行副总裁、技术工程事业群总裁）提出了“开源协同”，之后在2018年9月30日，腾讯启动战略升级，成立六大事业群，即“930变革”。2019年1月，腾讯正式组建技术委员会，由卢山和汤道生牵头，“开源协同”成为了技术委员会两大重要战略之一，之后腾讯的内外开源进一步走上了快车道。

讲个有意思的事情，上文提到，腾讯希望机器学习解决广告业务的个性化推荐问题，但当时业界的重点基本是放在图像识别、语音识别等领域，开源的机器学习和深度学习平台如TensorFlow、Pytorch等，也并不太适应腾讯的业务需求。

于是在2015年，腾讯联合北京大学共同研发了Angel项目——假如当时有合适的开源软件，可能这个项目并不会诞生——这个项目可以说是为腾讯的业务量身打造的，本质上是一个大规模、分布式的机器学习平台，架构核心是高性能参数服务器，聚焦在稀疏数据和高维模型领域，与腾讯的业务息息相关，比如推荐模型（可用于商品广告推荐）和图网络模型（可用于社交网络分析）。

而这个项目，在2017年正式对外开源，然后被大量的公司和机构使用，其中包括华为、小米、滴滴等互联网大公司，并在2018年进入LF AI基金会孵化。2019年12月19日，Angel成功从LF AI基金会毕业，这也是中国*成功毕业的项目，目前在Github获星6500+。可以说，在这个项目上，腾讯贯彻了开源的精神，也值得业界的尊敬。

Github上对Angel的简介图片来源：Github

在中国，开源曾被长期忽视，但开源社区在的影响正与日俱增，即使是科技巨头也要承认，一个受欢迎的项目，通过开源接受全社区的检验和评价，以及优秀开发者对其的完善，得到的提升长期来看要快于内部的研发，并且有利于在更大范围内形成技术生态。

近年来中国科技企业也纷纷加大了开源的力度，比如华为的鸿蒙、百度的飞桨等，腾讯近两年的开源贡献，在全球企业中位居前十。如果我们*的科技企业都愿意贡献更多到开源领域，那将是一件值得自豪，也能为世界贡献更多科技价值的事情。

好了，我们先将开源的话题放下，回过头来聊文章开头说的事情。

云原生时代

在香港会议上，卢山提出了“开源协同”的建议，而汤道生则提出了“自研上云”的建议，这两个建议，也是腾讯技术委员会的两大重要战略。自研上云，顾名思义，主要是将腾讯集团内部的海量自研业务，包括社交、游戏、内容等业务搬上云端。

时至今日，云计算的意义已经无需赘言了，业务上云也是理所当然——腾讯自己就有云，没道理不用啊。

不过具体上云要上到什么程度？据腾讯对DoNews披露的信息，当时腾讯内部其实也分成了两派，其中一派认为，腾讯各大事业群（BG）应该使用云上的虚拟机，但架构还是用各业务自己的，简单点理解，就是IaaS层上云。

如果只是这样，那么这篇文章其实没有写的必要了，无非是腾讯云多了一些内部客户。

另一派的看法是，IaaS层要上云，各BG的PaaS也要上云并统一。腾讯以“赛马机制”出名，也借此做出了不少优秀的产品，但相互间的隔离也成了痼疾（不然也不必“开源协同”和“自研上云”了），再进一步，就会有一个很现实的问题：当时腾讯每个BG都有各自PaaS平台，有基于开源的，有基于自研的，并且调度技术都是和各自业务磨合好了的，如果强行统一，业务部门一定会反弹。

这个问题其实在阿里巴巴也出现过，当初阿里在内部推广阿里云，投诉像雪花般纷至沓来绝不夸张，王坚被说成骗子，在台上泣不成声也不止一次。哪怕是后来执掌阿里云的胡晓明，在听说自己的业务要上阿里云（那时他在蚂蚁金服），他也很不情愿（事实证明后来的确出了很多问题）。

实际上，虽然2019年1月技术委员会就成立了，但从2月到4月，腾讯总办还在不停讨论如何上云。在卢山、汤道生等的坚持下，腾讯最后确定，自研上云不仅要使用云上虚拟机，而且要拥抱最新的云原生技术，将资源统一调度。

这个结果用一句话来描述，就是“风物长宜放眼量”。

虽然有争论，但对云原生是大势所趋，大家却是没有异议的。云原生（CloudNative）是一个组合词：Cloud+Native。Cloud表示应用程序位于云中，不是传统的数据中心；Native表示应用程序从设计之初即考虑到云的环境，为云而设计，能够充分发挥云平台的“弹性+分布式”的优势。

这个概念也在不断演化，2015年云原生计算基金会（CNCF）成立，最初把云原生定义为“容器化封装+自动化管理+面向微服务”；2018年，CNCF又将服务网格(Service Mesh)和声明式API给加了进来。总之，在2019年，理念上的统一并不是问题，问题只在于执行。

从目标来看，腾讯的全面上云是想要借助云原生，尤其是容器、微服务、DevOps的能力，构建面向未来的技术架构，打破部门墙和重复造轮子现象，加强基础研发，提高公司的技术资源利用效率。另一方面，这个过程中积累的云产品、技术未来也通过腾讯云对外输出。

实际中，用哪个BG的调度技术，首先就成为摆在腾讯各个技术运营部面前的难题。为此，腾讯内部展开了激烈的PK，也调研了很多云原生技术，最终确定了基于内部开源协同的K8S能力来构建统一的技术底座，在此之上使用腾讯云TKE来构建每个BG自身的业务运维发布平台。腾讯云TKE即腾讯云上的容器服务（Tencent Kubernetes Engine，TKE），基于 Kubernetes 提供以容器为核心的解决方案。当时腾讯云容器产品中心总监邹辉在运营管理大会上，向每个BG汇报方案，最终达成一致：代码上开源协同，资源上在腾讯云统一，运营上各个BG独立。

2019年腾讯启动上云，主要是主机上云，2020年全面启动容器化改造，这个过程中就出现了不少“幺蛾子”。

比如腾讯平台与内容事业群（PCG），提出了不少“不可思议”的要求，像创建集群的接口要支持指定的各种参数，数量多到以至于腾讯云的负责团队怀疑对方“想把我们TKE当成一个空壳，只是把集群买完之后，指定完这个参数，还要自己闭环干这个事情”（来自腾讯提供的采访记录）。事实证明无论内部还是外部客户，都确实有这个需求，这个需求后来演变成了TKE的两个产品能力——TKE独立集群和TKE自定义参数。

还有腾讯互动娱乐事业群（IEG），因为很多业务要迁移到云上，要求TKE支持固定IP。这个需求，说实话挺不“云原生”的，因为严格意义上真正的云原生是不支持固定IP的。于是双方进行了多次“PK”，最后在IEG表示不支持的话，业务就不能上云后，腾讯云的团队只好推出了一个新特性——容器支持固定IP，结果没想到，这个特性之后在外部客户中也大受欢迎，成为腾讯云的一个“*利器”。

其间也有碰了“一鼻子灰”的事情，曾经有个重要的游戏上线，结果晚上高峰期做活动时，有两个小时非常卡，当时腾讯内部论坛上有不少“腾讯云不行”、“腾讯云垃圾”、“原来挺好的，非要搞上云”之类的吐槽，这个事情闹出来之后，直接捅到总办，一度搞得他们压力很大。事后总结，双方团队发现，是评估计算资源时，应该用高主频服务器，却用了普通服务器，到了高峰期算力就扛不住了。

不过，上云整体的进展还算顺利，在推进节奏上，腾讯云的团队注意“抓大头”，先啃最难啃的骨头，比如QQ是腾讯*全面上云的内部业务，而且过程中用户零感知。腾讯从QQ开始，上云也以QQ开始，不得不说是个有趣的轮回。

对于IEG的游戏，就先让最热门游戏上云，这样其他观望的腰部业务看到没问题后，基本就会选择跟进。在业务切换的过程中，腾讯云的团队还要负责保驾护航，当时每当《*荣耀》推出一个活动，他们就会提前去梳理可能的风险和问题。至于像腾讯会议、视频号这样的新业务，更是一开始便是云原生的。

腾讯云副总裁徐勇州在采访中回忆，2019年在腾讯内部的乐问平台上，对为什么上云的讨论还有不少，到2021年，基本就不再质疑了，TKE的核心量一年之内增长了将近4倍。“整体的业务负载，三年前大概是在30%的水平，但是今天，基于云原生带来的调度以及迁移的能力，集群负载提升到45%，在离线业务混部集群的负载更是到了65%这样一个相对比较高的水准，业界做得好的也就是北美有做到50%左右。”徐勇州总结说。

其实腾讯主要业务的全面上云在2021年就基本完成，只有有些业务在等待服务器的逐步替换。根据腾讯的统计，腾讯云TKE拥有目前国内*规模的Kubernetes集群，相对于自研上云前，云服务器相对物理服务器性能损耗下降到0，CBS的存储性能提升13倍，网络的包转发能力提升7.6倍，TKE的在离线业务混部能力使服务器资源利用率从30%提升至65%。同时，自研业务上云过程中，还有将近100项成果复用到公有云。

这的确也是一个里程碑式的事件。

从2009年到2022年，中国互联网也经历了PC互联网、移动互联网和产业互联网三个不同的阶段，从底层技术到表层的商业模式都在发生着改变。2009年，创业公司“五分钟”因为无力提供《开心农场》所需的算力，不得不以几百万的价格就卖掉了游戏在腾讯平台的使用权，并在2012年末破产。2011年，比微信提前上线一个月前的米聊，在用户增长最快、竞争最激烈的时候，因为服务器和后台架构的缺陷，出现了五次宕机，不得不主动退出了竞争。2018年9月，如日中天的腾讯在股价接连下跌之后，自我革命，走向了“开源协同”和“自研上云”的道路。

我们看到中国互联网商业模式创新的威力，已经大幅让步给科技的进步，以往看不见的冰山，正逐渐浮出海面。文中提到的一些技术也许快成为明日黄花，但开源和云原生，还有更多文中没提到的前沿科技领域，却仍是方兴未艾，而这也将会是未来科技公司的竞争力所在。

额外讲一件事情，自2019年，金融科技及企业服务营收规模正式披露以来，其单季度营收规模已经翻了一番。2021年Q4，腾讯的金融科技与企业服务收入达到479.58亿元，首次超过游戏收入，占总营收比例升至33.26%。从腾讯的变化我们能看到，做研发搞技术，不止能省钱，也真的能挣到钱，而且比单纯挣钱更有趣和让人有敬意。

也希望这样有趣的好故事，能在更多中国公司内上演。

【本文由投资界合作伙伴微信公众号：DoNews授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。