本篇文章2649字,读完约7分钟
目前,腾讯已经收集了超过1万亿条数据,其计算机规模已经超过8800台。如果能对如此巨大的数据进行实时处理,将会发挥巨大的商业价值。这个商业价值是准确的推荐。
腾讯每年数十亿的广告都是基于准确的数据推荐。实时数据推荐还可以用于视频推荐、腾讯音乐推荐、新闻客户端推荐、游戏道具推荐等。
目前,我们从数据输入到数据发布的延迟不超过50毫秒。有了这个技术基础,腾讯的精准推荐才有了基础。
在内部管理方面,实时也降低了成本。因为实时数据处理可能需要“每秒钟”。传统的数据仓库通常在晚上0: 00到第二天早上8: 00之间切断、提取和处理数据,因为老板会在早上9: 00阅读数据报告。数据处理时间只有一天的三分之一,其他时间都是空闲着。
当我们对数据进行实时处理时,实际意义是将分析时间成本分配到全天,并且成本较低。同时,控制风险也是有益的,因为任何错误都可以被立即监控并快速回滚。
所以你把大部分精力放在“实时”上。为什么你认为“实时”会给腾讯增加更多的商业价值?
首先,数据是时间敏感的,一秒钟前的行为与一秒钟后的行为非常不同。
在过去,我们使用统计数据来获取规则并找到用户的偏好。现在,实时变得更加重要。如果你一秒钟前看了母婴内容,你应该在几秒钟内推送相关广告,转换率会更高。如果你还在推这个用户几天前看足球的数据信息,这将很难做到这一点。
在腾讯,我们从三个方面研究精确推荐:数据整理、实时计算和算法研究。我知道实时计算是关键的核心。
在我看来,所有数据都必须以新闻为中心,实时处理、提炼和分割。对于无法解决的数据,进行离线分析。
例如,照片必须在数据处理端口实时过滤。这张照片是在哪里拍的?其中一些,以什么方式?在收集和处理完所有数据后,我可能需要找出这张图片和其他图片之间的关系,然后我会做离线处理。
腾讯基本上实时处理超过90%的在线数据。我一直坚持将腾讯的数据集中在一个平台系统下,这实际上是阿里巴巴的一个教训。(姜杰曾在支付宝的数据部门工作。)如今,阿里巴巴的数据仍然支离破碎。
事实上,我的实时数据体验也是在支付宝期间积累的。当时,我了解到没有搜索引擎的支持,不可能进行数据分析。当时,很多人说没有办法在6秒钟内搜索到数据,我坚持认为这是可以实现的。
事实上,腾讯现在有15000个字段,所有的数据交叉都可以在3秒钟内实现。这是一项技术职责。
实时领域的技术难点是什么?
我一直在弱化数据仓库,转向实时数据仓库。最大的问题是如何实时获取数据。
实时数据处理的前提是实时采集。我的方法是一方面与业务部门协商,另一方面将数据收集文件部署到所有的机器上,并从安装操作系统的时候开始编写数据收集文件。这样,所有40万台腾讯机器都可以合作。
在过去的两年里,腾讯的点击率从最初的1小时点击率增长到1秒钟的点击率,增幅达20%。规模越大,效果越明显。
准确的推荐有三个要素,第一是数据,第二是实时,第三是算法。
首先,必须有强有力的数据。如果数据丢失,什么也做不了;二是实时效果明显,三是优化算法。这是整个精确推荐系统的核心。实时在其中排在第二位,在我们的实践中证明,当没有什么变化时,频率的变化带来了总收入的增加。
在解决了获取数据的问题之后,底层数据遇到的最大困难是什么?
现在的挑战在于深入学习。在大数据时代,腾讯拥有200pb的图片数据。如何挖掘图片数据的价值?如何挖掘语音数据的价值?
我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提取业务价值?这包括dnn和cnn的深度学习技术,包括如何做文本之间的相似关系。这些都是需要突破的地方。
微信所有的语音训练都是通过深度学习来完成的。例如,每当你在微信上播放一个声音,机器就会自动把它翻译成单词,这是由深度学习网络训练的。但目前,计算能力仍是一个门槛,并不像我们想象的那么简单,需要更多的计算技术来提高。
数据处理在未来会发生巨大变化吗?
硬件决定了数据的能效。数据规模越大,数据呈现方式越多,未来实时计算的处理需求将越来越旺盛。我相信在未来,能够适应更多应用场景的高效计算引擎将会出现,这是我对未来的判断。
显然,如果当前的一秒钟数据没有被完整地处理和细化,后续的分析成本将会越来越高,数据的价值将会越来越低。因此,在未来,高效计算引擎和存储引擎的出现将对大数据的发展产生迅速的效用。
附言:
在姜姐看来,没有什么比实时更重要了。在腾讯,他对广告实时数据的价值很敏感,所以他把大部分精力放在实时数据处理和如何优化广告上。
如今,许多公司的数据仓库都处于离线状态,数据与实际业务相距甚远,不仅无法实时响应,也无法保证数据的稳定性和质量。
因此,实时数据是业务和数据结合的关键。
但是实时数据不是终点。
每秒钟都会产生新数据。如何理清新数据和现有数据之间的关系?如果我们总是通过数据收集和分析知道有一只狗坐在电脑前,但如果有一天的数据收集显示它会吠叫。那么我们能判断出在电脑前的是一只猫吗?
这不仅仅是数据更新的一个简单变化,也是我们如何判断和分析的问题。
因此,此时,延迟判断变得非常重要。
面对海量数据,如何做出延迟判断?虽然你有实时数据分析的能力。
这可能是下一个更有趣的话题。添加语料库
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??变得强大。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0