本篇文章2812字,读完约7分钟
至于大数据,我们已经听到了太多类似科幻故事的想象。虽然这个领域很热门,但似乎和普通人的生活没什么关系。例如,在经典教科书“啤酒和尿布”的案例中,我们不知道美国超市是如何得出这种因果关系的,我们也看不到我们周围的中国超市有这种奇怪的安排。在世界杯期间,ibm和腾讯的合作依赖于大数据计算来解决一个看似简单但复杂的小问题。
要解决的问题很简单,那就是在世界杯期间,谁对球队的支持率高,谁对球队的支持率低。
这件事可以根据经验,比如,找几个资深粉丝或评论员。他们周围的球迷一定比一般人多,所以他们可以凭感觉谈论哪个队的支持率更高。例如,我觉得阿根廷有很多球迷,德国也有很多球迷。问题是无论你认识多少人,都不可能同时了解5000人的团队倾向。这个号码已经是微信的好友限制了。为了增加进入统计范围的人数,以前有另一个解决办法,那就是投票。在网站主页上放一个投票栏,你可以选择你支持的团队。收集成千上万人对一场比赛的投票结果并不难。然而,这种方式存在许多问题。投票是一种积极的行为,结果可能不能准确地代表那些懒得投票的人。
关注最关心的金融话题,一起讨论。
这是一件小事,在每一场世界杯比赛之前,这两支球队的支持率都会在腾讯的网站上显示出来,而背后则是ibm的一整套大数据解决方案。
首先是数据源。事实上,这是最简单的一步。大数据就在那里。能否将其制成有用的大数据取决于每个家庭的能力。Ibm计算支持率,数据来源是微博上关于世界杯的讨论。显然,自发讨论的数据可以更好地反映人们对团队的看法。虽然微博上的讨论量仍然不能覆盖所有看球的人,但范围确实超过了投票所能达到的极限。在世界杯期间,在64场比赛之后,中国有大约10亿次讨论,超过了国外twitter、facebook和instagram的总和。这些数据以前就存在,计算和存储并不困难。2013年,ibm收购了世界领先的公共云服务公司softlayer。也就是说,对于大数据来说,找到大数据并不难,找到用于操作和存储的硬件,而什么样的软件区域很难分析数据。如果没有软件力量的标尺,大数据只能做一些低级的分类操作,这就是为什么在中国,大数据通常只根据地区、星座和年龄对国家数据进行分类和汇总。
第二是消除噪音。有了计算能力和存储设备,微博上的海量数据蜂拥而至。虽然腾讯的团队支持率每小时更新一次,但背后的计算是实时的。在数据面前,如果有人在计算时看着它,计算支持率是合理的,但是计算下一届世界杯的结果是好的。在大数据的世界里,硬件只是基础,而真正让计算能力发挥作用的是软件。当我们只能调整计算规则时,如何从不同的微博言论中找到世界杯相关信息就成了一个大问题,因为当我们讨论世界杯时,我们不会直接添加“世界杯”和球队名称等标签,起点可能只是明星八卦。如果我们不能判断这些内容,我们将低估支持率。在同样的时间内,也可以在参赛队所在的国家讨论其他事情。此外,还有大量利用世界杯做广告的企业微博和广告转发。如果这些内容混合到计算数据中,支持率将被高估。这些需要不断调整的算法是ibm在大数据领域的核心竞争力。
第三是分析语义学。即使只是简单的计算“支持a或支持b”,计算机需要理解的人类语言仍然非常困难。如果电脑不能理解人类奇怪的表情,那么像微博这样的数据就很难大量分析。例如,在英格兰和西班牙都打破了寒冷之后,以冷口水闻名的英国队球迷直接开始了另一场狂欢节。我个人最喜欢的西克皮迪亚段落如下:1。“飞吧,英国”——英国返航航班的机长说;2.提醒那些赌英格兰赢得冠军的彩票玩家,你仍然处于14天的可撤销期;3.经过多年的努力,英格兰终于可以像西班牙一样踢球了!如何分析这些唾液成分?在正常语义下,第一口唾沫怎么能和船长区分开呢?在第二篇文章中,我们如何将14天的撤销期与英格兰队的淘汰联系起来?第三个更卑鄙。电脑如何理解英国球迷对西班牙的评价?这些话语通常是人类无法理解的,当然也是算法的难点。然而,ibm以认知计算为核心的社会大数据分析技术足以让计算机理解大量内容。正是因为有了这些算法的支持,腾讯才能通过大数据提供明星的支持度,支持某个明星的粉丝特性。这些小函数的推广完全取决于背景算法的进化速度。
经过以上软硬件支持,大数据有可能脱离星座和地域,这为我们证明了一些有趣的现象。例如,阿根廷球迷是铁杆吗?没错。这可能是因为国家队未能参赛加剧了混乱,所以我们的球迷似乎更容易看球,输赢的支持率往往会出现上下颠倒的现象。特别是当两个互不熟悉的不受欢迎的队伍进行对抗时,“胜者优先”的现象尤为明显,并且在获胜后马上就可以看到支持率的变化。其他传统强队或多或少都要面对这种情况,唯一一个输了之后支持率没有下降的球队是阿根廷。我想这可能是因为潘帕斯鹰近年来经历了更多悲伤的时刻,或者是因为英国人没有留下更多的时间向深爱他的人证明自己。
另一个有趣的现象是,没有参加比赛的中国队仍然有广泛的影响力。在世界杯的最后阶段,只有三支球队幸运地击败了中国,尤其是哥斯达黎加,它显然比其他黑马受到了更多的关注。那么,如果一条微博同时提到了中国的哥斯达黎加,应该算谁的支持率呢?ibm研究院负责算法的专家是苏中博士,他从哥斯达黎加的支持率中排除了这些数据。然而,他自己说,经过仔细考虑,他有点后悔,也许他可以留下来更多地反映真实情况。这可能是大数据需要面对的一个有趣的情况。判断和让数据证明结论的关键仍然是人们的立场和判断,没有绝对的客观性可以依靠数据单独存在。如果你负责算法,你会如何选择这些大数据?
这篇文章是作者独立的观点,并不代表老虎嗅探网络的立场
向作者提问并加入语料库
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0