本篇文章4347字,读完约11分钟
今年世界杯预测的最大亮点是,到目前为止,许多科技公司已经使用大数据技术准确预测了世界杯的结果。值得一提的是,准确预测的不仅仅是前16名,还有前8名和前4名!更值得注意的是,在9日凌晨举行的第一场半决赛“恶战”之前,当时几乎所有的民间预测都压倒性地支持巴西的胜利,百度仍然预测德国有51%的胜算,并且证明德国战车以7:1的比分血洗了巴桑军团,这也使百度自淘汰赛阶段以来对结果的预测准确率保持在100%。这些预测绝不是“盲目的”!
从可靠到非常可靠
这些公司包括互联网行业的谷歌、百度、微软和雅虎,似乎与科技无关的高盛和德意志银行,以及新闻业的彭博。他们之所以在这里被归类为科技公司,是因为他们的预测是基于他们自己(或持有股份)的云计算平台,他们利用这些平台的计算能力来提供预测结果。
以百度为例,该公司的资深数据科学家团队在过去五年中搜索了全球987支球队(包括国家队和俱乐部队)的3.7万场比赛的数据,并与中国彩票网站乐彩和欧洲必发指数(Betfair Index)的数据提供商spdex合作,导入游戏市场的预测数据,建立了包括199,972名玩家和1.12亿条数据的预测模型,并在此基础上对结果进行了预测。
其他几家公司的预测原则相似,但细节不同,导致侧重点不同,预测结果也大相径庭。
让我们来谈谈三家传统的华尔街公司,高盛、德意志银行和彭博。他们的共同点是他们是可靠的,但他们令人发指。
今年高盛世界杯报告的作者是凯文·戴利,一位著名的高盛经济学家。他带领高盛(Goldman Sachs)的定量分析师建立了一个1960年以来官方国际足球比赛数据的模型,该模型由回归分析(Return)进行分析,结果由一个名为“elo”的动态模拟系统进行分析。同时,泊松模型(一种用来预测目标而不是输赢的概率模型)被用来预测团队。
高盛在八大预测中犯了三个错误(哥斯达黎加、比利时和哥伦比亚),在四大预测中犯了一个错误(西班牙)。小组赛的正确率只有37.5%。虽然这是一个好结果,但仍不令人满意。至于具体的分数,还远远不可靠。例如,高盛说巴西将在每场比赛中以超过3个进球的大比分击败对手。结果如何呢?
平心而论,高盛是华尔街最可靠的公司。布隆伯格的方法类似于高盛(Goldman Sachs),它根据各国国家队在国际足联的得分来模拟10000场比赛的结果,结果类似于高盛(Goldman Sachs)。布隆伯格认为,西班牙在与阿根廷打平后将带着点球进入决赛,最终输给巴西(请注意,西班牙两周前就回家了)。
德意志银行的模式更加离谱。据说它的模型综合了国际足联排名、历史记录、球员构成和赌博几率等因素。计算出的前四名获胜概率是巴西、德国、西班牙和法国,但德意志银行(Deutsche Bank)分析师在构建模型时,整合了一个被称为“历史获胜周期”的理论。最后,他们计算出巴西错过了前8名,而英格兰将赢得冠军(请,英格兰也是一个)。
这不是偶然的。回顾以往的世界杯,几家主要投资银行的预测与球迷的盲目猜测相似。对于上一届世界杯,摩根士丹利表示英格兰将赢得冠军,瑞银表示意大利可能进入半决赛。不用说结果是什么。有一本书叫做《荒谬的经济学家》,它告诉我们经济学家的数据分析是不可靠的,他们还不知道。在游戏预测中也是如此。华尔街的预测总体上是“有用的”,但如果你真的想押注巴西和德国,那就忘了它吧。
看看互联网公司,基本上可以说是全面的胜利,除了雅虎。
让我们来谈谈雅虎!传统的预测者。雅虎的预测方法实际上类似于华尔街,但专家是聚集和有经验的,这一直可以与专业赌博公司相比。它经常被列为赌博材料中的官方参考数据。然而,今年雅虎不知道出了什么问题。为了推广自己的照片分享社区tumblr,他们决定用社区的数据来预测世界杯:从831亿个tumblr博客中选出1.889亿篇文章。然后,“关注2730万个与世界杯相关的博客帖子”,然后根据“世界杯相关帖子中提到的国家队”和“足球相关帖子中提到的国家队”,导入泊松模型预测每场比赛的结果。因此,前16名和前8名有一半是错的。
如果把雅虎的业绩放在一边,互联网公司阵营的预测结果肯定高于华尔街,而不是高一点点。其余三家公司都正确预测了前16名(谷歌只预测了前8名)和前8名。微软、百度和高盛都猜对了前四名,谷歌输了前四名。在半决赛中,百度和微软甚至准确预测了巴西对德国的比赛结果。
其余三项中,谷歌的预测数据主要来自opta sports的海量赛事数据,其最终预测模型是通过团队实力排名模型和主场优势模型,基于“各国球迷对巴西的数量和热情”构建的。另一方面,微软与百度相似。基于历史和团队状态数据,分析必发游戏市场数据,建立预测模型。总的来说,就本届世界杯的预测而言,它们“非常可靠”。
当预测不再是预测时
最后的半决赛和决赛就在眼前。回顾和预测战争的结果,基本上有一个清晰的脉络,即数据来自哪里,使用什么数据以及如何使用数据是决定预测结果的关键。
由于云计算能力的限制,以高盛、德意志银行和彭博为代表的华尔街公司使用的大部分数据都不是特别大。例如,只选择部分游戏数据和部分玩家数据,将它们代入固定的数学模型,用“骰子”代替“运气”带来的不确定性,但忽略大数据时代最常见的错误,似乎是非常合理的。也就是说,有限的数据量不能保证抽样的“随机性”,这不能通过“掷骰子”来解决——这也叫“数据独裁”。你怎么能只凭主力队员在一流比赛中的表现来稳定整个队伍的状态呢?
雅虎作为hadoop(大数据的顶级开源平台)的孵化器,并不像华尔街那样受限于计算能力。从收集的样本来看,雅虎的数据量是历史上最大的预测模型之一。然而,在“数据独裁”这一点上,雅虎犯了与华尔街同样的错误——tumblr不是一个有足够样本的社交平台,甚至连顶级社交平台facebook也更注重数据预测的价值。例如,预测离婚率更准确,但预测奥运会金牌就不那么准确了。
谷歌的问题在于它的粗心。坦率地说,选择和使用数据的方法是不专业的。一个典型的例子是,在法德战争后的第二天,一位谷歌发言人通过博客发表了一篇文章,“为什么我们对法德战争的预测是错误的?文章解释说,在世界杯的前四场比赛中,法国的射门次数和进球次数都比德国多,而且“必须进入”位置的射门次数也更多,这增加了模型中的“预期进球”,而德国的情况正好相反。他还说,从实际比赛来看,法国的投篮次数和质量确实如前所述,做出不准确的预测真是“运气”。
这是胡扯。如果真的是“运气”,那么在之前的16强和8强战役中,运气在十几场比赛中没有发挥作用吗?谷歌的问题在于它对“运气”的理解,即游戏预测模型。博彩业有一句名言,“任何超越赔率的尝试都是徒劳的”,这是关于赔率的本质,它实际上是概率、价值、力量等几个基本属性的综合体现。“运气”的成分已被考虑在内。尽管不同机构的几率不同,但正如商品市场价格在一定范围内波动一样,它永远不会“走出怪圈”。
谷歌拥有英语世界中最大的数据和世界上第二大的云计算能力(亚马逊是第一个)。然而,在建立这一预测模型时,它犯了一个最严重的错误,那就是对基础数据的分析远不如赔率分析重要,而赔率分析在博彩业是众所周知的,但谷歌对此视而不见。这是专业精神的失败。预测前四名的错误是这种不专业的直接结果——这是一个足够严重的错误,也是谷歌在大数据方面的最大问题。预测足球不能建立一个专业模型,那么如何保证它在其他领域是专业的呢?
只有百度和微软不仅正确预测了所有的前八名和前四名国家队,还预测了德国的胜利,当时谷歌和高盛预测巴西将在9日凌晨举行的重量级半决赛中获胜。自淘汰赛以来,百度和微软继续保持100%的准确率,百度甚至给出了51%的成功率数据。相比之下,微软和百度的预测是正确的,这是正确理解“几率”的结果。然而,不同之处在于,前者主要基于欧洲市场最权威的赔率指数——必发指数,而后者还整合了欧洲469家公司的赔率数据。关于这一点的优缺点有不同的意见,但在理论上,引入多个数据源可以确保更好的健壮性和准确性。在实际预测中,百度在群体匹配预测中的准确率略高于微软(58.33%对56.25%)。
9日清晨,巴德战争的结果在朋友圈中被夸大了,但很少有人看到有一些重要的关键变量决定了预测结果。特别值得一提的是,百度和微软是人工智能的五大巨头(谷歌、百度、微软、ibm、facebook)。百度刚刚从谷歌的大脑中招募了人工智能三大专家之一的吴恩达(另外两个在谷歌和脸书),并宣布百度的大脑已经达到2-3岁的智力水平。
目前还不知道这能有多大帮助,微软多年前就参与了人工智能研究,而cortana在市场上广受赞誉。目前,还不知道双方是否在预测中启用了基于深度学习的人工智能组件。如果答案是肯定的,那么在数据的来源点将会有无数的变量。
百度的世界杯预测是一个互联网产品,而微软、高盛和谷歌正在做一个事件报告。首先,双方的态度有差异,所以我个人更喜欢百度。除了关注德国在血腥屠杀巴西后能否继续赢得决赛,我们还可以关注百度在过去三场比赛中与华尔街和硅谷的对抗。
还必须指出,至少到目前为止,至少从世界杯的预测结果来看,大数据和人工智能的预测结果可以用“非常可靠”这个形容词来形容。我相信用不了多久,至少在世界杯上,我们可能准备好正式告别“预测”这个词了。这篇文章是作者独立的观点,并不代表老虎嗅探网络的立场
向作者提问并加入语料库
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0