本篇文章6355字,读完约16分钟

本文摘自阿里巴巴集团副总裁兼数据委员会主席车品爵新书《大数据决战》中的一章。本章重点关注大数据和业务决策之间的关系,甚至是处理步骤。

今天,我们正处于决策成本发生巨大变化的转折点。过去无法获得的数据如今已唾手可得,但当一些看似完全不相关的行业数据相关联时,新的商业价值就产生了。更重要的是,在过去,我们会寻找数据来验证我们对问题的看法,但是现在我们可以用数据来预测可能的问题。海量数据可以充分发挥人们的智慧,变得更大规模。大数据的本质是人,数据研究的极点是不可预测的人性。一旦我们控制了数据背后的数据,我们就拥有了赢得未来业务的不可战胜的武器。

透析:大数据与商业决策之间 究竟是何关系?

假设数据是脏的,当处理数据时,就像污水处理厂一样,你会问自己如何处理污水的每一步。发生这种情况是因为数据源不干净,还是因为数据提炼过程做得不好?

美国有一家初创公司,专注于与地理位置相关的数据收集、整理和查询服务。它根据酒店的属性将地理位置的相关指标分为不同的子类别,提供基于位置信息的实时查询,并为包括美国最大的评论网络yelp在内的许多知名应用提供底层数据服务。

该公司最令人印象深刻的是,它为收集的数据提供了数据质量分数,以反映数据的可靠性和质量水平。它对数据的来源和数据处理阶段使用的算法进行评分。也就是说,公司在提炼数据的每个阶段都进行了数据管理。

这家公司的实践向我们展示了一个趋势,这也是一个非常重要的趋势。因为它已经接受了这样一个事实,即数据源必须是脏的和被污染的。因此,当它处理数据时,它会问自己如何像污水处理厂一样在每一步处理污水。发生这种情况是因为数据源不干净,还是因为数据提炼过程做得不好?我们必须区分这个过程,这种区分是可取的。该公司进行数据管理时,假设数据是“脏的”,而不是假设数据是稳定的。此外,在大数据时代,处理假定为“脏”的数据将是一个非常重要的趋势。

透析:大数据与商业决策之间 究竟是何关系?

事实上,我们今天处理的大数据仍然只是冰山一角,而更大的数据隐藏在我们的语言中,比如我们的文字和词语。因此,在未来,如果我们想从交互中准确地捕捉数据,我们还必须依靠自然语言的处理。现在,美国的许多数据研究者都将目标对准了非结构化数据领域,即语言处理。

学会慢慢淡化数据。数据中有优先级值,其中一些是特别核心的,一些即使缺失也没什么问题。因此,我们应该学会真正坐下来评估对公司和用户最有价值的数据。

为了确定数据的优先级值,我们必须首先解决以下问题。首先是数据的标准化。在大数据时代,我们需要一个标准化的东西来交流。其次,我们如何对接和交换数据,以及如何在交换过程中保持数据的稳定性。例如,自然语言,如无线和个人电脑,将在不同的情况下受到影响,这将滋生许多新的问题。

第三个重要问题是数据的存储,这将涉及数据的及时性。有人曾经提出一个有价值的观点,那就是,在现实中,一个网站最大的场景变化就是网站改版。因为重新设计网站本身会影响数据,比如公司的详细信息页面和主页,任何改变都会影响数据。如果可以说这种数据的变化是由1~3年后的推广、用户行为或修订引起的,那么这种数据就没有价值,这就是数据的时效性。

透析:大数据与商业决策之间 究竟是何关系?

因此,在美国有一个叫做数据衰退的概念,这意味着数据会慢慢衰退。我们需要更清楚地认识到,数据有优先值,其中一些是特别核心的,而其中一些即使缺失也不是什么大问题。因此,对于我们来说,学会真正坐下来为公司和用户评估最有价值的数据是一个非常重要的趋势。

数据的标签管理数据的属性标签是由人类经验判断的数据,是数据之后的数据。

数据的属性标签是人类经验判断的数据,是数据之后的数据。例如,当你想要标记一个项目时,事实上,你已经使用了你的经验数据分析,总结了它,并根据当前的环境做出了判断。这种经验加上直觉判断是不稳定的,如果不考虑环境影响和准确性评估,很难解释。然而,从数据收集的角度来看,数据的属性标签是一种很有潜力的数据。

透析:大数据与商业决策之间 究竟是何关系?

在数据属性的管理中,对于用户来说,每个人都有各种各样的标签,但是对于企业来说,如何统一这些标签,如何将它们串联成一个点,以及如何将这些点连接起来来描述这个用户是核心问题。

例如,如果你想申请一家公司,甲公司评价你“非常可靠”,乙公司评价你“不可靠”,而丙公司准备雇用你。然后C公司看到A公司和B公司给你贴的两个标签:“可靠”和“不可靠”,就会混淆。

这样的问题经常发生,那么,我们如何管理标签呢?

首先,我们应该明确“可靠性”的概念没有标准化的含义,除非我们在定义标签之前明确定义“可靠性”的标准。否则,“可靠”的标准是按时还钱并遵守诺言,或者他总是守时,所以我们不能知道。如果这些标准是“可靠的”,它们就给了我们恢复数据的能力。因此,在属性管理中,如果属性是“×”,那么就必须明确定义什么是“×”。如果没有一个明确的定义,这些数据的属性就毫无价值,你也不知道将来如何使用这些数据。

透析:大数据与商业决策之间 究竟是何关系?

观察后向平台添加标签与直接添加标签是不一样的。在电子商务平台中,一些标签是经过观察后添加的。如果卖方随意添加标签,将不可避免地造成混乱。因此,标签的属性管理在操作数据中非常重要。

标签管理是一个非常重要的趋势。当今电子商务公司面临的一些问题在美国电子商务公司中也存在。可以看出,其他人也面临着我们发现的问题,但这些问题现在不需要解决。

分层属性管理是必要的,但是在使用数据之前,我们必须知道数据场景,数据是如何放入的,以及数据场景是什么。在所有这些都被了解之前,不可能说这些数据运行得有多好。因此,当前企业运营数据的趋势是,我们应该找出一些属性并对它们进行分类,然后慢慢考虑如何对它们进行提炼,这对未来非常重要。

重要的是数据之间的关系,不是数据本身大数据价值的实现,而是数据之间的联系。

谷歌做了一件非常惊人的事情——谷歌甚至可以在不知道网页语言的情况下知道网页内容。想象一下,如果你懂俄语,很容易在俄语网页上看到你在说什么。然而,如果你只通过单词的排列和网站的分类来了解网页的内容,这是不是很神奇?

这是知识地图,这是一个无尽的世界。事实上,知识地图不是数据,而是数据之间的关系。但是,这里有一个很大的缺点,就是数据的存储量很大,存储的方法也很复杂,如果关系的定义稍微改变一下,整个会有很大的变化。

例如,如果有一个知识地图谈论电子商务平台用户之间的关系,数据信息将是巨大的。想象一下今天有多少电子商务平台的用户和你有关系。如果有25个人,那么25个人的关系就演变成了25×25的关系。那时,我很难问你“什么是关系”、“如果你见过一段关系,或者如果你一起买过东西,那就叫关系。”

关系建立的维度是无限的,如果定义稍有改变,整个存储和整个数据库都会改变。因此,很难控制知识地图。让我们举一个贴近我们生活的例子。例如,银行很久以前为你开了一张信用卡。决定银行决策的不是你的个人关系,而是你的一般关系。银行根据你爱人的职业和你家里其他人的财务状况来决定是否借钱给你。当这些关系相关时,将会产生一个极其重要的知识地图。

透析:大数据与商业决策之间 究竟是何关系?

过去,当我们谈论大数据时,成本是“我有这些数据,但您没有。”在未来,数据和数据之间的关系是最重要的,而不仅仅是数据本身。

数据的实时和实时分层我们不能使用我们所有的能力来处理实时问题,因为我们仍然有许多数据需要在正确的时间进行处理,有些数据很重要,但并不紧急。

上面提到的许多内容都是关于数据收集和管理的,我在linkedin上看到了一个非常有趣和有价值的数据处理实践。当linkedin处理数据时,它将其数据服务分为几个层次,一个是紧迫性,另一个是重要性。例如,它将数据分为“快速数据紧急”、“快速数据不紧急”和“慢速数据重要”。

我认为实时数据分层是合理的,虽然有人认为实时数据处理是一种趋势,但我持有一定的怀疑态度。实时就是“实时”,正确的时间就是“正确的时间”。然而,在我看来,数据处理不必是实时的。例如,对我们来说很常见的是,每个公司都有相关的财务数据,并且对这些数据的处理是“t+1”,这意味着您想要的数据可以在第二天获得。因为当其他数据不可用时,实时数据的价值并不大。

透析:大数据与商业决策之间 究竟是何关系?

然而,在另一种情况下,如果银行想判断某人的信用卡是否被盗,就必须实时处理。实时数据使我们能够从商业角度识别数据。值得注意的是,有了实时数据处理能力,许多以前无法解决的情况都可以得到解决。在未来的某一天,编码工程师可以直接写“如果一个顾客三天前只浏览了一次,没有购买,他回来了,我应该给他两块钱的红包。”这个程序是完全程序化的,用户登录本身就变成了一个实时标签,快速的操作将使每个网站都具有最强的时效性。

透析:大数据与商业决策之间 究竟是何关系?

让我们从另一个角度想想。在今天的多屏幕操作时代,例如手机、电视、游戏机和个人电脑,作为一个网站,它有能力在很短的时间内抓住消费者并销售产品。这种实时能力在未来的业务中将变得越来越重要。

一个网站必须提高它的实时能力,甚至你应该猜测用户下一步的每一步,但是我们永远不应该在处理实时时使用我们所有的能力,因为仍然会有大量的数据在正确的时间被处理,并且一些数据是重要的但不是紧急的。

未来是人与机器的结合,或者人与数据的结合将是未来的进步模式,人类将通过数据变得更加智能。

许多人会问,大数据是在哪个阶段发展起来的?我的回答是-水太多了。但是毫无疑问,大数据已经极大地影响了我们的社会,但是它还远没有达到它的临界点。由于大数据,人们的经验和数据开始结合,两者相互激活,从而人们的智慧被大规模地放大,这也使得整个社会开始随着数据的发展而发生巨大的变化。然而,在使用大数据方面,空未来的发展肯定会比目前的成就更加雄心勃勃。数据和人之间的闭环系统,“数据操作”和“操作数据”将变得越来越完善,人机集成仍有巨大的空空间。

透析:大数据与商业决策之间 究竟是何关系?

未来,数据的类型将超出我们的想象。在过去,数据更侧重于外部行为的监控。无论是在线购买行为还是在线社交行为,用户都是在“远距离”提供数据。即便如此,我们仍然没有很好地利用这些数据。随着可穿戴设备的出现,数据和人将真正融合在一起,像谷歌眼镜这样的设备将立即数字化我们看到的东西;像健康手镯这样的设备和能够深度收集脑电波数据的设备将会在任何时候把我们的人类活动转化为数据。目前,记录睡眠状态只是它的最初应用,在不久的将来,用数据记录我们生活的每一秒钟将成为可能。

透析:大数据与商业决策之间 究竟是何关系?

当一切都是数据时,会出现更多新的业务发展机会,数据会帮助我们做出更好的判断,比如什么时候是吃饭的最佳时间,什么时候累了适合睡觉,什么时候是记忆的最佳时间,这些都可以通过数据来预测。即使在记录了足够多的人的数据后,这些数据可能会告诉我们此刻该做什么和最好的策略。也许在那个时候,决定一个人是否聪明的指标不是智商,而是他是否有足够高质量的数据。

透析:大数据与商业决策之间 究竟是何关系?

人与机器的结合,或人与数据的结合,将是未来的进步模式,人类将通过数据变得更加智能。

最后,我想用两句话来总结:

目前,我们必须学会人和机器之间的分工,让人们做他们最擅长的事情,让机器做机器最擅长的事情;在未来,我们应该相信人和机器的结合,人和机器的界限已经模糊,无人驾驶汽车已经成为可能。在未来,人类将与血液和数据一起流动。

忽略趋势,过去的价值是没有价值的

我们通常认为经验越多越好。由于积累,一个有经验的人总是能够对许多事情做出正确的判断。但事实上,我们发现有时经验越多,人们似乎越容易犯一些低级错误。这就像,你会发现那些每天研究彩票和股票的人不能发大财,但通常一个新手会赢得大奖,莫名其妙地买了一只牛市股票。

为什么经验有时会犯低级错误?在这里,我们应该将其分为两种情况:一是信息不对称;另一个是逻辑错误。

当我们讨论信息不对称时,首先要谈的是经验。经验是对过去的衡量,但不是所有的经验信息都是高质量的。在经验数据库中,一定有一些信息是正确的,一些是错误的。当经验中有很多噪音干扰时,我们会跟随错误的经验来做出判断。这时,我们会发现自己很愚蠢。

例如,当使用未经评估的经验时,方案A成功,但方案B失败,在评估过程中,它不是简单的0或1,而是用0~1的范围来衡量。说到这,有必要提一下数据分析师。一般来说,数据分析师对信息非常清楚,也就是说,他们在积累经验的过程中严格控制质量,如整理数据信息、分析可靠的多用途信息源、了解信息源和信息提供者等。据此,数据分析师在他们的帮助下做出决策。这意味着你所有的信息来源都需要有正确的途径和渠道,否则,这个决定将是有偏见的。

透析:大数据与商业决策之间 究竟是何关系?

此外,还有另一个让人们因经验而变得愚蠢的因素,那就是忽略分析中的趋势,这可以通过赛马的故事来证明。

在香港,你会经常发现有很多材料的人会分析马的数据。例如,有人会根据一匹马跑1 200米的时间来计算它在未来可能需要跑完全程的时间。然而,我们发现仍然有很多人因为计算错误而没有赌马。为什么?因为在历史数据和我们今天面临的情况中有一些幻想。对于香港的大多数赌马者来说,他们最终收集的数据是受影响的,而不是干净的,这当然是不准确的。每个赌马的人都在看过去的数据——赛马会会给每个赌马的人提供前三场比赛的数据,每个人都只关注这个结果,而不是比赛当天发生的事情。如果是我,我会回去看视频,我可能会找到别的东西。例如,如果马想发挥它的力量,但是有一匹马在它前面,它被扣除两秒钟;或骑师鞭,鞭掉,扣5秒;或者,如果一些马发脾气,偏离跑道,应该扣除秒数。当排除所有事故时,计算的时间是干净的,没有影响因素的实际经验。此时,我们得到的第一至第三名的数据将与最终比赛结束时公布的第一至第三名的数据不同。

透析:大数据与商业决策之间 究竟是何关系?

此外,我们还应该观察赛马的增长趋势。事实上,每场赛马都有很多事故。如果这些事故没有发生,结果将会直接不同。由于每匹马的幼年和成年状态完全不同,其数据价值评估也不同。一匹3 ~ 4岁的马相当于我们人类18 ~ 25岁,体质会有很大的变化;或者,年轻的马对骑士的体重非常敏感,额外增加1 ~ 2磅会有很大的影响,但是当它们长到5岁时,重负荷的影响会逐渐减小,这是一个很难的趋势。即使有很多过去的经验数据与你今天想要做的不匹配,这也意味着经验需要清理数据——找出当天的影响因素并恢复它们,此时获得的数据才是正确的经验。

透析:大数据与商业决策之间 究竟是何关系?

结论是,经验让人变笨的原因是你以前的经验有错误,即数据源本身有问题,普通人看不到。因此,当过去经验的积累本身就有问题时,从经验中得出的结论自然会导致低级错误。

你不应该假设世界是真实的空,所以你需要观察更多经常出现的新数据。当新数据出现时,需要重新评估过去的经验。

三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....

当前流行度:0

[娇娇]http://itougu.jrj/view/189514.j.....

当前流行度:0

1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....

当前流行度:0

你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........

当前流行度:0

缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......

当前流行度:0

那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....

当前流行度:1

你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....

当前流行度:0

咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....

当前流行度:0

来源:国土报中文版

标题:透析:大数据与商业决策之间 究竟是何关系?

地址:http://www.g3gw.com/new/11041.html