本篇文章3799字,读完约9分钟
在过去的两年里,“大数据”已经广泛应用于各行各业,并且在最近阶段有明显的过热迹象。从央视春运地图到陈瑶看微博数据的惊叹号;从两会期间的大数据到被称为“野兽的高低领毛衣”的“明星”,大数据被人们推到了前所未有的高度,也从尖端的科研方向变成了众所周知的营销词汇。
我没有资格代表学术界,也没有资格判断谁对谁错。我只能根据自己的工作经验谈论大数据:
什么是大数据?
百度百科对大数据的定义如下:大数据,或海量数据,是指那些不能被捕获、管理、处理和分类成更积极的目的,以帮助企业通过当前主流软件工具在合理时间内做出商业决策的信息。
高德纳给出了这样一个定义:“大数据”是一种巨大的、高增长的、多样化的信息资产,它需要一种新的处理模式,以具备更强的决策、洞察和发现以及流程优化能力。
就我个人而言,我认为高德纳的定义更合适。“新处理模式”是一个关键词,这也是我理解的关键特征之一,比如“大数据”不同于传统的统计分析。这种所谓的“新处理模式”有两层含义:
1.由于海量数据,需要更高效的存储和处理技术,hadoop已经成为大数据时代的一个标志;
2.如果你认为大数据等于hadoop,这是一个很大的错误。Hadoop只是大数据时代的一个必要条件。大数据的另一个明显标志是数据挖掘和人工智能的紧密结合。这是“大数据”和许多所谓的“大数据”项目之间最明显的区别之一。在下列情况下我会给你。
除了“新处理模式”中的上述差异之外,我认为还有另一个主要差异:数据的统计分析基于对现有数据的垂直分类,而大数据基于对现有海量数据的处理,对尚未生成的数据做出预测和建议。统计数据是已经发生的事情,而大数据通常用于预测或推荐尚未发生的事情。
预测和推荐是如何实现的?
目前,主要的推荐算法大致可以分为两类。一个基于行为,另一个基于内容。当然,对于不同的领域和不同的预测推荐对象,会有十多种算法。这不是本文的内容。
基于行为的分析,顾名思义,就是分析用户在互联网和移动互联网上留下的“痕迹”,即浏览、点击、收集、购买和二次购买,并获得未来购买的预测和推荐结果。基于行为的分析属于群体智慧,它综合利用了群体用户的行为偏好。用户会相互影响,这更符合现实世界中的用户行为。
图1。基于电子商务行为的推荐漏斗算法
基于内容的分析,包括对文本、图片、音频、视频等信息的分析,得出预测和推荐的结论。内容的“基因”与用户的偏好相匹配,其中最具代表性的是潘多拉的音乐推荐项目,该项目由400多名专家对音乐库中的所有歌曲进行标注,然后建立个人与音乐之间的联系,从而完成音乐推荐。内容分析只针对个人,与用户之间的关系无关。
大数据能做什么
现在谈论这个问题可能会让每个人发笑。似乎每个人都知道大数据可以做这个做那个。最后,甚至我们都觉得可笑。大数据不再被“妖魔化”,而是“娱乐化”。大数据似乎离我们很远很近,它变得不真实。
好的,我最好根据我的经验谈谈大数据解决了什么问题:简而言之,大数据可以帮助我们解决决策和选择的问题。
天气预报是最古老和著名的预报。你可以根据天气预报来决定明天穿什么衣服,是否带伞等等;
在过去的两年里,大数据已经应用到了电影和电视制作行业。基于对观众偏好的分析,可以预测和设计观众喜欢的故事,找到观众喜欢扮演相关角色的演员,甚至预测票房。所有这些预测都是以数据为基础的,经过一定的模型处理,结论接近现实。在某种程度上,它给决策者提供了决策的基础,比如《纸牌屋》和《星星》。
大数据在解决人们的“选择”问题上也发挥着重要作用。不要笑,不管你的年龄、性别或教育背景如何,人们现在面临着前所未有的选择问题。从学术上讲,这是一个由“长尾效应”引起的问题;说白了,这是由于可选对象数量的不断增加和我们自身处理能力之间的矛盾。
科学技术的进步使人懒惰,也就是说,我们自己的处理能力下降了,不管是主观的还是客观的。但是,可以选择的对象数量正在增加。从复杂的商品(电子商务)到大型音乐图书馆中的音乐;从婚恋网站的男女朋友到交通管理信号灯。
基于人工智能的大数据是一种让人“懒惰”的手段。根据你的历史行为,判断你可能的偏好甚至需求,并向你推荐最佳结果。这是大数据。她是你体贴的管家,或者是最了解你的朋友。
最经典的案例之一是沃尔玛的“啤酒”和“尿布”研究:沃尔玛发现,一类顾客经常购买啤酒和尿布。尿布和啤酒自然是两种不相关的商品。从个人经验来看,我根本想不出他们之间的联系。后来,人们发现这是由一种社会现象引起的。美国有许多年轻夫妇。尿布用完后,女主人在家照顾孩子,男主人去超市买尿布。买了尿布后,男主人通常顺便买些啤酒。
上面的例子表明,数据往往能让你发现似乎不合理和不合逻辑的现象,这些现象存在并且经常发生。
又如,北京的交通拥堵是地球上每个人都知道的事情。尤其是早晚高峰,这是不需要预测的。然而,如果我们根据历史交通数据和数学模型来计算北京最好的交通信号管理系统,它属于大数据的范畴。
图2。每天出租车分布图
在我看来,这是大数据和普通统计分析的最大区别:统计可以帮助你发现疾病,但是大数据不仅可以帮助你发现疾病,还可以帮助你治疗疾病。
大数据绝不是噱头。在我们帮助操作员阅读基础的阅读推荐项目中,所有的指标都得到了很大的提高。而且这种提升不是百分之十,而是好几倍!(用户的人均流量增加了4倍,沉默用户的激活能力增加了6.5倍。)这就是大数据的魅力。
大数据不是万能的
大数据显然不是一切。正因为如此,她才是真实的。在某些领域,由于各种原因,大数据的价值没有预期的高。导致这一现象的主要问题有两个,一是数据本身的质量或数量不够;另一个是算法不合适。
不要认为海量数据会有价值。在过去的工作中,我们经常发现甲方的数据源中有80-90%的数据是无用的。只有10%-20%的数据会产生一定的价值。这让我想起了玛丽·米克(marry meeker)的比喻:“大数据的工作就像在一堆稻草中寻找一根针。”
更重要的是,大多数领域在早期都有自己的事业,而且他们的数据非常贫乏。冷启动和稀疏性是大数据在许多领域面临的挑战。
另一方面,对于不同的领域和项目,没有一刀切的算法,必须根据具体问题进行分析和解决。在实际工作中,发现不仅不同的领域(如文章推荐和商品推荐),而且同一领域的不同单位(电子商务,但不同类型的电子商务,如母婴、服装或奢侈品)也不同。
数据的交叉利用
上面提到的大数据在实际应用中面临的两个最大问题,即冷启动期间数据的缺乏和早期业务数据的稀疏,并不是没有希望的。业内已经讨论过的数据访问是解决这两个问题的方法。
对于一些新兴领域,数据的缺乏是不可避免的。另一方面,由于缺乏数据支持,更需要有一个强有力的决策支持系统来指导和支持自己的业务,从而达到少走弯路、收益最大化的目的。
特别是移动互联网领域的项目。虽然在过去的两三年里,移动互联网得到了高速的发展,但毕竟它在各个方面的积累都无法与互联网相比。尤其是在人们形成稳定的使用习惯之前,数据没有更多的价值和意义。
但是,如果我们能够将互联网数据与移动互联网数据连接起来,那么我们就会很好的掌握这个人的喜好等信息,从而为移动互联网业务提供更有效的指导和帮助。
图3。访问互联网和移动互联网数据
当然,获取数据绝不仅限于互联网和移动互联网。来自每个数据源的数据通常描述一个人的不同方面。正如巴拉巴斯教授在《疾病爆发》一书中所描述的那样,如果数据充足,93%的人类行为是可以预测和规律的。
只有通过重新组织这些来自不同来源的数据,我们才能挖掘出更有意义的信息。
无论是统计数据还是大数据,都是为了让我们的工作更加有效,让决策更加合理和准确。关注数据本身就是一个企业成熟的标志。
随着移动互联网的迅速崛起,数据变得更加多样和丰富。它的移动性、碎片性、私密性和即时性正好弥补了用户离开台式电脑后的数据,因此与互联网原始数据一起,是勾画网民日常生活和日常生活数据的好方法。
随着数据的进一步丰富和完善,以及来自不同渠道的数据的开放和交叉利用,大数据的想象力必将更加广阔。
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??变得强大。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0