本篇文章4211字,读完约11分钟
我的大数据研究轨迹
我已经在移动架构和java虚拟机上工作了4-5年,在多核架构和并行编程系统上工作了4-5年。最近4-5年,我也一直在追逐时尚,首先投资物联网,最近几年,我一直在做大数据。下图显示了我们团队的大数据研究轨迹:
从2010年到2012年,我们主要关注数据和机器之间的关系:横向扩展、容错、一致性、软硬件协同设计,并阐明了各种计算模式,从批处理(mapreduce)到流处理、大sql/ad hoc查询、图形计算、机器学习等。事实上,我们的团队只是英特尔大数据R&D实力的一部分,而上海团队是英特尔hadoop分销的主力军。现在,英特尔已经成为cloudera的最大股东,并且不做分销,但是平台优化、开源支持和垂直解决方案仍然是英特尔大数据R&D的重点..
从2013年开始,我们开始关注数据和人之间的关系:如何为数据科学家做分布式机器学习、特征工程和无监督学习,如何为领域专家做交互式分析工具,以及如何为最终用户做交互式可视化工具。英特尔研究院在美国卡内基梅隆大学支持的研究中心完成了graphlab和陈旧同步并行,在麻省理工学院的研究中心完成了scidb的交互式可视化和大数据分析,而中国主要完成了spark sql和mllib(机器学习库),现在还涉及到深度学习算法和基础设施。
2014年,我们专注于分析数据和数据之间的关系:我们最初的工作专注于开源,但后来发现开源只是开放创新的一部分。要开放大数据创新,就要开放数据、大数据基础设施和价值提取能力。
数据和外部效应的黑暗海洋
下面是一幅非常有趣的图片。黄色部分是化石层,也就是说,没有网络和数字数据,大部分数据都在这片海洋中。只有这些海平面上的数据(有人称之为地表网络)才是每个人都可以访问的真实数据。爬虫可以爬,搜索引擎可以检索数据。大多数数据都在黑暗的海洋中(相应地被称为黑暗之网)。据说这部分占全部数据的85%以上。他们躺在地板上,睡在一些孤立的岛屿、企业和政府里。
数据对于数据社会就像水对于城市或者血液对于身体一样重要。城市由河流孕育而生,一旦血液停滞,身体就处于危险之中。因此,对于一个以数据为基础的生存社会来说,我们必须让数据流动起来,否则这个社会将失去许多重要的功能。
因此,我们希望这些数据会有“金风遇玉露”的化学效应。马提出了互联网+的概念,而英特尔也有一个大数据X,相当于各行各业的大数据成倍增长。如下图所示,除了倍增效应,数据还有一个非常奇妙的效应,叫做外部性。例如,这些数据对我没用,但对ta有用,所谓我的毒药是蜂蜜。
例如,金融数据和电子商务数据碰撞在一起,导致像小额贷款和小额贷款这样的互联网金融;电信数据和政府数据之间的相遇可以产生人口价值,并帮助城市规划人们生活、工作和娱乐的地方。财务数据和医疗数据在一起。麦肯锡列出了许多申请,如欺诈保险;物流数据和电子商务数据放在一起,以了解各种经济子领域的运作;物流数据和财务数据产生供应链金融,而财务数据和农业数据也可能产生一些化学效应。例如,谷歌分析的几个人利用美国的公开气象数据,在每块农田上建立一个微观气象模型,可以预测灾害,帮助农民投保和理赔。
因此,只有走数据开放之路,让不同领域的数据流动融合,才能释放大数据的价值。
关于开放性的三个概念
1.开放数据
首先是狭义的数据开放。数据公开的主体是政府和科研机构,它们公开非保密的政府数据和科研数据。目前,一些企业愿意公开他们的数据,如网飞和一些电信运营商,以帮助他们对他们的数据进行估值,并建立一个生态系统。但是数据公开并不等于信息公开。首先,数据不等于信息。信息是从数据中提取出来的东西。我们希望,首先,原始数据应该开放,其次,这是一个积极和自由的开放。现在我们经常听说我们要申请信息公开,这是被动公开。
蒂姆·伯纳斯·李(Tim berners lee)提出了一个数据开放的五星标准,以确保数据质量:一星是oauth2.0的格式,如pdf;其次,它是结构化的,将文件中的数据转换成像excel这样的表格;三星是一个开放的格式,如csv;四星可以通过uri找到每个数据项。五星代表可以与其他数据链接,形成一个开放的数据地图。
如今,主流的数据开放门户,如data.dov或data.gov.uk,都是基于开源软件的。麻省理工学院的英特尔大数据研究中心也制作了一种叫做数据中心的形式:吉祥物非常有趣,一半是大象,代表数据库技术,另一半是章鱼,取自github的吉祥物章鱼猫。它提供了更多的功能,如方便的管理,结构化数据服务和访问控制,管理数据共享,并可以在现场可视化和分析。
广义而言,数据开放还包括数据共享和交易,如点对点数据共享或多边平台上的数据交易。马克思说过,生产资料的所有制是经济的基础,但现在我们可以发现,生产资料租赁制度已经成为一种主流(指精益创业)。在数据场景中,我不一定有数据,即使没有整个数据集,但我可以租用它。在租赁过程中,应保证数据的权利。
首先,我可以为你使用数据,但我不能给你看。1982年,姚期智先生提出了“百万富翁的困境”。两个百万富翁比其他人更富有,他们都不愿意说出自己有多少钱。这是一个典型的“可用但不可见”的场景。现实生活中有很多例子。例如,美国国土安全部有一份恐怖分子名单(数据1),航空公司有乘客飞行记录(数据2),国土安全部想要航空公司的乘客飞行记录。双方都有寻找恐怖分子的意愿,但他们不愿意提供数据。有没有什么方法可以同时扫描数据1和数据2,同时确保数据安全?
其次,在数据使用的过程中应该有一个审计。如果扫描仪秘密隐藏数据并将其发送回来呢?此外,还需要一种数据定价机制,因为双方之间的数据价值必须是不相等的,而且产生的见解对各方都有不同的用途。因此,需要一种定价机制,这比大锅饭中的数据共享更具激励性。
从点对点共享到多边数据交易,从一对多数据服务到多对多数据市场,再到数据交换。如果当前的数据市场更多的是买卖数据集,那么数据交换就是基于市场价值发现和定价的小批量、高频率的数据交易,就像股票交易一样。
我们已经支持了许多研究来实现这些功能,例如可用但不可见。第一种情况是通过加密数据库crypt db/mon mi实现的,数据所有者端的数据库是完全加密的,这实际上防止了现在的许多数据泄漏问题。每个人都听说过,例如,一个互联网服务提供商的雇员秘密出售数据,一旦你的数据被加密,他就没必要把它拿出来。其次,这个加密数据库可以运行乙方的普通sql程序,因为它采用了同态加密技术和洋葱加密方法,并且sql的一些语义也可以在密文上执行。
鉴于“百万富翁的困境”,我们创造了另一种可用但看不见的技术,叫做数据咖啡馆。众所周知,咖啡馆是人们相互碰撞的地方。这个数据咖啡馆就是让数据相互碰撞,产生新的价值。
例如,两家电子商务公司,一家卖衣服,另一家卖化妆品,对顾客的了解相对有限。如果将双方的数据放在一起进行分析,就可以获得全面的用户画像。又如,癌症是一种基因突变太多的长尾疾病,每个研究机构的基因组样本相对有限,这在一定程度上解释了为什么癌症的治愈率在过去50年里只增加了8%。然后,在咖啡馆里接触多个研究机构的数据也可以加速癌症研究。
咖啡馆的底部是基于英特尔和伯克利联合研究的多方安全计算技术。以上是一个安全可信的火花,它基于对“数据谱系”的使用审计,并根据各方数据对结果的贡献进行定价。
2.开放大数据基础设施
目前,有些人有大数据思维,但他们很匆忙。他们负担不起或玩不起大数据。他不知道如何存储和处理这些需要云计算的大数据。开放基础设施是传统的平台即服务,比如亚马逊aws中的mapreduce和谷歌中的大查询。这些大数据的基本处理和分析平台可以降低数据思考者的门槛,释放他们的创造力。
例如,“决定”每天抓取数十万个数据,分析价格信息(结构化和非结构化),然后告诉你买什么品牌和什么时候买最好的。只有四个博士做算法,其他的依靠aws。另一家公司prism也使用了aws,这是一种个性化的阅读推荐。我专门研究了它的计算图表、存储和高性能库,并用lisp的变体clojure编写了它。只有三个学生真正学习技术。
因此,当这些基础设施社会化时,大数据思想家的春天将很快到来。
3.价值提取能力的开放性
如今,这种模式通常是一对多或一对一。例如,特易购和邓汉比,后者开始是一个小公司,发现特易购是一个客户忠诚度计划,他们这样做了几十年。这种长期战略合作优于短期数据分析服务,决策更注重长期。当然,邓汉比不再是一个小公司,但也为其他大公司提供数据分析服务。另一个例子是,沃尔玛与另一家小公司合作进行数据分析,最后他收购了这家小公司,并成为其沃尔玛实验室。
一对多模式,典型的是由彼得·泰尔和几个斯坦福大学教授创立的帕兰提尔公司,仍然是私有的,但估值接近100亿元。它非常擅长为各国政府和金融机构提供数据价值提取服务。正是卡格尔真正开启了这种能力。一方面,有超过10万名分析师,另一方面,有需求方企业。企业对kaggle进行投标,分析师对企业进行投标。这可能是长尾公司获取价值能力的真正解决方案。当然,如果能和我们的数据咖啡馆结合起来就更好了。
这篇文章是作者独立的观点,并不代表老虎嗅探网络的立场
向作者提问并加入语料库
三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....
当前流行度:0
[娇娇]http://itougu.jrj/view/189514.j.....
当前流行度:0
1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....
当前流行度:0
你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........
当前流行度:0
缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......
当前流行度:0
那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....
当前流行度:1
你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....
当前流行度:0
咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....
当前流行度:0