本篇文章3490字,读完约9分钟

大数据中的数据量巨大,达到了pb级。此外,这些庞大的数据不仅包括结构化数据(如数字、符号和其他数据),还包括非结构化数据(如文本、图像、声音、视频和其他数据)。这使得使用传统关系数据库存储、管理和处理大数据变得困难。在大数据中,有价值的信息往往隐藏在其中。这就要求大数据的处理速度非常快,以便在短时间内从大量复杂数据中获取有价值的信息。在大数据的大量复杂数据中,通常不仅包含真实数据,还包含一些虚假数据。这需要在处理大数据时消除虚假数据,并使用真实数据来分析和获得真实结果。

【专治不明觉厉】之“大数据”

大数据分析(大数据分析)

大数据从表面上看是大量的复杂数据,价值不高。然而,在分析和处理这些复杂的数据之后,可以从中提取有价值的信息。大数据分析主要分为五个方面:分析可视化、数据挖掘算法、预测分析能力、语义引擎和数据质量管理。

可视化分析是大数据分析结果的一种表现形式,普通消费者可以经常看到。例如,百度制作的“百度地图春节人口迁移大数据”就是典型案例之一。视觉分析自动将大量复杂的数据转换成直观的图表,更容易被普通消费者接受和理解。

数据挖掘算法是大数据分析的理论核心,其实质是根据算法预先定义的一组数学公式,将采集到的数据作为参数变量,从大量复杂数据中提取有价值的信息。著名的“啤酒和尿布”故事是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,发现了它们之间以前未知的联系,并利用这种联系来增加商品的销量。亚马逊的推荐引擎和谷歌的广告系统都使用了大量的数据挖掘算法。

【专治不明觉厉】之“大数据”

预测分析能力是大数据分析最重要的应用领域。从大量复杂数据中挖掘规则,建立科学的事件模型,并通过向模型中引入新数据,我们可以预测未来的事件趋势。预测分析能力常用于金融分析和科学研究领域,如股票预测或天气预报。

语义引擎是机器学习的成果之一。过去,计算机对用户输入内容的理解只停留在字符阶段,不能很好地理解输入内容的含义,因此通常不可能准确理解用户的需求。通过分析大量复杂的数据,计算机可以从中学习,这可以使计算机尽可能准确地理解用户输入内容的含义,从而掌握用户的需求,提供更好的用户体验。苹果的siri和谷歌的谷歌现在都使用语义引擎。

【专治不明觉厉】之“大数据”

数据质量管理是大数据在企业领域的一个重要应用。为了保证大数据分析结果的准确性,有必要剔除大数据中的不真实数据,保留最准确的数据。因此,有必要建立有效的数据质量管理体系,分析大量收集到的复杂数据,选择真实有效的数据。

分布式计算(分布式计算)

关于如何处理大数据,计算机科学领域有两个方向:第一个方向是集中计算,即增加处理器的数量以增强单台计算机的计算能力,从而提高数据处理的速度。第二个方向是分布式计算,即一组计算机通过网络相互连接,形成一个分散的系统,然后将大量的待处理数据分散到多个部分,这些部分被移交给分散系统中的计算机组进行同时计算,最后将这些计算结果合并得到最终结果。虽然分散系统中单台计算机的计算能力不强,但由于每台计算机只计算一部分数据,而且多台计算机同时计算,分散系统中处理数据的速度将远远高于单台计算机。

【专治不明觉厉】之“大数据”

过去,分布式计算理论复杂,技术实现困难,因此集中式计算一直是处理大数据的主流解决方案。Ibm大型机是集中式计算的典型硬件,被许多银行和政府机构用来处理大数据。然而,对于当时的互联网公司来说,ibm大型机太贵了。因此,互联网公司专注于可以在廉价计算机上使用的分布式计算。

服务器集群(服务器集群)

服务器集群是提高服务器整体计算能力的解决方案。它是由互连的服务器组组成的并行或分布式系统。服务器群集中的服务器运行相同的计算任务。因此,从外部来看,这组服务器是一个虚拟服务器,为外部世界提供统一的服务。

虽然单个服务器的计算能力有限,但整个系统具有强大的计算能力,可以在数百台服务器组成服务器集群后支持大数据分析的计算负载。谷歌、亚马逊和阿里巴巴计算中心的服务器集群已达到5000台服务器的规模。

大数据的技术基础:mapreduce、google文件系统和bigtable

从2003年到2004年,谷歌发表了mapreduce、gfs(谷歌文件系统)和bigtable三篇技术论文,提出了一套新的分布式计算理论。

Mapreduce是一个分布式计算框架,gfs(google file system)是一个分布式文件系统,bigtable是一个基于google file system的数据存储系统,这三个组件构成了google的分布式计算模型。

与传统的分布式计算模型相比,谷歌的分布式计算模型有三个优点:第一,它简化了传统的分布式计算理论,降低了技术实现的难度,并且可以在实践中应用。其次,它可以应用于廉价的计算设备,只有通过增加计算设备的数量才能提高整体计算能力,并且应用成本非常低。最后,通过谷歌在谷歌计算中心的应用,取得了良好的效果,并得到了实际应用的证明。

【专治不明觉厉】之“大数据”

后来,各种互联网公司开始使用谷歌的分布式计算模型来构建自己的分布式计算系统,谷歌的这三篇论文成为大数据时代的技术核心。

三种主流分布式计算系统:hadoop、spark和storm

由于谷歌没有开源谷歌分布式计算模型的技术实现,其他互联网公司只能根据谷歌三篇技术论文中的相关原则构建自己的分布式计算系统。

2005年,雅虎工程师doug cutting和mike cafarella共同开发了hadoop,一个分布式计算系统。后来,hadoop被贡献给apache Foundation,成为apache Foundation的一个开源项目。道格·卡特也成为了阿帕奇基金会的主席,并主持了hadoop的开发。

Hadoop采用mapreduce分布式计算框架,根据gfs开发hdfs分布式文件系统,根据bigtable开发hbase数据存储系统。尽管hadoop的原理与谷歌使用的分布式计算系统相同,但Hadoop的计算速度仍达不到谷歌论文中的标准。

然而,hadoop由于其开源特性已经成为分布式计算系统事实上的国际标准。雅虎、facebook、亚马逊、百度、阿里巴巴和许多其他国内互联网公司已经建立了自己的基于hadoop的分布式计算系统。

Spark也是apache Foundation的一个开源项目,由加州大学伯克利分校的实验室开发,是另一个重要的分布式计算系统。它在hadoop的基础上做了一些架构上的改进。spark和hadoop的最大区别在于hadoop使用硬盘存储数据,而spark使用内存存储数据,因此spark可以提供比Hadoop快100倍的计算速度。但是,spark不能用于处理需要保存很长时间的数据,因为在内存被切断后数据会丢失。

【专治不明觉厉】之“大数据”

Storm是一个由twitter推广的分布式计算系统。它由backtype团队开发,是阿帕奇基金会的一个孵化项目。它提供基于hadoop的实时操作,并能实时处理大数据流。与hadoop和spark不同,storm不收集和存储数据。它通过网络直接实时接收和处理数据,然后通过网络直接实时返回结果。

Hadoop、spark和storm是目前最重要的三种分布式计算系统。hadoop通常用于离线复杂大数据处理,spark通常用于离线快速大数据处理,而storm通常用于在线实时大数据处理。添加语料库

三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....

当前流行度:0

[娇娇]http://itougu.jrj/view/189514.j.....

当前流行度:0

1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....

当前流行度:0

你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........

当前流行度:0

缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......

当前流行度:0

那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....

当前流行度:1

你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....

当前流行度:0

咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....

当前流行度:0

来源:国土报中文版

标题:【专治不明觉厉】之“大数据”

地址:http://www.g3gw.com/new/9918.html