什么是大数据？初学者快速入门手册

眼泪淡了忧伤 11-06 13

默认

摘要： ...

“大数据”这个词有点用词不当，因为它意味着预先存在的数据在某种程度上是小的（事实并非如此），或者唯一的挑战是其庞大的规模（规模是其中之一，但通常还有更多）。简而言之，“大数据”一词适用于无法使用传统流程或工具处理或分析的信息。在本文中，我们将探讨大数据的概念及其含义。我们还将详细探讨大数据的三个主要特征。

如今，企业正日益面临越来越多的大数据挑战。他们可以接触到大量的信息，但他们不知道如何从中获得价值，因为这些信息都是最原始的形式，或者是半结构化或非结构化的形式。因此，他们甚至不知道它是否值得保留（甚至不知道是否能够保留）。大数据平台为这些问题提供了解决方案。

IBM的一项调查发现，如今超过一半的商业领袖意识到，他们无法获得敏锐的洞察力。企业正面临着这些挑战，因为它们有能力存储任何东西，它们正在以前所未有的方式生成数据；综合起来，这是一个真正的信息挑战。

这是一个难题：今天的业务比以往任何时候都有更多的机会获得潜在的洞察力，然而随着这个潜在的数据的积累，业务可以处理的数据百分比正在迅速下降。很简单，大数据时代在今天全面展开，因为世界正在发生变化。

通过仪器，我们能够感知更多的东西，如果我们能感知到它，我们倾向于尝试存储它。随着通信技术的进步，人和物之间的联系越来越紧密，而且不仅仅是在某些时候，而是一直如此。这种互联速度就像一列失控的火车。通常被称为机器对机器（M2M）的互连，是造成数据年增长率达到两位数的原因。

由于小型集成电路现在如此便宜，我们几乎可以为所有东西添加智能设备。即使是像火车车厢这样普通的东西也有数百个传感器。在铁路车厢上，这些传感器跟踪诸如铁路车厢所经历的状况、单个部件的状态以及用于货物跟踪和物流的基于GPS的数据。在火车脱轨造成大量人员伤亡后，各国政府出台了相关法规来存储和分析这类数据，以防止未来发生灾难。

轨道车辆也变得越来越智能。火车上的处理器现在可以解读诸如轴承等易磨损部件的传感器数据，便在部件出现故障并造成进一步损坏 —— 或者更糟糕的是，灾难 —— 之前识别出需要维修的部件。但不仅仅是轨道车辆是智能的——实际的轨道每隔几英尺就有传感器。此外，数据存储需求是针对整个生态系统的：车厢、铁轨、铁路道口传感器、导致铁轨移动的天气模式等等。

现在把传感器添加到跟踪火车车厢的货物装载和到达和离开时间中，你很快就会发现这是一个大数据问题。即使所有这些数据都是有关系的（但实际上并非如此），它们也都是原始数据，并且具有非常不同的格式，使得在传统的关系型系统中处理这些数据变得不切实际甚至不可能。铁路车厢只是一个例子，但我们看到，在我们目光所及之处，速度、容量和多样性结合在一起，在各个领域都造成了大数据问题。

定义大数据的三个特征：数量、种类和速度。

这些特征共同定义了“大数据”。它们创造了对一类新功能的需求，以增强当今事物的处理方式。这为我们提供了对现有知识领域更好的洞察力和控制力，以及对其采取行动的能力。

如今存储的数据量正呈爆炸式增长。2000年，全世界存储了80万兆字节（PB）的数据。当然，今天创建的许多数据根本没有经过分析，这是另一个需要考虑的问题。2020年，这一数字达到35泽字节（ZB）。仅Twitter每天就产生超过7TB的数据，Facebook每天产生10TB的数据，而一些企业在一年中的每一天每小时都会产生TB的数据。单个企业拥有存储PB级数据的存储集群已不再是闻所未闻。

当你停下来思考时，我们淹没在数据中也就不足为奇了。我们存储所有的数据：环境数据、金融数据、医疗数据、监控数据等等。例如，办理登机手续、打卡上班、在 iTunes 上购买一首歌曲、更换电视频道、走电子收费道路 —— 这些行动中的每一个都会产生数据。

好了，你明白我的意思了：现在的数据比以往任何时候都多，你所要做的就是看看个人家用电脑的TB级渗透率就知道了。大约十年前，我们曾经列出我们所知道的所有超过 TB 级的数据仓库 —— 可以说，在数据量方面，情况已经发生了变化。

正如“大数据”一词所暗示的那样，组织正面临着海量的数据。不知道如何管理这些数据的组织会被其淹没。但是，有了合适的技术平台，就有机会分析几乎所有的数据（或者至少通过识别对您有用的数据来分析更多的数据），从而更好地了解您的业务、客户和市场。这就导致了当今各行各业的企业所面临的难题。

随着企业可用的数据量不断增加，企业可以处理、理解和分析的数据百分比却在下降，从而产生了盲区。

盲区里有什么？

你不知道：它可能是非常有价值的东西，也可能什么都不是，但 “不知道” 就是问题所在（或者说是机会所在，这取决于你如何看待它）。关于数据量的讨论已经从 TB 级别转变为 PB 级别，并且不可避免地会向 ZB 级别转变，而所有这些数据都无法存储在传统的系统中。

与大数据现象相关的数据量给试图处理它的数据中心带来了新的挑战：它的多样性。

随着传感器、智能设备和社会协作技术的爆炸式增长，企业中的数据变得越来越复杂。它包括传统的关系型数据以及原始的半结构化数据。它还包括来自网页、weblog文件（包括点击流数据）、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等的非结构化数据。

此外，传统系统可能难以存储和执行所需的分析，以了解这些日志的内容。这是因为生成的许多信息本身不适合传统的数据库技术。根据我的经验，虽然一些公司正在沿着这条路走下去，但总的来说，大多数公司才刚刚开始理解大数据带来的机遇。

简单地说，多样性代表了所有类型的数据——这是分析需求从传统结构化数据向包括原始、半结构化和非结构化数据的根本转变。传统的分析平台无法处理多样性。然而，一个组织的成功将依赖于它从各种可用的数据中获取见解的能力，这些数据包括传统的和非传统的。

当我们回顾我们的数据库生涯时，有时会很惭愧地发现，我们花了更多的时间在20%的数据上：关系型数据格式整齐，非常适合我们严格的模式。但事实是，世界上80%的数据（越来越多的数据创造了新的速度和容量记录）最多是非结构化或半结构化的。如果您查看Twitter提要，您将看到JSON格式的结构—但是实际文本不是结构化的，理解这一点是有益的。

视频和图片图像不容易或有效地存储在关系数据库中。某些事件信息可以动态更改（例如天气模式），这并不适合严格的模式等等。为了利用大数据的机会，企业必须能够分析所有类型的数据，包括关系数据和非关系数据：文本、传感器数据、音频、视频、交易数据等等。

正如我们收集和存储的数据的绝对数量和多样性发生了变化一样，数据生成的速度以及需要处理的速度也发生了变化。对速度的传统理解通常考虑数据到达和存储的速度以及相关的检索速率。虽然快速管理所有这些是好事 —— 而我们所关注的数据量是数据到达速度的结果。

为了适应速度，思考问题的新方法必须从数据的初始点开始。与其将速度的概念局限于与数据存储库相关的增长率，不如将此定义应用于动态数据：数据流动的速度。

毕竟，我们一致认为，今天的企业正在处理pb级而不是tb级的数据，RFID传感器和其他信息流的增加导致了数据的持续流动，这使得传统系统无法处理。有时候，想要在竞争中获得优势，可能意味着比别人早几秒，甚至几微秒就能发现趋势、问题或机会。

如今，越来越多的数据的保质期都很短，因此，如果企业希望深入了解这些数据，就必须能够近乎实时地分析这些数据。在传统处理中，您可以考虑对相对静态的数据运行查询：例如，查询“Show me all people living In the ABC flood zone”将产生一个结果集，用作即将到来的天气模式的警告列表。使用流计算，您可以执行一个类似于连续查询的过程，识别当前“在ABC洪泛区”的人，但是您会得到持续更新的结果，因为来自GPS数据的位置信息是实时刷新的。

有效地处理大数据需要你在数据处于运动状态时就对数据量和多样性进行分析，而不是在数据静止后才进行分析。考虑从跟踪新生儿健康到金融市场的例子；在每种情况下，它们都需要以新的方式处理大量和各种数据。

您无法在传统流程中筛选所有可用的数据。只是有太多的数据，而已知的价值却太少，而且风险太大。大数据平台允许您以经济的方式存储和处理所有数据，并发现有价值和值得开发的内容。此外，由于我们讨论了静态数据和动态数据的分析，因此您可以从中发现价值的实际数据不仅范围更广，而且您可以更快地实时使用和分析它。

打赏