本文作者:平定天下

大数据概述

平定天下 11-06 10
大数据概述摘要: ...

大数据本身是一个抽象的概念。
从一般意义上讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
一般情况下,如果当前的工具无法处理一个数据集的话,那么这个数据集在当下就会被称之是大数据集;
目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备 Volume、Velocity、Variety 和 Value 四个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低。

在这里插入图片描述

大数据的主要特点-4V
1)Volume:表示大数据的数据体量巨大
数据集合的规模不断扩大,已经从 GB 级增加到 TB 级再增加到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。
例如,一个中型城市的视频监控信息一天就能达到几十TB 的数据量。
百度首页导航每天需要提供的数据超过 1-5PB,如果将这些数据打印出来,会超过 5000 亿张 A4 纸。

图 2 展示了每分钟互联网产生的各类数据的量。
在这里插入图片描述

2)Velocity:表示大数据的数据产生、处理和分析的速度在持续加快
加速的原因是数据创建的实时性特点,以及将流数据结合到业务流程和决策过程中的需求。
数据处理速度快,处理模式已经开始从批处理转向流处理。
业界对大数据的处理能力有一个称谓——“1 秒定律”,也就是说,可以从各种类型的数据中快速获得高价值的信息。
大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。

3)Variety:表示大数据的数据类型繁多。
传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。
随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。
现在的数据类型不再只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、 日志文件等。
企业需要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。

4)Value:表示大数据的数据价值密度低。
大数据由于体量不断加大,单位数据的价值密度在不断降低,然而数据的整体价值在提高。
以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,但是却会非常重要。
现在许多专家已经将大数据等同于黄金和石油,这表示大数据当中蕴含了无限的商业价值。
根据中商产业研究院发布的《2018-2023 年中国大数据产业市场前景及投资机会研究报告》显示,2017 年中国大数据产业规模达到 4700 亿元,同比增长 30%。
随着大数据在各行业的融合应用不断深化,预计 2018 年中国大数据市场产值将突破 6000 亿元达到 6200 亿元。
通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。

伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长,
根据市场研究资料显示,全球数据总量将从 2016 年的 16.1ZB 增长到 2025 年的 163ZB (约合 180 万亿 GB),十年内将有 10 倍的增长,复合增长率为 26%,

如图 1 所示。
若以现有的蓝光光盘为计量标准,那么 40ZB 的数据全部存入蓝光光盘,所需要的光盘总重量将达到 424 艘尼米兹号航母的总重量。
而这些数据中,约 80% 是非结构化或半结构化类型的数据,甚至更有一部分是不断变化的流数据。因此,数据的爆炸性增长态势,以及其数据构成特点使得人们进入了“大数据”时代。
在这里插入图片描述

图 1 2016-2025 年全球数据产量及预测

在这里插入图片描述
图 2 2018-2030年中国数据规模增长预测

如今,大数据已经被赋予多重战略含义。
在资源的角度,数据被视为“未来的石油”,被作为战略性资产进行管理。
在国家治理角度,大数据被用来提升治理效率,重构治理模式,破解治理难题,它将掀起一场国家治理革命。
在经济增长角度,大数据是全球经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分。
在国家安全角度,全球数据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。
总之,国家竞争焦点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数据强国与数据弱国。
从宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略响应,将大数据置于非常核心的位置,推出国家级创新战略计划。

大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。
无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力。

从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了 3 个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。
1)运营式系统阶段
数据库的出现使得数据管理的复杂度大大降低,在实际使用中,数据库大多为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量的第一次大的飞跃正是在运营式系统开始广泛使用数据库时开始的。
这个阶段的最主要特点是,数据的产生往往伴随着一定的运营活动;而且数据是记录在数据库中的,例如,商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。
2)用户原创内容阶段
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但是真正的数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长。主要有以下两个方面的原因:
• 以博客、微博和微信为代表的新型社交网络的岀现和快速发展,使得用户产生数据的意愿更加强烈。
• 以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段的数据产生方式是主动的。
3)感知式系统阶段。
人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。
随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。

大数据虽然孕育于信息通信技术,但它对社会、经济、生活产生的影响绝不限于技术层面。
更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析,而不是像过去更多凭借经验和直觉。具体来讲,大数据将有以下作用。
1)对大数据的处理分析正成为新一代信息技术融合应用的结点
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。
云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值,大数据具有催生社会变革的能量。
2)大数据是信息产业持续高速增长的新引擎
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生出一体化数据存储处理服务器、内存计算等市场。
在软件与服务领域,大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。
3)大数据利用将成为提高核心竞争力的关键因素
各行各业的决策正在从“业务驱动”向“数据驱动”转变。
在商业领域,对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对,可以为商家制定更加精准有效的营销策略提供决策支持,可以帮助企业为消费者提供更加及时和个性化的服务。
在医疗领域,可提高诊断准确性和药物有效性。
在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
4)大数据时代,科学研究的方法手段将发生重大改变
例如,抽样调查是社会科学的基本研究方法,在大数据时代,研究人员可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

大数据时代的到来改变了人们的生活方式、思维模式和研究范式,我们可以总结出 10 个重大变化,如下图所示:
在这里插入图片描述

举个例子来说
对方法论的新认识:
从基于知识到基于数据传统的方法论往往是“基于知识”的,即从“大量实践(数据)”中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题。
因此,传统的问题解决思路是“问题→知识→问题”,即根据问题找“知识”,并用“知识”解决“问题”。
然而,数据科学中兴起了另一种方法论——“问题→数据→问题”,即根据“问题”找“数据”,并直接用“数据”(在不需要把“数据”转换成“知识”的前提下)解决“问题”,如图 2 所示。

在这里插入图片描述

图 2 传统思维与大数据思维的比较

再举个例子来说
对决策方式的新认识:
从目标驱动型到数据驱动型
传统科学思维中,决策制定往往是“目标”或“模型”驱动的,也就是根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。
小数据时代,企业讨论什么事情该做不该做,许多时候是凭感觉来决策的,流程如图 3 所示,由两个环节组成:一个是拍脑袋,另一个是研发功能。

在这里插入图片描述

图 3 产品迭代的错误流程
基本上就是产品经理通过一些调研,想了一个功能,做了设计。下一步就是把这个功能研发出来,然后看一下效果如何,再做下一步。
整个过程都是凭一些感觉来决策。这种方式总是会出现问题,很容易走一些弯路,很有可能做出错误的决定。
数据驱动型决策加入了数据分析环节,如图 4 所示。
基本流程就是企业有一些点子,通过点子去研发这些功能,之后要进行数据收集,然后进行数据分析。
基于数据分析得到一些结论,然后基于这些结论,再去进行下一步的研发。整个过程就形成了一个循环。在这种决策流程中,人为的因素影响越来越少,而主要是用一种科学的方法来进行产品的迭代。

在这里插入图片描述

例如,一个产品的界面到底是绿色背景好还是蓝色背景好,从设计的层面考虑,两者是都有可能的。那么就可以做一下 A/B 测试。
可以让 50% 的人显示绿色背景,50% 的人显示蓝色背景,然后看用户点击量。哪个点击比较多,就选择哪个。这就是数据驱动,这样就转变成不是凭感觉,而是通过数据去决策。
相比于基于本能、假设或认知偏见而做出的决策,基于证据的决策更可靠。通过数据驱动的方法,企业能够判断趋势,从而展开有效行动,帮助自己发现问题,推动创新或解决方案的出现。

大数据的数据来源广泛,应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。
整个大数据的处理流程可以定义为,在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。
具体来讲,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。

大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战。
要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。
在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中的。
数据抽取和集成技术并不是一项全新的技术,在传统数据库领域此问题就已经得到了比较成熟的研究。随着新的数据源的涌现,数据集成方法也在不断的发展之中。
从数据集成模型来看,现有的数据抽取与集成方式可以大致分为 4 种类型:

  1. 基于物化或 ETL 方法的引擎
  2. 基于联邦数据库或中间件方法的引擎
  3. 基于数据流方法的引擎
  4. 基于搜索引擎的方法

数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。
从异构数据源抽取和集成的数据构成了数据分析的原始数据。
根据不同应用的需求可以从这些数据中选择全部或部分进行分析。
小数据时代的分析技术,如统计分析、数据挖掘和机器学习等,并不能适应大数据时代数据分析的需求,必须做出调整。
大数据时代的数据分析技术面临着一些新的挑战,主要有以下几点。
1)数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多。
因此,在数据分析之前必须进行数据清洗等预处理工作,但是预处理如此大量的数据,对于计算资源和处理算法来讲都是非常严峻的考验。
2)大数据时代的算法需要进行调整。
首先,大数据的应用常常具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。在很多场景中,算法需要在处理的实时性和准确率之间取得一个平衡。
其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应分布式并发的计算框架,算法需要变得具有可扩展性。
许多传统的数据挖掘算法都是线性执行的,面对海量的数据很难在合理的时间内获取所需的结果。因此需要重新把这些算法实现成可以并发执行的算法,以便完成对大数据的处理。
最后,在选择算法处理大数据时必须谨慎,当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法并一定适用于大数据。
3)数据结果的衡量标准。
对大数据进行分析比较困难,但是对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。
大数据时代的数据量大,类型混杂,产生速度快,进行分析的时候往往对整个数据的分布特点掌握得不太清楚,从而会导致在设计衡量的方法和指标的时候遇到许多困难。

数据分析是大数据处理的核心,但是用户往往更关心对结果的解释。
如果分析的结果正确,但是没有采用适当的方法进行解释,则所得到的结果很可能让用户难以理解,极端情况下甚至会引起用户的误解。
数据解释的方法很多,比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。这些方法在面对小数据量时是一种可行的选择。
但是大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的简单解释方法几乎是不可行的。

解释大数据分析结果时,可以考虑从以下两个方面提升数据解释能力。
1)引入可视化技术。
可视化作为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。该方法通过将分析结果以可视化的方式向用户展示,可以使用户更易理解和接受。
常见的可视化技术有标签云、历史流、空间信息流等。
2)让用户能够在一定程度上了解和参与具体的分析过程。
这方面既可以采用人机交互技术,利用交互式的数据分析过程来引导用户逐步地进行分析,使得用户在得到结果的同时更好地理解分析结果的过程,
也可以采用数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享