大数据指高速 (Velocity) 涌现的大量 (Volume) 多样化 (Variety) 数据,其特性可简单概括为 3V。
简而言之,大数据指非常庞大、复杂的数据集,特别是来自新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
大数据的“大”首先体现在数据量上。这意味着您需要处理海量、低密度的非结构化数据。这些数据的价值可能是未知的,例如 Twitter 数据流、网页或移动应用点击流,以及设备传感器所捕获的数据等等。在实际应用中,大数据的数据量通常高达数十 TB,甚至数百 PB。
大数据的“高速”指高速接收乃至处理数据 — 数据通常直接流入内存而非写入磁盘。在实际应用中,某些联网的智能产品需要实时或近乎实时地运行,要求基于数据实时评估和操作,而大数据只有具备“高速”特性才能满足这些要求。
多样化是指数据类型众多。通常来说,传统数据属于结构化数据,能够整齐地纳入关系数据库。随着大数据的兴起,各种新的非结构化数据类型不断涌现,例如文本、音频和视频等等,它们需要经过额外的预处理操作才能真正提供洞察和支持性元数据。
在过去几年,大数据又新增了两个 V 特性:价值 (value) 和真实性 (veracity)。首先,数据固然蕴含着价值,但是如果不通过适当方法将其价值挖掘出来,数据就毫无用处。其次,数据的真实性和可靠性也同样重要。
如今,大数据已成为一种资本,全球各个大型技术公司无不基于大数据工作原理,在各种大数据用例中通过持续分析数据提高运营效率,促进新产品研发,他们所创造的大部分价值无不来自于他们掌握的数据。
目前,众多前沿技术突破令数据存储和计算成本呈指数级下降。相比过去,企业能够以更低的经济投入更轻松地存储更多数据,而凭借经济、易于访问的海量大数据,您可以轻松做出更准确、更精准的业务决策。
然而,从大数据工作原理角度来讲,大数据价值挖掘是一个完整的探索过程而不仅仅是数据分析,它需要富有洞察力的分析师、业务用户和管理人员在大数据用例中有针对性地提出有效问题、识别数据模式、提出合理假设并准确开展行为预测。
虽然大数据这个概念是最近才提出的,但大型数据集的起源却可追溯至 1960 – 70 年代。当时数据世界正处于萌芽阶段,全球名列前茅批数据中心和为数不多的关系数据库便是在那个时代出现的。
2005 年左右,人们开始意识到用户在使用 Facebook、YouTube 以及其他在线服务时生成了海量数据。同一年,专为存储和分析大型数据集而开发的开源框架 Hadoop 问世,NoSQL 也在同一时期开始慢慢普及开来。
Hadoop 及后来 Spark 等开源框架的问世对于大数据的发展具有重要意义,正是它们降低了数据存储成本,让大数据更易于使用。在随后几年里,大数据数量进一步呈爆炸式增长。时至今日,全世界的“用户”— 不仅有人,还有机器 — 仍在持续生成海量数据。
如今,随着物联网 (IoT) 的兴起,越来越多的设备接入了互联网,收集了大量的客户使用模式和产品性能数据。同时,机器学习的出现也进一步加速了数据规模的增长。
然而,尽管已经出现了很长一段时间,人们对大数据的利用才刚刚开始。今天,云计算进一步释放了大数据的潜力,通过提供真正的弹性 / 可扩展性,它让开发人员能够轻松启动 Ad Hoc 集群来测试数据子集。此外,图形数据库在大数据领域也变得越来越重要,它们能够以独特的形式展示大量数据,帮助用户更快速执行更全面的分析。
从客户体验到智能分析,大数据可帮助您轻松处理各种业务活动。以下是企业运营中的常见大数据使用场景。
公司利用大数据来预测客户需求。他们对过去和当前产品或服务的关键属性进行分类,并对那些属性和成功商业产品之间的关系进行建模,从而为新产品和服务构建预测模型。此外,还根据来自焦点小组、社交媒体、试销市场和前期铺货的数据和分析结果来规划、生产和发布新产品。
各种结构化数据(例如设备年份、品牌、型号等信息)以及非结构化数据(包括数以百万计的日志条目、传感器数据、错误消息和引擎温度)中往往深藏着可供预测机械故障的信息,通过分析这些数据,企业可以在事故发生前识别潜在问题,从而更加经济高效地安排维护活动,充分延长零部件和设备的正常运行时间。
当今市场竞争的核心在于赢得客户。相比过去,企业现在更有条件清楚地了解客户体验。对此,大数据让您能够通过社交媒体、网站访问、呼叫记录以及其他来源收集数据,进而改善客户互动,为客户提供个性化产品,降低客户流失率,主动解决问题,最终以卓越体验创造更多价值。
在今天,您的系统面临的威胁远不止几个心怀不轨的黑客,还有人员配置完善的专家团队。同时,安全形势与合规要求也在不断变化,带来了重重挑战。借助大数据,您可以通过识别数据模式发现欺诈迹象,汇总海量信息,加速生成监管报告。
大数据蕴含着无穷潜力,同时也带来了诸多挑战。
首先,大数据体量庞大。虽然人们为数据存储开发了许多新技术,但数据量却在以每两年翻一番的速度增长。目前,各企业都在努力应对数据的快速增长,不断寻找更高效的数据存储方式。
其次,仅存储数据是不够的。数据的价值在于运用,而这又取决于数据管理。目前,我们需要做很多工作才能获得清洁数据,也就是与客户密切相关并以有利于分析的方式整理的数据,例如数据科学家在真正开始使用数据之前,通常要耗费 50% 到 80% 的时间来管理和准备数据。
最后,大数据技术的更新速度非常快。几年前,Apache Hadoop 是广为流行的大数据处理技术。2014 年,Apache Spark 问世。如今,只有结合这两种框架才能打造出理想解决方案。总而言之,紧跟大数据技术的发展脚步是一项持久性挑战。
大数据可为您提供全新的洞察,带来新的商机和业务模式。
大数据首先需要将来自不同来源和应用的数据汇集在一起,然而传统的数据集成机制,例如提取、转换和加载 (ETL),通常无法胜任这一工作。换言之,我们需要新的策略和技术来分析 TB 甚至 PB 级的大数据集。
在集成时,您需要导入和处理数据、执行格式化操作,以符合业务分析师要求的形式整理数据。
大数据对存储要求较高。存储解决方案可以部署在本地,也可以部署在云端。其次,您可以采用任何形式存储数据,根据需要为数据集设置处理要求,引入必要的处理引擎。目前,许多客户都不得不根据数据当前所在位置来选择存储方案。对此,云解决方案不仅能够满足客户当前的计算需求,同时还支持用户按需、快速地访问所有数据,越来越受到人们的青睐。
只有真正分析数据并基于数据数据洞察采取有效行动,您的大数据投资才会取得回报。您可以:对各种数据集进行可视化分析以获得全新理解;进一步探索数据以获得全新洞察;与他人分享您的洞察;结合机器学习和人工智能构建数据模型;立即行动起来,释放您的数据价值。
更全面的数据集有助于您获得全新洞察。为此,您首先需要进行新的技能、组织和基础设施投资,在一种业务驱动的环境中保证项目持续获得投入和资金。其次,为确保正确实施,请评估您的大数据能否真正支持并促进您的关键业务和 IT 工作,这些任务可能包括:了解如何筛选网络日志以揭示电子商务行为,通过社交媒体和客户支持互动推断客户舆情,以及了解统计相关法及其与客户、产品、制造和工程数据的相关性。
企业实施大数据的一大重要障碍是技能不足。首先,通过在 IT 治理计划中添加大数据技术、大数据考量和决策,您可以缓解这一风险。其次,标准化有助于更好地管理成本和充分利用资源。第三,为顺利实施大数据战略和解决方案,请及早并定期评估大数据技能需求,主动识别潜在技能缺失。第四,您需要培训 / 交叉培训现有人员、招聘新人员,并在必要时寻求咨询公司的支持。
通过设立卓越中心来分享知识、控制监管、管理项目沟通,无论大数据项目是全新投资还是扩展性投资,您都可以在整个企业范围内分摊所有软件和硬件成本,以一种更加结构化和系统化的方法扩展大数据功能,提高整体信息架构的成熟度。
大数据分析可以带来价值,但将低密度的大数据与您目前使用的结构化数据整合到一起,您可以获得更有意义的深度洞察。
在实际应用中,无论是捕获客户、产品、设备还是环境大数据,您的目标都是向核心主数据和分析摘要添加更多相关数据点,从而得出更准确的结论。例如,相比所有客户的舆情,仅优质客户的舆情更加细化,更有针对性。因此,许多人将大数据视为其现有商务智能功能、数据仓储平台以及信息架构的重要扩展。
对此,大数据既可以基于人也可以基于机器来构建分析流程和模型。利用分析模型以及大数据分析功能(包括统计、空间分析、语义、交互式探索以及可视化),您可以将不同类型和来源的数据关联起来,得出有意义的洞察。利用分析模型,您可以将不同类型和来源的数据关联起来,并得出有意义的洞察。
探索数据价值绝非一条坦途,有时候我们甚至不知道前进的方向,这些都在我们的意料之中。尽管如此,管理团队和 IT 部门仍然需要为这种“漫无目的”或者“缺乏明确需求”的探索活动提供应有的支持。
与此同时,分析师和数据科学家也需要与业务部门密切合作,在合作过程中确定自身需要哪些关键业务知识及存在哪些知识缺口。最后,为了实施交互式数据探索和统计算法试验,您需要一个高效的工作区,需要为沙盒环境提供支持并进行适当监管。
大数据流程和用户需要访问各种资源来进行迭代试验和生产工作。对此,大数据解决方案应覆盖所有数据区域,包括事务、主数据、参考数据以及摘要数据。支持您按需创建分析沙盒。同时,资源管理对于整个数据流(包括预处理和后处理、集成、数据库内汇总和分析建模)的控制至关重要,妥善规划的私有云和公有云供应及安全性策略对于满足这些不断变化的需求也有着非常重要的意义。
以上就是关于什么是大数据、大数据的价值和真实性、大数据的历史、大数据使用场景、大数据的挑战、大数据的工作原理、大数据优异实践的全部内容了,希望对你有所帮助。