一、大数据的定义
大数据的定义:对于大数据,Gartner 给出的定义是需要运用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
二、大数据的发展历程
1983年,著名未来学家阿尔文·托夫勒在其著作《第三次浪潮》中,将“大数据” 描绘为“第三次浪潮的华彩乐章”。
2003 年《The Google File System》、2004 年《MapReduce: Simplified Data Processing on Large Clusters 》、2006 年《Bigtable: A Distributed Storage System for Structured Data》谷歌大数据三大论文发布,以及 2005 年 Hadoop 项目的诞生,使得大规模处理结构化、半结构化、非结构化数据1的廉价方案成为可能,为大数据产业的快速普及创造了基础条件。
2008 年,大数据得到部分美国知名计算机研究人员认可。业界组织计算社区联盟(Computing Community Consortium)发表白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,详尽阐述了大数据对社会治理的推动作用,及其潜在的商业价值。大数据正式进入世界最具有价值和影响的技术行列。
2009 年,美国政府为构建开放、透明机制,启动 Data.gov 网站向公众开放多种政府数据,包括交通、经济、医疗、教育和人口服务等。2012 年,Data.gov 已累积来自 172 个政府机构的数据集,数量从2009年的47个暴增至40万个以上,催化美国政府推出相关政策,加速大数据技术发展。
大数据产业迎来其发展的大时代
三、为什么要研究大数据
大数据精准营销:2015 年,亚马逊市值第一次超越沃尔玛,当前前者市值更是后者的三倍多,而亚马逊销售额中有 1/3 是依托大数据精准营销产生。通过记录顾客浏览网站时的行为数据,如所搜关键词、到访页面、关注商品、购买订单,以及不定期举行活动引导客户明确喜好,如主题投票,亚马逊搜集并分析客户属性、兴趣、需求,利用聚类等大数据模型为客户群体推荐合适商品。
大数据提供更加优化的服务方案:以色列的环境比中国大西北更恶劣,但将大数据引入农业后,以色列成为了“欧洲的厨房”。凭借较高的信息化和数字化基础,以色列农业技术公司利用大数据帮助农民根据农场的具体情况采用更加个性化的耕种方案。如 Taranis 公司利用大数据分析法推出包括预测天气、灌溉和病虫害状植物模型技术,指导农民合理灌溉、杀虫;AKOL 公司更是将不同区域农民工作习惯等人为因素纳入农作物生长及环境状况的大数据分析范畴,进一步优化方案。
大数据帮助金州勇士队实现质的飞跃:在体育界,植入科技和大数据之后,美国金州勇士队在短短几年内就实现了从一个“烂”球队到NBA 总冠军的飞跃。勇士队老板拉科布作为数据分析的坚实拥趸,把数据分析思想充分融入到球队的训练之中,最先引入球馆录像和分析系统,同时其团队统计历年NBA 比赛,发现最有效的进攻是眼花缭乱的传球和准确的投篮,并创造了三分球新打法,助力勇士队快速成长。
大数据的价值不可估量:正如《大数据时代》所言,大数据开启了一场重大的时代转型,就像望远镜让我们感受到宇宙,显微镜让我们能够观测微生物,大数据收集、分析海量数据帮助我们更好地理解世界,是众多新发明和新服务的源泉。如今,数据已经成为重要的商业资本,可以作为前期投入创造实际经济价值,此外,大数据也撼动着医疗、教育、人文、社交等世界的方方面面……其社会价值亦不可估量。
四、大数据发展的基础
1、数据积累
在互联网快速普及、物联网加速渗透的背景下,PC、手机、传感设备等全面兴起,推动全球数据呈现倍数增长、海量集聚的特点,为大数据产业发展奠定了庞大的数据基础。根据IDC统计,2011年全球创建和复制的数据总量为1.8ZB,2016 年这一规模为16.1ZB,预计2020年将达到44ZB,在其《数据时代2025》白皮书(希捷赞助)中,更是预测到2025年,全球创建和复制的数据总量将扩展至163ZB(1ZB 等于1万亿GB)。
2、算力提升
同时,处理如此规模的数据量也对算力提出了巨大的挑战。所幸,摩尔定律推动处理器性能不断提升,GPU、FPGA、TPU 等高算力芯片不断涌现,为大数据产业发展保障了迅速的处理能力。在Google I/0 2018 开发者大会上,谷歌发布了第三代 TPU处理器,基于TPU 3.0 的新运算阵列 TPUv3 Pod 性能相比TPUv2 Pod 有8 倍提升,运算速度可超100PFlops(PFlops:每秒千万亿次浮点计算)。
3、技术创新
再者,云计算、人工智能等新技术的出现也为大数据产业发展提供了技术支撑。云计算为企业实现了更为便捷的大数据解决方案,其按用量付费、可扩展的存储计算能力、便捷易部署等特点,大大降低了企业应用大数据的难度与成本,促进大数据产业加快推广。人工智能通过深度置信神经网络等领先算法,自动处理、分析大规模数据,从而获得预测性的洞察,指导或直接替代人工决策,提高大数据核心——预测的效率性。
内容节选自:3月29-31日在北京大学举办的北京大学数据资产与企业数字战略研修班冯科老师授课PPT,课程主题:《数据确权、评估、作价、交易、融资》
责任编辑: