摘要:
...
大数据的定义
国内国际不同的机构对大数据给出了不同的定义。其中得到广泛认可的定义为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面超出了传统数据库软件工具能力范围的数据集合。
2015年9月,国务院印发《促进大数据发展行动纲要》(国发[2015]50号),指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。从上述定义看,大数据是数据集合,是新一代信息技术,是一种新的服务业态。大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务。IT是InfommationTechnology英文的缩写全称含义为“信息技术”,涵盖的范围很广,主要包括现代计算机、网络通信等信息领域的技术。IT包含三个层次:第一层是硬件,主要指数据存储、处理和传输的主机和网络通信设备;第二层是指软件,包括可用来搜集、存储、检索、分析,应用、评估信息的各种软件;第三层是指应用,具体为搜集、存储、检索、分析、应用、评估使用各种信息。大数据创新是指利用大数据技术,对海量数据进行管理、分析和挖掘,从而实现业务创新模式创新和价值创新。我国大数据创新市场竞争主体多样,创新主体主要包括企业、院校、科研院所、个人和政府机构等。根据中国大数据产业生态联盟研究,企业和科研院所是大数据创新的主力军。1. 国务院信息公开文件:国发〔2015〕50号《国务院关于印发促进大数据发展行动纲要的通知》一、数据的产生
这一阶段随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。本质上,这些技术是利用企业、机构的内部数据进行统计、分析、利用。像SAP系统,其中很大一部分功能就是对企业的运营信息进行统计、分析。这一阶段非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。像电信、银行、电商等数据量巨大的行业开始利用这些技术。大数据应用渗透各行各业,企业依赖数据进行决策,信息社会智能化程度大幅提高,同时出现跨行业、跨领域的数据整合,甚至是全社会的数据整合,从各种各样的数据中找到对于社会治理、产业发展更有价值的应用。【小知识】非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。非结构化数据的特点是存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。优点是数据格式多样化,局限性是需要专业知识和处理工具。大数据的产生是一个逐步发展的过程,大数据是物联网和云计算发展到一定阶段的必然产物。其主要数据来源有商业数据、互联网数据、传感器数据等,也可以分为线上行为数据(页面数据、交互数据、表单数据、会话数据等)和内容数据(应用日志、电子文档、机器数据、语音数据、社交媒体数据等)。
觉得文章有用就打赏一下文章作者
支付宝扫一扫打赏
微信扫一扫打赏