数据:一种可以被鉴别的对客观事件进行记录的符号。
简单来说就是:对人类的行为及产生的事件的一种记录。
- 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律
- 比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。
大数据的诞生和信息化以及互联网的发展是密切相关的。
早期的计算机(上世纪70年代之前)
大多数是相互独立的,各自处理各自的数据
上世纪90年代左后,全球互联的互联网出现。
个人、企业均可参与其中,真正逐步的实现了全球互联。
在2000年后,互联网上的商业行为剧增
现在知名的互联网公司(谷歌、AWS、腾讯、阿里等)也是在这个年代开始起步。
在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增。
剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题
在这个过程中,分布式处理技术诞生了。
Apache Hadoop 是一款开源的分布式处理技术栈
为业界提供了
- 基于Hadoop HDFS的:分布式数据存储技术
- 基于Hadoop MapReduce的:分布式数据计算技术
- 基于Hadoop YARN的:分布式资源调度技术
Apache Hadoop的出现具有非常重大的意义:
- 为业界提供了”第一款”企业级开源大数据分布式技术解决方案
- 从Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现
什么是大数据
狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。
广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。
大数据的特征
大数据有5个主要特征,称之为:5V特性
总而言之:大数据核心工作就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果
大数据的核心工作
- Apache Hadoop - HDFS
Apache Hadoop框架内的组件HDFS是大数据体系中使用
最为广泛的分布式存储技术
- Apache HBase
Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术
HBase是基于HDFS之上构建的。
- Apache KUDU
Apache Kudu同样为大数据体系中使用较多的分布式存储引擎
- 云平台存储组件
除此以外,各大云平台厂商也有相应的大数据存储组件,如
阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等
- Apache Hadoop - MapReduce
对大数据的发展做出了卓越的贡献
- Apache Hive
Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop
的MapReduce技术
Apache Hive至今仍活跃在大数据一线,被许多公司使用。
- Apache Spark
Apache Spark是目前全球范围内最火热的分布式内存计算引擎。
是大数据体系中的明星计算产品
- Apache Flink
Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。
特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。
- Apache Kafka
Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。
Apache Kafka在大数据领域也是明星产品
- Apache Pulsar
Apache Pulsar同样是一款分布式的消息系统。
在大数据领域同样有非常多的使用者。
- Apache Flume
Apache Flume是一款流式数据采集工具,可以从非常多的数据源中
完成数据采集传输的任务。
- Apache Sqoop
Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库
之间进行数据传输。
什么是Hadoop
Hadoop是Apache软件基金会下的顶级开源项目,用以提供:
- 分布式数据存储
- 分布式数据计算
- 分布式资源调度
为一体的整体解决方案。
Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。
个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。
为什么学习Hadoop
近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。
随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。
为什么学习Hadoop有如下几个至关重要的原因:
- Hadoop是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。
- Hadoop在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术栈。
所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。
Hadoop的功能
通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
1. HDFS组件
HDFS是Hadoop内的分布式存储组件,可以构建分布式文件系统用于数据存储
2. MapReduce组件
MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序
3. YARN组件
YARN是Hadoop内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。
所以说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架
Volume体积