大数据的简介

眼泪淡了忧伤 11-06 9

默认

摘要： 数据：一种可以被鉴别的对客观事件进行记录的符号。简单来说就是：对人类的行为及产生的事件的一种记录。...

数据：一种可以被鉴别的对客观事件进行记录的符号。

简单来说就是：对人类的行为及产生的事件的一种记录。

对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律
比如，购物的订单记录（数据）可以帮助平台更好的了解消费者，从而促进交易。

大数据的诞生和信息化以及互联网的发展是密切相关的。

早期的计算机（上世纪70年代之前）

大多数是相互独立的，各自处理各自的数据

上世纪90年代左后，全球互联的互联网出现。

个人、企业均可参与其中，真正逐步的实现了全球互联。

在2000年后，互联网上的商业行为剧增

现在知名的互联网公司（谷歌、AWS、腾讯、阿里等）也是在这个年代开始起步。

在互联网参与者众多的前提下，商业公司、科研单位等，所能获得的数据量也是剧增。

剧增的数据量，和羸弱的单机性能，让许多科技公司开始尝试以数量来解决问题

在这个过程中，分布式处理技术诞生了。

Apache Hadoop 是一款开源的分布式处理技术栈

为业界提供了

基于Hadoop HDFS的：分布式数据存储技术
基于Hadoop MapReduce的：分布式数据计算技术
基于Hadoop YARN的：分布式资源调度技术

Apache Hadoop的出现具有非常重大的意义：

为业界提供了”第一款”企业级开源大数据分布式技术解决方案
从Hadoop开始，大数据体系逐步建成，各类大数据技术不断出现

什么是大数据

狭义上：大数据是一类技术栈，是一种用来处理海量数据的软件技术体系。

广义上：大数据是数字化时代、信息化时代的基础（技术）支撑，以数据为生活赋能。

大数据的特征

大数据有5个主要特征，称之为：5V特性

总而言之：大数据核心工作就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

大数据的核心工作

Apache Hadoop - HDFS

Apache Hadoop框架内的组件HDFS是大数据体系中使用

最为广泛的分布式存储技术

Apache HBase

Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术

HBase是基于HDFS之上构建的。

Apache KUDU

Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

云平台存储组件

除此以外，各大云平台厂商也有相应的大数据存储组件，如

阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

Apache Hadoop - MapReduce

Apache Hadoop 的 MapReduce 组件是最早一代的大数据分布式计算引擎

对大数据的发展做出了卓越的贡献

Apache Hive

Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop

的MapReduce技术

Apache Hive至今仍活跃在大数据一线，被许多公司使用。

Apache Spark

Apache Spark是目前全球范围内最火热的分布式内存计算引擎。

是大数据体系中的明星计算产品

Apache Flink

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。

特别是在实时计算（流计算）领域，Flink占据了大多数的国内市场。

Apache Kafka

Apache Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品

Apache Pulsar

Apache Pulsar同样是一款分布式的消息系统。

在大数据领域同样有非常多的使用者。

Apache Flume

Apache Flume是一款流式数据采集工具，可以从非常多的数据源中

完成数据采集传输的任务。

Apache Sqoop

Apache Sqoop是一款ETL工具，可以协助大数据体系和关系型数据库

之间进行数据传输。

什么是Hadoop

Hadoop是Apache软件基金会下的顶级开源项目，用以提供：

分布式数据存储
分布式数据计算
分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架，可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群，完成海量数据的存储和计算。

为什么学习Hadoop

近10年来，大数据技术体系一词一直和Hadoop是划上等号的，提起大数据技术基本就是在提及Hadoop。

随着近些年的发展，越来越多的新技术框架的出现，给大数据技术体系带来了丰富的生态，但是拥有元老地位的Hadoop依旧非常重要。

为什么学习Hadoop有如下几个至关重要的原因：

Hadoop是最早的一批大数据技术框架，在市面上拥有极高的占有率和庞大的用户群体。
Hadoop在大数据体系内，技术难度相对较低，非常适合作为大数据学习的入门技术栈。

所以，学习Hadoop不仅仅因为其适合入门，同时也可以为大数据学习打下良好的基础。

Hadoop的功能

通常意义上，Hadoop是一个整体，其内部还会细分为三个功能组件，分别是：

1. HDFS组件

HDFS是Hadoop内的分布式存储组件，可以构建分布式文件系统用于数据存储

2. MapReduce组件

MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序

3. YARN组件

YARN是Hadoop内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

所以说Hadoop是一个集合了：存储、计算、资源调度为一体的大数据分布式框架

Volume体积

分享