本文作者:眼泪淡了忧伤

大数据的简介

大数据的简介摘要: 数据:一种可以被鉴别的对客观事件进行记录的符号。 简单来说就是:对人类的行为及产生的事件的一种记录。...

数据:一种可以被鉴别的对客观事件进行记录的符号。

简单来说就是:对人类的行为及产生的事件的一种记录。

  • 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律
  • 比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。

大数据的诞生和信息化以及互联网的发展是密切相关的。

早期的计算机(上世纪70年代之前)

大多数是相互独立的,各自处理各自的数据

上世纪90年代左后,全球互联的互联网出现

个人、企业均可参与其中,真正逐步的实现了全球互联。

2000年后,互联网上的商业行为剧增

现在知名的互联网公司(谷歌、AWS、腾讯、阿里等)也是在这个年代开始起步。

在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增

剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题

在这个过程中,分布式处理技术诞生了。

Apache Hadoop 是一款开源的分布式处理技术栈

为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术
  • 基于Hadoop MapReduce的:分布式数据计算技术
  • 基于Hadoop YARN的:分布式资源调度技术

Apache Hadoop的出现具有非常重大的意义:

  • 为业界提供了第一款企业级开源大数据分布式技术解决方案
  • Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现

什么是大数据

狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系

广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能

大数据的特征

大数据有5个主要特征,称之为:5V特性

总而言之:大数据核心工作就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

大数据的核心工作

  • Apache Hadoop - HDFS

Apache Hadoop框架内的组件HDFS是大数据体系中使用

最为广泛的分布式存储技术

  • Apache HBase

Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术

HBase是基于HDFS之上构建的。

  • Apache KUDU

Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

  • 云平台存储组件

除此以外,各大云平台厂商也有相应的大数据存储组件,如

阿里云的OSSUCloudUS3AWSS3、金山云的KS3等等

  • Apache Hadoop - MapReduce

Apache Hadoop MapReduce 组件是最早一代的大数据分布式计算引擎

对大数据的发展做出了卓越的贡献

  • Apache Hive

Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop

MapReduce技术

Apache Hive至今仍活跃在大数据一线,被许多公司使用。

  • Apache Spark

Apache Spark是目前全球范围内最火热的分布式内存计算引擎。

是大数据体系中的明星计算产品

  • Apache Flink

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。

特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

  • Apache Kafka

Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品

  • Apache Pulsar

Apache Pulsar同样是一款分布式的消息系统。

在大数据领域同样有非常多的使用者。

  • Apache Flume

Apache Flume是一款流式数据采集工具,可以从非常多的数据源中

完成数据采集传输的任务。

  • Apache Sqoop

Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库

之间进行数据传输。

什么是Hadoop

HadoopApache软件基金会下的顶级开源项目,用以提供:

  • 分布式数据存储
  • 分布式数据计算
  • 分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

为什么学习Hadoop

10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop

随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。

为什么学习Hadoop有如下几个至关重要的原因:

  • Hadoop是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。
  • Hadoop在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术栈。

所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。

Hadoop的功能

通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:

1. HDFS组件

        HDFS是Hadoop内的分布式存储组件,可以构建分布式文件系统用于数据存储

2. MapReduce组件

        MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序

3. YARN组件

        YARN是Hadoop内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

所以说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架

Volume体积

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享