本文作者:尘埃落定

大数据基础知识科普丨大数据的相关技术

尘埃落定 11-06 11
大数据基础知识科普丨大数据的相关技术摘要: ...

点击蓝字关注-安国最权威政务公众号

数据无处不在,需要采用相应的设备或软件进行采集。通常情况下,采集到的数据无法直接用于数据分析需要经过预处理对数据做进一步的处理、分析后,并通过可视化工具最终呈现。在整个数据处理过程中,还要格外注意数据安全和隐私保护。从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据可视化、数据安全与隐私保护等内容。
数据处理与分析
1、数据挖掘和机器学习算法
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。通过海量数据管理技术对数据进行存储和处理是数据挖掘的基础,机器学习等算法是数据挖掘的重要手段。机器学习是指机器通过统计学算法,对大量历史数据进行学习,进而利用生成的经验模型指导业务的技术,通常只研究小规模的数据对象,因此在开展数据挖掘前还需对传统的机器学习算法进行改进,使其能够支持海量数据的情形。典型的数据挖掘和机器学习算法包括分类、聚类、回归分析和关联规则等。
2.、大数据处理与分析技术
MapReduce 是大家熟悉的大数据处理技术,当人们提到大数据处理时就会很自然地想到 MapReduce。实际上,大数据处理的问题复杂多样,单一的技术是无法满足不同类型的计算需求的,MapReduce 只是大数据处理技术中的一种,它代表了针对大规模数据的批量处理技术。除此以外,还有流计算、图计算、查询分析计算等多种处理分析技术(见下图)。


【小知识1】Hadoop:Hadoop 是一个能够对大量数据进行分布式处理的软件框架,能够把应用程序分割成许多小的工作单元,并把这些单元放到任何集群节点上执行。Hadoop 框架最核心的设计是 HDFS和MapReduce.

【小知识2】HDFS:HDFS (Hadoop Distributed File System,

Hadoop 分布式文件系统)是 Hadoop 自带的分布式文件系统。该系统以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。


数据可视化,是指利用图形图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。简单说来,数据可视化是以图形的方式呈现结构化或非结构化数据,从而将隐藏在数据中的信息直接呈现给人们。
数据可视化的典型案例包括互联网地图、百度迁徙、世界各个国家健康与财富之间的关系等。目前,数据可视化工具主要包括入门级工具(Excel)信息图表工具(大数据魔镜)和高级分析工具(PowerBl、Tableau、FineReport 和 FineBl)等。
【小知识1】数据视图是从一个或几个基表(产生视图的表)或视图中导出的表,是一种虚表。在数据库中仅存放视图的定义,不存放视图对应的数据。
因此,通过数据视图看到的数据只是执行视图中定义的数据查询命令而查询出的存放在基表中的数据。当基表中的数据发生变化,数据视图中的数据也就随之改变。简单来说,数据视图就像一个窗体,用户透过它能够看到数据库中自己需要的那部分数据及其变化。
【小知识2】互联网地图:是指登载在互联网上或者通过互联网发送的基于服务器地理信息数据库形成的具有实时生成、交互控制、数据搜索、属性标注等特性的电子地图。互联网地图内容上包括二维地图以及影像地图、三维虚拟现实地图和实景(街景)地图等,形式上有移动端和 PC 端等。

1、数据安全

数据安全是用技术手段识别网络上的文件、数据库和账户信息等各类数据集的重要性、敏感性、合规性,并采取适当的安全控制措施对其实施保护的过程。

2、 隐私保护

隐私保护是指在数据的整个生命周期中,使用信息过滤以及位置匿名等技术,对用户个人信息中的敏感部分加以保护。用户隐私保护要贯穿于数据产生的全过程,针对数据产生、交易以及加工存储的各环节,在数据运输、使用过程中构建隐私安全保护体系。


来   源:市发改局


编   辑:史肖肖

编   审:石一涵

总编审:赵   磊

投稿邮箱:[email protected]

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享