本文作者:豆腐干分

大数据基础知识科普丨大数据的类型

大数据基础知识科普丨大数据的类型摘要: ...

点击蓝字关注-安国最权威政务公众号

一、大数据按照数据结构可以分为三类:
1、结构化数据
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
【小知识】
数据、数据元素、数据项:在计算机领域,数据是指描述客观事物的符号,是能够被计算机识别并输入计算机处理的符号集合。数据元素是组成数据的,有一定意义的基本单位,也称为数据记录。数据项是具有独立含义的最小标识单位,是数据不可分割的最小单位。从数据、数据元素和数据项关系来看,数据项组成数据元素,而多个数据元素组成数据。例如,学籍管理系统中学生信息表即是数据,每一个学生记录就是一个数据元素,而学生的学号姓名、性别、籍贯、出生年月、成绩等就是组成数据元素的数据项。
【小知识】
元数据:元数据(Metadata),又称中介数据、中继数据,是描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据,资源查找、文件记录等功能。元数据是一种电子式目录,为了实现编制目录的目的,必须描述并收藏数据的内容或特色,进而达成协助数据检索。
2、非结构化数据
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。
非结构化数据的特点是存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。优点是数据格式多样化,局限性是需要专业知识和处理工具。
【小知识】
文件服务器:文件服务器是指在计算机网络环境中,所有用户都可访问的文件存储设备,是一种专供其他电脑检索文件和存储的特殊电脑,其中比较有代表性的是文件传输(FileTransferProtocol,简称FTP)服务器和产品数据管理(ProductDataManagement,简称PDM)服务器。FTP服务器是支持文件传输协议的服务器,PDM服务器是一种用于管理产品设计和制造数据的服务器。
3、半结构化数据
半结构化数据(semi-structured data)。在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。比如我们做一个业务系统,要保存员工基本信息:工号、姓名、性别、出生日期等等,我们就会建立一个对应的staff表。
半结构化数据的特点是结构与数据相交融,结构难以纳入描述框架,不易清晰理解与把握,数据变化通常会导致结构模式变化,整体上具有动态的结构模式。优点是能够灵活扩展,局限性是数据质量难以保证、一致性难以维护。
【小知识】
网站集群:网站集群是指一群能够进行数据共享、呈送的相互关联的网站集合,是一种分布式系统。通过网络连接多个服务器,在不同的物理节点上部署和运行同一个网站或应用程序,以提高应用程序的性能、可靠性和扩展性。常见的网站集群包括Web服务器集群、镜像服务器集群、DNS服务器集群等。
二、大数据按照数据响应性能可以分为两类:
1、实时数据
实时数据是收集后立即传递或使用的信息,所提供信息没有或几乎没有延迟,比如毫秒级甚至微秒级的响应延迟,强调尽快响应每个到达的数据记录。以统计股市或者电商平台的日总成交金额为例,每当市场上发生交易时,系统立刻对最新的成交记录做出响应,更新当日的总成交金额。随着实时技术发展趋于成熟,实时数据应用越来越广泛。常见应用包括实时智能推荐、舆情分析、实时欺诈检测等。
【小知识】
实时数据相关应用:实时智能推荐系统是一个智能化的系统,它可以根据用户的习惯、偏好和行为来实时分析用户的需求,从而向用户提供个性化产品和服务。智能推荐系统还可以分析用户的浏览历史、购买习惯等信息,以及用户之间的关联度,并以此为基础提出更加合理的推荐。
舆情分析是根据特定问题的需要,针对舆情进行深层次的思维加工和分析研究,得到结论的过程。
实时欺诈检测是指为保护资产、身份、客户和业务信息、账户和交易免受欺诈侵害而实施的一组实时活动或技术。该检测主要通过分析用户活动和行为模式,通过与代表正常用户行为的基线或配置文件进行比较来实现。

2、非实时数据

非实时数据是收集后延迟传递或使用的信息。强调在数据计算开始前已知所有输入数据,输入数据不会产生变化。其特点包括数据量大保存时间长、能够进行复杂的批量运算、能够方便查询批量计算结果,数据在计算之前已经完全到位且不会发生变化等。非实时数据适用于实时性要求不高的场景,比如非实时报表、数据分析等。


来   源:市发改局


编   辑:史肖肖

编   审:韩   梅

总编审:赵   磊

投稿邮箱:[email protected]

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享