什么是大数据?导言、类型、特征、示例

在开始介绍大数据之前,您首先需要了解

什么是数据?

计算机执行操作的数量、字符或符号,它们可以以电信号的形式存储和传输,并记录在磁性、光学或机械记录介质上。

现在,让我们来学习大数据的定义

什么是大数据?

大数据是指数据量巨大,并且随着时间的推移呈指数级增长的数据集合。它是一种数据,其规模和复杂性如此之大,以至于任何传统的数据管理工具都无法有效地存储或处理它。大数据也是一种数据,但规模巨大。

Big Data
什么是大数据?

什么是大数据示例?

以下是一些大数据示例-

纽约证券交易所是大数据的一个例子,每天生成约一太字节的新交易数据。

Example of Big Data

社交媒体

数据显示,Facebook社交媒体网站的数据库每天会摄取500TB以上的新数据。这些数据主要以照片和视频上传、消息交换、评论等形式产生。

Example of Big Data

一架喷气式飞机30分钟的飞行时间内可产生10TB以上的数据。每天有数千架次的航班,产生的数据量高达数拍字节

Example of Big Data

大数据类型

大数据类型如下

  1. 结构化
  2. 非结构化
  3. 半结构化

结构化

任何可以以固定格式存储、访问和处理的数据都被称为“结构化”数据。随着时间的推移,计算机科学领域在开发处理此类数据(其格式预先已知)并从中提取价值的技术方面取得了巨大成功。然而,如今,当此类数据的规模增长到巨大程度时,我们正面临问题,典型规模在数泽字节范围内。

你知道吗? 1021字节等于1泽字节,或十亿太字节组成1泽字节

从这些数字来看,人们可以轻松理解为什么会起名“大数据”,并想象其存储和处理所涉及的挑战。

你知道吗? 存储在关系数据库管理系统中的数据是“结构化”数据的一个例子。

结构化数据示例

数据库中的“员工”表是结构化数据的一个示例

员工ID 员工姓名 性别 部门 薪资(万元)
2365 Rajesh Kulkarni Male 金融 650000
3398 Pratibha Joshi Female 管理员 650000
7465 Shushil Roy Male 管理员 500000
7500 Shubhojit Das Male 金融 500000
7699 Priya Sane Female 金融 550000

非结构化

任何形式或结构未知的数据都被归类为非结构化数据。除了规模巨大之外,非结构化数据在处理以从中提取价值方面也带来了多重挑战。非结构化数据的典型例子是包含纯文本文件、图像、视频等的异构数据源。如今,组织拥有大量可用数据,但不幸的是,由于数据是原始形式或非结构化格式,它们不知道如何从中提取价值。

非结构化数据示例

“Google搜索”返回的输出

Example Of Unstructured Data
非结构化数据示例

半结构化

半结构化数据可以包含这两种形式的数据。我们可以看到半结构化数据具有结构化的形式,但实际上它并没有在关系DBMS中进行表定义。半结构化数据的例子是以XML文件表示的数据。

半结构化数据示例

存储在XML文件中的个人数据-

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>

历年数据增长

Data Growth Over the years
历年数据增长

请注意,Web应用程序数据(非结构化)包括日志文件、交易历史文件等。OLTP系统是为处理结构化数据而构建的,其中数据存储在关系(表)中。

大数据特征

大数据可以通过以下特征来描述

  • 数据量
  • 多样性
  • 速度
  • 可变性

(一)数据量-“大数据”这个名称本身就与巨大的规模有关。数据的规模在确定数据价值方面起着至关重要的作用。此外,某个数据是否可以被视为大数据,取决于数据的规模。因此,在处理大数据解决方案时,“数据量”是一个需要考虑的特征。

(二)多样性-大数据的下一个方面是其多样性

多样性是指数据来源的异构性和数据的性质,包括结构化和非结构化数据。在早期,电子表格和数据库是大多数应用程序考虑的唯一数据来源。如今,电子邮件、照片、视频、监控设备、PDF、音频等形式的数据也正在被纳入分析应用程序中。这种多样化的非结构化数据在存储、挖掘和分析数据方面带来了一些问题。

(三)速度-“速度”一词是指数据的生成速度。数据生成和处理的速度有多快以满足需求,决定了数据中的真正潜力。

大数据速度处理的是数据从业务流程、应用程序日志、网络和社交媒体网站、传感器、移动设备等来源流入的速度。数据流是海量且连续的。

(四)可变性-这指的是数据有时可能显示出的不一致性,从而阻碍了有效处理和管理数据的过程。

大数据处理的优势

在DBMS中处理大数据的能力带来了诸多好处,例如-

  • 企业可以在决策过程中利用外部情报

访问来自搜索引擎和Facebook、Twitter等网站的社交数据,使组织能够微调其业务战略。

  • 改善客户服务

传统的客户反馈系统正被基于大数据技术的新系统所取代。在新系统中,大数据和自然语言处理技术被用于读取和评估消费者响应。

  • 及早识别产品/服务的风险(如有)
  • 提高运营效率

大数据技术可用于为新数据创建暂存区或登陆区,然后再确定哪些数据应移至数据仓库。此外,这种大数据技术与数据仓库的集成有助于组织卸载不常访问的数据。

摘要

  • 大数据定义:大数据意指规模庞大的数据。大数据是一个用来描述随时间呈指数级增长的海量数据集合的术语。
  • 大数据分析示例包括证券交易所、社交媒体网站、喷气式飞机等。
  • 大数据可以是1)结构化的,2)非结构化的,3)半结构化的
  • 数据量、多样性、速度和可变性是大数据的一些特征
  • 改善客户服务、提高运营效率、更好的决策是大数据的一些优势