什么是大数据?导言、类型、特征、示例
什么是数据?
计算机执行操作的数量、字符或符号,它们可以以电信号的形式存储和传输,并记录在磁性、光学或机械记录介质上。
现在,让我们来学习大数据的定义
什么是大数据?
大数据是指数据量巨大,并且随着时间的推移呈指数级增长的数据集合。它是一种数据,其规模和复杂性如此之大,以至于任何传统的数据管理工具都无法有效地存储或处理它。大数据也是一种数据,但规模巨大。

什么是大数据示例?
以下是一些大数据示例-
纽约证券交易所是大数据的一个例子,每天生成约一太字节的新交易数据。
社交媒体
数据显示,Facebook社交媒体网站的数据库每天会摄取500TB以上的新数据。这些数据主要以照片和视频上传、消息交换、评论等形式产生。
一架喷气式飞机在30分钟的飞行时间内可产生10TB以上的数据。每天有数千架次的航班,产生的数据量高达数拍字节。
大数据类型
大数据类型如下
- 结构化
- 非结构化
- 半结构化
结构化
任何可以以固定格式存储、访问和处理的数据都被称为“结构化”数据。随着时间的推移,计算机科学领域在开发处理此类数据(其格式预先已知)并从中提取价值的技术方面取得了巨大成功。然而,如今,当此类数据的规模增长到巨大程度时,我们正面临问题,典型规模在数泽字节范围内。
你知道吗? 1021字节等于1泽字节,或十亿太字节组成1泽字节。
从这些数字来看,人们可以轻松理解为什么会起名“大数据”,并想象其存储和处理所涉及的挑战。
你知道吗? 存储在关系数据库管理系统中的数据是“结构化”数据的一个例子。
结构化数据示例
数据库中的“员工”表是结构化数据的一个示例
员工ID | 员工姓名 | 性别 | 部门 | 薪资(万元) |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Male | 金融 | 650000 |
3398 | Pratibha Joshi | Female | 管理员 | 650000 |
7465 | Shushil Roy | Male | 管理员 | 500000 |
7500 | Shubhojit Das | Male | 金融 | 500000 |
7699 | Priya Sane | Female | 金融 | 550000 |
非结构化
任何形式或结构未知的数据都被归类为非结构化数据。除了规模巨大之外,非结构化数据在处理以从中提取价值方面也带来了多重挑战。非结构化数据的典型例子是包含纯文本文件、图像、视频等的异构数据源。如今,组织拥有大量可用数据,但不幸的是,由于数据是原始形式或非结构化格式,它们不知道如何从中提取价值。
非结构化数据示例
“Google搜索”返回的输出
半结构化
半结构化数据可以包含这两种形式的数据。我们可以看到半结构化数据具有结构化的形式,但实际上它并没有在关系DBMS中进行表定义。半结构化数据的例子是以XML文件表示的数据。
半结构化数据示例
存储在XML文件中的个人数据-
<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> <rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> <rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> <rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> <rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>
历年数据增长
请注意,Web应用程序数据(非结构化)包括日志文件、交易历史文件等。OLTP系统是为处理结构化数据而构建的,其中数据存储在关系(表)中。
大数据特征
大数据可以通过以下特征来描述
- 数据量
- 多样性
- 速度
- 可变性
(一)数据量-“大数据”这个名称本身就与巨大的规模有关。数据的规模在确定数据价值方面起着至关重要的作用。此外,某个数据是否可以被视为大数据,取决于数据的规模。因此,在处理大数据解决方案时,“数据量”是一个需要考虑的特征。
(二)多样性-大数据的下一个方面是其多样性。
多样性是指数据来源的异构性和数据的性质,包括结构化和非结构化数据。在早期,电子表格和数据库是大多数应用程序考虑的唯一数据来源。如今,电子邮件、照片、视频、监控设备、PDF、音频等形式的数据也正在被纳入分析应用程序中。这种多样化的非结构化数据在存储、挖掘和分析数据方面带来了一些问题。
(三)速度-“速度”一词是指数据的生成速度。数据生成和处理的速度有多快以满足需求,决定了数据中的真正潜力。
大数据速度处理的是数据从业务流程、应用程序日志、网络和社交媒体网站、传感器、移动设备等来源流入的速度。数据流是海量且连续的。
(四)可变性-这指的是数据有时可能显示出的不一致性,从而阻碍了有效处理和管理数据的过程。
大数据处理的优势
在DBMS中处理大数据的能力带来了诸多好处,例如-
- 企业可以在决策过程中利用外部情报
访问来自搜索引擎和Facebook、Twitter等网站的社交数据,使组织能够微调其业务战略。
- 改善客户服务
传统的客户反馈系统正被基于大数据技术的新系统所取代。在新系统中,大数据和自然语言处理技术被用于读取和评估消费者响应。
- 及早识别产品/服务的风险(如有)
- 提高运营效率
大数据技术可用于为新数据创建暂存区或登陆区,然后再确定哪些数据应移至数据仓库。此外,这种大数据技术与数据仓库的集成有助于组织卸载不常访问的数据。
摘要
- 大数据定义:大数据意指规模庞大的数据。大数据是一个用来描述随时间呈指数级增长的海量数据集合的术语。
- 大数据分析示例包括证券交易所、社交媒体网站、喷气式飞机等。
- 大数据可以是1)结构化的,2)非结构化的,3)半结构化的
- 数据量、多样性、速度和可变性是大数据的一些特征
- 改善客户服务、提高运营效率、更好的决策是大数据的一些优势