SAS初学者教程:什么是SAS及编程示例
什么是 SAS?
SAS 是一个命令驱动的统计软件套件,广泛用于统计数据分析和可视化。SAS 的全称是 Statistical Analysis Software(统计分析软件)。它允许您使用定性技术和流程,帮助您提高员工生产力和企业利润。SAS 也用于高级分析,如商业智能、犯罪调查和预测分析。SAS 的发音是“SaaS”。
在 SAS 中,数据被提取和分类,这有助于您识别和分析数据模式。它是一个软件套件,可让您执行高级分析、商业智能、预测分析和数据管理,从而在竞争激烈且不断变化的企业环境中有效运营。此外,SAS 是平台无关的,这意味着您可以在任何操作系统上运行 SAS,无论是 Linux 还是 Windows。
与其他 BI 工具相比,SAS 除了使用拖放界面外,还提供对程序化转换和分析数据的广泛支持。这为数据操作和分析提供了非常精细化的控制,这是其独特之处。
我们为什么需要 SAS?
让我们通过一个简单的例子来理解 SAS 的必要性
假设一家电子商务公司希望根据历史数据了解其客户的购买模式。该公司需要考虑成千上万的多个客户记录,以获得普遍的洞察。
该公司可能没有所有这些分析所需的数据。例如,如果客户没有购买夹克,是什么因素阻止了他们购买夹克?这些缺失的数据可能会导致分析错误。我们如何摆脱这些问题?我们如何处理这类数据?
如果手动完成,这项任务将需要数百名分析师和数千小时的人工。通过使用 SAS 分析工具,您可以在几个小时内以一名分析师完成相同的分析。SAS 工具允许您消除不必要的数据并优化相关信息。它将使您即使在数据缺失的情况下也能预测结果。SAS 使您能够做出更好的决策。
替代 SAS 工具
R:它是开源软件。由于文档齐全,学习 R 很容易。它提供了强大的统计功能。
Python是另一种流行的开源脚本语言。它支持 Numpy、Scipy 和 MatPlotLib 等库。您可以使用这些库执行任何统计操作,或者构建任何模型。
SAS:它是商业分析市场中使用最广泛的分析工具。拥有大量的统计函数和良好的 GUI。
在本 SAS 编程教程中,我们将讨论统计分析系统(Statistical Analytical Systems),以及如何使用它来解决我们的问题。
SAS 历史
- SAS 由 Jim Goodnight 和 John Shall 于 1970 年在北卡罗来纳大学开发
- 最初,它是为农业研究开发的。
- 后来,它扩展到一系列工具,包括预测分析、数据管理、商业智能等。
- 如今,财富 400 强公司中 98% 的全球顶尖公司使用 SAS 数据分析工具进行数据分析。
接下来在本 SAS 语言教程中,我们将学习 SAS 的特点。
SAS 特点
SAS 的主要特点是
- 轻松访问原始数据文件和外部数据库中的数据。几乎可以读写任何数据格式!
- 使用数据录入、编辑检索、格式化和转换工具管理数据
- 使用描述性统计、多元技术、预测、建模、线性规划分析数据
- 高级分析可帮助您改进业务实践。
- 完美图表的报表制作
- 运筹学和项目管理
- 数据更新和修改
- 强大的数据处理语言
- 出色的数据清理功能
- 与多个主机系统交互
接下来在本 SAS 入门教程中,我们将学习 SAS 产品套件。
SAS 产品套件
市场上有很多 SAS 产品。以下是更受欢迎的产品列表。
名称 | 描述 |
---|---|
Base SAS | Base SAS 软件提供硬件敏捷性,并能集成到各种计算环境中。 |
SAS/GRAPH | 此工具可帮助您将结构化数据表示为图形。 |
SAS/STAT | 此工具可帮助您执行不同类型的回归、方差统计分析、回归和心理测量分析。 |
SAS/ETS | 用于预测。帮助您执行时间序列分析。 |
SAS/IML | 交互式矩阵语言称为 IML。此工具可帮助您将数学公式转换为创新程序。 |
SAS EBI | 商业智能应用的工具 |
SAS Grid Manager | 这是一个核心组件,提供数据管理功能和用于数据分析的编程语言。 |
SAS/OR | 运筹学工具 |
SAS/QC | 用于质量控制 |
SAS/Enterprise Miner | 数据挖掘 |
SAS/PH | 临床试验分析 |
SAS/AF | 它提供应用设施 |
Enterprise Guide | 它是一个基于 GUI 的代码编辑器和项目管理器。 |
接下来在本 SAS 教程指南中,我们将学习 SAS 架构。
SAS 架构
SAS 架构主要分为三个部分
- 客户端层
- 中间层
- 后端层
客户端层
客户端层是应用程序安装在用户所在机器上的地方。它包含用于查看门户及其内容的组件。它还包括一个标准的 Web 浏览器,用于通过标准的 HTTP 或 HTTPS 协议与门户进行交互。它还可以帮助您使 SAS Web 应用程序防火墙友好。
中间层
中间层提供企业信息的集中访问点。所有对内容的访问都由此层运行的组件处理。将业务逻辑与显示逻辑分离,可以利用中间层的逻辑。此外,集中的访问点更容易强制执行安全规则、管理门户和管理代码更改。
中间层托管以下功能
SAS 信息传递门户 Web 应用程序:它是 JSP、Java servlets、JavaBeans 以及其他类和资源的集合。这些组件可帮助您访问存储在企业目录中的信息,为用户创建可自定义的界面。
Servlet 引擎:Servlet 引擎也称为 Servlet 容器。它负责管理 SAS 信息传递门户 Web 应用程序。Servlet 引擎提供运行时环境。它提供并发、部署、生命周期管理等。
Web 服务器:Web 服务器为 Servlet 引擎提供服务,可用于托管网站。这应该通过门户访问。
后端层
后端层是数据和计算服务器运行的区域,其中可能包含业务对象。它是一个企业目录服务器。企业目录服务器维护关于位于整个企业中的内容的元数据。
如何下载和安装 SAS
本地下载到您的机器
步骤 1)从给定的链接下载 SAS
访问此链接 https://www.sas.com/en_in/software/university-edition.html,然后点击“获取免费软件”。
步骤 2)选择您的操作系统
根据您的系统选择操作系统。
步骤 3)下载并安装虚拟化软件
SAS 要求在使用前安装虚拟化软件,如 VirtualBox。以下是详细步骤:
按照屏幕上的步骤安装 SAS。拥有 VirtualBox 和本地安装有时可能会很棘手。我们建议 AWS 安装-
AWS 安装
您可以在 AWS 中部署 SAS。它符合免费套餐的资格。
步骤 1)访问 https://aws.amazon.com/marketplace/pp/B00WH10IKW。点击“继续订阅”。
步骤 2)在下一个屏幕上,接受条款。
步骤 3)订阅正在等待批准,最多需要 10 分钟。您将看到以下屏幕。
步骤 4)刷新页面,您将看到订阅已确认。点击“继续配置”。
步骤 5)保持默认设置,然后点击“继续启动”。
步骤 6)查看配置页面。输入键值对。其余设置应为默认值。点击“启动”。
步骤 7)访问 https://aws.amazon.com/marketplace/library/ 并点击“查看实例”。
步骤 8)在弹出窗口中
- 记下实例 ID。这就是您的密码。
- 点击“访问软件”。
步骤 9)在点击步骤 8 后的弹出窗口中
- 输入用户凭证。ID:sasdemo 密码:步骤 8 中记录的实例 ID。
- 点击“登录”。
步骤 10)您将看到欢迎屏幕。
故障排除
如果无法连接,请访问 https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#SecurityGroups:sort=groupId 并将入站/出站规则设置为全部。
如何使用 SAS?
要有效地使用 SAS 软件,您需要遵循四个步骤:访问数据、管理数据、分析、呈现。
访问数据
SAS 允许您按所需的任何格式访问数据。
您可以访问存储在任何地方的数据,无论是您系统上的文件还是存储在其他数据库系统中的数据。它可以是 Oracle 文件、SAS 数据库文件、原始数据库文件或简单的 XLS / CSV 文件。它将帮助您轻松访问这些数据。
管理数据
SAS 提供了出色的数据管理功能。您可以根据特定条件对数据进行子集/切片,创建变量,清理和验证数据。还有其他工具可以执行相同的任务。但是,SAS 有助于轻松完成这项工作。
SAS 拥有定义明确的库和流程,使编程过程变得简单。此外,创建变量或子集数据只需一步即可完成。这使您只需一行代码即可避免编写复杂的算法。
分析
您可以使用 SAS 进行各种分析。
- 它检查均值计算的频率
- 回归和预测
- 决策树
所有这些分析都可以轻松地由 SAS 处理。它是精确预测的最佳工具。
呈现
如果正确可视化数据,观众就能轻松地与数据产生关联。您的工具以合适的方式呈现数据至关重要。这正是 SAS 为您所做的。它具有出色的演示功能。
您可以
1. 列表报告
2. 摘要报告
3. 图形报告
4. 打印报告
SAS 程序示例
SAS 程序包含三个必需的步骤
- 数据步
- Proc 步
- 输出步
DATA 步
数据步将所需的数据集加载到 SAS 内存中,并查找数据集的正确变量。它还捕获记录。我们可以使用数据步来
- 将数据输入 SAS 数据集
- 计算值
- 检查或更正数据
- 生成新数据集
DATA 语句的语法是
语法
DATA data_set_name; #Give a name to the dataset INPUT var1,var2,var3; #Declare variables in the dataset. NEW_VAR; #Define new variables. LABEL; #Give variables a label DATALINES; #Provide data RUN;
示例
以下示例展示了如何定义变量、命名数据集、创建新变量和输入数据。在此示例中,您可以看到字符串变量末尾有一个 $,而数值变量则没有。
INPUT ID $ NAME $ SALARY DEPARTMENT $; comm = SALARY*1.50; LABEL ID = 'Emp_ID' comm = 'COMMISION'; DATALINES; 1 Tom 5000 IT 2 Harry 6000 Operations 3 Michelle 7000 IT 4 Dick 8000 HR 5 John 9000 Finance ; RUN;
注意:要执行 SAS 语句,需要指定 RUN 命令。
PROC 步
它执行特定的分析或功能以生成结果和报告。
语法
PROC procedure_name options; #The name of the proc. RUN;
示例
给出的示例使用 MEANS 过程来打印数据集中数值变量的均值。
PROC MEANS; RUN;
输出步
您可以使用条件输出语句显示数据中的数据。
语法
PROC PRINT DATA = data_set; OPTIONS; RUN;
每个 SAS 程序都必须遵循上述所有步骤来读取输入数据、分析数据并提供分析输出。每个步骤末尾的 RUN 语句完成该步骤的执行。
完整的 SAS 程序
下面是上述每个步骤的完整代码。
输出
SAS 用在哪里?
下面是一些重要的 SAS 应用
行业 | 用途 |
---|---|
制药 | 统计分析、报告 |
电信 | ETL、报告、数据挖掘、预测 |
金融 | ETL、报告、数据挖掘、金融研究 |
预测建模 | DB营销、作业成本法 |
医疗保健 | ETL、报告、数据挖掘 |
SAS 与 R
SAS | 回车符 |
---|---|
SAS 是商业软件,因此需要财务投资。 | R 是开源软件。因此,任何人都可以使用它。 |
SAS 是最容易学习的分析工具。即使是 SQL 知识有限的人也可以快速学会。 | R 需要您编写复杂且冗长的代码。 |
SAS 是大公司高度青睐的选择,并且在技术上非常先进且用户友好。 | R 是快速发展的软件,但是,您需要不断升级它。 |
SAS 具有良好的图形支持,但不能提供任何自定义。 | R 工具的图形支持非常差。 |
SAS 的优点
- SAS 具有简单的语法,无需任何编程知识即可学习。
- 能够轻松处理大型数据库
- SAS 是一个非常易于理解的语言,可以轻松调试。
- 它的“日志”窗口清楚地说明了错误,这有助于您轻松调试代码。
- SAS 帮助您全面测试和分析算法。
- SAS 完全安全,因此在办公室没有许可证就无法提取。
- 使非编程用户的统计计算更容易。
- 有效处理大型数据库。
SAS 的缺点
- 成本很高,因为个人或组织在没有适当许可证的情况下无法使用其所有应用程序。
- SAS 不是开源的,因此 SAS 中使用的算法不适用于通用用途。
- SAS 中的文本挖掘是一个非常麻烦且困难的过程。
摘要
- SAS 软件含义统计分析软件,用于数据分析。
- R 和 Python 是 SAS 的两个广泛使用的替代工具。
- SAS 由 Jim Goodnight 和 John Shall 于 1970 年在北卡罗来纳大学开发。
- SAS 允许您访问任何类型的原始数据文件和外部数据库中的数据。
- SAS 架构主要分为三个部分:1)客户端层 2)中间层 3)后端层。
- 要使用 SAS 软件,您需要遵循四个步骤:1)访问数据,2)管理数据,3)分析数据,4)演示。
- SAS 程序由三个基本步骤组成:数据步、Proc 步和输出步。
- SAS 数据分析工具广泛用于制药、电信、金融、预测建模和医疗保健等领域。
- SAS 是商业软件,而 R 是开源软件。
- SAS 程序员工具的最大优势在于它具有简单的语法,无需任何编程知识即可学习。
- SAS 模型的一个缺点是它不是开源工具。因此,SAS 过程中使用的算法不适用于通用用途。