R 编程中的函数及示例

R 中的函数是什么？

在编程环境中，函数是一组指令。程序员构建函数是为了避免重复相同的任务，或减少复杂性。

函数应该

编写用于执行特定任务
可能包含也可能不包含参数
包含主体
可能返回一个或多个值，也可能不返回。

函数的一般方法是使用参数部分作为输入，馈入主体部分，最后返回输出。函数语法如下：

function (arglist)  {
  #Function body
}

R 重要内置函数

R 中有很多内置函数。R 会将您的输入参数与函数参数进行匹配，无论是按值还是按位置，然后执行函数体。函数参数可以有默认值：如果您不指定这些参数，R 将采用默认值。
注意:
可以通过在控制台中运行函数本身来查看函数的源代码。

我们将看到三组函数的作用

通用函数
数学函数
统计函数

通用函数

我们已经熟悉了 cbind()、rbind()、range()、sort()、order() 等通用函数。这些函数中的每一个都有特定的任务，接受参数并返回输出。以下是您必须了解的重要函数：

diff() 函数

如果您处理时间序列，则需要通过获取其滞后值来使序列平稳。平稳过程允许均值、方差和自相关随时间保持不变。这主要可以改善时间序列的预测。可以使用 diff() 函数轻松完成。我们可以构建一个具有趋势的随机时间序列数据，然后使用 diff() 函数使序列平稳。diff() 函数接受一个参数，即一个向量，并返回合适的滞后和迭代差分。

注意：我们经常需要创建随机数据，但为了学习和比较，我们希望数字在不同机器上都相同。为确保我们都生成相同的数据，我们将使用 set.seed() 函数，并提供任意值 123。set.seed() 函数通过伪随机数生成器过程生成，这使得所有现代计算机都能拥有相同的数字序列。如果我们不使用 set.seed() 函数，我们将拥有不同的数字序列。

set.seed(123)
## Create the data
x = rnorm(1000)
ts <- cumsum(x)
## Stationary the serie
diff_ts <- diff(ts)
par(mfrow=c(1,2))
## Plot the series
plot(ts, type='l')
plot(diff(ts), type='l')

length() 函数

在许多情况下，我们需要知道向量的长度用于计算或在 for 循环中使用。length() 函数计算向量 x 中的行数。以下代码导入 cars 数据集并返回行数。

注意：length() 返回向量中的元素数量。如果函数传递给矩阵或数据框，则返回列数。

dt <- cars
## number columns
length(dt)

输出

## [1] 1

## number rows
length(dt[,1])

输出

## [1] 50

数学函数

R 拥有大量的数学函数。

运算符	描述
abs(x)	取 x 的绝对值
log(x,base=y)	取以 y 为底的 x 的对数；如果未指定基数，则返回自然对数
exp(x)	返回 x 的指数
sqrt(x)	返回 x 的平方根
factorial(x)	返回 x 的阶乘（x!）

# sequence of number from 44 to 55 both including incremented by 1
x_vector <- seq(45,55, by = 1)
#logarithm
log(x_vector)

输出

##  [1] 3.806662 3.828641 3.850148 3.871201 3.891820 3.912023 3.931826
##  [8] 3.951244 3.970292 3.988984 4.007333

#exponential
exp(x_vector)

#squared root
sqrt(x_vector)

输出

##  [1] 6.708204 6.782330 6.855655 6.928203 7.000000 7.071068 7.141428
##  [8] 7.211103 7.280110 7.348469 7.416198

#factorial
factorial(x_vector)

输出

##  [1] 1.196222e+56 5.502622e+57 2.586232e+59 1.241392e+61 6.082819e+62
##  [6] 3.041409e+64 1.551119e+66 8.065818e+67 4.274883e+69 2.308437e+71
## [11] 1.269640e+73

统计函数

R 标准安装包含广泛的统计函数。在本教程中，我们将简要介绍最重要的函数。

基本统计函数

运算符	描述
mean(x)	x 的平均值
median(x)	x 的中位数
var(x)	x 的方差
sd(x)	x 的标准差
scale(x)	x 的标准分数（z 分数）
quantile(x)	x 的四分位数
summary(x)	x 的摘要：平均值、最小值、最大值等。

speed <- dt$speed
speed
# Mean speed of cars dataset
mean(speed)

输出

## [1] 15.4

# Median speed of cars dataset
median(speed)

输出

## [1] 15

# Variance speed of cars dataset
var(speed)

输出

## [1] 27.95918

# Standard deviation speed of cars dataset
sd(speed)

输出

## [1] 5.287644

# Standardize vector speed of cars dataset		
head(scale(speed), 5)

输出

##           [,1]
## [1,] -2.155969
## [2,] -2.155969
## [3,] -1.588609
## [4,] -1.588609
## [5,] -1.399489

# Quantile speed of cars dataset
quantile(speed)

输出

##   0%  25%  50%  75% 100%
##    4   12   15   19   25

# Summary speed of cars dataset
summary(speed)

输出

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
##     4.0    12.0    15.0    15.4    19.0    25.0

到目前为止，我们已经了解了很多 R 内置函数。

注意：请注意参数的类，即数字、布尔值或字符串。例如，如果我们需要传递字符串值，我们需要将字符串括在引号中：“ABC”。

在 R 中编写函数

在某些情况下，我们需要编写自己的函数，因为我们需要完成特定的任务而没有现成的函数。用户定义的函数包含一个名称、参数和一个主体。

function.name <- function(arguments) 
{
    computations on the arguments	
    some other code
}

注意：一个好的做法是为用户定义的函数命名，使其不同于内置函数。这可以避免混淆。

单参数函数

在下一个代码片段中，我们定义了一个简单的平方函数。该函数接受一个值并返回该值的平方。

square_function<- function(n) 
{
  # compute the square of integer `n`
  n^2
}  
# calling the function and passing value 4
square_function(4)

代码解释

该函数名为 square_function；我们可以随意调用它。
它接收一个参数“n”。我们没有指定变量类型，因此用户可以传递整数、向量或矩阵。
该函数获取输入“n”并返回输入的平方。使用完函数后，可以使用 rm() 函数将其删除。

# 创建函数后

rm(square_function)
square_function

在控制台中，我们可以看到一条错误消息：“Error: object ‘square_function’ not found”，表明该函数不存在。

环境作用域

在 R 中，环境是对象的集合，如函数、变量、数据框等。

每次提示 Rstudio 时，R 都会打开一个环境。

可用的顶级环境是全局环境，称为 R_GlobalEnv。我们还有局部环境。

我们可以列出当前环境的内容。

ls(environment())

输出

## [1] "diff_ts"         "dt"              "speed"           "square_function"
## [5] "ts"              "x"               "x_vector"

您可以看到在 R_GlobalEnv 中创建的所有变量和函数。

上面的列表将因您在 R Studio 中执行的历史代码而异。

请注意，square_function 函数的参数 n不在该全局环境中。

为每个函数创建新环境。在上面的示例中，square_function() 函数在全局环境内创建了一个新环境。

为了阐明全局和局部环境之间的区别，让我们研究以下示例。

这些函数接受一个值 x 作为参数，并将其添加到在函数外部和内部定义的 y 中。

函数 f 返回输出 15。这是因为 y 定义在全局环境中。在全局环境中定义的任何变量都可以在本地使用。变量 y 在所有函数调用期间的值都为 10，并且可以随时访问。

让我们看看如果变量 y 在函数内部定义会发生什么。

我们需要在运行此代码之前使用 rm r drop `y`

调用 f(5) 时，输出也是 15，但尝试打印 y 的值时会返回错误。变量 y 不在全局环境中。

最后，R 使用最近的变量定义来传递到函数体内部。让我们考虑以下示例。

由于我们在函数体内显式创建了 y 变量，R 会忽略函数外部定义的 y 值。

多参数函数

我们可以编写一个具有多个参数的函数。考虑名为“times”的函数。它是一个将两个变量相乘的直接函数。

times <- function(x,y) {
  x*y
	}
times(2,4)

输出

## [1] 8

我们应该何时编写函数？

数据科学家需要做许多重复性的任务。大多数时候，我们会反复复制粘贴代码块。例如，在运行机器学习算法之前，强烈建议对变量进行归一化。归一化变量的公式是：

我们已经知道如何在 R 中使用 min() 和 max() 函数。我们使用 tibble 库来创建数据框。到目前为止，tibble 是从头开始创建数据集最方便的函数。

library(tibble)
# Create a data frame
data_frame <- tibble(  
  c1 = rnorm(50, 5, 1.5), 
  c2 = rnorm(50, 5, 1.5),    
  c3 = rnorm(50, 5, 1.5),    
)

我们将分两步计算上述函数。第一步，我们将创建一个名为 c1_norm 的变量，它是 c1 的重缩放。在第二步，我们只需复制粘贴 c1_norm 的代码，然后将其更改为 c2 和 c3。

带有 c1 列的函数详细信息

分子：： data_frame$c1 -min(data_frame$c1))

分母： max(data_frame$c1)-min(data_frame$c1))

因此，我们可以对它们进行除法以获得 c1 列的归一化值。

(data_frame$c1 -min(data_frame$c1))/(max(data_frame$c1)-min(data_frame$c1))

我们可以创建 c1_norm、c2_norm 和 c3_norm。

Create c1_norm: rescaling of c1		
data_frame$c1_norm <- (data_frame$c1 -min(data_frame$c1))/(max(data_frame$c1)-min(data_frame$c1))
# show the first five values
head(data_frame$c1_norm, 5)

输出

## [1] 0.3400113 0.4198788 0.8524394 0.4925860 0.5067991

它有效。我们可以复制粘贴

data_frame$c1_norm <- (data_frame$c1 -min(data_frame$c1))/(max(data_frame$c1)-min(data_frame$c1))

然后将 c1_norm 改为 c2_norm，将 c1 改为 c2。我们对 c3_norm 做同样的事情。

data_frame$c2_norm <- (data_frame$c2 - min(data_frame$c2))/(max(data_frame$c2)-min(data_frame$c2))
data_frame$c3_norm <- (data_frame$c3 - min(data_frame$c3))/(max(data_frame$c3)-min(data_frame$c3))

我们完美地重缩放了变量 c1、c2 和 c3。

但是，此方法容易出错。我们可能会复制然后忘记粘贴后更改列名。因此，一个好的做法是，每次需要复制相同代码两次以上时，都编写一个函数。我们可以将代码重新排列成一个公式，并在需要时调用它。要编写自己的函数，我们需要给它

名称： normalize。
参数数量：我们只需要一个参数，即我们在计算中使用的列。
主体：这只是我们想要返回的公式。

我们将逐步创建 normalize 函数。

步骤 1) 我们创建分子，即。在 R 中，我们可以将分子存储在变量中，如下所示。

nominator <- x-min(x)

步骤 2) 我们计算分母：。我们可以复制步骤 1 的思路，并将计算存储在变量中。

denominator <- max(x)-min(x)

步骤 3) 我们执行分子和分母之间的除法。

normalize <- nominator/denominator

步骤 4) 要将值返回到调用函数，我们需要将 normalize 放入 return() 中以获取函数的输出。

return(normalize)

步骤 5) 我们准备好使用该函数，方法是将所有内容包装在括号内。

normalize <- function(x){
  # step 1: create the nominator
  nominator <- x-min(x)
  # step 2: create the denominator
  denominator <- max(x)-min(x)
  # step 3: divide nominator by denominator
  normalize <- nominator/denominator
  # return the value
  return(normalize)
}

让我们用变量 c1 来测试我们的函数。

normalize(data_frame$c1)

它完美地运行。我们创建了第一个函数。

函数是执行重复任务的更全面的方法。我们可以对不同的列使用 normalize 公式，如下所示。

data_frame$c1_norm_function <- normalize (data_frame$c1)
data_frame$c2_norm_function <- normalize	(data_frame$c2)
data_frame$c3_norm_function <- normalize	(data_frame$c3)

尽管示例很简单，但我们可以推断出公式的力量。上面的代码更容易阅读，尤其是可以避免在粘贴代码时出错。

带条件的函数

有时，我们需要在函数中包含条件，以允许代码返回不同的输出。

在机器学习任务中，我们需要将数据集拆分为训练集和测试集。训练集允许算法从数据中学习。为了测试模型的性能，我们可以使用测试集来返回性能度量。R 没有创建两个数据集的函数。我们可以编写自己的函数来完成此操作。我们的函数接受两个参数，并称为 split_data()。其思想很简单，我们将数据集的长度（即观测值数量）乘以 0.8。例如，如果我们想将数据集按 80/20 的比例拆分，而我们的数据集包含 100 行，那么我们的函数将乘以 0.8*100 = 80。将选择 80 行作为我们的训练数据。

我们将使用 airquality 数据集来测试我们的用户定义函数。airquality 数据集有 153 行。我们可以使用下面的代码看到它。

nrow(airquality)

输出

## [1] 153

我们将按以下步骤进行：

split_data <- function(df, train = TRUE)
Arguments:
-df: Define the dataset
-train: Specify if the function returns the train set or test set. By default, set to TRUE

我们的函数有两个参数。参数 train 是一个布尔参数。如果设置为 TRUE，我们的函数将创建训练数据集，否则它将创建测试数据集。

我们可以像对 normalise() 函数一样进行操作。我们像编写一次性代码一样编写代码，然后将条件包装在主体中以创建函数。

步骤 1

我们需要计算数据集的长度。这是使用 nrow() 函数完成的。Nrow 返回数据框中的总行数。我们将变量命名为 length。

length<- nrow(airquality)
length

输出

## [1] 153

步骤 2

我们将长度乘以 0.8。它将返回要选择的行数。应该是 153*0.8 = 122.4

total_row <- length*0.8
total_row

输出

## [1] 122.4

我们想从 airquality 数据集中的 153 行中选择 122 行。我们创建一个包含从 1 到 total_row 的值的列表。我们将结果存储在名为 split 的变量中。

split <- 1:total_row
split[1:5]

输出

## [1] 1 2 3 4 5

split 选择数据集的前 122 行。例如，我们可以看到我们的变量 split 收集了值 1、2、3、4、5 等。这些值将是我们选择要返回的行时的索引。

步骤 3

我们需要根据 split 变量中存储的值来选择 airquality 数据集中的行。这是这样做的：

train_df <- airquality[split, ] 
head(train_df)

输出

##[1]    Ozone Solar.R Wind Temp Month Day
##[2]  51    13     137 10.3   76     6  20
##[3]  15    18      65 13.2   58     5  15
##[4]  64    32     236  9.2   81     7   3
##[5]  27    NA      NA  8.0   57     5  27
##[6]  58    NA      47 10.3   73     6  27
##[7]  44    23     148  8.0   82     6  13

步骤 4

我们可以使用剩余的行，即 123:153 来创建测试数据集。这是通过在 split 前面加上 – 来完成的。

test_df <- airquality[-split, ] 
head(test_df)

输出

##[1] Ozone Solar.R Wind Temp Month Day
##[2]  123    85     188  6.3   94     8  31
##[3]  124    96     167  6.9   91     9   1
##[4]  125    78     197  5.1   92     9   2
##[5]  126    73     183  2.8   93     9   3
##[6]  127    91     189  4.6   93     9   4
##[7]  128    47      95  7.4   87     9   5

步骤 5

我们可以在函数的主体中创建条件。记住，我们有一个参数 train，它是一个布尔值，默认设置为 TRUE 以返回训练集。为了创建条件，我们使用 if 语法。

  if (train ==TRUE){ 
    train_df <- airquality[split, ] 
      return(train)		
  } else {
    test_df <- airquality[-split, ] 
      return(test)		
  }

就是这样，我们可以编写函数了。我们只需要将 airquality 改为 df，因为我们想尝试将函数应用于任何数据框，而不仅仅是 airquality。

split_data <- function(df, train = TRUE){
  length<- nrow(df)
  total_row <- length *0.8
  split <- 1:total_row
  if (train ==TRUE){ 
    train_df <- df[split, ] 
      return(train_df)		
  } else {
    test_df <- df[-split, ] 
      return(test_df)		
  }
}

让我们在 airquality 数据集上试用我们的函数。我们应该有一个包含 122 行的训练集和一个包含 31 行的测试集。

train <- split_data(airquality, train = TRUE)
dim(train)

输出

## [1] 122   6

test <- split_data(airquality, train = FALSE)
dim(test)

输出

## [1] 31  6