Python Pandas 教程:DataFrame、日期范围、Pandas 的使用
什么是 Pandas Python?
Pandas 是一个开源库,允许您在 Python 中执行数据操作和分析。Pandas Python 库为数值表格和时间序列提供了数据操作和数据操作。Pandas 提供了一种创建、操作和整理数据的简便方法。它建立在 NumPy 之上,这意味着它需要 NumPy 来运行。
为什么使用 Pandas?
数据科学家在 Python 中使用 Pandas 是因为它具有以下优点:
- 轻松处理丢失的数据
- 它使用 Series 作为一维数据结构,使用 DataFrame 作为多维数据结构。
- 它提供了一种高效的数据切片方法。
- 它提供了一种灵活的数据合并、连接或重塑方法。
- 它包含一个强大的时间序列工具。
总而言之,Pandas 是一个在数据分析中非常有用的库。它可以用于执行数据操作和分析。Pandas 提供了强大且易于使用的数据结构,以及对这些结构快速执行操作的方法。
如何安装 Pandas?
现在,在本 Python Pandas 教程中,我们将学习如何在 Python 中安装 Pandas。
要安装 Pandas 库,请参阅我们的教程如何安装 TensorFlow。Pandas 默认已安装。在极少数情况下,如果 Pandas 未安装:
您可以使用以下命令安装 Pandas:
- Anaconda:conda install -c anaconda pandas
- 在 Jupyter Notebook 中
import sys !conda install --yes --prefix {sys.prefix} pandas
什么是 Pandas DataFrame?
Pandas DataFrame 是一个具有不同列类型的二维带标签数据结构。DataFrame 是以表格格式存储数据的标准方法,其中行存储信息,列命名信息。例如,价格可以是一列的名称,2、3、4 可以是价格值。
DataFrame 为统计学家和其他数据从业者所熟知。
下方是 Pandas 数据帧的图片
什么是 Series?
Series 是一维数据结构。它可以包含任何数据结构,如整数、浮点数和字符串。当您想执行计算或返回一维数组时,它非常有用。根据定义,Series 不能有多列。后一种情况,请使用 DataFrame 结构。
Python Pandas Series 具有以下参数:
- 数据:可以是列表、字典或标量值。
pd.Series([1., 2., 3.])
0 1.0 1 2.0 2 3.0 dtype: float64
您可以通过 index 添加索引。它有助于命名行。长度应等于列的大小。
pd.Series([1., 2., 3.], index=['a', 'b', 'c'])
下面,您将创建一个带有第三行缺失值的 Pandas Series。请注意,Python 中的缺失值用“NaN”表示。您可以使用 numpy 人工创建缺失值:np.nan。
pd.Series([1,2,np.nan])
输出
0 1.0 1 2.0 2 NaN dtype: float64
创建 Pandas DataFrame
现在,在本 Pandas DataFrame 教程中,我们将学习如何创建 Python Pandas DataFrame。
您可以使用 pd.DataFrame() 将 numpy 数组转换为 pandas DataFrame。反之亦然。要将 pandas DataFrame 转换为数组,您可以使用 np.array()。
## Numpy to pandas import numpy as np h = [[1,2],[3,4]] df_h = pd.DataFrame(h) print('Data Frame:', df_h) ## Pandas to numpy df_h_n = np.array(df_h) print('Numpy array:', df_h_n) Data Frame: 0 1 0 1 2 1 3 4 Numpy array: [[1 2] [3 4]]
您还可以使用字典来创建 Pandas DataFrame。
dic = {'Name': ["John", "Smith"], 'Age': [30, 40]} pd.DataFrame(data=dic)
年龄 | 名称 | |
---|---|---|
0 | 30 | John |
1 | 40 | 史密斯 |
Pandas 范围数据
Pandas 提供了一个方便的 API 来创建日期范围。让我们通过 Python Pandas 示例来学习。
pd.data_range(date,period,frequency)
- 第一个参数是起始日期。
- 第二个参数是期间数(如果指定了结束日期,则可选)。
- 最后一个参数是频率:日:“D”,月:“M”,年:“Y”。
## Create date # Days dates_d = pd.date_range('20300101', periods=6, freq='D') print('Day:', dates_d)
输出
Day: DatetimeIndex(['2030-01-01', '2030-01-02', '2030-01-03', '2030-01-04', '2030-01-05', '2030-01-06'], dtype='datetime64[ns]', freq='D')
# Months dates_m = pd.date_range('20300101', periods=6, freq='M') print('Month:', dates_m)
输出
Month: DatetimeIndex(['2030-01-31', '2030-02-28', '2030-03-31', '2030-04-30','2030-05-31', '2030-06-30'], dtype='datetime64[ns]', freq='M')
检查数据
您可以使用 head() 或 tail() 检查数据集的头部或尾部,前面加上 pandas DataFrame 的名称,如以下 Pandas 示例所示。
步骤 1) 使用 numpy 创建一个随机序列。该序列有 4 列和 6 行。
random = np.random.randn(6,4)
步骤 2) 然后您使用 pandas 创建一个 DataFrame。
使用 dates_m 作为 DataFrame 的索引。这意味着每一行都会被赋予一个“名称”或索引,对应一个日期。
最后,您使用 columns 参数为 4 列命名。
# Create data with date df = pd.DataFrame(random, index=dates_m, columns=list('ABCD'))
步骤 3) 使用 head 函数。
df.head(3)
A | B | C | D | |
---|---|---|---|---|
2030-01-31 | 1.139433 | 1.318510 | -0.181334 | 1.615822 |
2030-02-28 | -0.081995 | -0.063582 | 0.857751 | -0.527374 |
2030-03-31 | -0.519179 | 0.080984 | -1.454334 | 1.314947 |
步骤 4)使用 tail 函数。
df.tail(3)
A | B | C | D | |
---|---|---|---|---|
2030-04-30 | -0.685448 | -0.011736 | 0.622172 | 0.104993 |
2030-05-31 | -0.935888 | -0.731787 | -0.558729 | 0.768774 |
2030-06-30 | 1.096981 | 0.949180 | -0.196901 | -0.471556 |
步骤 5)使用 describe() 获取数据线索是一个很好的实践。它提供了数据集的计数、平均值、标准差、最小值、最大值和百分位数。
df.describe()
A | B | C | D | |
---|---|---|---|---|
计数 | 6.000000 | 6.000000 | 6.000000 | 6.000000 |
平均值 | 0.002317 | 0.256928 | -0.151896 | 0.467601 |
标准差 | 0.908145 | 0.746939 | 0.834664 | 0.908910 |
min | -0.935888 | -0.731787 | -1.454334 | -0.527374 |
25% | -0.643880 | -0.050621 | -0.468272 | -0.327419 |
50% | -0.300587 | 0.034624 | -0.189118 | 0.436883 |
75% | 0.802237 | 0.732131 | 0.421296 | 1.178404 |
max | 1.139433 | 1.318510 | 0.857751 | 1.615822 |
切片数据
本 Python Pandas 教程的最后一点是关于如何对 pandas DataFrame 进行切片。
您可以使用列名来提取特定列中的数据,如以下 Pandas 示例所示。
## Slice ### Using name df['A'] 2030-01-31 -0.168655 2030-02-28 0.689585 2030-03-31 0.767534 2030-04-30 0.557299 2030-05-31 -1.547836 2030-06-30 0.511551 Freq: M, Name: A, dtype: float64
要选择多列,您需要使用两次方括号,[[..,..]]。
第一个方括号表示您要选择列,第二个方括号表示您要返回哪些列。
df[['A', 'B']].
A | B | |
---|---|---|
2030-01-31 | -0.168655 | 0.587590 |
2030-02-28 | 0.689585 | 0.998266 |
2030-03-31 | 0.767534 | -0.940617 |
2030-04-30 | 0.557299 | 0.507350 |
2030-05-31 | -1.547836 | 1.276558 |
2030-06-30 | 0.511551 | 1.572085 |
您可以使用以下方法切片行:
以下代码返回前三行:
### using a slice for row df[0:3]
A | B | C | D | |
---|---|---|---|---|
2030-01-31 | -0.168655 | 0.587590 | 0.572301 | -0.031827 |
2030-02-28 | 0.689585 | 0.998266 | 1.164690 | 0.475975 |
2030-03-31 | 0.767534 | -0.940617 | 0.227255 | -0.341532 |
loc 函数用于按名称选择列。通常,逗号前的值代表行,之后的值代表列。您需要使用方括号来选择多个列。
## Multi col df.loc[:,['A','B']]
A | B | |
---|---|---|
2030-01-31 | -0.168655 | 0.587590 |
2030-02-28 | 0.689585 | 0.998266 |
2030-03-31 | 0.767534 | -0.940617 |
2030-04-30 | 0.557299 | 0.507350 |
2030-05-31 | -1.547836 | 1.276558 |
2030-06-30 | 0.511551 | 1.572085 |
在 Pandas 中还有另一种选择多行和多列的方法。您可以使用 iloc[]。此方法使用索引而不是列名。以下代码返回与上面相同的数据帧:
df.iloc[:, :2]
A | B | |
---|---|---|
2030-01-31 | -0.168655 | 0.587590 |
2030-02-28 | 0.689585 | 0.998266 |
2030-03-31 | 0.767534 | -0.940617 |
2030-04-30 | 0.557299 | 0.507350 |
2030-05-31 | -1.547836 | 1.276558 |
2030-06-30 | 0.511551 | 1.572085 |
删除列
您可以使用 pd.drop() 删除列。
df.drop(columns=['A', 'C'])
B | D | |
---|---|---|
2030-01-31 | 0.587590 | -0.031827 |
2030-02-28 | 0.998266 | 0.475975 |
2030-03-31 | -0.940617 | -0.341532 |
2030-04-30 | 0.507350 | -0.296035 |
2030-05-31 | 1.276558 | 0.523017 |
2030-06-30 | 1.572085 | -0.594772 |
连接
您可以在 Pandas 中连接两个 DataFrame。您可以使用 pd.concat()。
首先,您需要创建两个 DataFrame。到目前为止,您已经熟悉了 DataFrame 的创建。
import numpy as np df1 = pd.DataFrame({'name': ['John', 'Smith','Paul'], 'Age': ['25', '30', '50']}, index=[0, 1, 2]) df2 = pd.DataFrame({'name': ['Adam', 'Smith' ], 'Age': ['26', '11']}, index=[3, 4])
最后,您连接了这两个 DataFrame。
df_concat = pd.concat([df1,df2]) df_concat
年龄 | 姓名 | |
---|---|---|
0 | 25 | John |
1 | 30 | 史密斯 |
2 | 50 | Paul |
3 | 26 | Adam |
4 | 11 | 史密斯 |
删除重复项
如果数据集可能包含重复信息,使用 `drop_duplicates` 可以轻松排除重复行。您可以看到 `df_concat` 有一个重复的观测值,“Smith”在 `name` 列中出现了两次。
df_concat.drop_duplicates('name')
年龄 | 姓名 | |
---|---|---|
0 | 25 | John |
1 | 30 | 史密斯 |
2 | 50 | Paul |
3 | 26 | Adam |
对值进行排序
您可以使用 sort_values 对值进行排序。
df_concat.sort_values('Age')
年龄 | 姓名 | |
---|---|---|
4 | 11 | 史密斯 |
0 | 25 | John |
3 | 26 | Adam |
1 | 30 | 史密斯 |
2 | 50 | Paul |
重命名:更改索引
您可以使用 rename 在 Pandas 中重命名列。第一个值是当前列名,第二个值是新的列名。
df_concat.rename(columns={"name": "Surname", "Age": "Age_ppl"})
Age_ppl | 姓氏 | |
---|---|---|
0 | 25 | John |
1 | 30 | 史密斯 |
2 | 50 | Paul |
3 | 26 | Adam |
4 | 11 | 史密斯 |
摘要
以下是数据科学中最有用的 Pandas 方法的摘要:
导入数据 | read_csv |
---|---|
创建 series | Series |
创建 DataFrame | DataFrame |
创建日期范围 | date_range |
返回头部 | head |
返回尾部 | tail |
描述 | describe |
按名称切片 | dataname[‘columnname’] |
按行切片 | data_name[0:5] |