如何在 Windows/Mac 上下载和安装 NLTK

在Windows中安装NLTK

在本节中，我们将学习如何通过终端（Windows中的命令提示符）设置NLTK。

以下说明假定您尚未安装Python。因此，第一步是安装Python。

在Windows中安装Python

步骤1）转到链接https://pythonlang.cn/downloads/，然后为Windows选择最新版本。

注意：如果您不想下载最新版本，可以访问下载选项卡查看所有发行版。

步骤2）点击下载的文件

步骤3）选择自定义安装

步骤4）点击“下一步”

步骤5）在下一个屏幕上

选择高级选项
指定一个自定义安装位置。在我的例子中，为了方便操作，我选择了C盘上的一个文件夹。
单击安装

步骤6）安装完成后，点击“关闭”按钮。

步骤7）复制Scripts文件夹的路径。

步骤8）在Windows命令提示符中

导航到pip文件夹的位置
输入命令以安装NLTK
```
pip3 install nltk
```
安装应该会成功完成

注意：对于Python2，请使用命令pip2 install nltk

步骤9）在Windows开始菜单中，搜索并打开PythonShell

步骤10）您可以通过提供以下命令来验证安装是否准确

import nltk

如果您看到没有错误，则表示安装已完成。

在Mac/Linux中安装NLTK

在Mac/Unix中安装NLTK需要Python包管理器pip来安装nltk。如果未安装pip，请按照以下说明完成此过程。

步骤1）键入以下命令更新包索引

sudo apt update

步骤2）为Python 3安装pip

sudo apt install python3-pip

您也可以使用easy_install安装pip。

sudo apt-get install python-setuptools  python-dev build-essential

现在已安装easy_install。运行以下命令安装pip

sudo easy_install pip

步骤3）使用以下命令安装NLTK

sudo pip install -U nltk
sudo pip3 install -U nltk

通过Anaconda安装NLTK

步骤1）请通过访问https://anaconda.net.cn/products/individual来安装Anaconda（也可用于安装不同的包），并选择您需要为Anaconda安装的Python版本。

注意：有关安装Anaconda的详细步骤，请参考本教程安装Anaconda

步骤2）在Anaconda提示符中，

输入命令
```
conda install -c anaconda nltk
```
审查包升级、降级、安装信息并输入“yes”。
NLTK已下载并安装。

NLTK数据集

NLTK模块有许多可用的数据集，您需要下载才能使用。更专业地说，这被称为语料库。例如：stopwords、gutenberg、framenet_v15、large_grammars等。

如何下载NLTK的所有软件包

步骤1）在Windows或Linux中运行Python解释器

步骤 2)

输入命令

import nltk
nltk.download ()

将打开NLTK下载窗口。点击“下载”按钮下载数据集。此过程将花费一些时间，具体取决于您的互联网连接。

注意：您可以点击“文件”>“更改下载目录”来更改下载位置。

步骤3）要测试已安装的数据，请使用以下代码

>>> from nltk.corpus import brown
>>>brown.words()

[‘The’, ‘Fulton’, ‘County’, ‘Grand’, ‘Jury’, ‘said’, …]

运行NLP脚本

我们将讨论如何在本地PC上执行NLP脚本。市场上有许多用于自然语言处理的库。因此，选择哪个库取决于是否满足您的要求。以下是NLP库的列表。

如何运行NLTK脚本

步骤1）在您喜欢的代码编辑器中，复制代码并将文件保存为“NLTKsample.py“

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

代码解释

在此程序中，目标是从给定文本中删除所有标点符号。我们导入了“RegexpTokenizer”，它是NLTK的一个模块。它可以删除您想要的任何表达式、符号、字符、数字或任何内容。
您只需将正则表达式传递给“RegexpTokenizer”模块。
之后，我们使用“tokenize”模块对单词进行分词。输出存储在“filterdText”变量中。
并使用“print()”打印它们。

步骤2）在命令提示符中

导航到您保存文件的位置
运行命令 Python NLTKsample.py

这将显示输出为：

[‘Hello’, ‘Guru99’, ‘You’, ‘have’, ‘build’, ‘a’, ‘very’, ‘good’, ‘site’, ‘and’, ‘I’, ‘love’, ‘visiting’, ‘your’, ‘site’]