如何在 Windows/Mac 上下载和安装 NLTK

在Windows中安装NLTK

在本节中,我们将学习如何通过终端(Windows中的命令提示符)设置NLTK。

以下说明假定您尚未安装Python。因此,第一步是安装Python。

在Windows中安装Python

步骤1)转到链接https://pythonlang.cn/downloads/,然后为Windows选择最新版本。

Installing Python in Windows

注意:如果您不想下载最新版本,可以访问下载选项卡查看所有发行版。

Installing Python in Windows

步骤2)点击下载的文件

Installing Python in Windows

步骤3)选择自定义安装

Installing Python in Windows

步骤4)点击“下一步”

Installing Python in Windows

步骤5)在下一个屏幕上

  1. 选择高级选项
  2. 指定一个自定义安装位置。在我的例子中,为了方便操作,我选择了C盘上的一个文件夹。
  3. 单击安装

Installing Python in Windows

步骤6)安装完成后,点击“关闭”按钮。

Installing Python in Windows

步骤7)复制Scripts文件夹的路径。

Installing Python in Windows

步骤8)在Windows命令提示符中

  • 导航到pip文件夹的位置
  • 输入命令以安装NLTK
    pip3 install nltk
  • 安装应该会成功完成

Installing Python in Windows

注意:对于Python2,请使用命令pip2 install nltk

步骤9)在Windows开始菜单中,搜索并打开PythonShell

Installing Python in Windows

步骤10)您可以通过提供以下命令来验证安装是否准确

import nltk

Installing Python in Windows

如果您看到没有错误,则表示安装已完成。

在Mac/Linux中安装NLTK

在Mac/Unix中安装NLTK需要Python包管理器pip来安装nltk。如果未安装pip,请按照以下说明完成此过程。

步骤1)键入以下命令更新包索引

sudo apt update

步骤2)为Python 3安装pip

sudo apt install python3-pip

您也可以使用easy_install安装pip。

sudo apt-get install python-setuptools  python-dev build-essential

现在已安装easy_install。运行以下命令安装pip

sudo easy_install pip

步骤3)使用以下命令安装NLTK

sudo pip install -U nltk
sudo pip3 install -U nltk

通过Anaconda安装NLTK

步骤1)请通过访问https://anaconda.net.cn/products/individual来安装Anaconda(也可用于安装不同的包),并选择您需要为Anaconda安装的Python版本。

Installing NLTK through Anaconda

注意:有关安装Anaconda的详细步骤,请参考本教程安装Anaconda

步骤2)在Anaconda提示符中,

  1. 输入命令
    conda install -c anaconda nltk
  2. 审查包升级、降级、安装信息并输入“yes”。
  3. NLTK已下载并安装。

Installing NLTK through Anaconda

NLTK数据集

NLTK模块有许多可用的数据集,您需要下载才能使用。更专业地说,这被称为语料库。例如:stopwordsgutenbergframenet_v15large_grammars等。

如何下载NLTK的所有软件包

步骤1)在Windows或Linux中运行Python解释器

步骤 2)

  1. 输入命令
import nltk
nltk.download ()
  1. 将打开NLTK下载窗口。点击“下载”按钮下载数据集。此过程将花费一些时间,具体取决于您的互联网连接。

Download all Packages of NLTK

注意:您可以点击“文件”>“更改下载目录”来更改下载位置。

Download all Packages of NLTK

步骤3)要测试已安装的数据,请使用以下代码

>>> from nltk.corpus import brown
>>>brown.words()

[‘The’, ‘Fulton’, ‘County’, ‘Grand’, ‘Jury’, ‘said’, …]

Download all Packages of NLTK

运行NLP脚本

我们将讨论如何在本地PC上执行NLP脚本。市场上有许多用于自然语言处理的库。因此,选择哪个库取决于是否满足您的要求。以下是NLP库的列表。

如何运行NLTK脚本

步骤1)在您喜欢的代码编辑器中,复制代码并将文件保存为NLTKsample.py

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Run NLTK Script

代码解释

  1. 在此程序中,目标是从给定文本中删除所有标点符号。我们导入了“RegexpTokenizer”,它是NLTK的一个模块。它可以删除您想要的任何表达式、符号、字符、数字或任何内容。
  2. 您只需将正则表达式传递给“RegexpTokenizer”模块。
  3. 之后,我们使用“tokenize”模块对单词进行分词。输出存储在“filterdText”变量中。
  4. 并使用“print()”打印它们。

步骤2)在命令提示符中

  • 导航到您保存文件的位置
  • 运行命令 Python NLTKsample.py

Run NLTK Script

这将显示输出为:

[‘Hello’, ‘Guru99’, ‘You’, ‘have’, ‘build’, ‘a’, ‘very’, ‘good’, ‘site’, ‘and’, ‘I’, ‘love’, ‘visiting’, ‘your’, ‘site’]