自然语言处理教程:什么是 NLP?示例
什么是自然语言处理?
自然语言处理 (NLP) 是人工智能的一个分支,它帮助计算机理解、解释和处理人类语言,如英语或印地语,以分析和提取其含义。NLP 帮助开发人员组织和构建知识,以执行翻译、摘要、命名实体识别、关系提取、语音识别、主题分割等任务。
NLP的历史
以下是自然语言处理历史上的重要事件
1950年 - NLP始于艾伦·图灵发表一篇名为《机器与智能》的文章。
1950年 - 尝试实现俄语和英语之间的自动翻译
1960年 - 乔姆斯基等人关于形式语言理论和生成语法的工作
1990年 - 概率和数据驱动的模型已相当普遍
2000年 - 海量的口语和文本数据变得可用
在接下来的NLP教程中,我们将学习NLP如何工作。
NLP如何工作?
在我们学习NLP如何工作之前,让我们先了解一下人类如何使用语言-
每天,我们说的话成千上万,其他人会理解并以此做无数事情。我们认为这只是简单的沟通,但我们都知道,言语的含义远不止于此。我们说话的内容和方式总会带有一些我们能推断出的语境。人工智能中的NLP从不关注语音语调;它确实会利用语境模式。
示例
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
在这里,我们可以轻松地进行类比,因为男人是男性,女人是女性。同样,国王是男性,其女性是王后。
示例
Is King to kings as the queen is to_______? The answer is--- queens
在这里,我们可以看到两个词“king”和“kings”,一个表示单数,一个表示复数。因此,当出现“queen”这个词时,它会自动类比为“queens”,再次表示单数复数。
这里最大的问题是,我们怎么知道词语的意思?比方说,谁会称她为王后?
答案是我们通过经验学习这些事物。然而,这里的主要问题是计算机如何知道同样的事情?
我们需要为机器提供足够的数据,让它们通过经验学习。我们可以提供诸如以下详细信息:
- 女王陛下。
- 女王在国事访问期间的讲话
- 伊丽莎白女王的王冠
- 女王的母亲
- 这位女王很慷慨。
通过以上示例,机器理解了“Queen”这个实体。
机器会创建如下的词向量。词向量是使用周围的词构建的。
机器创建这些向量
- 因为它从多个数据集中学习
- 使用机器学习(例如,深度学习算法)
- 词向量是使用周围的词构建的。
这是公式
含义(国王)- 含义(男人)+ 含义(女人)=?
这相当于对词向量进行简单的代数运算
向量(国王)- 向量(男人)+ 向量(女人)= 向量(?)
机器回答是“queen”。
在接下来的自然语言处理教程中,我们将学习NLP的组成部分。
NLP的组成部分
人工智能中自然语言处理的五个主要组成部分是:
- 形态和词汇分析
- 句法分析
- 语义分析
- 语篇整合
- 语用分析
形态和词汇分析
词汇分析是包括其词语和表达的词汇。它描述了对词语结构的分析、识别和描述。它包括将文本分解为段落、单词和句子。
单个单词被分析成它们的组成部分,非单词标记,如标点符号,被从单词中分离出来。
语义分析
语义分析是由句法分析器创建的,它赋予含义。这个组件将线性词序列转换为结构。它显示了词语之间是如何关联的。
语义仅关注词语、短语和句子的字面意义。它只从给定的上下文中提取字典含义或实际含义。句法分析器赋予的结构总是具有指定的含义。
例如,“无色的绿色想法”。这将由语义分析拒绝,因为无色的绿色没有任何意义。
语用分析
语用分析处理整体的交流和社交内容及其对解释的影响。这意味着抽象或推导出语言在特定情境下的有意义用法。在此分析中,主要关注的是所说的话以及被重新解释的含义。
语用分析通过应用一套描述合作对话的规则,帮助用户发现这种预期的效果。
例如,“关上窗户?”应该被解释为请求而不是命令。
句法分析
单词通常被认为是句法中最小的单位。句法是指管理任何个体语言句子结构的原则和规则。
句法关注单词的正确排序,这会影响其含义。这涉及到遵循句子的语法结构来分析句子中的单词。单词被转换为结构,以显示单词之间的关系。
语篇整合
它意味着一种对语境的感觉。任何单个句子的含义取决于该句子。它还考虑了后续句子的含义。
例如,句子“He wanted that”中的“that”一词取决于先前的语篇上下文。
在接下来的NLP教程中,我们将学习NLP和书写系统。
NLP与书写系统
用于语言的书写系统类型是决定文本预处理最佳方法的决定性因素之一。书写系统可以是:
- 表意文字:大量的独立符号代表单词。例如日语、汉语
- 音节文字:独立的符号代表音节
- 字母文字:独立的符号代表声音
大多数书写系统使用音节文字或字母文字系统。即使是英语,它基于罗马字母的相对简单的书写系统,也利用了表意符号,包括阿拉伯数字、货币符号($, £)和其他特殊符号。
这带来了以下挑战
- 从文本中提取含义(语义)是一个挑战
- AI中的NLP依赖于语料库的质量。如果领域庞大,则难以理解上下文。
- 依赖于字符集和语言
如何实现NLP
下面给出了用于自然学习过程的流行方法
机器学习:机器学习过程中使用的学习NLP程序。它会自动关注最常见的情况。因此,当我们手工编写规则时,它通常不完全正确,并且担心人为错误。
统计推断:NLP可以使用统计推断算法。它有助于您生成健壮的模型。例如,包含每个人都知道的单词或结构。
NLP示例
如今,自然语言处理技术已成为一项广泛使用的技术。
以下是常见的自然语言处理技术:
信息检索与网络搜索
谷歌、雅虎、必应和其他搜索引擎将它们的机器翻译技术建立在NLP深度学习模型之上。它允许算法读取网页上的文本,理解其含义并将其翻译成另一种语言。
语法校正
MS Word等文字处理软件广泛使用NLP技术进行拼写检查和语法检查。
问答
输入关键字以自然语言提问。
文本摘要
从源中概括重要信息以生成缩短版本的流程
机器翻译
使用计算机应用程序将文本或语音从一种自然语言翻译成另一种语言。
情感分析
NLP帮助公司分析大量关于产品的评论。它还允许他们的客户对特定产品进行评论。
NLP的未来
- 人类可读的自然语言处理是最大的人工智能问题。它几乎等同于解决核心人工智能问题,并使计算机像人一样智能。
- 未来的计算机或机器在NLP的帮助下将能够从在线信息中学习并在现实世界中应用,但是,在这方面还有很多工作要做。
- 自然语言工具包或nltk变得更有效
- 结合自然语言生成,计算机将能够更有效地接收和提供有用和有资源的信息或数据。
自然语言与计算机语言
以下是自然语言和计算机语言之间的主要区别
参数 | 自然语言 | 计算机语言 |
---|---|---|
歧义 | 它们本质上是模糊的。 | 它们被设计成无歧义的。 |
冗余 | 自然语言使用大量的冗余。 | 形式语言的冗余较少。 |
字面含义 | 自然语言由习语和隐喻组成 | 形式语言的意思就是它们想表达的意思 |
NLP的优势
- 用户可以询问任何主题的问题,并在几秒钟内获得直接响应。
- NLP系统以自然语言回答问题
- NLP系统提供问题的准确答案,没有不必要或不想要的信息
- 答案的准确性随着问题中提供的相关信息的数量而增加。
- NLP流程帮助计算机用人类的语言与人类交流,并扩展其他语言相关的任务
- 允许您比人类执行更多基于语言的数据比较,而不会感到疲劳,并且以无偏见和一致的方式进行。
- 构建高度非结构化的数据源
NLP的劣势
- 复杂查询语言 - 如果问题措辞不当或含糊不清,系统可能无法提供正确的答案。
- 该系统仅为单个特定任务构建,由于功能有限,它无法适应新的领域和问题。
- NLP系统没有用户界面,缺乏允许用户与系统进一步交互的功能。
摘要
- 自然语言处理是人工智能的一个分支,它帮助计算机理解、解释和处理人类语言。
- NLP始于艾伦·图灵发表一篇名为《机器与智能》的文章。
- NLP从不关注语音语调;它确实会利用语境模式。
- 人工智能中的自然语言处理的五个基本组成部分是:1) 形态和词汇分析 2) 句法分析 3) 语义分析 4) 语篇整合 5) 语用分析
- 自然过程书写系统的三种类型是:1) 表意文字 2) 音节文字 3) 字母文字
- 机器学习和统计推断是实现自然过程学习的两种方法。
- NLP的主要应用包括信息检索与网络搜索、语法校正、问答、文本摘要、机器翻译等。
- 未来的计算机或机器在NLP和数据科学的帮助下将能够从在线信息中学习并在现实世界中应用,但是,在这方面还有很多工作要做。
- NLP是模糊的,而开源计算机语言被设计为无歧义的。
- 人工智能系统中NLP的最大优势在于它提供问题的准确答案,没有不必要或不想要的信息。
- NLP系统最大的缺点是它仅为单个特定任务构建,由于功能有限,它无法适应新的领域和问题。