📜  AI-自然语言处理

📅  最后修改于: 2021-01-23 05:43:42             🧑  作者: Mango


自然语言处理(NLP)是指使用自然语言(例如英语)与智能系统通信的AI方法。

当您希望像机器人这样的智能系统按照您的说明执行时,或者您希望听到基于对话的临床专家系统的决策等时,需要对自然语言进行处理。

NLP领域涉及制造计算机以人类使用的自然语言执行有用的任务。 NLP系统的输入和输出可以是-

  • 言语
  • 书面文字

NLP的组成部分

NLP有两个组成部分-

自然语言理解(NLU)

了解涉及以下任务-

  • 将给定的自然语言输入映射为有用的表示形式。
  • 分析语言的不同方面。

自然语言生成(NLG)

它是从某种内部表示形式以自然语言形式生成有意义的短语和句子的过程。

它涉及-

  • 文本计划-包括从知识库中检索相关内容。

  • 句子计划-包括选择所需的单词,形成有意义的短语,设置句子的语气。

  • 文本实现-将句子计划映射到句子结构中。

NLU比NLG难。

NLU的困难

NL具有极其丰富的形式和结构。

这是非常模棱两可的。可能存在不同程度的歧义-

  • 词汇歧义-它处于非常原始的级别,例如单词级别。

  • 例如,将“木板”一词视为名词还是动词?

  • 语法级别歧义-可以用不同的方式解析句子。

  • 例如,“他戴红色帽子举起了甲虫。” −他是用帽子举起甲虫还是举起有红色帽子的甲虫?

  • 指称歧义-使用代词指代某物。例如,里玛去了高里。她说:“我很累。” −究竟谁累了?

  • 一种输入可能意味着不同的含义。

  • 许多输入可能意味着同一件事。

NLP术语

  • 语音学-这是系统地组织声音的研究。

  • 形态-这是从原始有意义单位构造单词的研究。

  • 语素-它是语言中意义的原始单位。

  • 语法-指安排单词组成句子。它还涉及确定单词在句子和短语中的结构作用。

  • 语义-它关注单词的含义以及如何将单词组合为有意义的短语和句子。

  • 语用学-它处理和理解不同情况下的句子,以及如何影响句子的解释。

  • 话语-它处理紧接在前的句子如何影响下一个句子的解释。

  • 世界知识-它包括有关世界的常识。

NLP中的步骤

一般有五个步骤-

  • 词法分析-它涉及识别和分析词的结构。语言词典是指语言中单词和短语的集合。词法分析将txt的整个块划分为段落,句子和单词。

  • 句法分析(语法分析) -涉及分析句子中的单词以进行语法分析,并以显示单词之间关系的方式排列单词。英语句法分析器拒绝诸如“学校去男孩”之类的句子。

NLP步骤

  • 语义分析-它从文本中得出确切含义或字典含义。检查文本是否有意义。它是通过在任务域中映射语法结构和对象来完成的。语义分析器忽略诸如“热冰淇淋”之类的句子。

  • 语篇整合-任何句子的含义取决于其前面句子的含义。另外,它还带来了紧接句子的含义。

  • 语用分析-在此期间,所说的内容将根据其实际含义进行重新解释。它涉及派生需要真实世界知识的语言方面。

句法分析的实现方面

研究人员开发了许多用于句法分析的算法,但我们仅考虑以下简单方法-

  • 上下文无关文法
  • 自上而下的解析器

让我们详细了解它们-

上下文无关文法

它是由重写规则左侧带有单个符号的规则构成的语法。让我们创建语法来分析句子-

“鸟啄谷物”

文章(DET)-a |一个|的

名词-鸟|鸟|谷物|谷物

名词短语(NP)-Article +名词文章+形容词+名词

= DET N | DET ADJ N

动词-啄|啄啄

动词短语(VP) -NP V | NP

形容词(ADJ) -漂亮|小|鸣叫

语法分析树将句子分解为结构化的部分,以便计算机可以轻松理解和处理它。为了使解析算法构造此解析树,需要构造一组重写规则,这些规则描述了哪些树结构合法。

这些规则说,某个符号可以通过一系列其他符号在树中扩展。根据一阶逻辑规则,如果名词短语(NP)和动词短语(VP)有两个字符串,则由NP后跟VP组合的字符串是一个句子。句子的重写规则如下-

S→NP VP

NP→DET N | DET ADJ N

VP→V NP

Lexocon-

DET→一个|的

ADJ→美丽|栖息

N→鸟|鸟|谷物|谷物

V→啄|啄啄

可以创建解析树,如下所示:

NLP步骤

现在考虑上述重写规则。由于V可以用“啄”或“啄”代替,因此可能会错误地允许使用诸如“啄啄谷物”之类的句子。也就是说,主语-动词一致性错误被批准为正确。

优点-最简单的语法风格,因此被广泛使用。

缺点-

  • 它们不是高度精确。例如,根据语法分析器,“五谷啄鸟”在语法上是正确的,但是即使没有意义,语法分析器也将其视为正确的句子。

  • 为了展现出较高的精度,需要准备多套语法。它可能需要一套完全不同的规则集来解析单数和复数形式的变化,被动句等,这可能导致创建难以管理的庞大规则集。

自上而下的解析器

在这里,解析器以S符号开始,并尝试将其重写为与输入句子中的单词类别匹配的一系列终端符号,直到它完全由终端符号组成。

然后使用输入语句检查它们,以查看是否匹配。如果不是,则使用一组不同的规则重新开始该过程。重复此过程,直到找到描述句子结构的特定规则。

优点-易于实现。

缺点-

  • 它效率低下,因为如果发生错误,则必须重复搜索过程。
  • 工作速度慢。