📜  自然语言生成(NLG)和理解(NLU)所需的分析

📅  最后修改于: 2021-04-17 02:29:09             🧑  作者: Mango

语言是共享和交流我们的理解和知识的方法。在分享我们的知识,思想和愿景时,语言起着至关重要的作用。因此,如果我们可以发现一种语言的计算方法,那么我们可以开发一种非常坚固的交流方式。我们采用各种技术来完全利用知识,并将其与语言和语法事实相结合,并提出一种计算语言系统。在理解语言的同时,我们遇到了我们试图遏制的各种缺陷,但有时这些缺陷的确使语言更具活力和影响力。语言可以说也可以说。因此,可以有两种方法来处理它。但是,由于我们会遇到各种挑战,例如语音中是否存在干扰以及语音的发出方式或口音,因此口语形式的语言处理可能会更加苛刻。因此,书面陈述的处理相对简单得多。为了从书面文字中获取信息,我们将探讨词汇,句法和语义分析技术。导出和理解书面语言的过程称为书面语言处理。自然语言处理包括理解和生成,它还用不同的语言进行解码。因此,这使其成为理解它的重要方面。

交流可以是任何形式。可以书面或口头表达。为了实现完整的端到端双向通信,两个终端对象必须对其通信语言具有相似的知识。所使用的通用语言被处理成知识。与处理书面形式的语言相比,口头语言的处理可能既困难又具有挑战性。发生这种情况是因为处理该语言可能需要考虑无数的因素。因此,处理语言的书面部分引起了对用于处理语言中可能出现的不确定性和模糊性的附加信息的需求。书面语言处理称为自然语言处理(NLP)。对于自然语言处理,因为它考虑了语言的词汇,句法和语义知识,所以比较容易。在处理语言的过程中,我们遇到了不同的困难,但是很多时候,这些困难代表了语言的缺点,这使其变得坚固而强大。
我们遇到的困难是-

  • 难度-语言仅提供信息的有限解释。
    例如,有些人在吃饭。
    有些人在吃三明治。
    杰克和哈雷在吃三明治。
    Plus Point –语言使我们可以同时准确和不准确。我们只能传达我们需要的信息。
  • 难度-语言无法解释导致不确定性的情况。
    例如,我在玩游戏。 (棋盘游戏)
    我在玩游戏。 (户外游戏)
    加号–可以使用有限的符号传达无限的信息。
  • 难度–人们永远无法完成对语言的掌握,因为总是定义新单词,而且它永无止境。
    例如-两者显示了独特的恋爱关系。
    加分–语言可能会不断发展,我们可以根据需要随时添加行话。

这些是语言方面面临的困难,以及如何将弱点转化为优势。
同样,自然语言处理可以帮助我们学习并更好地理解语言。它还有助于从一种语言到另一种语言的翻译。理解语言的过程包括将输入调整为更有用的数据形式,这些数据可以将原始事实转换为可用于增强知识的信息。理解语言需要对情况进行描述。但是由于情况的多样性,很难理解可以正确适应该情况的情况。因此,要开发一种可以处理自然语言的计算机程序,我们首先必须定义基本任务和目标表示形式。

挑战:
但是,对齐地图句子以理解其含义可能看起来像是毫不费力的领域,但这并不完全正确。在处理此问题时,我们仍然面临着各种挑战。主要挑战是不确定性和数据中存在歧义。当我们用英语交流时,句子可能不会导致这种情况。例如,考虑一个句子,举起重物后,Ram弯腰了。这并不意味着Ram倾斜了他的姿势,这是表示Ram感到沮丧的一种表达。同样,当我们谈论具有多种含义的单词时,可能还会出现另一种不确定性。就像,拉姆去了银行。在这里,银行可以是存放金钱的地方,也可以是河岸。由于存在词缀,可能还会出现另一种不确定性。例如,拉姆有很多朋友。那是他朋友的生日聚会。第一个朋友指代复数名词,第二个朋友指代第三人称。因此,所有这些挑战都需要一个坚固而有效的处理系统。这些问题中的每一个都需要重点关注,以便计算机可以正确处理和使用自然语言。

实施阶段:
自然语言的理解过程包括五个分析阶段。这些阶段是:

  • 形态分析
  • 句法分析
  • 语义分析
  • 话语整合
  • 语用分析

所有这些阶段都有其自己所需的边界,但是要理解这些边界并不完全简单。他们有时会遵循正确的顺序,或者有时会一次全部遵循。当一个过程按顺序注册时,此过程可能会请求协助另一个过程。为了正确理解这一点,我们需要了解这些阶段是什么。

  1. 形态分析:
    在执行形态分析时,将分析每个特定的单词。从单词中删除了诸如标点符号之类的非单词标记。因此,剩余的单词被分配了类别。例如,Ram的iPhone无法将视频从.mkv转换为.mp4。在形态分析中,逐词分析句子。
    因此,Ram是专有名词,Ram被指定为所有格后缀,.mkv和.mp4被指定为文件扩展名。
    如上所示,句子是逐词分析的。每个单词都被分配一个句法类别。文件扩展名也被识别为存在于该句子中的句子中,在上述示例中该句子表现为形容词。在上面的示例中,所有格后缀也被标识。这是非常重要的一步,因为前缀和后缀的判断将取决于单词的句法类别。例如,游泳和游泳是不同的。一个使它复数,而另一个使它成为第三人称单数动词。如果前缀或后缀被错误地解释,则句子的含义和理解将完全改变。解释为单词分配了一个类别。因此,丢弃单词中的不确定性。
  2. 句法分析:
    不同的语言有不同的规则。违反这些规则将产生语法错误。在这里,句子被转换为表示单词之间相关性的结构。这种相关性有时可能会违反规则。语法表示官方语言必须遵循的一组规则。例如,“去看电影,我们要去。”会给出语法错误。句法分析使用形态分析给出的结果来发展句子的描述。将由形态过程给出的类别划分的句子对齐为定义的结构。此过程称为解析。例如,猫在花园里追逐鼠标,将表示为:

    在这里,该句子根据类别细分。然后以节点为句子单位的层次结构进行描述。这些语法分析树在语法分析运行时进行语法分析,如果出现任何错误,处理将停止并显示语法错误。解析可以是自上而下或自下而上的。

    • 自上而下:从第一个符号开始,然后根据语法规则解析句子,直到解析出句子中的每个终端为止。
    • 自下而上:从要分析的句子开始,并向后应用所有规则,直到到达第一个符号。
  3. 语义分析:
    语义分析负责含义。它为语法分析器构建的所有结构分配含义。然后,每个语法结构和对象都一起映射到任务域中。如果可以进行映射,则发送该结构,否则将被拒绝。例如,“热冰淇淋”将产生语义错误。在语义分析期间,执行两个主要操作:
    • 首先,每个单独的单词将与数据库中的适当对象进行映射。将找到每个单词的字典含义。一个单词可能有多个含义。
    • 其次,将整合每个不同单词的所有含义,以找到单词结构之间的适当关联。确定正确含义的过程称为词汇歧义消除。通过将每个单词与上下文相关联来完成此操作。

    上面定义的此过程可用于确定句子的部分含义。但是,语义和语法是两个完全相反的概念。句法正确的句子在语义上可能是错误的。
    例如,“一块石头闻到九种颜色。”它遵循所有英语规则,在语法上是正确的,但在语义上是错误的。语义分析验证句子是否遵守规则并创建正确的信息。

    上面的示例显示了语义解析。

  4. 披露整合:
    在处理语言时,可能会出现一种主要的歧义,称为参照歧义。引用歧义是指无法确定对单词的引用时可能出现的歧义。例如,

    在上面的示例中,“他”可以是Ram或Mohan。这造成了歧义。 “ He”一词表示对这两个句子的依赖。这被称为公开集成。这意味着单个句子何时依赖于其前面的句子。像上面的示例一样,第三句话依赖于它前面的句子。因此,该模型的目标是消除参照歧义。

  5. 语用分析:
    务实的分析意味着比使用理论方法更加实际或现实的方式来处理这种情况。我们知道,句子在各种情况下可能具有不同的含义。例如,平均值为18。

    我们可以看到,对于相同的输入,可能会有不同的看法。要解释句子的含义,我们需要了解情况。为了解决这些问题,我们使用了务实的分析。语用分析倾向于使对语言的理解更加清晰和易于解释。

执行:
上面讨论的用于语言处理的五个阶段需要遵循一个顺序。每个阶段都从上一个阶段的输出中获取其输入,并将其发送到下一个阶段进行处理。虽然此过程输入如果不遵循为下一阶段定义它的规则,则可能会中途被拒绝。

同样,一个以上的阶段可以一起开始处理。由于阶段之间的歧义,可能会发生这种情况。例如,考虑句子

上面的句子在末尾有四个名词短语,将需要形成名词短语以给出以下形式的句子:
“是AB吗?”其中A和B代表我们需要的名词短语。在进行语法分析时,将有以下选择:

在执行语法分析时,所有这些选择看起来都是适用的,但是要获得正确的短语,我们需要分析语义。当我们进行语义分析时,唯一有意义的选择是“电动汽车”和“特斯拉汽车”。因此,我们可以说这些过程是分离的,但是它们可以以不同的方式进行通信。

语言是遵循不同规则的结构。自然语言处理与制定的规则有关的语言的书面形式。主要重点是消除语言的歧义和不确定性,以使沟通更加容易。