📜  人工智能 |自然语言生成

📅  最后修改于: 2022-05-13 01:57:05.860000             🧑  作者: Mango

人工智能 |自然语言生成

人工智能,定义为机器展示的智能,在当今社会有很多应用。它的应用之一,最广泛使用的是自然语言生成。

自然语言生成(NLG) 仅仅意味着从计算机数据中生成文本。它充当翻译器并将计算机化数据转换为自然语言表示。在此,根据收集的数据和用户提供的输入生成结论或文本。它是从机器表示系统生成自然语言的自然语言处理任务。自然语言生成在某种程度上与自然语言理解相反。在自然语言理解中,系统需要消除输入句子的歧义以生成机器表示语言,而在自然语言生成中,系统需要决定如何将概念转化为单词。

生成文本的过程可以简单到保留一个复制和粘贴的现成文本列表。结果可以在简单的应用程序中令人满意,例如占星机或个性化商务信函的生成器。但在复杂的 NLG 系统中,需要包括规划和信息合并阶段,生成看起来自然且不会重复的文本。

一个简单的 NLG 系统的例子是苏格兰花粉预测系统,它本质上可以是一个模板。 NLG 系统以六个数字作为输入,用于预测苏格兰不同地区的花粉水平。根据这些数字,系统会生成花粉水平的简短文本摘要作为其输出。

例如,使用 2005 年 7 月 1 日的历史数据,该软件生成的周五草花粉水平已从昨天的中等水平上升到高水平,全国大部分地区的值约为 6 至 7。然而,在北部地区,花粉水平将适中,值为 4。相比之下,由人类气象学家撰写的实际预测是,根据该数据,花粉计数预计将在苏格兰大部分地区保持在 6 级,甚至在东南部的 7 级。唯一的缓解是在北岛和苏格兰大陆的东北部,花粉数量中等。
自然语言生成的典型阶段是:

  • 内容确定:确定句子中要表示的主要内容或文本中要提及的信息。例如,在上面的花粉示例中,决定是否明确提及东南部的花粉级别为 7。
  • 文档结构:决定所传达信息的结构或组织。例如,决定先描述花粉含量高的区域,而不是花粉含量低的区域。
  • 聚合:将相似的句子放在一起以提高理解和可读性。例如,将周五的草花粉水平从昨天的中等水平上升到高水平,将全国大部分地区的草花粉水平在 6 到 7 左右合并到一个句子中,周五的草花粉水平从昨天的水平上升到单句。昨天的中等到高水平,全国大部分地区的值在 6 到 7 左右。
  • 词汇选择:使用恰当的词,清楚地表达意思。例如,在描述花粉水平 4 时,决定是使用中等还是中等。
  • 引用表达式生成:创建有助于识别特定对象和区域的引用表达式。例如,决定在北岛和苏格兰大陆的东北部使用来指代苏格兰的某个地区。此任务还包括对代词和其他类型的照应做出决定。
  • 实现:根据语法规则创建和优化应该正确的文本。例如,使用 will be 表示 to be 的将来时。

评估 NLG 系统有三种基本技术:

  1. 基于任务的评估:它包括基于人的评估,他们评估它如何帮助他执行任务。例如,可以通过将这些摘要提供给医生并评估这些摘要是否有助于医生做出更好的决策来评估生成医疗数据摘要的系统。
  2. 人工评分:它根据一个人对文本质量和有用性给出的评分来评估生成的文本。
  3. 指标:它将生成的文本与专业人士编写的文本进行比较。

自然语言生成的一个交互式使用示例是WYSIWYM 框架,它代表“所见即所得”,它允许用户查看和操作底层正式语言文档 (NLG) 的连续渲染视图 (NLG 输出)输入),从而在不学习的情况下编辑形式语言。

另一个例子包括帮助人类作家并使写作过程更加高效和有效的内容生成系统。已经构建了基于使用搜索引擎 API 的 Web 挖掘的内容生成工具。该工具模仿剪切和粘贴的写作场景,作家从各种搜索结果中形成其内容。

迄今为止,最成功的 NLG 应用程序是Data-to-Text 系统,它生成数据库和数据集的文本摘要;这些系统通常执行数据分析以及文本生成。特别是,已经建立了几个从天气数据生成文本天气预报的系统。

参考:维基百科