什么是机器学习中的文本注释及其类型?
当您输入文本回复时,您的智能手机似乎可以准确地预测您的想法,这让您感到震惊吗?或者,您是否曾经惊叹过您的问题得到解答或客户服务人员根本不是人的情况下退款的方式?好吧,在每一个这样令人惊讶的事件背后,都有一些正在行动的概念,比如人工智能、机器学习,最重要的是,NLP(自然语言处理)。我们最近的最大突破之一是 NLP,其中机器正在逐渐进化以了解人类如何交谈、表达、理解、响应、分析甚至模仿人类对话和情感驱动的行为。这个概念对聊天机器人、文本到语音工具、语音识别、虚拟助手等的开发产生了很大的影响。
如果 Alexa 或 Siri 能够对我们奇怪的问题做出古怪的回答,那是因为 NLP 及其相关技术(如人工智能和机器学习)已经发展到几乎可以破解图灵测试的程度。然而,到达这里并不容易,未来也不会那么容易。为了突破界限,我们需要用越来越多的数据训练机器学习模块,而这只能通过适当的数据注释技术来实现。对于初学者来说,数据注释是用描述或信息标记数据以使其易于机器理解的过程。就 NLP 而言,我们应用的数据注释技术称为文本注释。让我们再深入探讨一下。
什么是文本注释?
文本注释是用附加信息或元数据来识别和标记句子,以定义句子的特征。根据项目的范围,这些信息可以突出显示句子中的词性、语法句法、关键词、短语、情绪、讽刺、情绪等等。机器学习模块接受了此类 AI 训练数据,从中学习句子、句子构成等的各个方面,以更好地理解人类对话。当他们使用正确注释的数据学习时,他们会更好地模仿人类对话(当前的虚拟助手)。然而,给他们提供注释不佳的数据,你会发现他们提供了不相关的、愚蠢的或误导性的响应。这就是为什么文本标记应该由专家完成的原因,他们精心标记句子的每一个方面,以确保没有任何对机器理解和学习至关重要的东西被忽视。为了达到精确度,专家们部署了不同的文本注释技术。这些是什么?让我们来了解一下。
文本注释技术的类型
1. 情感标注
通常,人类的反应往往带有讽刺意味。特别是在网站和评论上,我们倾向于通过讽刺和机器分享我们与餐厅或酒店的糟糕经历,机器很容易将它们误解为赞美。如果每个讽刺评论都被机器作为赞美学习,这将完全扭曲结果。这就是为什么情感注释变得至关重要的原因。这种技术指定了句子背后的情感或态度(在这种情况下是讽刺),并且每个句子都被标记为中性、积极或消极。
2. 意图注释
这种技术区分了用户的意图。与聊天机器人交互时,不同的用户会有不同的意图。一些请求声明,其他命令对多收的回应,一些确认借记钱,等等。在这种技术中,这些不同类型的欲望通过适当的标签进行分类。
3.实体注解
这是最重要的文本标注技术,用于识别、标记和属性给定文本或句子中的多个实体。我们可以将实体注释进一步分解为以下内容:
- 关键词标记——这涉及定位和识别文本中的关键词。
- 命名实体识别 - 这涉及注释专有名称,例如人名、地名、国家/地区等。
- 词性注释——这涉及识别句子中的名词、动词、形容词、标点符号、介词等。
4. 文本分类
否则,称为文档分类或文本分类,注释者阅读大量的段落或句子并理解它们背后的情绪、情感和意图。然后,他们根据自己的理解将文本分类到他们的项目指定的类别中。它可以像将文章的一部分归类为娱乐或体育一样简单,也可以像对电子商务商店中的产品进行分类一样复杂。
5. 语言注释
语言注释涉及我们迄今为止讨论的所有内容,但唯一的区别是注释过程是在语言数据上完成的。因此,该技术涉及一种称为语音注释的附加注释类型,其中还标记了语调、自然停顿、重音等。
结论
因此,这些是不同类型的文本注释技术。我们相信您现在对 NLP 的简单应用程序如何在我们的智能手机上如此准确地执行有了更好的了解。随着项目变得越来越复杂,文本数据来源和标记也变得同样复杂。这就是为什么与数据注释专家合作为您的模块获取最精确的 AI 训练数据很重要的原因。