📅  最后修改于: 2020-11-23 04:40:19             🧑  作者: Mango
我们了解到,根据句子中句子的使用情况,词语具有不同的含义。如果我们谈论人类语言,那么它们也是模棱两可的,因为许多单词可以根据其出现的上下文以多种方式进行解释。
自然语言处理(NLP)中的词义消歧可以定义为确定通过在特定上下文中使用词来激活词的哪个含义的能力。词汇歧义,句法或语义是任何NLP系统都面临的第一个问题。高度准确的词性(POS)标记器可以解决Word的句法歧义。另一方面,解决语义歧义的问题称为WSD(单词义歧义)。解决语义歧义比解决语法歧义困难。
例如,考虑一下“ bass”一词存在的两种不同意义的例子-
我能听到低音。
他喜欢吃烤鲈鱼。
低音一词的出现清楚地表明了不同的含义。第一句话是频率,第二句话是鱼。因此,如果它会被水务署消除歧义,那么上述句子的正确含义可以分配如下:
我可以听到低音/频率声音。
他喜欢吃烤鲈鱼/鱼。
水务署的评估需要以下两个投入-
评估WSD的第一个输入是字典,用于指定要消除歧义的感觉。
WSD要求的另一个输入是具有目标或正确感觉的带有高注释的测试语料库。测试语料库可以是&minsu;两种类型。
词汇样本-系统中使用了这种语料库,在该系统中需要消除一小部分单词的歧义。
All-words (全单词) -系统中使用了这种语料库,预计该单词会消除正在运行的文本中所有单词的歧义。
根据词歧义消除中使用的知识来源对WSD的方法和方法进行分类。
现在让我们看一下WSD的四种常规方法-
顾名思义,为了消除歧义,这些方法主要依赖于字典,宝藏和词汇知识库。他们没有将语料库证据用于消歧。 Lesk方法是Michael Lesk于1986年引入的基于开创性词典的方法。Lesk算法所基于的Lesk定义是“上下文中所有单词的意义定义之间的度量重叠” 。但是,在2000年,Kilgarriff和Rosensweig给出了简化的Lesk定义,即“单词的意义定义与当前上下文之间的度量重叠” ,这进一步意味着一次识别一个单词的正确意义。在这里,当前上下文是围绕句子或段落的一组单词。
为了消除歧义,机器学习方法利用带注释的语料库进行训练。这些方法假定上下文可以提供足够的证据来消除歧义。在这些方法中,知识和推理一词被认为是不必要的。上下文被表示为单词的一组“特征”。它还包括有关周围单词的信息。支持向量机和基于内存的学习是WSD最成功的监督学习方法。这些方法依赖大量的带有人工意义标记的语料,这是非常昂贵的。
由于缺乏训练语料,大多数词义消歧算法使用半监督学习方法。这是因为半监督方法同时使用标记数据和未标记数据。这些方法需要非常少量的带注释的文本和大量的普通无注释的文本。半监督方法使用的技术是从种子数据进行引导。
这些方法假定相似的感觉发生在相似的上下文中。这就是为什么可以通过使用上下文相似性的某种度量来对单词出现进行聚类来从文本中感应出感官的原因。此任务称为词义归纳或判别。由于不依赖人工,无监督方法具有克服知识获取瓶颈的巨大潜力。
词义歧义消除(WSD)几乎应用于语言技术的每个应用中。
现在让我们看看WSD的范围-
机器翻译或MT是WSD最明显的应用。在MT中,WSD会为具有不同含义的不同翻译的单词进行词汇选择。 MT中的感官以目标语言中的单词表示。大多数机器翻译系统不使用显式的WSD模块。
信息检索(IR)可以定义为一种软件程序,用于处理,存储,检索和评估来自文档存储库(尤其是文本信息)中的信息。该系统基本上可以帮助用户找到所需的信息,但不会明确返回问题的答案。 WSD用于解决提供给IR系统的查询的歧义。像MT一样,当前的IR系统没有显式使用WSD模块,而是依靠用户在查询中键入足够上下文以仅检索相关文档这一概念。
在大多数应用程序中,必须使用WSD才能对文本进行准确的分析。例如,WSD帮助智能采集系统对正确的单词进行标记。例如,医疗智能系统可能需要标记“非法药物”而不是“医疗药物”
WSD和词典技术可以循环工作,因为现代词典技术是基于语料库的。通过词典编纂,WSD提供了粗略的经验意义分组以及统计意义上的意义意义上下文指示。
以下是词义歧义消除(WSD)面临的一些困难-
WSD的主要问题是确定单词的含义,因为不同的含义可能非常紧密相关。甚至不同的词典和同义词词典也可以将单词分为不同的感官。
WSD的另一个问题是,对于不同的应用程序可能需要完全不同的算法。例如,在机器翻译中,它采用目标词选择的形式;在信息检索中,不需要有意识的清单。
WSD的另一个问题是,通常通过将WSD系统的结果与人类的任务进行比较来测试WSD系统。这被称为法官间差异问题。
WSD的另一个困难是单词不能轻易地分为离散的子含义。