📅  最后修改于: 2020-11-23 04:37:32             🧑  作者: Mango
在本章中,我们将学习自然语言处理中的语言资源。
语料库是在自然的交流环境中产生的大型结构化的机器可读文本集。它的复数是语料库。它们可以通过不同的方式派生,例如最初是电子文本,口头语言文字和视觉字符识别等。
语言是无限的,但语料库的大小必须是有限的。为了使语料库的大小有限,我们需要采样并按比例包括多种文本类型,以确保良好的语料库设计。
现在让我们了解语料库设计的一些重要元素-
代表性是语料库设计的定义特征。来自两位杰出的研究人员Leech和Biber的以下定义将帮助我们理解语料库的代表性-
根据Leech(1991)的观点, “如果可以将基于其内容的发现推广到所述语言种类,则可以认为它是该语言种类的代表。”
根据Biber(1993)的说法, “代表性是指样本在一定程度上涵盖了总体范围内的变异性”。
这样,我们可以得出结论,语料库的代表性由以下两个因素决定-
平衡-类型的范围包括在语料库中
采样-如何选择每种类型的块。
语料库设计的另一个非常重要的元素是语料库平衡-语料库中包含的体裁范围。我们已经研究了通用语料库的代表性取决于语料库的平衡程度。平衡的语料库涵盖了广泛的文本类别,这些类别应该是该语言的代表。我们没有任何可靠的科学方法来衡量平衡,但是最好的估计和直觉可以解决这一问题。换句话说,我们可以说,已接受余额仅由其预期用途决定。
语料库设计的另一个重要元素是抽样。语料库的代表性和平衡性与抽样密切相关。这就是为什么我们可以说在语料库构建中不可避免地要进行采样。
根据Biber(1993)的说法,“构建语料库的一些首要考虑因素涉及整体设计:例如,包括的文本种类,文本数量,特定文本的选择,从文本中选择文本样本,以及文本样本的长度。这些都涉及有意识或无意识的抽样决策。”
获取代表性样本时,我们需要考虑以下内容-
采样单位-指需要采样的单位。例如,对于书面文本,采样单位可以是报纸,期刊或书籍。
采样帧-所有采样单元的列表称为采样帧。
总体-可以称为所有采样单位的集合。它是根据语言产生,语言接受或作为产品的语言来定义的。
语料库设计的另一个重要元素是其大小。语料库应该多大?这个问题没有具体答案。语料库的大小取决于其目的以及以下一些实际考虑因素-
用户期望的查询种类。
用户用来研究数据的方法。
数据源的可用性。
随着技术的进步,语料库的大小也随之增加。下表的比较将帮助您了解语料库大小的工作原理-
Year | Name of the Corpus | Size (in words) |
---|---|---|
1960s – 70s | Brown and LOB | 1 Million words |
1980s | The Birmingham corpora | 20 Million words |
1990s | The British National corpus | 100 Million words |
Early 21st century | The Bank of English corpus | 650 Million words |
在接下来的部分中,我们将介绍一些语料库示例。
它可以定义为注释语法或语义句子结构的语言分析文本语料库。杰弗里·里奇(Geoffrey Leech)创造了“树库”一词,它表示表示语法分析的最常用方法是借助树结构。通常,树库是在语料库的顶部创建的,该语料库已用词性标签进行了注释。
语义树库和句法树库是语言学中最常见的两种树库类型。现在让我们详细了解这些类型-
这些树库使用句子语义结构的形式表示。它们的语义表示深度不同。机器人命令树库,地理查询,格罗宁根含义库,RoboCup语料库是语义树库的一些示例。
与语义树库相反,语法树库系统的输入是从解析的树库数据的转换获得的形式语言的表达式。这种系统的输出是基于谓词逻辑的含义表示。到目前为止,已经创建了各种不同语言的语法树库。例如, Penn阿拉伯树库,哥伦比亚阿拉伯树库是用阿拉伯语言创建的语法树库。用中文创建的Sininca句法树库。 Lucy,Susane和BLLIP WSJ语法语料库以英语创建。
以下是TreeBanks的一些应用程序-
如果我们谈论计算语言学,那么TreeBanks的最佳用途是设计最先进的自然语言处理系统,例如词性标记器,解析器,语义分析器和机器翻译系统。
就语料库语言学而言,树库的最佳用途是研究句法现象。
树库在理论和心理语言学上的最佳用途是交互作用证据。
PropBank更具体地称为“ Proposition Bank”是一个语料库,它带有口头命题及其论点。语料是面向动词的资源。这里的注释与句法层次更紧密相关。科罗拉多大学博尔德分校语言学系的Martha Palmer等人开发了它。我们可以使用术语PropBank作为通用名词,指代已用命题及其论点注释的任何语料库。
在自然语言处理(NLP)中,PropBank项目发挥了非常重要的作用。它有助于语义角色标记。
VerbNet(VN)是英语中不依赖域的最大分层词汇资源,它结合了有关其内容的语义和语法信息。 VN是一种覆盖面广泛的动词词典,具有到其他词汇资源(如WordNet,Xtag和FrameNet)的映射。它通过细化和添加子类将动词类组织为扩展Levin类的动词类,以实现类成员之间的句法和语义连贯性。
每个VerbNet(VN)类包含-
用于描述自变量结构的可能的表面实现,以用于结构,例如及物,不及物,介词短语,结果和大量的语义替换。
为了进行约束,论点允许的主题角色的类型以及进一步的限制可能会受到限制。这将有助于指出可能与主题角色相关联的成分的句法性质。
普林斯顿大学创建的WordNet是英语词汇数据库。它是NLTK语料库的一部分。在WordNet中,名词,动词,形容词和副词被分为称为Synsets的认知同义词集。所有同义词集都在概念语义和词汇关系的帮助下链接在一起。它的结构使其对自然语言处理(NLP)非常有用。
在信息系统中,WordNet用于各种目的,例如词义消歧,信息检索,自动文本分类和机器翻译。 WordNet最重要的用途之一就是找出单词之间的相似性。对于此任务,已在各种程序包中实现了各种算法,例如Perl中的“相似性”, Python的NLTK和Java中的ADW。