📝 自然语言工具包NLTK教程

21篇技术文档
  自然语言工具包教程

📅  最后修改于: 2020-10-14 09:05:32        🧑  作者: Mango

语言是一种交流的方法,我们可以说,读和写。自然语言处理(NLP)是计算机科学尤其是人工智能(AI)的子领域,它关注使计算机能够理解和处理人类语言。我们有各种开源的NLP工具,但在易用性和概念解释方面,NLTK(自然语言工具包)得分很高。 Python的学习曲线非常快,并且NLTK是用Python编写的,因此NLTK也具有很好的学习工具。 NLTK已合并了大多数任务,例如标记化,词干,词法化,标点,...

  自然语言工具包-简介

📅  最后修改于: 2020-10-14 09:06:46        🧑  作者: Mango

什么是自然语言处理(NLP)?在人类可以说,读,写的帮助下进行交流的方法是语言。换句话说,我们人类可以用我们的自然语言思考,制定计划,做出决定。这里最大的问题是,在人工智能,机器学习和深度学习的时代,人类可以用自然语言与计算机/机器进行通信吗?开发NLP应用程序对我们来说是一个巨大的挑战,因为计算机需要结构化的数据,但是另一方面,人类的言语是非结构化的,而且本质上常常是模棱两可的。自然语言是计算机...

  自然语言工具包-入门

📅  最后修改于: 2020-10-14 09:07:36        🧑  作者: Mango

为了安装NLTK,我们必须在计算机上安装Python 。您可以转到链接www。 Python.org / downloads,然后为您的操作系统选择最新版本,例如Windows,Mac和Linux / Unix。有关Python的基本教程,请参考链接www.tutorialspoint.com/python3/index.htm。现在,在计算机系统上安装Python,让我们了解如何安装NLTK。安...

  自然语言工具包-标记文本

📅  最后修改于: 2020-10-14 09:09:10        🧑  作者: Mango

什么是代币化?它可以定义为将一段文本分解为较小的部分(例如句子和单词)的过程。这些较小的部分称为令牌。例如,单词是句子中的标记,而句子是段落中的标记。众所周知,NLP用于构建应用程序,例如情感分析,QA系统,语言翻译,智能聊天机器人,语音系统等,因此,为了构建它们,理解文本中的模式变得至关重要。上面提到的令牌对于查找和理解这些模式非常有用。我们可以将标记化视为其他方法(如词干和词法化)的基础步骤。...

  训练分词器和过滤停用词

📅  最后修改于: 2020-10-14 09:10:13        🧑  作者: Mango

为什么要训练自己的句子标记器?这是一个非常重要的问题,如果我们拥有NLTK的默认句子标记器,那么为什么我们需要训练一个句子标记器?这个问题的答案在于NLTK的默认句子标记器的质量。 NLTK的默认令牌生成器基本上是通用令牌生成器。尽管效果很好,但对于非标准文本而言可能不是一个不错的选择,但对于我们的文本或具有独特格式的文本而言,它可能不是一个好选择。为了对此类文本进行标记并获得最佳结果,我们应该训...

  在Wordnet中查找单词

📅  最后修改于: 2020-10-14 09:11:34        🧑  作者: Mango

什么是Wordnet?Wordnet是由Princeton创建的大型英语词汇数据库。它是NLTK语料库的一部分。名词,动词,形容词和副词都被分组为同义词集,即认知同义词。在这里,每组同义词集都有不同的含义。以下是Wordnet的一些用例-它可以用来查找单词的定义我们可以找到一个单词的同义词和反义词可以使用Wordnet探索单词关系和相似性具有多种用途和定义的单词的词义歧义消除如何导入Wordnet...

  词干和词法化

📅  最后修改于: 2020-10-14 09:12:49        🧑  作者: Mango

什么是梗?词干法是一种通过删除词缀来提取词的基本形式的技术。就像砍掉树枝到其茎上一样。例如,吃,吃,吃就是吃这句话。搜索引擎使用词干为单词建立索引。这就是为什么搜索引擎只能存储词干而不是存储所有形式的单词。这样,词干可以减小索引的大小并提高检索精度。多种词干算法在NLTK中,具有stem()方法的stemmerI,接口具有我们接下来要介绍的所有词干。让我们用下图来了解它波特词干算法它是最常见的词干...

  自然语言工具包-单词替换

📅  最后修改于: 2020-10-14 09:13:44        🧑  作者: Mango

词干和词根化可以看作是一种语言压缩。从同一个意义上讲,单词替换可以看作是文本规范化或错误纠正。但是为什么我们需要单词替换呢?假设如果我们谈论令牌化,那么它就会出现收缩问题(例如不能,不会等)。因此,要处理此类问题,我们需要单词替换。例如,我们可以用收缩形式代替收缩。使用正则表达式替换单词首先,我们将替换与正则表达式匹配的单词。但是为此,我们必须对正则表达式以及Python re模块有基本的了解。在...

  同义词和反义词替换

📅  最后修改于: 2020-10-14 09:14:51        🧑  作者: Mango

用常见同义词替换单词在使用NLP时,尤其是在频率分析和文本索引的情况下,压缩词汇表总是有好处的,因为它节省了大量内存,因此不会失去意义。为此,我们必须定义一个单词到其同义词的映射。在下面的示例中,我们将创建一个名为word_syn_replacer的类,该类可用于将其单词替换为其常用同义词。例首先,导入必要的包re以使用正则表达式。接下来,创建采用单词替换映射的类-保存此Python程序(例如re...

  语料库阅读器和自定义语料库

📅  最后修改于: 2020-10-14 09:19:48        🧑  作者: Mango

什么是语料库?语料库是在自然的交流环境中以结构化格式收集的机器可读文本的大集合。语料库一词是语料库的复数形式。语料库可以通过以下多种方式派生-从最初的电子文本从口语成绩单从光学字符识别等语料库代表性,语料库平衡,采样,语料库大小是设计语料库时起重要作用的元素。用于NLP任务的最受欢迎的语料库是TreeBank,PropBank,VarbNet和WordNet。如何建立自定义语料库?在下载NLTK时...

  词性(POS)标记的基础

📅  最后修改于: 2020-10-14 09:20:58        🧑  作者: Mango

什么是POS标记?标记是一种分类,是标记描述的自动分配。我们称描述符s为“标记”,它代表语音的一部分(名词,动词,副词,形容词,代词,连词及其子类别),语义信息等。另一方面,如果我们谈论词性(POS)标记,则可以将其定义为将单词列表形式的句子转换为元组列表的过程。在这里,元组的形式为(单词,标签)。我们还可以称呼POS标记为将词性之一分配给给定单词的过程。下表代表Penn Treebank语料库中...

  自然语言工具包-Unigram Tagger

📅  最后修改于: 2020-10-14 09:21:56        🧑  作者: Mango

什么是Unigram Tagger?顾名思义,unigram标记器是一种仅使用单个单词作为其上下文来确定POS(词性)标记的标记器。简单来说,Unigram Tagger是基于上下文的标记器,其上下文是单个单词,即Unigram。它是如何工作的?NLTK为此提供了一个名为UnigramTagger的模块。但是在深入研究其工作原理之前,让我们借助下图了解层次结构-从上图可以看出,UnigramTag...

  自然语言工具包-组合标记

📅  最后修改于: 2020-10-14 09:23:03        🧑  作者: Mango

组合匕首标记器或链接标记器彼此组合是NLTK的重要功能之一。组合标记器背后的主要概念是,如果一个标记器不知道如何标记单词,则会将其传递给链接的标记器。为了达到这个目的,SequentialBackoffTagger为我们提供了Backoff标签功能。退避标记如前所述,回退标记是SequentialBackoffTagger的重要功能之一,它使我们能够以一种方式组合标记器,如果一个标记器不知道如何标...

  更多自然语言工具包标记

📅  最后修改于: 2020-10-14 09:24:10        🧑  作者: Mango

词缀匕首ContextTagger子类的另一个重要类是AffixTagger。在AffixTagger类中,上下文是单词的前缀或后缀。这就是AffixTagger类可以基于单词开头或结尾的固定长度子字符串学习标签的原因。它是如何工作的?它的工作取决于名为affix_length的参数,该参数指定前缀或后缀的长度。默认值为3。但是如何区分AffixTagger类学习单词的前缀还是后缀?affix_l...

  自然语言工具包-解析

📅  最后修改于: 2020-10-14 09:25:13        🧑  作者: Mango

解析及其在NLP中的相关性源自拉丁语单词“ pars”(意为“ part”)的单词“ Parsing”用于从文本中得出确切含义或字典含义。也称为语法分析或语法分析。比较形式语法的规则,语法分析检查文本的意义。例如,诸如“给我热冰淇淋”之类的句子将被解析器或语法分析器拒绝。从这个意义上讲,我们可以定义解析或语法分析或语法分析,如下所示:可以将其定义为分析自然语言中符合形式语法规则的符号字符串的过程。...