自然语言工具包NLTK教程
 自然语言工具包-简介
  2020-10-14-09:06:46            mango

什么是自然语言处理(NLP)?在人类可以说,读,写的帮助下进行交流的方法是语言。换句话说,我们人类可以用我们的自然语言思考,制定计划,做出决定。这里最大的问题是,在人工智能,机器学习和深度学习的时代,人类可以用自然语言与计算机/机器进行通信吗?开发NLP应用程序对我们来说是一个巨大的挑战,因为计算机需要结构化的数据,但

文章详情
 自然语言工具包-入门
  2020-10-14-09:07:36            mango

为了安装NLTK,我们必须在计算机上安装Python。您可以转到链接www。Python.org/downloads,然后为您的操作系统选择最新版本,例如Windows,Mac和Linux/Unix。有关Python的基本教程,请参考链接www.tutorialspoint.com/python3/index.htm。

文章详情
 自然语言工具包教程
  2020-10-14-09:09:00            mango

语言是一种交流的方法,我们可以说,读和写。自然语言处理(NLP)是计算机科学尤其是人工智能(AI)的子领域,它关注使计算机能够理解和处理人类语言。我们有各种开源的NLP工具,但在易用性和概念解释方面,NLTK(自然语言工具包)得分很高。Python的学习曲线非常快,并且NLTK是用Python编写的,因此NLTK也具有

文章详情
 自然语言工具包-标记文本
  2020-10-14-09:09:10            mango

什么是代币化?它可以定义为将一段文本分解为较小的部分(例如句子和单词)的过程。这些较小的部分称为令牌。例如,单词是句子中的标记,而句子是段落中的标记。众所周知,NLP用于构建应用程序,例如情感分析,QA系统,语言翻译,智能聊天机器人,语音系统等,因此,为了构建它们,理解文本中的模式变得至关重要。上面提到的令牌对于查找和

文章详情
 训练分词器和过滤停用词
  2020-10-14-09:10:14            mango

为什么要训练自己的句子标记器?这是一个非常重要的问题,如果我们拥有NLTK的默认句子标记器,那么为什么我们需要训练一个句子标记器?这个问题的答案在于NLTK的默认句子标记器的质量。NLTK的默认令牌生成器基本上是通用令牌生成器。尽管效果很好,但对于非标准文本而言可能不是一个不错的选择,但对于我们的文本或具有独特格式的文

文章详情
 在Wordnet中查找单词
  2020-10-14-09:11:34            mango

什么是Wordnet?Wordnet是由Princeton创建的大型英语词汇数据库。它是NLTK语料库的一部分。名词,动词,形容词和副词都被分组为同义词集,即认知同义词。在这里,每组同义词集都有不同的含义。以下是Wordnet的一些用例-它可以用来查找单词的定义我们可以找到一个单词的同义词和反义词可以使用Wordnet

文章详情
 词干和词法化
  2020-10-14-09:12:49            mango

什么是梗?词干法是一种通过删除词缀来提取词的基本形式的技术。就像砍掉树枝到其茎上一样。例如,吃,吃,吃就是吃这句话。搜索引擎使用词干为单词建立索引。这就是为什么搜索引擎只能存储词干而不是存储所有形式的单词。这样,词干可以减小索引的大小并提高检索精度。多种词干算法在NLTK中,具有stem()方法的stemmerI,接口

文章详情
 自然语言工具包-单词替换
  2020-10-14-09:13:44            mango

词干和词根化可以看作是一种语言压缩。从同一个意义上讲,单词替换可以看作是文本规范化或错误纠正。但是为什么我们需要单词替换呢?假设如果我们谈论令牌化,那么它就会出现收缩问题(例如不能,不会等)。因此,要处理此类问题,我们需要单词替换。例如,我们可以用收缩形式代替收缩。使用正则表达式替换单词首先,我们将替换与正则表达式匹配

文章详情
 同义词和反义词替换
  2020-10-14-09:14:51            mango

用常见同义词替换单词在使用NLP时,尤其是在频率分析和文本索引的情况下,压缩词汇表总是有好处的,因为它节省了大量内存,因此不会失去意义。为此,我们必须定义一个单词到其同义词的映射。在下面的示例中,我们将创建一个名为word_syn_replacer的类,该类可用于将其单词替换为其常用同义词。例首先,导入必要的包re以使

文章详情
 语料库阅读器和自定义语料库
  2020-10-14-09:19:48            mango

什么是语料库?语料库是在自然的交流环境中以结构化格式收集的机器可读文本的大集合。语料库一词是语料库的复数形式。语料库可以通过以下多种方式派生-从最初的电子文本从口语成绩单从光学字符识别等语料库代表性,语料库平衡,采样,语料库大小是设计语料库时起重要作用的元素。用于NLP任务的最受欢迎的语料库是TreeBank,Prop

文章详情

Made with ❤️ in Chengdu. Copyright reserved 2019-2022.

蜀ICP备20006366号-1