📝 Python文字处理教程

40篇技术文档
  Python处理Word文档

📅  最后修改于: 2020-11-06 06:21:20        🧑  作者: Mango

要阅读Word文档,我们需要使用名为docx的模块。我们首先安装docx,如下所示。然后编写一个程序以使用docx模块中的不同功能按段读取整个文件。我们使用以下命令将docx模块放入我们的环境中。在下面的示例中,我们通过将每行追加到段落中并最终打印出所有段落文本来读取word文档的内容。当我们运行上面的程序时,我们得到以下输出-阅读个别段落我们可以使用段落属性从Word文档中读取特定段落。在下面的...

  Python阅读RSS提要

📅  最后修改于: 2020-11-06 06:21:39        🧑  作者: Mango

RSS(丰富站点摘要)是一种用于提供定期更改的Web内容的格式。许多与新闻相关的网站,博客和其他在线发布者将其内容作为RSS Feed联合给任何想要的人。在Python,我们利用以下包的帮助来读取和处理这些供稿。饲料结构在下面的示例中,我们获取了Feed的结构,以便我们可以进一步分析要处理Feed的哪些部分。当我们运行上面的程序时,我们得到以下输出-提要标题和帖子在下面的示例中,我们阅读了rss ...

  Python情绪分析

📅  最后修改于: 2020-11-06 06:22:01        🧑  作者: Mango

语义分析是关于分析受众的普遍看法。这可能是对新闻,电影或有关正在讨论的某些问题的任何推文的反应。通常,此类反应来自社交媒体,并汇总到一个文件中,以通过NLP进行分析。我们将以一个简单的情况为例,首先定义肯定和否定词。然后采取一种方法来分析这些单词作为使用这些单词的句子的一部分。我们使用来自nltk的sentiment_analyzer模块。我们首先用一个词然后用成对的词(也称为双字词)进行分析。最...

  Python搜索和匹配

📅  最后修改于: 2020-11-06 06:22:16        🧑  作者: Mango

使用正则表达式有两个基本操作,它们看起来很相似,但有很大的不同。re.match()仅在字符串的开头检查匹配项,而re.search()在字符串的任何位置检查匹配项。这在文本处理中起着重要作用,例如,我们经常必须编写正确的正则表达式来检索文本块以进行情感分析。当我们运行上面的程序时,我们得到以下输出-...

  Python文字修补

📅  最后修改于: 2020-11-06 06:22:32        🧑  作者: Mango

一般而言,蒙混意味着通过将它们变脏来清理所有杂物。在我们的案例中,我们将看到如何转换文本以获得一些结果,从而使我们对数据进行一些理想的更改。从简单的角度来看,它仅与转换我们要处理的文本有关。例在下面的示例中,我们计划将第一个和最后一个除外的句子的所有字母重新排列,然后重新排列,以获取可能的替换单词,这些单词可能会在人类书写过程中作为拼写错误的单词生成。这种重新安排有助于我们当我们运行上面的程序时,...

  Python文字换行

📅  最后修改于: 2020-11-06 06:22:55        🧑  作者: Mango

当从某些来源获取的文本格式不正确,无法在可用的屏幕宽度内显示时,则需要文本换行。这是通过使用以下软件包实现的,可以使用以下命令将其安装在我们的环境中。下一段有一个连续的文本字符串。在应用自动换行函数,我们可以看到如何将文本分成多行并以逗号分隔。当我们运行上面的程序时,我们得到以下输出-我们还可以将具有特定宽度的wrap函数用作输入参数,这将在需要时剪切单词以维持所需的wrap函数宽度。当我们运行上...

  Python频率分布

📅  最后修改于: 2020-11-06 06:23:11        🧑  作者: Mango

在文本处理过程中,经常需要计算单词在文本主体中的出现频率。这可以通过应用word_tokenize()函数并将结果附加到列表以保持单词计数来实现,如下面的程序所示。当我们运行上面的程序时,我们得到以下输出-条件频率分布当我们要计算满足满足一组文本的特定标准的单词时,使用条件频率分布。当我们运行上面的程序时,我们得到以下输出-...

  Python文字摘要

📅  最后修改于: 2020-11-06 06:23:30        🧑  作者: Mango

文本摘要涉及从大量文本生成摘要,该摘要在某种程度上描述了大量文本的上下文。在下面的示例中,我们使用模块遗传学及其概括函数来实现这一目标。我们安装以下软件包以实现此目的。下一段是关于电影情节的。使用summary函数可从文本主体本身获取几行内容以生成摘要。当我们运行上面的程序时,我们得到以下输出-提取关键词我们还可以通过使用gensim库中的关键字函数从文本主体中提取关键字,如下所示。当我们运行上面...

  Python提取算法

📅  最后修改于: 2020-11-06 06:23:49        🧑  作者: Mango

在自然语言处理领域,我们遇到了两个或两个以上单词具有共同词根的情况。例如,三个词-同意,同意和同意具有相同的词根同意。涉及这些单词中任何一个的搜索应将它们视为相同的单词,即词根。因此,将所有单词链接到其根词变得至关重要。 NLTK库具有执行此链接并提供显示根词的输出的方法。nltk中提供了三种最常用的词干算法。他们给出的结果略有不同。以下示例显示了所有三种词干算法的用法及其结果。当我们运行上面的程...

  Python受限搜索

📅  最后修改于: 2020-11-06 06:24:04        🧑  作者: Mango

很多时候,获得搜索结果后,我们需要对现有搜索结果的一部分进行更深一层的搜索。例如,在给定的文本正文中,我们旨在获取网址并提取网址的不同部分(例如协议,域名等)。在这种情况下,我们需要借助分组函数来进行划分根据分配的正则表达式将搜索结果分为多个组。我们通过使用可搜索部分周围的括号分隔主要搜索结果(不包括我们要匹配的固定字词)来创建此类分组表达式。当我们运行上面的程序时,我们得到以下输出-...