📝 Python文字处理教程

40篇技术文档
  Python大写和翻译

📅  最后修改于: 2020-11-06 06:17:02        🧑  作者: Mango

在任何文本处理系统中,大写字符串都是常见的需求。 Python通过使用标准库中的内置函数来实现它。在下面的示例中,我们使用两个字符串函数capwords()和upper()实现此目的。 ‘capwords’将每个单词的首字母大写,而’upper’将整个字符串大写。当我们运行上面的程序时,我们得到以下输出-Python本质上是指用另一个字母替换特定的字母。它可以用于字符串的加密解密。当我们运行上面的...

  Python标记化

📅  最后修改于: 2020-11-06 06:17:18        🧑  作者: Mango

行标记化在下面的示例中,我们通过使用send_tokenize函数将给定文本分为不同的行。当我们运行上面的程序时,我们得到以下输出-非英语令牌化在下面的示例中,我们标记了德语文本。当我们运行上面的程序时,我们得到以下输出-词令牌化我们使用可作为nltk一部分使用的word_tokenize函数对单词进行标记。当我们运行上面的程序时,我们得到以下输出-...

  Python删除停用词

📅  最后修改于: 2020-11-06 06:17:36        🧑  作者: Mango

停用词是英文单词,不会给句子增加太多含义。在不牺牲句子含义的情况下,可以安全地忽略它们。例如,单词“ the”,“ he”,“ have”等。这些单词已在名为corpus的语料库中捕获。我们首先将其下载到我们的Python环境中。它将下载带有英语停用词的文件。验证停用词当我们运行上面的程序时,我们得到以下输出-具有这些停用词的英语以外的其他语言如下。当我们运行上面的程序时,我们得到以下输出-例我们...

  Python同义词和反义词

📅  最后修改于: 2020-11-06 06:17:51        🧑  作者: Mango

同义词和反义词可作为单词网的一部分获得,单词网是英语的词汇数据库。它是nltk语料库访问的一部分。在Wordnet中,同义词是表示相同概念的单词,在许多情况下可以互换,因此它们被分组为无序集合(同义词集)。我们使用这些同义词集来导出同义词和反义词,如以下程序所示。当我们运行上面的程序时,我们得到以下输出-要获得反义词,我们只需使用反义词函数。当我们运行上面的程序时,我们得到以下输出-...

  Python文本翻译

📅  最后修改于: 2020-11-06 06:18:07        🧑  作者: Mango

随着各种网站迎合国际受众,从一种语言到另一种语言的文本翻译正变得越来越普遍。可以帮助我们完成此操作的Python包称为翻译。可以通过以下方式安装此软件包。它提供主要语言的翻译。以下是将简单句子从英语翻译成德语的示例。语言默认为英语。当我们运行上面的程序时,我们得到以下输出-在任何两种语言之间如果我们需要指定从语言和到语言,则可以在以下程序中指定它。当我们运行上面的程序时,我们得到以下输出-...

  Python单词替换

📅  最后修改于: 2020-11-06 06:18:23        🧑  作者: Mango

替换整个字符串或部分字符串是文本处理中非常常见的要求。replace()方法返回字符串的副本,在该字符串中,旧的出现已被新的替换,可以选择将替换次数限制为最大。以下是replace()方法的语法-参量old-这是要替换的旧子字符串。新的-这是一个新的子串,这将取代旧的字符串。max-如果给出此可选参数max,则仅替换第一个出现的次数。此方法返回字符串的副本,其中所有出现的子字符串old都被new替...

  Python拼写检查

📅  最后修改于: 2020-11-06 06:18:41        🧑  作者: Mango

拼写检查是任何文本处理或分析中的基本要求。 Python包pyspellchecker为我们提供了此功能,以查找可能拼写错误的单词,并建议可能的更正。首先,我们需要在Python环境中使用以下命令安装所需的软件包。现在,我们在下面看到如何使用该程序包指出拼写错误的单词以及对可能的正确单词提出一些建议。当我们运行上面的程序时,我们得到以下输出-区分大小写如果我们使用Let代替let,那么这将成为单词...

  Python -WordNet界面

📅  最后修改于: 2020-11-06 06:19:00        🧑  作者: Mango

WordNet是英语的词典,类似于传统的词库NLTK包括英语WordNet。我们可以将其用作获取单词含义,用法示例和定义的参考。相似词的集合称为引理。 WordNet中的单词是有组织的,节点和边表示节点,单词表示文本,边表示单词之间的关系。下面我们将看到如何使用WordNet模块。所有引理当我们运行上面的程序时,我们得到以下输出-词义单词的字典定义可以通过使用定义函数。它描述了在普通词典中可以找到...

  Python -Corpora访问

📅  最后修改于: 2020-11-06 06:19:16        🧑  作者: Mango

Corpora是一个小组,提出了多个文本文档集合。单个集合称为语料库。这样的著名语料库就是古腾堡语料库,其中包含约25,000本免费电子书,托管在http://www.gutenberg.org/。在下面的示例中,我们仅访问语料库中那些纯文本(文件名以.txt结尾)的文件的名称。当我们运行上面的程序时,我们得到以下输出-访问原始文本我们可以使用send_tokenize函数访问这些文件中的原始文本...

  Python标记单词

📅  最后修改于: 2020-11-06 06:19:35        🧑  作者: Mango

标记是文本处理的基本功能,其中我们将单词标记为语法分类。我们借助令牌化和pos_tag函数为每个单词创建标签。当我们运行上面的程序时,我们得到以下输出-标签说明我们可以使用以下显示内置值的程序来描述每个标签的含义。当我们运行上面的程序时,我们得到以下输出-标记语料库我们还可以标记语料库数据,并查看该语料库中每个单词的标记结果。当我们运行上面的程序时,我们得到以下输出-...

  Python块和块

📅  最后修改于: 2020-11-06 06:19:53        🧑  作者: Mango

分块是根据单词的性质将相似单词分组在一起的过程。在下面的示例中,我们定义了必须通过其生成块的语法。语法建议了短语的顺序,例如名词和形容词等,在创建块时将遵循这些顺序。块的图片输出如下所示。当我们运行上面的程序时,我们得到以下输出-更改语法后,我们将得到不同的输出,如下所示。?*}“ chunkprofile = nltk.RegexpParser(grammar)result = chunkpro...

  Python块分类

📅  最后修改于: 2020-11-06 06:20:13        🧑  作者: Mango

基于分类的分块涉及将文本分类为一组单词,而不是单个单词。一个简单的方案是在句子中标记文本。我们将使用语料库来演示分类。我们选择语料库conll2000,该语料库具有《华尔街日报》语料库(WSJ)中用于基于名词短语的分块的数据。首先,我们使用以下命令将语料库添加到我们的环境中。让我们看一下该语料库中的前几个句子。当我们运行上面的程序时,我们得到以下输出-接下来,我们使用fucntionagged_s...

  Python文本分类

📅  最后修改于: 2020-11-06 06:20:31        🧑  作者: Mango

很多时候,我们需要通过一些预定义的标准将可用文本分类为各种类别。 nltk作为各种语料库的一部分提供了这种功能。在下面的示例中,我们查看电影评论语料库,并检查可用的分类。当我们运行上面的程序时,我们得到以下输出-现在,让我们看一下其中一个文件的内容,并给予正面评价。该文件中的句子被标记,我们打印前四个句子以查看示例。当我们运行上面的程序时,我们得到以下输出-接下来,我们标记每个文件中的单词,并使用...

  Python -Bigrams

📅  最后修改于: 2020-11-06 06:20:45        🧑  作者: Mango

一些英语单词在一起出现的频率更高。例如-天高,成败,表现最佳,下大雨等。因此,在文本文档中,我们可能需要识别出这对单词,这将有助于情感分析。首先,我们需要从现有句子中生成这样的单词对,并保持其当前顺序。这样的对称为二元组。 Python具有作为NLTK库的一部分的bigram函数,该函数可以帮助我们生成这些对。例当我们运行上面的程序时,我们得到以下输出-该结果可用于统计结果中给定文本中此类对的频率...

  Python处理PDF

📅  最后修改于: 2020-11-06 06:21:03        🧑  作者: Mango

从中提取文本后, Python可以读取PDF文件并打印出内容。为此,我们必须首先安装所需的模块PyPDF2。以下是安装模块的命令。您应该已经在Python环境中安装了pip。成功安装此模块后,我们可以使用模块中可用的方法读取PDF文件。当我们运行上面的程序时,我们得到以下输出-阅读多页要读取包含多页的pdf文件并用页码打印每个页面,我们使用带有getPageNumber()函数的循环。在下面的示例...