📝 Python文字处理教程

40篇技术文档
  Python文本处理

📅  最后修改于: 2020-11-06 06:11:06        🧑  作者: Mango

Python编程可用于处理各种文本数据分析中要求的文本数据。 Python的这种文本处理能力的一个非常重要的应用领域是NLP(自然语言处理)。 NLP用于搜索引擎,报纸馈送分析中,最近还用于基于语音的应用程序,例如Siri和Alexa。 Python的自然语言工具包(NLTK)是一组可用于创建此类文本处理系统的库。本教程适用于愿意使用Python作为编程语言以简单易懂的步骤学习文本处理的计算机科学...

  Python文本处理简介

📅  最后修改于: 2020-11-06 06:11:41        🧑  作者: Mango

文本处理直接应用于自然语言处理,也称为NLP。 NLP旨在处理人类彼此交流时说或写的语言。这不同于计算机与人之间的通信,在通信中,该通信使人编写的计算机程序或人的某些手势(如在某个位置单击鼠标)无效。 NLP试图理解人类所说的自然语言并将其分类,并在需要时对它进行分析。 Python具有丰富的库集,可满足NLP的需求。自然语言工具套件(NLTK)是此类库的套件,可提供NLP所需的功能。以下是一些使...

  Python文本处理环境

📅  最后修改于: 2020-11-06 06:12:34        🧑  作者: Mango

为了成功创建并运行本教程中的示例代码,我们需要一个环境设置,该环境应同时具有通用Python和数据科学所需的特殊软件包。我们首先看一下为安装通用的Python可以是Python2或Python 3。但是,我们会更喜欢Python2本教程主要是因为它的成熟和更广泛的支持外部包。获取Python最新的源代码,二进制文件,文档,新闻等可在Pythonhttps:// www的官方网站上找到。 Pytho...

  Python字符串不可变性

📅  最后修改于: 2020-11-06 06:12:52        🧑  作者: Mango

在Python,字符串数据类型是不可变的。这意味着无法更新字符串值。我们可以通过尝试更新字符串的一部分来验证这一点,这将导致我们出错。当我们运行上面的程序时,我们得到以下输出-我们可以通过检查字符串字母位置的内存位置地址来进一步验证这一点。当我们运行上面的程序时,我们得到以下输出。如您在上方看到的,指向同一位置的点。 N和N也指向相同的位置。...

  Python排序线

📅  最后修改于: 2020-11-06 06:13:12        🧑  作者: Mango

很多时候,我们需要对文件内容进行排序以进行分析。例如,我们想让不同学生写的句子按照名字的字母顺序排列。这将涉及该行的第一个字符,但也从左边开始的所有字符排序只是没有。在下面的程序中,我们首先从文件中读取行,然后使用属于标准Python库的sort函数打印它们。打印文件当我们运行上面的程序时,我们得到以下输出-在文件中对行进行排序现在我们在打印文件内容之前应用排序函数。根据左边的第一个字母对行进行排...

  Python重新格式化段落

📅  最后修改于: 2020-11-06 06:13:32        🧑  作者: Mango

当我们处理大量文本并将其呈现为可显示的格式时,需要设置段落格式。我们可能只想以特定的宽度打印每行,或者在打印一首诗时尝试增加下一行的缩进。在本章中,我们使用名为textwrap3的模块来根据需要格式化段落。首先,我们需要如下安装所需的软件包包装成固定宽度在此示例中,我们为段落指定每行30个字符的宽度。通过为width参数指定一个值来使用自动换行函数。当我们运行上面的程序时,我们得到以下输出-可变缩...

  Python在段落中计算令牌

📅  最后修改于: 2020-11-06 06:13:59        🧑  作者: Mango

在从源中读取文本时,有时我们还需要找到一些有关所用单词类型的统计信息。这使得必须计算给定文本中单词的数量以及具有特定单词类型的行数。在下面的示例中,我们显示了使用两种不同方法对段落中的单词进行计数的程序。为此,我们考虑一个文本文件,其中包含好莱坞电影的摘要。读取文件当我们运行上面的程序时,我们得到以下输出-使用nltk计数单词接下来,我们使用nltk模块对文本中的单词进行计数。请注意,单词“(头)...

  Python将二进制转换为ASCII

📅  最后修改于: 2020-11-06 06:14:16        🧑  作者: Mango

ASCII到二进制和二进制到ascii的转换是通过内置的binascii模块执行的。它具有非常直接的用法,该函数使用输入数据并进行转换。以下程序显示了binascii模块及其名为b2a_uu和a2b_uu的功能的用法。 uu代表“ UNIX到UNIX编码”,它负责按照程序要求将数据从字符串转换为二进制和ascii值。当我们运行上面的程序时,我们得到以下输出-...

  Python字符串作为文件

📅  最后修改于: 2020-11-06 06:14:43        🧑  作者: Mango

读取文件时,它被视为包含多个元素的字典。因此,我们可以使用元素的索引访问文件的每一行。在下面的示例中,我们有一个包含多行的文件,这些行成为文件的各个元素。当我们运行上面的程序时,我们得到以下输出-文件为字符串但整个文件的内容可以被读作通过去除新行字符,并使用所读取的函数,如下所示一个字符串。结果没有多行。当我们运行上面的程序时,我们得到以下输出-...

  Python向后读取文件

📅  最后修改于: 2020-11-06 06:15:21        🧑  作者: Mango

通常,当我们读取文件时,将从文件的开头逐行读取内容。但是在某些情况下,我们想先阅读最后一行。例如,文件中的数据在底部具有最新记录,我们希望首先读取最新记录。为了达到此要求,我们使用下面的命令安装所需的软件包以执行此操作。但是在向后读取文件之前,让我们逐行读取文件的内容,以便可以在向后读取之后比较结果。当我们运行上面的程序时,我们得到以下输出-向后读线现在,向后读取文件,我们使用已安装的模块。当我们...

  Python过滤重复单词

📅  最后修改于: 2020-11-06 06:15:40        🧑  作者: Mango

很多时候,我们只需要分析文件中存在的唯一单词的文本即可。因此,我们需要从文本中消除重复的单词。这可以通过使用nltk中的单词标记化和set函数来实现。不保留订单在下面的示例中,我们首先将句子标记为单词。然后,我们使用set()函数创建一个无序的唯一元素集合。结果具有不排序的唯一单词。当我们运行上面的程序时,我们得到以下输出-保留订单为了在删除重复项之后仍保留句子中单词的顺序后得到单词,我们阅读了单...

  Python从文本中提取电子邮件

📅  最后修改于: 2020-11-06 06:15:53        🧑  作者: Mango

要提取电子邮件形式的文本,我们可以使用正则表达式。在下面的示例中,我们利用正则表达式包来定义电子邮件ID的模式,然后使用findall()函数检索与该模式匹配的那些文本。当我们运行上面的程序时,我们得到以下输出-...

  Python从文本提取URL

📅  最后修改于: 2020-11-06 06:16:09        🧑  作者: Mango

URL提取是通过使用正则表达式从文本文件中完成的。表达式会在与模式匹配的任何地方获取文本。为此仅使用re模块。例我们可以使用一个包含一些URL的输入文件,并通过以下程序对其进行处理以提取URL。findall()函数用于查找与正则表达式匹配的所有实例。输入文件显示的是下面的输入文件。其中包含teo URL。现在,当我们采用上述输入文件并通过以下程序对其进行处理时,我们将获得所需的输出,仅给出从文件...

  Python漂亮的打印数字

📅  最后修改于: 2020-11-06 06:16:26        🧑  作者: Mango

Python模块pprint用于为Python的各种数据对象提供正确的打印格式。这些数据对象可以表示字典数据类型,甚至可以包含JSON数据的数据对象。在下面的示例中,我们将看到在应用pprint模块之前和之后,数据的外观。当我们运行上面的程序时,我们得到以下输出-处理JSON数据Pprint还可以通过将JSON数据格式化为更具可读性的格式来处理它们。当我们运行上面的程序时,我们得到以下输出-...

  Python文本处理状态机

📅  最后修改于: 2020-11-06 06:16:47        🧑  作者: Mango

状态机是关于设计程序来控制应用程序中的流程的。它是一个有向图,由一组节点和一组转换函数组成。处理文本文件通常包括顺序读取文本文件的每个块,并对读取的每个块做出响应。块的含义取决于之前存在的块类型以及之后的块。机器是关于设计程序来控制应用程序中的流程的。它是一个有向图,由一组节点和一组转换函数组成。处理文本文件通常包括顺序读取文本文件的每个块,并对读取的每个块做出响应。块的含义取决于之前存在的块类型...