📝 Python数据科学教程

41篇技术文档
  Python数据整理

📅  最后修改于: 2020-12-13 14:15:11        🧑  作者: Mango

数据整理涉及以各种格式(例如合并,分组,连接等)处理数据,以便分析或准备将其与另一组数据一起使用。 Python具有内置功能,可以将这些争用方法应用于各种数据集以实现分析目标。在本章中,我们将看一些描述这些方法的示例。合并资料Python的Pandas库提供了单个函数merge作为DataFrame对象之间所有标准数据库联接操作的入口点-现在让我们创建两个不同的DataFrame并对其执行合并操作...

  Python数据聚合

📅  最后修改于: 2020-12-13 14:15:35        🧑  作者: Mango

Python有几种方法可用于对数据执行聚合。它是使用pandas和numpy库完成的。数据必须可用或转换为数据框才能应用聚合功能。在DataFrame上应用聚合让我们创建一个DataFrame并对其应用聚合。其输出如下-我们可以通过将函数传递给整个DataFrame进行聚合,也可以通过标准的get item方法选择一列。在整个数据框上应用聚合其输出如下-在数据框的单列上应用聚合其输出如下-将聚合应...

  Python阅读HTML页面

📅  最后修改于: 2020-12-13 14:15:55        🧑  作者: Mango

库称为beautifulsoup。使用该库,我们可以搜索html标记的值,并获取特定的数据,例如页面的标题和页面中的标题列表。安装Beautifulsoup使用Anaconda软件包管理器来安装所需的软件包及其从属软件包。读取HTML文件在下面的示例中,我们请求将网址加载到Python环境中。然后,使用html parser参数读取整个html文件。接下来,我们打印html页面的前几行。当我们执行...

  Python处理非结构化数据

📅  最后修改于: 2020-12-13 14:16:17        🧑  作者: Mango

已以行和列格式存在的数据,或可以轻松转换为行和列的数据,以便以后可以很好地适合数据库的数据称为结构化数据。例如CSV,TXT,XLS文件等。这些文件具有定界符以及固定宽度或可变宽度,其中缺失值在定界符之间表示为空白。但是有时候我们得到的数据行的宽度不是固定的,或者只是HTML,图像或pdf文件。此类数据称为非结构化数据。尽管可以通过处理HTML标签来处理HTML文件,但是来自Twitter的fee...

  Python -Word标记化

📅  最后修改于: 2020-12-13 14:16:34        🧑  作者: Mango

单词标记化是将大量文本样本拆分为单词的过程。这是自然语言处理任务的要求,在自然语言处理任务中,每个单词都需要捕获并进行进一步的分析,例如根据特定的情感对它们进行分类和计数等。自然语言工具套件(NLTK)是用于实现此目的的库。在继续Python程序进行单词标记化之前,请安装NLTK。接下来,我们使用word_tokenize方法将段落拆分为单个单词。当我们执行上面的代码时,它产生以下结果。标记化句子...

  Python词干和词法化

📅  最后修改于: 2020-12-13 14:16:53        🧑  作者: Mango

在自然语言处理领域,我们遇到了两个或两个以上单词具有共同词根的情况。例如,三个词-同意,同意和同意具有相同的词根同意。涉及这些单词中任何一个的搜索应将它们视为相同的单词,即词根。因此,将所有单词链接到其根词变得至关重要。 NLTK库具有执行此链接并提供显示根词的输出的方法。下面的程序使用Porter Stemming Algorithm进行词干分析。当我们执行上面的代码时,它产生以下结果。词法化是...

  Python图表属性

📅  最后修改于: 2020-12-13 14:17:12        🧑  作者: Mango

Python具有出色的数据可视化库。Pandas,numpy和matplotlib的组合可以帮助创建几乎所有类型的可视化图表。在本章中,我们将开始研究一些简单的图表以及图表的各种属性。创建图表我们使用numpy库创建所需的数字以进行映射以创建图表,并使用matplotlib中的pyplot方法绘制实际图表。其输出如下-斧子我们可以使用库中的适当方法将标签应用于图表的轴以及标题,如下所示。其输出如下...

  Python图表样式

📅  最后修改于: 2020-12-13 14:17:31        🧑  作者: Mango

通过使用用于图表的库中的一些适当方法,可以在Python创建的图表具有进一步的样式。在本课程中,我们将看到注释,图例和图表背景的实现。我们将继续使用上一章中的代码并对其进行修改,以将这些样式添加到图表中。添加注释很多时候,我们需要通过突出显示图表的特定位置来对图表进行注释。在下面的示例中,我们通过在这些点添加注释来指示图表中值的急剧变化。其输出如下-添加图例有时我们需要绘制带有多条线的图表。图例的...

  Python箱形图

📅  最后修改于: 2020-12-13 14:17:46        🧑  作者: Mango

箱线图是衡量数据在数据集中的分布程度的一种度量。它将数据集分为三个四分位数。该图表示数据集中的最小,最大,中位数,第一四分位数和第三四分位数。通过为每个数据集绘制箱形图来比较数据在数据集之间的分布,这也很有用。绘制箱形图可以通过调用Series.box.plot()和DataFrame.box.plot()或DataFrame.boxplot()来绘制Boxplot,以可视化每个列中值的分布。例如...

  Python热图

📅  最后修改于: 2020-12-13 14:17:59        🧑  作者: Mango

热图包含表示要绘制的每个值的相同颜色的各种阴影的值。通常,图表中较深的阴影比较浅的阴影具有更高的值。对于非常不同的值,也可以使用完全不同的颜色。下面的示例是值的二维图,这些值映射到图表的索引和列。其输出如下-...

  Python散点图

📅  最后修改于: 2020-12-13 14:18:12        🧑  作者: Mango

散点图显示在笛卡尔平面中绘制的许多点。每个点代表两个变量的值。在水平轴上选择一个变量,在垂直轴上选择另一个变量。绘制散点图可以使用DataFrame.plot.scatter()方法创建散点图。其输出如下-...

  Python气泡图

📅  最后修改于: 2020-12-13 14:18:25        🧑  作者: Mango

气泡图将数据显示为一组圆。创建气泡图所需的数据必须具有xy坐标,气泡大小和气泡颜色。颜色可以由库本身提供。绘制气泡图可以使用DataFrame.plot.scatter()方法创建气泡图。其输出如下-...

  Python -3D图表

📅  最后修改于: 2020-12-13 14:18:40        🧑  作者: Mango

Python还能够创建3d图表。它涉及将子图添加到现有的二维图,并将投影参数分配为3d。绘制3D图3dPlot由mpl_toolkits.mplot3d绘制,以将子图添加到现有的2d图中。其输出如下-...

  Python时间序列

📅  最后修改于: 2020-12-13 14:18:57        🧑  作者: Mango

时间序列是一系列数据点,其中每个数据点都与时间戳关联。一个简单的例子是在给定的一天中,股票在不同时间点的价格。另一个例子是该地区一年中不同月份的降雨量。在下面的示例中,我们以特定股票代码每天四分之一的股价价格为例。我们将这些值捕获为一个csv文件,然后使用pandas库将它们组织到一个数据框中。然后,通过将其他Valuedate列重新创建为索引并删除旧的valuedate列,将date字段设置为数...

  Python地理数据

📅  最后修改于: 2020-12-13 14:19:12        🧑  作者: Mango

现在已经创建了许多开源Python库来表示地理地图。它们是高度可定制的,并提供各种地图,以不同的形状和颜色描述区域。一种这样的包装是Cartopy。您可以从Cartopy在本地环境中下载并安装此软件包。您可以在其画廊中找到许多示例。在下面的示例中,我们显示了世界地图的一部分,其中显示了亚洲和澳大利亚的部分地区。您可以在set_extent方法中调整参数值以查找世界地图的不同区域。其输出如下-...