📝 Python Pandas教程
33篇技术文档📅  最后修改于: 2020-11-06 05:43:55        🧑  作者: Mango
在本章中,我们将讨论如何对日期进行切片和切块,并通常获得熊猫对象的子集。Python和NumPy索引运算符“ []”和属性运算符“”。可以在各种用例中快速轻松地访问Pandas数据结构。但是,由于事先不知道要访问的数据类型,因此直接使用标准运算符存在一些优化限制。对于生产代码,我们建议您利用本章中介绍的优化的熊猫数据访问方法。熊猫现在支持三种类型的多轴索引:下表中提到了三种类型-Sr.NoInde...
📅  最后修改于: 2020-11-06 05:44:27        🧑  作者: Mango
统计方法有助于理解和分析数据的行为。现在,我们将学习一些统计函数,可以将它们应用于Pandas对象。百分比变化Series,DatFrames和Panel都具有函数pct_change()。此函数将每个元素与其先前的元素进行比较,并计算更改百分比。现场演示其输出如下-默认情况下,pct_change()对列进行操作;如果要明智地应用同一行,请使用axis = 1()参数。协方差协方差应用于序列数据...
📅  最后修改于: 2020-11-06 05:44:53        🧑  作者: Mango
为了处理数字数据,Pandas提供了一些变体,例如滚动,扩展和按指数移动权重以进行窗口统计。其中包括和,均值,中位数,方差,协方差,相关性等。现在,我们将学习如何将它们分别应用于DataFrame对象。.rolling()函数此函数可以应用于一系列数据。指定window = n参数,并在其顶部应用适当的统计函数。现场演示其输出如下-注–由于窗口大小为3,因此对于前两个元素为null,从第三个元素开...
📅  最后修改于: 2020-11-06 05:45:29        🧑  作者: Mango
一旦创建了滚动,扩展和ewm对象,就可以使用多种方法对数据执行聚合。在DataFrame上应用聚合让我们创建一个DataFrame并对其应用聚合。现场演示其输出如下-我们可以通过将函数传递给整个DataFrame进行聚合,也可以通过标准的get item方法选择一列。在整个数据框上应用聚合现场演示其输出如下-在数据框的单列上应用聚合现场演示其输出如下-将聚合应用于DataFrame的多个列现场演示...
📅  最后修改于: 2020-11-06 05:46:16        🧑  作者: Mango
在现实生活中,数据丢失始终是一个问题。机器学习和数据挖掘等领域在模型预测的准确性方面面临着严重的问题,因为缺少值会导致数据质量较差。在这些领域中,缺失值处理是使模型更准确和有效的主要重点。什么时候以及为什么会丢失数据?让我们考虑对产品进行在线调查。很多时候,人们不会共享与他们有关的所有信息。很少有人会分享他们的经验,但是不会分享他们使用该产品多长时间。很少有人分享他们使用该产品的时间,他们的经历而...
📅  最后修改于: 2020-11-06 05:47:06        🧑  作者: Mango
任何groupby操作都涉及对原始对象的以下操作之一。他们是-分割物件应用函数合并结果在许多情况下,我们将数据分成几组,然后在每个子集上应用一些功能。在apply功能中,我们可以执行以下操作-聚合-计算摘要统计转换-执行一些特定于组的操作过滤-在某些条件下丢弃数据现在让我们创建一个DataFrame对象并对其执行所有操作-现场演示其输出如下-将数据分成组熊猫对象可以拆分为任何对象。有多种分割对象的...
📅  最后修改于: 2020-11-06 05:47:46        🧑  作者: Mango
Pandas具有与SQL等关系数据库非常相似的功能齐全的高性能内存中连接操作。Pandas提供单个函数merge作为DataFrame对象之间所有标准数据库联接操作的入口点-在这里,我们使用了以下参数-左-一个DataFrame对象。右-另一个DataFrame对象。在-列(名)加入上。必须在左右DataFrame对象中都找到。left_on-左侧DataFrame中的列用作键。可以是列名,也可以...
📅  最后修改于: 2020-11-06 05:48:35        🧑  作者: Mango
Pandas提供了各种功能,可以轻松地将Series,DataFrame和Panel对象组合在一起。的OBJ-这是系列的序列或映射,数据帧,或面板对象。axis-{0,1,…},默认为0。这是要串联的轴。join-{‘inner’,’outer’},默认为’outer’。如何处理其他轴上的索引。外部为联合,内部为交叉。ignore_index-布尔值,默认为False。如果为True,则不要在串联...
📅  最后修改于: 2020-11-06 05:49:04        🧑  作者: Mango
扩展时间序列后,日期功能在财务数据分析中起着重要作用。使用日期数据时,我们经常会遇到以下情况-生成日期序列将日期序列转换为不同的频率创建日期范围通过指定日期和频率使用date.range()函数,我们可以创建日期序列。默认情况下,范围的频率为天。现场演示其输出如下-更改日期频率现场演示其输出如下-bdate_rangebdate_range()代表营业日期范围。与date_range()不同,它不...
📅  最后修改于: 2020-11-06 05:49:31        🧑  作者: Mango
时间增量是时间差异,以差异单位表示,例如,天,小时,分钟,秒。它们可以是正面的也可以是负面的。我们可以使用各种参数创建Timedelta对象,如下所示-串通过传递字符串字面量,我们可以创建一个timedelta对象。现场演示其输出如下-整数通过使用单位传递整数值,参数将创建一个Timedelta对象。现场演示其输出如下-数据偏移数据偏移量(例如-周,天,小时,分钟,秒,毫秒,微秒,纳秒)也可以在构...
📅  最后修改于: 2020-11-06 05:50:25        🧑  作者: Mango
数据通常实时包含重复的文本列。性别,国家/地区和代码等功能始终是重复的。这些是分类数据的示例。分类变量只能采用有限的且通常是固定数量的可能值。除固定长度外,分类数据可能还具有顺序,但不能执行数字运算。分类是Pandas数据类型。类别数据类型在以下情况下很有用-一个仅包含几个不同值的字符串变量。将这样的字符串变量转换为分类变量将节省一些内存。变量的词汇顺序与逻辑顺序(“一个”,“两个”,“三个”)不...
📅  最后修改于: 2020-11-06 05:50:59        🧑  作者: Mango
基本绘图:绘图Series和DataFrame上的此功能只是围绕matplotlib库plot()方法的简单包装。其输出如下-如果索引由日期组成,它将调用gct()。autofmt_xdate()来格式化x轴,如上图所示。我们可以使用x和y关键字绘制一列与另一列的关系。除默认线图外,绘图方法还允许使用多种绘图样式。这些方法可以作为plot()的kind关键字参数提供。这些包括-条形图的bar或ba...
📅  最后修改于: 2020-11-06 05:51:28        🧑  作者: Mango
Pandas I / O API是一组顶级读取器功能,如pd.read_csv()一样访问,这些功能通常返回Pandas对象。读取文本文件(或平面文件)的两个主要功能是read_csv()和read_table()。他们都使用相同的解析代码将表格数据智能地转换为DataFrame对象-这是csv文件数据的样子-将此数据另存为temp.csv并对其进行操作。将此数据另存为temp.csv并对其进行操...
📅  最后修改于: 2020-11-06 05:51:49        🧑  作者: Mango
当省略与特定值(NaN /缺失值,尽管可以选择任何值)匹配的任何数据时,稀疏对象将被“压缩”。一个特殊的SparseIndex对象跟踪数据被“分散”的位置。在一个示例中,这将更加有意义。所有标准的Pandas数据结构都应用to_sparse方法-现场演示其输出如下-出于内存效率的原因,存在稀疏对象。现在让我们假设您有一个很大的NA DataFrame并执行以下代码-现场演示其输出如下-可以通过调用...
📅  最后修改于: 2020-11-06 05:52:20        🧑  作者: Mango
警告意味着警告,陷阱意味着一个看不见的问题。在熊猫中使用If / Truth语句当您尝试将某物转换为bool时,Pandas遵循numpy约定,会引发错误。这是在使用布尔运算符if或when或or或ornot时发生的。目前尚不清楚结果应该是什么。因为它不是零长度,是否应该为True?错误是因为存在错误值?目前尚不清楚,因此,熊猫提出了ValueError-现场演示其输出如下-如果情况尚不清楚,该如...