📅  最后修改于: 2020-10-29 01:33:14             🧑  作者: Mango
Python Pandas被定义为一个开源库,可在Python中提供高性能的数据处理。本教程适用于初学者和专业人士。
它用于Python的数据分析,由Wes McKinney在2008年开发。我们的教程提供了Python Pandas的所有基本和高级概念,例如Numpy,数据操作和时间序列。
Pandas被定义为一个开放源代码库,可在Python中提供高性能的数据处理。Pandas的名称源自“面板数据”一词,这表示来自多维数据的计量经济学。它用于Python的数据分析,由Wes McKinney在2008年开发。
数据分析需要大量处理,例如重组,清理或合并等。有多种工具可用于快速数据处理,例如Numpy,Scipy,Cython和Panda。但是我们更喜欢Pandas,因为与Pandas一起工作比其他工具更快,更简单且更具表现力。
Pandas构建在Numpy软件包的顶部,这意味着操作Numpy需要Pandas。
在Pandas之前, Python能够进行数据准备,但是它仅提供了有限的数据分析支持。因此,Pandas崭露头角,并增强了数据分析的功能。无论数据的来源如何,它都可以执行处理和分析数据所需的五个重要步骤,即加载,操作,准备,建模和分析。
与使用其他语言相比,Pandas的好处如下:
Pandas提供了两种用于处理数据的数据结构,即Series和DataFrame,下面将进行讨论:
它被定义为能够存储各种数据类型的一维数组。系列的行标签称为索引。我们可以使用“ series”方法轻松地将列表,元组和字典转换为series。Series不能包含多列。它具有一个参数:
数据:可以是任何列表,字典或标量值。
从数组创建序列:
在创建系列之前,首先,我们必须导入numpy模块,然后在程序中使用array()函数。
import pandas as pd
import numpy as np
info = np.array(['P','a','n','d','a','s'])
a = pd.Series(info)
print(a)
输出量
0 P
1 a
2 n
3 d
4 a
5 s
dtype: object
说明:在这段代码中,首先,我们导入了带有pd和np别名的pandas和numpy库。然后,我们采用了一个名为“ info”的变量,该变量由一些值的数组组成。我们已经通过Series方法调用了info变量,并将其定义为“ a”变量。该系列已通过调用print (a)方法进行打印。
它是Pandas的一种广泛使用的数据结构,可与带有标记轴(行和列)的二维数组一起使用。 DataFrame被定义为存储数据的标准方式,并具有两个不同的索引,即行索引和列索引。它包含以下属性:
使用列表创建一个DataFrame:
我们可以使用list在Pandas中轻松创建一个DataFrame。
import pandas as pd
# a list of strings
x = ['Python', 'Pandas']
# Calling DataFrame constructor on list
df = pd.DataFrame(x)
print(df)
输出量
0
0 Python
1 Pandas
说明:在此代码中,我们定义了一个名为“ x”的变量,该变量由字符串值组成。在列表上调用DataFrame构造函数以print值。
在学习Python Pandas之前,您应该对计算机编程术语和任何编程语言都有基本的了解。
我们的Python Pandas教程旨在帮助初学者和专业人士。
我们保证在此Python Pandas教程中不会发现任何问题。但是,如果有任何错误,请在联系表格中发布问题。