📜  Python | 使用Pandas进行数据分析

📅  最后修改于: 2020-04-21 13:10:56             🧑  作者: Mango

Pandas是最流行的用于数据分析的Python库之一。它使用完全用 C Python编写的后端源代码提供了高度优化的性能。

我们可以使用以下方法分析熊猫中的数据:

  1. Series
  2. DataFrames

Series:

Series是在熊猫中定义的一维(1-D)数组,可用于存储任何数据类型。
代码1:创建Series

# 创建Series
import pandas as pd  # Import Panda Library
# 用数据创建Series,并建立索引
a = pd.Series(Data, index = Index)

在这里,数据可以是:

  1. 标量值,其可以是integerValue,string
  2. Python的字典,可以是键-值对
  3. 一个Ndarray

注意:默认情况下,索引为0、1、2,…(n-1),其中n为数据长度。

代码2:当数据包含标量值时

# 创建具有标量值的序列
Data =[1, 3, 4, 5, 6, 2, 9]  # Numeric data
# 使用默认索引值创建Series
s = pd.Series(Data)
# 预定义索引值
Index =['a', 'b', 'c', 'd', 'e', 'f', 'g']
# 创建具有预定义索引值的Series
si = pd.Series(Data, Index)

输出

具有默认索引的标量数据

 

带索引的标量数据


代码3:当数据包含字典时

# 创建词典Series
dictionary ={'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
# 创建字典类型Series
sd = pd.Series(dictionary)

输出

字典类型数据


代码4:当数据包含Ndarray

# 创建ndarray series的程序
Data =[[2, 3, 4], [5, 6, 7]]  # 定义2darray
# 创建2darray series
snd = pd.Series(Data)

输出

数据为Ndarray


 

数据框DataFrames

DataFrames是在pandas中定义的二维(2-D)数据结构,由行和列组成。
代码1:创建DataFrame

# 程序创建DataFrame
import pandas as pd   # 导入库
a = pd.DataFrame(Data)  # 使用数据创建DataFrame

在这里,数据可以是:

  1. 一个或多个字典
  2. 一个或多个series
  3. 2D numpy Ndarray

代码2:当数据是字典:

# 程序创建带有两个字典的数据框
dict1 ={'a':1, 'b':2, 'c':3, 'd':4}        # 定义 Dictionary 1
dict2 ={'a':5, 'b':6, 'c':7, 'd':8, 'e':9} # 定义 Dictionary 2
Data = {'first':dict1, 'second':dict2}  
df = pd.DataFrame(Data)  # 创建 DataFrame

输出

具有两个字典的DataFrame

代码3:数据为series:

# 程序创建三个series的数据框
import pandas as pd
s1 = pd.Series([1, 3, 4, 5, 6, 2, 9])           # 定义 series 1
s2 = pd.Series([1.1, 3.5, 4.7, 5.8, 2.9, 9.3]) # 定义 series 2
s3 = pd.Series(['a', 'b', 'c', 'd', 'e'])     # 定义 series 3
Data ={'first':s1, 'second':s2, 'third':s3} # 定义 Data
dfseries = pd.DataFrame(Data)              # 创建 DataFrame

输出

具有三个系列的DataFrame

代码4:当数据为2D-numpy ndarray时
注意:创建2D数组的DataFrame时必须保持一个约束:2D数组的尺寸必须相同

# 程序从2D数组创建DataFrame
import pandas as pd # Import Library
d1 =[[2, 3, 4], [5, 6, 7]] # 定义二维数组 1
d2 =[[2, 4, 8], [1, 3, 9]] # 定义二维数组 2
Data ={'first': d1, 'second': d2} # 定义数据
df2d = pd.DataFrame(Data)    # 创建 DataFrame

输出

具有2d ndarray的DataFrame