📅  最后修改于: 2020-04-21 13:10:56             🧑  作者: Mango
Pandas是最流行的用于数据分析的Python库之一。它使用完全用 C或 Python编写的后端源代码提供了高度优化的性能。
我们可以使用以下方法分析熊猫中的数据:
Series是在熊猫中定义的一维(1-D)数组,可用于存储任何数据类型。
代码1:创建Series
# 创建Series
import pandas as pd # Import Panda Library
# 用数据创建Series,并建立索引
a = pd.Series(Data, index = Index)
在这里,数据可以是:
注意:默认情况下,索引为0、1、2,…(n-1),其中n为数据长度。
代码2:当数据包含标量值时
# 创建具有标量值的序列
Data =[1, 3, 4, 5, 6, 2, 9] # Numeric data
# 使用默认索引值创建Series
s = pd.Series(Data)
# 预定义索引值
Index =['a', 'b', 'c', 'd', 'e', 'f', 'g']
# 创建具有预定义索引值的Series
si = pd.Series(Data, Index)
输出:
代码3:当数据包含字典时
# 创建词典Series
dictionary ={'a':1, 'b':2, 'c':3, 'd':4, 'e':5}
# 创建字典类型Series
sd = pd.Series(dictionary)
输出:
代码4:当数据包含Ndarray
# 创建ndarray series的程序
Data =[[2, 3, 4], [5, 6, 7]] # 定义2darray
# 创建2darray series
snd = pd.Series(Data)
输出:
DataFrames是在pandas中定义的二维(2-D)数据结构,由行和列组成。
代码1:创建DataFrame
# 程序创建DataFrame
import pandas as pd # 导入库
a = pd.DataFrame(Data) # 使用数据创建DataFrame
在这里,数据可以是:
代码2:当数据是字典:
# 程序创建带有两个字典的数据框
dict1 ={'a':1, 'b':2, 'c':3, 'd':4} # 定义 Dictionary 1
dict2 ={'a':5, 'b':6, 'c':7, 'd':8, 'e':9} # 定义 Dictionary 2
Data = {'first':dict1, 'second':dict2}
df = pd.DataFrame(Data) # 创建 DataFrame
输出:
代码3:数据为series:
# 程序创建三个series的数据框
import pandas as pd
s1 = pd.Series([1, 3, 4, 5, 6, 2, 9]) # 定义 series 1
s2 = pd.Series([1.1, 3.5, 4.7, 5.8, 2.9, 9.3]) # 定义 series 2
s3 = pd.Series(['a', 'b', 'c', 'd', 'e']) # 定义 series 3
Data ={'first':s1, 'second':s2, 'third':s3} # 定义 Data
dfseries = pd.DataFrame(Data) # 创建 DataFrame
输出:
代码4:当数据为2D-numpy ndarray时
注意:创建2D数组的DataFrame时必须保持一个约束:2D数组的尺寸必须相同
# 程序从2D数组创建DataFrame
import pandas as pd # Import Library
d1 =[[2, 3, 4], [5, 6, 7]] # 定义二维数组 1
d2 =[[2, 4, 8], [1, 3, 9]] # 定义二维数组 2
Data ={'first': d1, 'second': d2} # 定义数据
df2d = pd.DataFrame(Data) # 创建 DataFrame
输出: