📜  Python熊猫

📅  最后修改于: 2020-12-13 14:10:32             🧑  作者: Mango


Pandas是一个开源Python库,它使用其强大的数据结构用于高性能数据处理和数据分析。带有熊猫的Python已在各种学术和商业领域中使用,包括金融,经济学,统计,广告,Web分析等。使用Pandas,无论数据的来源如何,我们都可以完成五个典型的数据处理和分析步骤-加载,组织,操纵,建模和分析数据。

以下是熊猫的一些重要功能,这些功能专门用于数据处理和数据分析工作。

熊猫的主要特点

  • 快速有效的DataFrame对象,带有默认索引和自定义索引。
  • 用于将数据从不同文件格式加载到内存数据对象中的工具。
  • 数据对齐和丢失数据的集成处理。
  • 重塑和设置日期集。
  • 基于标签的切片,大数据集的索引和子集。
  • 可以删除或插入数据结构中的列。
  • 按数据分组以进行汇总和转换。
  • 高性能的数据合并和联接。
  • 时间序列功能。

熊猫处理以下三个数据结构-

  • 系列
  • 数据框

这些数据结构建立在Numpy数组之上,从而使它们快速有效。

尺寸说明

考虑这些数据结构的最佳方法是,高维数据结构是其低维数据结构的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。

Data Structure Dimensions Description
Series 1 1D labeled homogeneous array, size-immutable.
Data Frames 2 General 2D labeled, size-mutable tabular structure with potentially heterogeneously typed columns.

DataFrame被广泛使用,它是最重要的数据结构。

系列

系列是具有均匀数据的一维数组状结构。例如,以下系列是整数10、23、56的集合…

10 23 56 17 52 61 73 90 26 72

系列要点

  • 同类数据
  • 大小不变
  • 数据可变值

数据框

DataFrame是具有异构数据的二维数组。例如,

Name Age Gender Rating
Steve 32 Male 3.45
Lia 28 Female 4.6
Vin 45 Male 3.9
Katie 38 Female 2.78

该表表示组织的销售团队的数据及其总体绩效等级。数据以行和列表示。每列代表一个属性,每行代表一个人。

列的数据类型

四列的数据类型如下-

Column Type
Name String
Age Integer
Gender String
Rating Float

数据框重点

  • 异构数据
  • 大小可变
  • 数据可变

在下一章中,我们将在数据科学工作中看到许多使用Python的pandas库的示例。