📅  最后修改于: 2023-12-03 15:27:11.224000             🧑  作者: Mango
Pandas 和 NumPy 是 Python 中用于数据科学和分析的两个重要的库。Pandas 是一个专门用于数据操作的库,使数据的清洗和分析变得更加简单。NumPy 是一个用于数值计算和矩阵运算的库,提供了一个基于数组的数据结构来处理数学运算。
本文将介绍 Pandas 和 NumPy 的基础知识和用法,包括但不限于如何读取、处理、过滤、排序和统计数据。通过这些例子,您将熟悉这两个库,更好地理解如何处理数据和分析数据。
Pandas 可以处理多种类型的数据结构,常用的有 Series 和 DataFrame。Series 是一个一维的数据结构,类似于 Python 中的列表或数组。DataFrame 是一个二维的结构,可以看作是由多个 Series 组成的表格。
以下是一些 Pandas 基本用法的示例:
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv('data.csv')
# 读取 Excel 文件
data = pd.read_excel('data.xlsx')
# 读取 SQL 数据库
import sqlite3
conn = sqlite3.connect('database.db')
data = pd.read_sql_query('SELECT * FROM Users', conn)
# 删除重复行
data.drop_duplicates(inplace=True)
# 处理缺失值
data.dropna() # 删除带有缺失值的行
data.fillna(value) # 用指定值填充缺失值
# 筛选出满足条件的行
data[data['age'] > 30]
# 按条件分组并对分组后的数据进行聚合操作
data.groupby('category').sum()
# 使用逻辑操作符满足多个条件
data[(data['age'] > 30) & (data['gender'] == 'M')]
# 按指定列排序
data.sort_values('age', inplace=True)
# 基本统计信息
data.describe()
# 计算均值
data.mean()
# 计算标准差
data.std()
# 计算中位数
data.median()
NumPy 中最常用的就是 ndarray 类型,它是一个 N 维数组,可以进行各种矩阵运算。
以下是一些 NumPy 基本用法的示例:
import numpy as np
# 从列表创建一维数组
a = np.array([1, 2, 3])
# 从列表创建二维数组
b = np.array([[1, 2], [3, 4]])
# 从元组创建空数组
c = np.empty((2, 3))
# 从元组创建全是 0 的数组
d = np.zeros((2, 3))
# 从元组创建全是 1 的数组
e = np.ones((2, 3))
# 加法
a + b
# 减法
a - b
# 乘法
a * b
# 矩阵乘法
np.dot(a, b)
# 平方根
np.sqrt(a)
# 指数函数
np.exp(a)
# 求和
np.sum(a)
本文介绍了 Pandas 和 NumPy 的基础用法,包括如何读取、处理、过滤、排序和统计数据。它们是 Python 中必不可少的库,对于数据分析和处理非常有用。通过本文的示例,您可以更好地理解它们的用法,更好地处理和分析数据。