📜  数据科学用Python(1)

📅  最后修改于: 2023-12-03 15:40:00.155000             🧑  作者: Mango

数据科学用Python

Python是一种流行的高级编程语言,它包含了许多用于数据科学的库和工具,因此成为了数据科学家们的首选。下面将介绍Python在数据科学中的应用。

数据处理

NumPy

NumPy是一个用于科学计算的Python库。它提供了一个强大的N维数组对象和许多用于处理这些数组的函数。

# 导入NumPy库
import numpy as np

# 创建一个3x3的二维数组
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr)

输出结果为:

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Pandas

Pandas是一个数据分析和处理库,通常用于处理表格数据。它提供了用于读取和写入各种格式的数据的工具、数据清洗和分析的函数等。

# 导入Pandas库
import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')

# 查看前5行
print(df.head())

输出结果为:

   id    name  age     sex
0   1     Tom   22    male
1   2    Lucy   19  female
2   3    Lily   20  female
3   4    John   23    male
4   5  Hannah   21  female
数据可视化

Matplotlib

Matplotlib是Python中最流行的数据可视化库。它提供了绘制各种图表的函数。

# 导入Matplotlib库
import matplotlib.pyplot as plt

# 生成数据
x = range(1, 11)
y = [i**2 for i in x]

# 绘制折线图
plt.plot(x, y)

# 设置图形属性
plt.title('Square Numbers')
plt.xlabel('Value')
plt.ylabel('Square of Value')

# 显示图形
plt.show()

输出结果为:

Square Numbers

Seaborn

Seaborn是建立在Matplotlib之上的高级可视化库。它提供了更多的图表类型和更好的样式。

# 导入Seaborn库
import seaborn as sns

# 生成数据
iris = sns.load_dataset('iris')

# 绘制散点图
sns.scatterplot(x='petal_length', y='petal_width', hue='species', data=iris)

# 设置图形属性
plt.title('Iris Data')
plt.xlabel('Petal Length')
plt.ylabel('Petal Width')

# 显示图形
plt.show()

输出结果为:

Iris Data

机器学习

Python中的机器学习库很多,其中常用的有Scikit-learn和TensorFlow。

Scikit-learn

Scikit-learn是Python中最流行的机器学习库之一。它提供了各种常用的机器学习算法和数据处理工具。

# 导入Scikit-learn库
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 生成数据
X, y = make_classification(n_samples=1000, n_features=10, n_classes=2, random_state=42)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练模型
clf = LogisticRegression()
clf.fit(X_train, y_train)

# 预测结果
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = clf.score(X_test, y_test)
print('Accuracy:', accuracy)

输出结果为:

Accuracy: 0.86

TensorFlow

TensorFlow是由Google开发的用于构建和训练机器学习模型的库。它支持各种深度学习和强化学习算法。

# 导入TensorFlow库
import tensorflow as tf

# 构建一个简单的神经网络
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(784,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=5)

# 预测结果
y_pred = model.predict(X_test)

# 计算准确率
accuracy = model.evaluate(X_test, y_test)[1]
print('Accuracy:', accuracy)

输出结果为:

Epoch 1/5
22/22 [==============================] - 0s 2ms/step - loss: 0.7548 - accuracy: 0.8095
Epoch 2/5
22/22 [==============================] - 0s 2ms/step - loss: 0.2501 - accuracy: 0.9362
Epoch 3/5
22/22 [==============================] - 0s 1ms/step - loss: 0.1586 - accuracy: 0.9571
Epoch 4/5
22/22 [==============================] - 0s 2ms/step - loss: 0.1092 - accuracy: 0.9743
Epoch 5/5
22/22 [==============================] - 0s 2ms/step - loss: 0.0799 - accuracy: 0.9857
10/10 [==============================] - 0s 1ms/step - loss: 0.1049 - accuracy: 0.9567
Accuracy: 0.9566666483879089
总结

Python是一种非常适合数据科学的编程语言,它具有强大的数据处理、数据可视化和机器学习库。希望这篇介绍能够帮助你更好地学习和使用Python进行数据科学。