📅  最后修改于: 2023-12-03 14:40:07.492000             🧑  作者: Mango
TensorFlow 是一个广泛使用的深度学习框架,其中包含了一些常用的数据集用于训练和测试深度神经网络模型。MNIST 是 TensorFlow 中最经典的数据集之一,它是一个手写数字识别的问题,包含了大量的手写体数字图像和相应的标签。
MNIST 数据集共包含 70000 个样本,其中 60000 个样本用于训练,10000 个样本用于测试。每个样本是一个 28x28 像素的灰度图像,图片中包含了一个手写数字(0-9),标签是对应的数字值。这个数据集非常适合用于开始学习和研究深度学习。
MNIST 数据集的每个样本都已经经过了预处理,并保存为灰度图像矩阵和相应的标签。图像矩阵中的像素值范围从0到255,代表了灰度值,数字越大表示颜色越浅。标签是一个整数,表示了对应图像中的数字。
要在 TensorFlow 中使用 MNIST 数据集,可以使用 tf.keras.datasets.mnist
模块提供的函数来加载数据集。下面是一个加载 MNIST 数据集,并将数据集分为训练集和测试集的示例代码:
import tensorflow as tf
# 加载 MNIST 数据集
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()
# 输出训练集和测试集的形状
print("训练集输入数据形状:", x_train.shape)
print("训练集标签数据形状:", y_train.shape)
print("测试集输入数据形状:", x_test.shape)
print("测试集标签数据形状:", y_test.shape)
输出:
训练集输入数据形状: (60000, 28, 28)
训练集标签数据形状: (60000,)
测试集输入数据形状: (10000, 28, 28)
测试集标签数据形状: (10000,)
可以看到,加载完成后,训练集包含 60000 个样本,每个样本是一个 28x28 的灰度图像,训练集的标签也对应着这些样本。测试集包含 10000 个样本,同样每个样本是一个 28x28 的灰度图像,而测试集的标签则与测试集的样本对应。
为了更好地理解 MNIST 数据集,我们可以可视化一些样本。下面是一个使用 matplotlib
库来可视化 MNIST 数据集的示例代码:
import matplotlib.pyplot as plt
# 可视化训练集中的前 10 个样本
for i in range(10):
plt.subplot(2, 5, i + 1)
plt.imshow(x_train[i], cmap="gray")
plt.title(str(y_train[i]))
plt.axis("off")
plt.tight_layout()
plt.show()
运行上述代码可以显示训练集中的前 10 个样本,对应的标签也显示在图像的标题上。使用 cmap="gray"
参数可以将图像以灰度的形式进行显示。
通过加载和使用 TensorFlow MNIST 数据集,我们可以轻松地进行手写数字识别问题的学习和研究。这个数据集非常适合初学者,同时也可以作为从传统机器学习方法迁移到深度学习方法的一个起点。