📅  最后修改于: 2023-12-03 14:40:37.386000             🧑  作者: Mango
Dask是一个用于大数据处理的Python库。在处理大量数据时,我们需要知道当前任务的进度以及估计处理时间的情况。Dask提供了几种方法来显示进度条来帮助良好的工作流。
Dask提供了一种简单的方式来显示进度条,即使用dask.diagnostics.ProgressBar()
。ProgressBar()
使用 tqdm 库来显示进度条。这个库可以在脚本中很容易地安装。
以下是一个简单的示例:
import dask.array as da
import dask.diagnostics
# 创建一些假数据
data = da.ones((10000, 10000), chunks=(1000, 1000))
# 开始计算
with dask.diagnostics.ProgressBar():
result = (data + data.T) ** 2
在这个例子中,我们使用dask.diagnostics.ProgressBar()
上下文来监视进度。执行代码后,进度条将显示在命令行中:
[########################################] | 100% Completed | 6.3s
可以将进度条注册到(多)任务。只需传递一个Dask对象即可。
以下是一个简单的示例:
import dask.array as da
import dask.diagnostics
# 创建一些假数据
data = da.ones((10000, 10000), chunks=(1000, 1000))
# 声明常规函数
def my_function(x):
return x ** 2
# 注册ProgressBar到my_function
my_function = dask.diagnostics.ProgressBar()(my_function)
# 开始计算
result = my_function(data)
在这个例子中,我们注册dask.diagnostics.ProgressBar()
到我们的函数 my_function()
。 这将显示有关 my_function()
进度的信息。
无论你选择哪种方式,使用dask.diagnostics.ProgressBar()
都可以帮助您在处理大量数据时了解它的进展。