Python – Pandas 的 Bamboolib
如果你是数据科学爱好者或数据科学家,你就会知道 Pandas 是一个不可或缺的库,它允许你执行数据整理,在构建机器学习模型之前,你可以在其中读取数据、预处理数据、处理丢失的数据等。
Pandas 确实使很多工作变得非常简单并且非常强大,但是使用它并掌握它可能是一个巨大的挑战。为了解决这个问题并使 pandas 的使用更方便,我们在Python中提供了一个库,称为Bamboolib 库。
Bamboolib:它是 pandas 数据帧的 GUI 扩展,用于轻松进行数据探索和转换,使任何人都可以在 Jupyter Notebook 或 JupyterLab 中使用Python 。
让我们看一下这个库的一些功能以及如何使用它们。
注意: Bamboolib 仅在 Kaggle 和 Binder 上免费提供以获取开放数据。您也可以在计算机上使用付费版本。
Bamboolib 库的安装:
在开始之前,我们需要先安装库。请按照以下步骤正确安装库。
#install bamboolib on linux or anaconda prompt
pip install bamboolib
- 如果你想在 Kaggle 或 Binder 上使用这个库,你可以在这一步停止,否则继续 -
安装完成后运行以下命令:
jupyter nbextension enable --py qgrid --sys-prefix
jupyter nbextension enable --py widgetsnbextension --sys-prefix
jupyter nbextension install --py bamboolib --sys-prefix
jupyter nbextension enable --py bamboolib --sys-prefix
如果你想在 Jupyter notebook 上使用它,那么你可以在这里停下来,但如果你也想在 JupyterLab 上使用它,你可以继续按照步骤完成安装。
确保已安装node.js
和npm
。
#install nodejs on anaconda prompt
conda install -c conda-forge nodejs
#install npm on anaconda prompt
pip install npm
jupyter labextension install @jupyter-widgets/jupyterlab-manager --no-build
jupyter labextension install @8080labs/qgrid --no-build
jupyter labextension install plotlywidget --no-build
jupyter labextension install jupyterlab-plotly --no-build
jupyter labextension install bamboolib --no-build
jupyter lab build --minimize=False
现在安装完成。
如何使用 Bamboolib:
要了解如何使用这个库,我们将使用 Binder。为此,请浏览 github。您还可以按照上述步骤构建自己的 Binder 笔记本,或者像我们将在此处执行的那样使用已经可用的笔记本。
打开笔记本后,运行以下代码以可视化数据:
现在您可以使用 Showbamboolib UI 按钮来执行各种功能。
您可以看到主要有 3 个可用选项:
- 探索数据框
- 创建绘图
- 搜索转换
1)探索数据框:
您有 4 个可用选项,即:
- Glimpse:在这里,您可以获得有关数据集中列的信息。您可以了解列的数据类型、唯一值的数量、“n”行中的列中的缺失值,这里 n=891。
- 列:这提供了每列的信息。特定列的概述,分类概述- 特定值出现在列中的次数。
这还提供了两列之间的双变量图,以获取有关数据集的更多信息。 - 预测模式:您可以通过单击热图的任何单元格来预测数据集的模式以获取列之间的关系。
- 相关矩阵:您可以获得任何列之间的相关矩阵。
2)创建情节:
您可以创建任何图,如条形图、直方图、散点图等,并可以添加不同的属性。用于开发绘图的 pandas 代码也可用,您也可以复制和粘贴这些代码以获得相同的输出。
3)搜索转换:
您可以对数据集执行各种转换。其中一些是:
删除列:由于在使用的数据集中,我们可以看到 Cabin 有大量缺失值,因此我们可以从数据集中删除/删除该列。选择选择或删除列选项,填写字段并按执行。
您将自动获得 pandas 代码并针对您执行的此转换执行。新的数据框显示为输出。
过滤器:使用此选项,您可以创建数据子集以应用某些条件对其进行分析。这是在数据中获得有意义的见解的最常用技术。在这里,我们过滤了“年龄”列上的数据集,以使用年龄访问记录>25。
新数据框显示为输出。
排序:您可以使用此转换对列上的数据集进行排序。也可以同时对多个列执行排序。这里我们按升序对“名称”列上的数据进行了排序。
笔记:
- 要撤消或重做您对数据框执行的任何转换,您可以单击“历史记录”按钮。
- 要获取先前转换的代码,请转到Export 。如果选中实时代码导出,那么您将自动获取代码。
Bamboolib 提供了许多其他转换选项,例如Group by 和聚合、重命名列、替换值、更改列数据类型等。
使用 Bamboolib 的好处:
Bamboolib 是一个非常方便且易于使用的工具。可以立即执行大型数据框架的转换。这对于组织来说非常有用,因为几乎没有编程知识的员工也可以使用这个工具,而无需费力或查找语法来获得任务完成,之后可以获得操作或转换的语法。这对程序员也很有帮助,因为他们可以处理数据并研究用户特定问题的语法,而不是查找不同的案例并尝试提取所需的结果.
既然您已经学习了这个惊人的动手工具,请自己尝试一下,并探索您的数据可以提供的隐藏信息。如有任何疑问,请在下方留言。
在评论中写代码?请使用 ide.geeksforgeeks.org,生成链接并在此处分享链接。