📜  用于机器学习的顶级Python笔记本

📅  最后修改于: 2021-10-21 06:04:52             🧑  作者: Mango

Notebooks通过排列文本、代码、图像、输出等内容来逐步说明分析过程。这有助于数据科学家在设计研究过程时记录思考过程。传统上,笔记本用于记录工作和复制发现,只需在源数据上重新运行笔记本即可。但是为什么人们会选择使用笔记本而不是首选的 IDE 或命令行?当前基于浏览器的笔记本实现有很多限制,但它们所做的是提供一个用于探索、协作和可视化的环境。笔记本通常用于数据科学家的快速探索任务。

与任何本地脚本或工具相比,它们在这方面提供了一系列优势。笔记本电脑似乎通常设置在集群环境中,允许数据科学家利用超出其台式机/笔记本电脑可访问资源的计算资源,并在无需下载本地副本的情况下处理完整的数据集合。

用于机器学习的顶级 Python 笔记本

如今,交互式笔记本越来越受欢迎。他们正在会议中替换 PowerPoint,在公司之间进行交流,甚至他们还从 BI 套件中消除了工作量。如今,有许多笔记本可供选择,例如 Jupyter、R Markdown、Apache Zeppelin、Spark Notebook 等。在本文中,我们将介绍一些机器学习专业人士使用的顶级Python Notebook

1. Jupyter 笔记本

Jupyter Notebook是一个开源 Web 应用程序,可用于构建和共享实时代码、方程式、可视化和文本文档。 Jupyter Notebook 由 Project Jupyter 的人员维护。这是来自 IPython 项目的一个附带项目,它曾经有一个 IPython Notebook 项目本身。 Jupyter 这个名字源于它支持的核心编程语言:Julia、 Python和 R。Jupyter 附带了 IPython 内核,它允许您编写Python程序,但您也可以使用 100 多个其他内核.当您使用计算工具作为科学实验室书籍进行计算物理和/或大量数据分析时,Jupyter 笔记本特别有用。

2. 谷歌协作实验室

Google Colab ,也称为 Colaboratory,是一个免费的 Jupyter notebook 环境,不需要任何配置,完全在云端运行。它为用户提供免费的 GPU 和 TPU。您可以使用 Colaboratory 编写和执行代码,保存和共享您的分析,并从您的浏览器访问强大的计算工具,所有这些都是免费的。顾名思义,它伴随着产品中支持的协作。这是一个利用与 Google Docs 协作功能的 Jupyter 笔记本。它还在 Google 服务器上运行,因此您无需更新任何内容。笔记本将保存到您的 Google Drive 帐户。它为任何人提供了一个平台,可以使用 PyTorch、TensorFlow 和 Keras 等常用库来开发深度学习应用程序。它为您的计算机提供了一种方法,让您无需承担 ML 操作的高强度训练。

3. Kaggle

Kaggle是云中深度学习应用的绝佳平台。 Kaggle 和 Colab 有几个相似之处,它们都是 Google 的产品。与 Colab 一样,它让用户可以免费使用云中的 GPU。这为用户提供了 Jupyter Notebooks。 Jupyter Notebook 上的许多键盘快捷键与 Kaggle 相同。它有许多可以导入的数据集。 Kaggle Kernels 似乎经常遇到一些滞后,但比 Colab 快。 Kaggle 拥有一个庞大的社区来支持、学习和验证数据科学技能。

4. Azure 笔记本

Microsoft 的 Azure Notebooks在设计上与 Colab 非常相似。两个平台都有免费的云共享功能。在速度方面,Azure Notebooks 胜出,并且在这方面比 Colab 好得多。它有一个 4 GB 的内存。 Azure Notebooks 创建了一系列名为Libraries的链接笔记本。这些库的每个数据文件的大小不到 100 兆字节。 Azure Notebooks 支持Python、R 和 F# 编程语言。它有一个原生的 Jupyter 用户界面。 Azure Notebooks 最适合简单的应用程序。

5.亚马逊Sagemaker

亚马逊的笔记本 SageMaker在 Jupyter Notebook 应用程序上运行。它负责开发和维护 Jupyter 笔记本,可用于进一步处理数据以及训练和部署 ML 模型。它提供用于训练和模型部署的 API。 Amazon SageMaker 提供了一个控制台,允许用户使用控制台用户界面开始模型训练或部署模型。通过在一组工具中提供所有机器学习组件,它允许将 ML 模型轻松合并到应用程序中,从而可以以更少的工作量和更低的成本更快地生成模型。

6. IBM 数据平台笔记本

早在 2016 年,IBM 就推出了Watson 数据平台数据科学体验 (DSX) ,支持开源选项。其中包括适用于 Apache Spark、R、 Python、Scala 和 Jupyter 的笔记本。它最终推出了具有多云选择自由的数据科学工作平台。它是在 Kubernetes 产品容器化的帮助下完成的。因此,它可以部署在数据驻留的任何地方,在 Docker 或 CloudFoundry 容器中。与 Google Colab 不同,IBM DataPlatform Notebooks 具有多云容器化或混合部署。 Colab 需要针对其公共云对数据科学进行微调。

IBM 支持容器化,因为它允许客户在任何地方(包括竞争对手的公共云)分析数据并创建、部署和运行模型。 DSX 既是作为 DSX Local 的 Watson Data Platform 的一部分,也可能独立于它。它提供对程序、数据、数据科学资源、服务和社区空间的协作、受授权控制的访问。 DataPlatform Notebooks 支持 R、 Python和 Scala 语言,并支持来自 Jupyter 和 Apache Zeppelin 的笔记本。 DSX 的用户可以使用开源库,例如 Spark MLlib、TensorFlow、Caffe、Keras 和 MXNet。