据说“如果你给我六个小时砍一棵树,那么我会用前四个小时来磨斧头”。因此,在数据科学世界中,如果将数据科学视为树,那么 Anaconda 应该是斧头。是的,如果您正在开始数据科学之旅,那么您必须熟悉 Anaconda,即用于构建数据科学项目的工具。让我们简要定义这两个已知术语。 “数据科学是使用统计和机器学习技术分析原始数据的科学,目的是得出有关该信息的结论”而“Anaconda 是包含 Jupyter、Spyder 等的开源软件,用于大数据处理、数据分析,重型科学计算。 Anaconda 适用于 R 和Python编程语言”。
为什么选择用于数据科学的 Anaconda?
以下是您应该为下一个数据科学项目选择 Anaconda 的一些重要原因:
- 易于安装,
- 提供1000 多个数据科学包,
- Anaconda 在隔离和激活的环境中安装最新的Python 2 或 3 版本,因此任何安装的Python版本都不会对您的项目造成任何问题,
- 它对菜鸟友好!!是的,您不需要任何关于吓跑新手的常见书呆子东西的事先编码/编程知识。
安装过程
- 要在 Windows 上安装 Anaconda,请参阅如何在 Windows 上安装 Anaconda?
- 要在 Linux 上安装 Anaconda,请参阅如何在 Linux 上安装 Anaconda?
成功完成安装过程后,您现在就在这里, Anaconda Navigator .
蟒蛇导航器
Anaconda Navigator 是一个与 Anaconda 一起自动安装的图形用户界面。如果安装成功,导航器将打开。对于 Windows 用户,单击开始、搜索或从菜单中选择 Anaconda Navigator,如下图所示:
下面是打开 Anaconda Navigator 时的欢迎页面。
Anaconda Navigator里面包含很多东西。因此,让我们了解下一个数据科学项目需要哪些东西。
1. Jupyter 笔记本
Jupyter Notebook 是一个基于 Web 的交互式竞争笔记本环境。您可以在描述数据分析时编辑和运行人类可读的文档。 Jupyter Notebook 是一个开源 Web 应用程序,可让您创建和共享包含实时代码、方程式、可视化和叙述性文本的文档。用途包括数据清理和转换、数值模拟、统计建模、数据可视化、机器学习等等。下面是一个演示图像,用于演示 Jupyter Notebook UI 的外观:
有关更多详细信息,请参阅Jupyter Notebook 入门
2. JupyterLab
它是一个基于 Jupyter Notebook 和架构的交互式和可复制计算的可扩展环境。 JupyterLab 能够以灵活、集成和可扩展的方式处理文档和活动,例如 Jupyter 笔记本、文本编辑器、终端和自定义组件。下面是一个演示图像,用于演示 JupyterLab UI 的外观:
3. 间谍
最重要和最强大的Python IDE 之一是 Spyder。 Spyder 是另一个用Python编写的优秀的开源和跨平台 IDE。它也被称为科学Python开发 IDE,它是Python最轻量级的 IDE。它主要供数据科学家使用,可以与 Matplotlib、SciPy、NumPy、Pandas、Cython、IPython、SymPy 等开源软件集成。下面是一个演示图像,用于演示 Spyder UI 的外观:
4. RStudio
当谈到数据科学世界时, Python和 R 是我们脑海中最多的两种编程语言。 R Studio 是 R 编程语言的集成开发环境 (IDE)。它提供了文字编程工具,基本上允许将 R 脚本、输出、文本和图像使用到报表、Word 文档甚至 HTML 文件中。下面是一个演示图像,用于演示 RStudio UI 的外观:
更详细的请参考: R Studio介绍
除了这 4 个重要环境之外,还有一些其他环境对数据科学项目非常有用。让我们简要讨论它们。
- Datalore: Datalore 是一种在线数据分析工具,由 Jetbrains 提供智能编码辅助。可以在云中编辑和运行Python笔记本,并与团队共享。
- Glueviz: Glueviz 是跨文件的多维数据可视化。它是一个Python库,用于探索相关数据集内部和之间的关系。
- Orange 3: Orange 3 是一个基于组件的数据挖掘框架。它是一个强大的平台,可以执行数据分析和可视化、查看数据流并提高工作效率。
- IBM Watson Studio Cloud: IBM Watson Studio Cloud 提供了用于分析和可视化数据、清理和塑造数据以及创建和训练机器学习模型的工具。准备数据并构建模型,使用开源数据科学工具或可视化建模。
康达
如果您更喜欢使用命令行界面 (CLI),则可以使用conda在 Windows 上使用 Anaconda Prompt 或在 Linux 和 macOS 上使用终端来验证安装。在 Windows 中打开 Anaconda Prompt: 单击开始、搜索或从菜单中选择 Anaconda Prompt。
吃完午餐后,您会注意到终端现在在计算机名称前面写有(base)。这意味着您的基本 conda 环境已设置(意味着您正在为整个用户而不是特定环境在全球范围内工作)。
现在让我们讨论一些有用的命令
1.查看已安装的包
要查看所有已安装的软件包,请输入以下命令:
conda list
2. 搜索并安装一个包
假设用户想要安装熊猫,但他/她不知道版本。用户可以使用以下命令搜索其版本:
conda search pandas
要安装软件包,请键入以下命令
conda install pandas
并且用户想要安装1.2.4 版本的 Pandas,然后使用以下命令来执行此操作:
conda install pandas==1.2.4
3. 拆包
要删除包,请键入如下命令:
conda remove pandas
您还可以参考 conda 备忘单,获取有关使用 conda 的最重要信息的单页摘要。
使用 Anaconda 处理Python环境
conda
还可以根据需要创建、激活和停用虚拟环境。所有这些环境都是相互隔离的,可以托管非常不同的包和包版本组合,而不会相互干扰。
与许多其他语言一样, Python需要针对不同类型的应用程序使用不同的版本。应用程序需要在特定版本的语言上运行,因为它需要在旧版本中存在但在新版本中发生变化的特定依赖项。虚拟环境可以轻松地理想地分离不同的应用程序并避免不同依赖项的问题。使用虚拟环境,我们可以轻松地在两个应用程序之间切换并使它们运行。
要使用 Anaconda 为Python设置虚拟环境,您可以参考这篇文章如何使用 Anaconda 为Python设置虚拟环境。