📝 Python数据科学教程

41篇技术文档
  Python数据科学教程

📅  最后修改于: 2020-12-13 14:08:53        🧑  作者: Mango

数据是新的石油。该声明说明了如何通过捕获,存储和分析满足各种需求的数据来驱动每个现代IT系统。它涉及决策业务,天气预报,研究生物学中的蛋白质结构或设计市场营销活动。所有这些情况都涉及使用数学模型,统计数据,图形,数据库以及数据分析背后的业务或科学逻辑的多学科方法。因此,我们需要一种能够满足数据科学所有这些多样化需求的编程语言。 Python拥有众多的库和内置功能,因此它作为一种语言而发光。它很容易...

  Python数据科学简介

📅  最后修改于: 2020-12-13 14:09:21        🧑  作者: Mango

数据科学是通过组织,处理和分析数据从大量不同的数据集中获取知识和见解的过程。它涉及许多不同的学科,例如数学和统计建模,从源中提取数据并应用数据可视化技术。通常,它还涉及处理大数据技术以收集结构化和非结构化数据。下面我们将看到一些使用数据科学的示例场景。推荐系统随着在线购物变得越来越普遍,电子商务平台能够捕获用户的购物偏好以及市场上各种产品的性能。这导致创建推荐系统,该推荐系统将创建模型来预测购物者...

  Python数据科学环境设置

📅  最后修改于: 2020-12-13 14:10:06        🧑  作者: Mango

为了成功创建并运行本教程中的示例代码,我们需要一个环境设置,该环境应同时具有通用Python和数据科学所需的特殊软件包。我们首先看一下为安装通用的Python可以是Python2或Python 3。但是,我们会更喜欢Python2本教程主要是因为它的成熟和更广泛的支持外部包。获取Python最新的源代码,二进制文件,文档,新闻等可在Pythonhttps:// www的官方网站上找到。 Pytho...

  Python熊猫

📅  最后修改于: 2020-12-13 14:10:32        🧑  作者: Mango

Pandas是一个开源Python库,它使用其强大的数据结构用于高性能数据处理和数据分析。带有熊猫的Python已在各种学术和商业领域中使用,包括金融,经济学,统计,广告,Web分析等。使用Pandas,无论数据的来源如何,我们都可以完成五个典型的数据处理和分析步骤-加载,组织,操纵,建模和分析数据。以下是熊猫的一些重要功能,这些功能专门用于数据处理和数据分析工作。熊猫的主要特点快速有效的Data...

  Python -Numpy

📅  最后修改于: 2020-12-13 14:10:49        🧑  作者: Mango

NumPy是一个Python软件包,代表“ Numerical Python”。它是一个由多维数组对象和用于数组处理的例程集合组成的库。使用NumPy的操作使用NumPy,开发人员可以执行以下操作-数组上的数学和逻辑运算。傅里叶变换和用于形状处理的例程。与线性代数有关的运算。 NumPy具有用于线性代数和随机数生成的内置函数。NumPy – MatLab的替代品NumPy通常与SciPy(Scie...

  Python -SciPy

📅  最后修改于: 2020-12-13 14:11:10        🧑  作者: Mango

Python的SciPy库是为与NumPy数组一起使用而构建的,并提供了许多用户友好且高效的数值实践,例如用于数值积分和优化的例程。它们一起运行在所有流行的操作系统上,安装迅速且免费。 NumPy和SciPy易于使用,但功能强大,足以被一些世界领先的科学家和工程师所依赖。SciPy子软件包SciPy被组织成涵盖不同科学计算领域的子包。这些总结在下表中-scipy.constantsPhysical...

  Python -Matplotlib

📅  最后修改于: 2020-12-13 14:11:26        🧑  作者: Mango

Matplotlib是一个Python库,用于通过使用Python脚本创建2D图形和绘图。它有一个名为pyplot的模块,通过提供控制线条样式,字体属性,格式轴等功能,使绘图变得容易。它支持多种图形和绘图,即-直方图,条形图,功率谱,误差图等。它与NumPy一起使用,以提供一种环境,该环境是MatLab的有效开源替代方案。它也可以与PyQt和wxPython等图形工具包一起使用。按照惯例,通过添加...

  Python数据操作

📅  最后修改于: 2020-12-13 14:11:50        🧑  作者: Mango

Python主要通过两个库Pandas和Numpy处理各种格式的数据。在前面的章节中,我们已经看到了这两个库的重要功能。在本章中,我们将看到每个库中有关如何操作数据的一些基本示例。Numpy中的数据操作NumPy中定义的最重要的对象是称为ndarray的N维数组类型。它描述了相同类型的项目的集合。可以使用从零开始的索引来访问集合中的项目。可以通过本教程后面介绍的不同数组创建例程来构造ndarray...

  Python数据清理

📅  最后修改于: 2020-12-13 14:12:25        🧑  作者: Mango

在现实生活中,数据丢失始终是一个问题。机器学习和数据挖掘等领域在模型预测的准确性方面面临着严重的问题,因为缺少值会导致数据质量较差。在这些领域中,缺失值处理是使模型更准确和有效的主要重点。什么时候以及为什么会丢失数据?让我们考虑对产品进行在线调查。很多时候,人们不会共享与他们有关的所有信息。很少有人会分享他们的经验,但是不会分享他们使用该产品多长时间。很少有人分享他们使用该产品的时间,他们的经历而...

  Python处理CSV数据

📅  最后修改于: 2020-12-13 14:12:52        🧑  作者: Mango

从CSV(逗号分隔值)中读取数据是数据科学的基本必要条件。通常,我们从各种来源获取数据,这些数据可以导出为CSV格式,以便其他系统可以使用。 Panadas库提供了一些功能,通过这些功能,我们可以完全或部分地读取选定的一组列和行的CSV文件。输入为CSV文件csv文件是一个文本文件,其中列中的值用逗号分隔。让我们考虑一下名为input.csv的文件中存在的以下数据。您可以使用Windows记事本通...

  Python处理JSON数据

📅  最后修改于: 2020-12-13 14:13:13        🧑  作者: Mango

JSON文件以人类可读格式将数据存储为文本。 JSON代表JavaScript对象符号。熊猫可以使用read_json函数读取JSON文件。输入数据通过将以下数据复制到文本编辑器(如记事本)中来创建JSON文件。保存扩展名为.json的文件,然后选择文件类型为所有文件(*。*)。读取JSON文件pandas库的read_json函数可用于将JSON文件读入pandas DataFrame。当我们执...

  Python处理XLS数据

📅  最后修改于: 2020-12-13 14:13:36        🧑  作者: Mango

Microsoft Excel是一个非常广泛使用的电子表格程序。它的用户友好性和吸引人的功能使其成为数据科学中非常常用的工具。 Panadas库提供了一些功能,通过这些功能,我们可以全部或部分读取Excel文件,而仅读取选定的一组数据。我们还可以读取包含多个工作表的Excel文件。我们使用read_excel函数从中读取数据。输入为Excel文件我们在Windows操作系统中创建具有多个工作表的e...

  Python关系数据库

📅  最后修改于: 2020-12-13 14:14:02        🧑  作者: Mango

我们可以连接到关系数据库,以使用pandas库以及用于实现数据库连接性的另一个附加库来分析数据。该软件包名为sqlalchemy,它提供了可在Python使用的完整SQL语言功能。安装SQLAlchemy使用Anaconda的安装非常简单,我们已经在“数据科学环境”一章中进行了讨论。假设您已按照本章中的说明安装了Anaconda,请在Anaconda提示窗口中运行以下命令以安装SQLAlchemy...

  Python -NoSQL数据库

📅  最后修改于: 2020-12-13 14:14:26        🧑  作者: Mango

随着越来越多的数据变为非结构化或半结构化数据,通过NoSql数据库管理数据的需求增加了。 Python还可以以与关系数据库类似的方式与NoSQL数据库进行交互。在本章中,我们将使用Python与MongoDB作为NoSQL数据库进行交互。如果您是MongoDB的新手,可以在这里的教程中学习它。为了连接到MongoDB, Python使用了一个称为pymongo的库。您可以使用Anaconda环境中...

  Python日期和时间

📅  最后修改于: 2020-12-13 14:14:49        🧑  作者: Mango

在数据科学中,我们经常需要基于时间值的分析。 Python可以优雅地处理各种日期和时间格式。日期时间库提供了处理以下情况的必要方法和功能。日期时间表示日期时间算术日期时间比较我们将一一研究。日期时间表示日期及其各个部分使用不同的datetime函数表示。另外,有些格式说明符在显示日期的字母部分(例如月份或星期几的名称)中起作用。以下代码显示了今天的日期和日期的各个部分。当我们执行上面的代码时,它产...