📝 Python数据科学教程

41篇技术文档
  Python图形数据

📅  最后修改于: 2020-12-13 14:19:34        🧑  作者: Mango

CSGraph代表压缩稀疏图,它专注于基于稀疏矩阵表示的快速图算法。图表示首先,让我们了解什么是稀疏图及其在图形表示中的帮助。稀疏图到底是什么?图只是节点的集合,节点之间具有链接。图几乎可以代表任何事物-社交网络连接,其中每个节点都是一个人,并与熟人相连;图像,其中每个节点是一个像素,并连接到相邻像素;高维分布中的点,其中每个节点都连接到其最近的邻居,几乎可以想象到其他任何事物。表示图形数据的一种...

  Python测量中心趋势

📅  最后修改于: 2020-12-13 14:19:53        🧑  作者: Mango

数学上的中心趋势是指测量数据集值的中心或位置分布。它给出了数据集中数据平均值的概念,并指出了这些值在数据集中分布的范围。反过来,这有助于评估将新输入拟合到现有数据集中的机会,从而评估成功的可能性。可以使用pandas Python库中的方法计算出集中趋势的三种主要度量。均值-它是数据的平均值,是值的总和除以值的数量。中位数-当值以升序或降序排列时,它是分布中的中间值。模式-它是分布中最常见的值。计...

  Python测量方差

📅  最后修改于: 2020-12-13 14:20:10        🧑  作者: Mango

在统计数据中,方差是数据集中某个值与平均值之间的距离的量度。换句话说,它指示值的分散程度。通过使用标准偏差进行测量。常用的另一种方法是偏度。这两个都是通过使用pandas库中可用的函数来计算的。测量标准偏差标准偏差是方差的平方根。方差是数据集中值与平均值的平方差的平均值。在Python,我们通过使用pandas库中的函数std()计算此值。其输出如下-测量偏度它用于确定数据是对称的还是偏斜的。如果...

  Python正态分布

📅  最后修改于: 2020-12-13 14:20:25        🧑  作者: Mango

正态分布是通过排列数据中每个值的概率分布来呈现数据的形式,大多数值保持在平均值附近,从而使排列对称。我们使用numpy库中的各种函数来数学计算正态分布的值。将创建直方图,在该直方图上绘制概率分布曲线。其输出如下-...

  Python二项式分布

📅  最后修改于: 2020-12-13 14:20:39        🧑  作者: Mango

二项分布模型处理发现一系列事件中只有两个可能结果的事件成功的可能性。例如,抛硬币总会带来正面或反面。在二项式分布过程中,估计发现10次重复投掷硬币时恰好有3个头的可能性。我们使用具有内置功能的seaborn Python库来创建此类概率分布图。另外,scipy软件包还有助于创建二项式分布。其输出如下-...

  Python泊松分布

📅  最后修改于: 2020-12-13 14:20:53        🧑  作者: Mango

泊松分布是显示事件在预定时间段内可能发生的次数的分布。它用于独立事件,这些事件在给定的时间间隔内以恒定的速率发生。泊松分布是一个离散函数,意味着该事件只能按发生或不发生的方式进行度量,这意味着该变量只能按整数进行度量。我们使用具有内置功能的seaborn Python库来创建此类概率分布图。 scipy软件包还有助于创建二项式分布。其输出如下-...

  Python -Bernoulli发行

📅  最后修改于: 2020-12-13 14:21:07        🧑  作者: Mango

伯努利分布是二项分布的一种特例,在该二项分布中进行了一次实验,因此观察次数为1。因此,伯努利分布描述的事件恰好具有两个结果。我们在numpy库中使用各种函数来数学计算bernoulli分布的值。将创建直方图,在该直方图上绘制概率分布曲线。其输出如下-...

  Python -P值

📅  最后修改于: 2020-12-13 14:21:25        🧑  作者: Mango

p值与假设的强度有关。我们基于一些统计模型建立假设,并使用p值比较模型的有效性。获得p值的一种方法是使用T检验。这是对原假设的独立检验,原假设是独立观察值’a’的样本的期望值(均值)等于给定的总体均值popmean。让我们考虑以下示例。上面的程序将生成以下输出。比较两个样本在以下示例中,有两个样本,它们可以来自相同或不同的分布,我们想测试这些样本是否具有相同的统计属性。ttest_ind-为两个独...

  Python关联

📅  最后修改于: 2020-12-13 14:21:39        🧑  作者: Mango

相关性是指涉及两个数据集之间的相关性的一些统计关系。相关现象的简单例子包括父母及其后代的外表之间的相关性,以及产品价格与其提供的数量之间的相关性。我们以seaborn Python库中可用的虹膜数据集为例。我们尝试建立三种鸢尾花的萼片和花瓣的长度和宽度之间的相关性。根据发现的相关性,可以创建一个易于将一个物种与另一个物种区分开的强大模型。其输出如下-...

  Python卡方检验

📅  最后修改于: 2020-12-13 14:21:55        🧑  作者: Mango

卡方检验是一种统计方法,用于确定两个类别变量之间是否具有显着相关性。这些变量都应来自相同的人群,并且应该是分类的,例如-是/否,男性/女性,红色/绿色等。例如,我们可以使用对人们的冰淇淋购买模式的观察来构建数据集,并尝试进行关联具有他们喜欢的冰淇淋口味的人的性别。如果发现相关性,我们可以通过了解来访者的性别人数来计划适当的风味储备。我们使用numpy库中的各种函数来进行卡方检验。其输出如下-...

  Python线性回归

📅  最后修改于: 2020-12-13 14:22:09        🧑  作者: Mango

在线性回归中,这两个变量通过一个方程式关联,其中两个变量的指数(幂)为1。数学上,线性关系表示为曲线图时表示一条直线。任何变量的指数不等于1的非线性关系会创建一条曲线。Seaborn中找到线性回归关系的函数是regplot。以下示例显示了其用法。其输出如下-...