📝 R教程

107篇技术文档
  R-折线图

📅  最后修改于: 2020-11-29 07:51:49        🧑  作者: Mango

折线图是通过在一系列点之间绘制线段来连接它们的图形。这些点以其坐标(通常为x坐标)值之一排序。折线图通常用于识别数据趋势。R中的plot()函数用于创建折线图。句法在R中创建折线图的基本语法是-以下是所用参数的描述-v是包含数值的向量。type使用值“ p”仅绘制点,“ l”仅绘制线,“ o”绘制点和线。xlab是x轴的标签。ylab是y轴的标签。主要是图表的标题。col用于为点和线赋予颜色。例使...

  R-散点图

📅  最后修改于: 2020-11-29 07:52:11        🧑  作者: Mango

散点图显示在笛卡尔平面中绘制的许多点。每个点代表两个变量的值。在水平轴上选择一个变量,在垂直轴上选择另一个变量。简单的散点图是使用plot()函数创建的。句法在R中创建散点图的基本语法是-以下是所用参数的描述-x是数据集,其值为水平坐标。y是数据集,其值是垂直坐标。主要是图的图块。xlab是水平轴上的标签。ylab是垂直轴上的标签。xlim是用于绘制的x值的限制。ylim是用于绘制的y值的极限。a...

  R-均值,中位数和众数

📅  最后修改于: 2020-11-29 07:52:36        🧑  作者: Mango

R中的统计分析是通过使用许多内置函数来执行的。其中大多数功能都是R基本程序包的一部分。这些函数将R向量与参数一起作为输入并给出结果。我们在本章中讨论的功能是均值,中位数和众数。意思通过取值的总和除以数据序列中的值数来计算。函数mean()用于在R中进行计算。句法计算R中均值的基本语法是-以下是所用参数的描述-x是输入向量。trim用于从排序的向量的两端删除一些观测值。na.rm用于从输入向量中删除...

  R-线性回归

📅  最后修改于: 2020-11-29 07:53:03        🧑  作者: Mango

回归分析是建立两个变量之间关系模型的一种非常广泛使用的统计工具。这些变量之一称为预测变量,其值是通过实验收集的。另一个变量称为响应变量,其值是从预测变量得出的。在线性回归中,这两个变量通过一个方程式关联,其中两个变量的指数(幂)为1。数学上,线性关系表示为曲线图时表示一条直线。任何变量的指数不等于1的非线性关系会创建一条曲线。线性回归的一般数学方程为-以下是所用参数的描述-y是响应变量。x是预测变...

  R-多元回归

📅  最后修改于: 2020-11-29 07:53:27        🧑  作者: Mango

多元回归是线性回归到两个以上变量之间关系的扩展。在简单线性关系中,我们有一个预测变量和一个响应变量,但在多元回归中,我们有多个预测变量和一个响应变量。多元回归的一般数学方程为-以下是所用参数的描述-y是响应变量。a,b1,b2 … bn是系数。x1,x2,… xn是预测变量。我们使用R中的lm()函数创建回归模型。该模型使用输入数据确定系数的值。接下来,我们可以使用这些系数为给定的一组预测变量预测...

  R-Logistic回归

📅  最后修改于: 2020-11-29 07:53:52        🧑  作者: Mango

Logistic回归是一种回归模型,其中响应变量(因变量)具有分类值,例如True / False或0/1。实际上,它根据与预测变量关联的数学方程式将二进制响应的概率作为响应变量的值进行测量。Logistic回归的一般数学方程为-以下是所用参数的描述-y是响应变量。x是预测变量。a和b是作为数字常数的系数。用于创建回归模型函数是GLM()函数。句法Logistic回归中glm()函数的基本语法为-...

  R-正态分布

📅  最后修改于: 2020-11-29 07:54:13        🧑  作者: Mango

从独立来源随机收集数据时,通常会观察到数据分布是正常的。这意味着,在水平轴上绘制变量值并在垂直轴上计数值的图形时,我们会得到一个钟形曲线。曲线的中心代表数据集的平均值。在图中,值的百分之五十位于平均值的左侧,而另外百分之五十位于图形的右侧。这在统计中称为正态分布。R具有四个内置函数来生成正态分布。如下所述。以下是上述功能中使用的参数的说明-x是数字的向量。p是概率的向量。n是观察数(样本大小)。平...

  R-二项式分布

📅  最后修改于: 2020-11-29 07:54:34        🧑  作者: Mango

二项分布模型处理发现一系列事件中只有两个可能结果的事件成功的可能性。例如,抛硬币总会带来正面或反面。在二项式分布过程中,估计发现10次重复投掷硬币时恰好有3个头的可能性。R具有四个内置函数来生成二项式分布。如下所述。以下是所用参数的描述-x是数字的向量。p是概率的向量。n是观察数。大小是试验次数。概率是每次试验成功的概率。dbinom()此函数给出每个点的概率密度分布。现场演示当我们执行以上代码时...

  R-泊松回归

📅  最后修改于: 2020-11-29 07:54:55        🧑  作者: Mango

泊松回归涉及回归模型,其中响应变量采用计数形式,而不是分数形式。例如,足球比赛系列中的出生数或获胜数。响应变量的值也遵循泊松分布。泊松回归的一般数学方程为-以下是所用参数的描述-y是响应变量。a和b是数字系数。x是预测变量。用于创建泊松回归模型中的函数是GLM()函数。句法泊松回归中glm()函数的基本语法为-以下是上述功能中使用的参数的说明-公式是表示变量之间关系的符号。data是给出这些变量值...

  R-协方差分析

📅  最后修改于: 2020-11-29 07:55:22        🧑  作者: Mango

我们使用回归分析来创建模型,以描述预测变量对响应变量的影响。有时,如果我们有一个类别变量,其值是“是/否”或“男性/女性”等,则简单的回归分析会为该类别变量的每个值提供多个结果。在这种情况下,我们可以通过将分类变量与预测变量一起使用并比较分类变量每个级别的回归线来研究分类变量的影响。这种分析称为协方差分析,也称为ANCOVA。例考虑内置数据集mtcars的R。在其中,我们观察到字段“ am”代表传...

  R-时间序列分析

📅  最后修改于: 2020-11-29 07:55:44        🧑  作者: Mango

时间序列是一系列数据点,其中每个数据点都与时间戳关联。一个简单的例子是在给定的一天中,股票在不同时间点的价格。另一个例子是该地区一年中不同月份的降雨量。 R语言使用许多函数来创建,操纵和绘制时间序列数据。时间序列的数据存储在称为时间序列对象的R对象中。它也是一个R数据对象,例如矢量或数据帧。时间序列对象是使用ts()函数创建的。句法时序分析中ts()函数的基本语法为-以下是所用参数的描述-数据是包...

  R-非线性最小二乘

📅  最后修改于: 2020-11-29 07:56:05        🧑  作者: Mango

当为回归分析建模真实世界的数据时,我们观察到很少出现模型方程是线性方程给出线性图的情况。在大多数情况下,现实世界数据模型的方程式涉及较高阶的数学函数,例如3的指数或正弦函数。在这种情况下,模型的图将给出曲线而不是直线。线性回归和非线性回归的目标都是调整模型参数的值,以找到最接近数据的直线或曲线。找到这些值后,我们将能够以较高的准确性估算响应变量。在最小二乘回归中,我们建立了一个回归模型,在该模型中...

  R-决策树

📅  最后修改于: 2020-11-29 07:56:28        🧑  作者: Mango

决策树是以树的形式表示选择及其结果的图形。图中的节点表示事件或选择,图的边缘表示决策规则或条件。它主要用于使用R的机器学习和数据挖掘应用程序中。使用决策树的示例包括-根据电子邮件和垃圾邮件中的每一个因素,将电子邮件预测为垃圾邮件或非垃圾邮件,预测肿瘤为癌,或将贷款预测为信用风险的高低。通常,使用观察到的数据(也称为训练数据)创建模型。然后,使用一组验证数据来验证和改进模型。 R具有用于创建和可视化...

  R-随机森林

📅  最后修改于: 2020-11-29 07:56:51        🧑  作者: Mango

在随机森林方法中,创建了大量决策树。每个观察结果都被馈送到每个决策树中。每个观察结果最常见的结果用作最终输出。一个新的观察结果被馈送到所有的树中,并为每个分类模型投票。对于在构建树时未使用的情况进行了错误估计。这就是所谓的OOB(袋外)误差估计,以百分比表示。R包“ randomForest”用于创建随机森林。安装R包在R控制台中使用以下命令安装软件包。您还必须安装从属软件包(如果有)。包“ ra...

  R-生存分析

📅  最后修改于: 2020-11-29 07:57:16        🧑  作者: Mango

生存分析用于预测特定事件将要发生的时间。这也称为故障时间分析或死亡时间分析。例如,预测癌症患者生存的天数或预测机械系统将要发生故障的时间。名为生存的R包用于进行生存分析。该程序包包含函数Surv(),该函数将输入数据作为R公式,并在所选变量中创建一个生存对象以进行分析。然后,我们使用函数survfit()来创建分析图。安装套件句法在R中创建生存分析的基本语法是-以下是所用参数的描述-时间是事件发生...