如何在 R 中创建和解释对图?
在本文中,我们将讨论如何在 R 语言中创建和解释对图。
配对图帮助我们可视化单个变量的分布以及两个变量之间的关系。它们是识别变量之间趋势以进行后续分析的好方法。对图本质上是多面板散点图,其中每个不同的面板都包含一对变量之间的散点图。
方法 1:在 Base R 中创建对图
要在 R 语言中创建对图,我们使用pairs()函数。默认情况下,R 语言中提供了pairs函数,它会生成散点图矩阵。 pair()函数将数据框作为参数,并返回数据框中每对变量之间的散点图矩阵。
Syntax: pairs( df )
Parameter:
- df: determines the data frame used for plotting to scatter plot.
例子:
这是 Base R 中的基本配对图。
R
# create sample_data
x <- rnorm(500)
y <- x + rnorm(500, 0, 10)
z <- x - rnorm(500, 0, 7)
sample_data <- data.frame(x, y, z)
#create pairs plot
pairs( sample_data )
R
# load libraries ggplot2 and ggally
library(ggplot2)
library(GGally)
# create sample_data
x <- rnorm(500)
y <- x + rnorm(500, 0, 10)
z <- x - rnorm(500, 0, 7)
sample_data <- data.frame(x, y, z)
# create pairs plot
ggpairs( sample_data )
输出:
在这里,在上面的配对图中,对角线框显示变量 x、y 和 z 的名称。所有其他框显示变量的每个成对组合之间的散点图。例如,第二个框显示 x 和 y 之间的散点图,而第三个框显示 x 和 z 之间的散点图。
这个配对图的问题在于它没有给我们任何关于变量的统计信息,并且上图中只有六个不同的散点图,因为 xz 和 zx 图相同,yx 和 xy 图相同,并且yz 和 zy 情节相同。因此,存在空间浪费以及关系数据的缺失。为了解决这个问题,我们使用 ggplot2 包。
方法 2:使用 ggplot2 和 ggally 创建对图
要使用 ggplot2 包创建配对图,我们使用 ggally 包的 ggpairs()函数。 ggally 包是 ggplot2 包的扩展,它通过添加几个函数来扩展 ggplot2 包,以降低将几何图形与转换数据组合的复杂性。 ggpairs()函数用给定的数据集制作一个图矩阵。它为每对变量生成散点图,为每个变量生成密度图,还显示每对变量的 Pearson 相关系数。
Syntax:
ggpairs( df )
Parameter:
- df: determines the data frame used for plotting to scatter plot.
例子:
这是一个使用 ggplot2 和 ggally 包库的基本配对图。
R
# load libraries ggplot2 and ggally
library(ggplot2)
library(GGally)
# create sample_data
x <- rnorm(500)
y <- x + rnorm(500, 0, 10)
z <- x - rnorm(500, 0, 7)
sample_data <- data.frame(x, y, z)
# create pairs plot
ggpairs( sample_data )
输出:
在这里,在上面的配对图中,变量名称在矩阵的外边缘显示为 x、y 和 z。沿对角线的框显示每个变量的密度图,而左下角的框显示每对变量之间的散点图。右上角的方框显示每个变量之间的 Pearson 相关系数。
皮尔逊相关性为我们提供了两个变量之间线性关系的度量。它的值介于 -1 到 1 之间,其中 -1 的值表示完全负线性相关,0 表示没有相关性,+1 表示完全正相关。
使用 ggplot2 包制作的配对图更好,因为它们提供了更多的视觉信息,而不会重复相同的图。它们还为我们提供了 Pearson 相关系数,这有助于我们理解这些变量之间的关系。