📅  最后修改于: 2020-12-10 06:24:39             🧑  作者: Mango
对于固定时间序列,自动回归模型将时间“ t”处的变量值视为值“ p”时间步长的线性函数。数学上可以写成-
$$ y_ {t} = \:C + \:\ phi_ {1} y_ {t-1} \:+ \:\ phi_ {2} Y_ {t-2} + … + \ phi_ {p} y_ {tp} + \ epsilon_ {t} $$
其中, “ p”是自回归趋势参数
$ \ epsilon_ {t} $是白噪声,并且
$ y_ {t-1},y_ {t-2} \:\:… y_ {tp} $表示前一个时间段的变量值。
p的值可以使用各种方法进行校准。找到“ p”的合适值的一种方法是绘制自相关图。
注意-在对数据进行任何分析之前,我们应将数据分成总数据的8:2比例进行训练和测试,因为测试数据仅是为了找出我们模型的准确性,而假设是,我们直到做出预测之后。对于时间序列,数据点的顺序非常重要,因此应牢记不要在数据拆分期间丢失顺序。
自相关图或相关图显示了先前时间步长处变量与自身的关系。它利用了Pearson的相关性,并显示了95%置信区间内的相关性。让我们看看数据的“温度”变量的样子。
在[141]中:
split = len(df) - int(0.2*len(df))
train, test = df['T'][0:split], df['T'][split:]
在[142]中:
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(train, lags = 100)
plt.show()
假定位于蓝色阴影区域之外的所有滞后值都具有反相关关系。