📅  最后修改于: 2023-12-03 14:52:04.500000             🧑  作者: Mango
时间序列数据是按照时间顺序排列的数据集合。例如,股价、气温、交通流量等。时间序列数据的特点是包含了时间维度,因此时间序列数据分析的重点在于如何利用时间维度信息进行预测。
平稳性是指时间序列数据的统计特性在时间上保持不变的属性。平稳时间序列数据的均值和方差不会随时间变化而发生明显的变化。具有平稳性的时间序列数据的统计特性(如均值和方差)在整个时间序列上保持不变的特点,从而简化了时间序列数据的分析和建模的过程。
为了检查时间序列数据是否平稳,我们可以使用以下方法:
使用统计图表可以帮助我们快速了解数据是否具有平稳性。具体来说,我们可以使用时间序列数据的滚动均值和滚动标准差来了解数据的变化趋势。如果均值和标准差保持不变,则可以认为数据具有平稳性。
# 导入相关库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 读取时间序列数据
data = pd.read_csv('data.csv', index_col='date', parse_dates=['date'])
# 绘制滚动均值和滚动标准差图
rolmean = data['value'].rolling(window=12).mean()
rolstd = data['value'].rolling(window=12).std()
# 绘制原始数据、滚动均值和滚动标准差图
plt.plot(data['value'], color='blue', label='Original')
plt.plot(rolmean, color='red', label='Rolling Mean')
plt.plot(rolstd, color='black', label='Rolling Std')
plt.legend(loc='best')
plt.title('Rolling Mean & Standard Deviation')
plt.show()
以上代码会绘制出原始数据、滚动均值和滚动标准差图,通过观察图形可以判断时间序列数据是否具有平稳性。
定量检验方法是通过数学模型来检验时间序列数据是否具有平稳性。具体来说,我们可以使用ADF检验和KPSS检验来检验时间序列数据的平稳性。
ADF检验(Augmented Dickey-Fuller test)是一种常用的检验时间序列数据平稳性的方法。该检验方法基于单位根检验的思想,通过检验序列是否具有单位根来检验序列的平稳性。
# 导入相关库
from statsmodels.tsa.stattools import adfuller
# 进行ADF检验
result = adfuller(data['value'])
# 输出ADF检验结果
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
print('\t%s: %.3f' % (key, value))
KPSS检验(Kwiatkowski-Phillips-Schmidt-Shin test)也是一种常用的检验时间序列数据平稳性的方法。该检验方法与ADF检验相反,基于序列是否呈现趋势和季节性来检验序列的平稳性。
# 导入相关库
from statsmodels.tsa.stattools import kpss
# 进行KPSS检验
result = kpss(data['value'])
# 输出KPSS检验结果
print('KPSS Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Lags Used: %d' % result[2])
print('Critical Values:')
for key, value in result[3].items():
print('\t%s: %.3f' % (key, value))
以上代码会输出ADF检验和KPSS检验的结果,通过观察结果可以判断时间序列数据是否具有平稳性。
通过上述方法,我们可以检验时间序列数据是否平稳。如果数据具有平稳性,则说明数据在时间上的统计特性不会随时间发生变化,可以用来做时间序列分析和建模。否则,需要对数据进行差分或变化以使其平稳。