📜  毫升 |特征选择的卡方检验

📅  最后修改于: 2022-05-13 01:55:34.146000             🧑  作者: Mango

毫升 |特征选择的卡方检验

特征选择也称为属性选择,是从数据集中提取最相关的特征,然后应用机器学习算法以获得更好的模型性能的过程。大量不相关的特征会成倍地增加训练时间并增加过拟合的风险。

特征提取的卡方检验:
卡方检验用于数据集中的分类特征。我们计算每个特征和目标之间的卡方,并选择所需数量的具有最佳卡方分数的特征。它确定样本的两个分类变量之间的关联是否会反映它们在总体中的真实关联。
卡方分数由下式给出:

在哪里 -

卡方特征选择的Python实现:

# Load libraries
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
  
# Load iris data
iris_dataset = load_iris()
  
# Create features and target
X = iris_dataset.data
y = iris_dataset.target
  
# Convert to categorical data by converting data to integers
X = X.astype(int)
  
# Two features with highest chi-squared statistics are selected
chi2_features = SelectKBest(chi2, k = 2)
X_kbest_features = chi2_features.fit_transform(X, y)
  
# Reduced features
print('Original feature number:', X.shape[1])
print('Reduced feature number:', X_kbest.shape[1])

输出:

Original feature number: 4
Reduced feature number : 2