📜  探索分类数据

📅  最后修改于: 2022-05-13 01:54:51.552000             🧑  作者: Mango

探索分类数据

分类变量/数据(或名义变量):

此类变量具有固定且有限数量的可能值。例如——等级、性别、血型等。此外,在分类变量的情况下,逻辑顺序与分类数据不同,例如“一”、“二”、“三”。但是这些变量的排序使用逻辑顺序。例如,性别是一个分类变量,有类别——男性和女性,类别没有内在顺序。纯分类变量是一种仅允许您分配类别,但您无法清楚地对变量进行排序的变量。

与变异性度量相关的术语:

  • 模式:给定数据中最常出现的值
    例子-
    Data = ["Car", "Bat", "Bat", "Car", "Bat", "Bat", "Bat", "Bike"]
    Mode = "Bat"
  • 期望值:在机器学习中工作时,类别必须与数值相关联,以便理解机器。这给出了基于类别发生概率的平均值,即预期值。
    它的计算方式是——
    -> Multiply each outcome by its probability of occurring.
    -> Sum these values

    因此,它是值的总和乘以它们的发生概率,通常用于总结因子变量水平。

  • 条形图:每个类别的频率绘制为条形图。

    加载库 –

    import matplotlib.pyplot as plt
    import numpy as np
    

    数据 -

    label = ['Car', 'Bike', 'Truck', 'Cycle', 'Jeeps', 'Amulance']
    no_vehicle = [941, 854, 4595, 2125, 942, 509]
    

    索引数据 –

    index = np.arange(len(label))
      
    print ("Total Labels : ", len(label))
    print ("Indexing : ", index)
    

    输出:

    Total Labels :  6
    Indexing :  [0 1 2 3 4 5]

    条状图 -

    plt.bar(index, no_vehicle)
    plt.xlabel('Type', fontsize = 15)
    plt.ylabel('No of Vehicles', fontsize = 15)
    plt.xticks(index, label, fontsize = 10, rotation = 30)
    plt.title('Market Share for Each Genre 1995-2017')
      
    plt.show()
    

    输出:

  • 饼图:每个类别的频率绘制为饼图或楔形图。它是一个圆形图,其中每个切片的弧长与其表示的数量成正比。
    plt.figure(figsize =(8, 8))
    plt.pie(no_vehicle, labels = label, 
            startangle = 90, autopct ='%.1f %%')
    plt.show()
    

    输出: