📜  数据分析中的属性及其类型

📅  最后修改于: 2021-08-27 04:50:31             🧑  作者: Mango

在本文中,我们将讨论属性以及数据分析中的各种类型。我们还将在示例的帮助下介绍属性类型,以便更好地理解。因此,让我们一一讨论。

属性 :
属性是显示为数据实体属性的数据项。机器学习文献倾向于使用“特征”一词,而统计学家则倾向于使用“变量”一词。
例子 –
让我们考虑一个示例,例如姓名,地址,电子邮件等是联系信息的属性。

给定属性的感知值称为观察值。属性的多样性由一组可行值(标称值,二进制,序数或数字)所坚持。

属性类型:

  • 标称属性:
    名词的意思是“与名字有关”。标称属性的实用程序是对象的符号或标题。每个值代表某种类别,代码或状态,因此名义属性也称为类别。

    例子 –
    假设肤色和受教育程度是表达人对象的两个属性。在我们的实现中,肤色的可能值为深色,白色,棕色。教育状态的属性可以包含以下值:本科,研究生,预科。肤色和受教育程度都是名义属性。

  • 二进制属性:
    二进制属性是名义属性的类别,仅包含两个类:0或1,其中0经常表明该属性不存在,而1则表明该属性存在。如果两个条件都符合true和false,则将二进制属性提到为布尔值。

    例子 –
    给定饮酒者叙述患者的属性,则1指定饮酒者喝酒,而0指定饮酒者不饮酒。同样,假设患者接受的医学检查有两个可行的结果。

  • 顺序属性:
    序数属性是具有可行优势的属性,在其中具有显着的顺序或等级,但是未知连续值之间的巨大关系。

    例子 –
    假设食物数量与餐厅可用的菜肴种类相对应。标称属性具有三个可能的值:启动器,主过程,组合。

    这些值具有对应于不同食物数量的有意义的顺序,但是,我们无法从这些值中得知中等大小比大多少。

  • 数值属性:
    数值属性是可计算的,也就是说,它是构成整数或实数值的可量化数量。
    数值属性可以分为以下两种类型:时间间隔缩放和比率缩放。

    让我们一一讨论。

    1. 间隔–缩放属性:
      间隔–缩放的属性是在均等大小单位的层板上计算的。间隔缩放的属性的值具有顺序,并且可以为正,0或负。因此,除了提供值的排名外,此类属性还使我们能够比较和量化值之间的差异。

      例子 –
      温度属性是一个间隔-缩放。对于每一天,每一天都是一个实体,我们有不同的温度值。通过对值进行排序,我们获得了与温度有关的实体排列。此外,我们可以量化两个值之间的值差,例如20摄氏度的温度比15摄氏度的温度高5摄氏度。

    2. 比率–缩放属性:
      比例缩放属性是具有即将到来或固定零点的数字属性的类别。包括在内,实体是结构化的,我们还可以计算值之间的差异,以及均值,中位数和众数。

      例子 –
      开尔文(K)温度标度被认为是真正的零点。在这一点上,由物质组成的小块具有零动能。

  • 离散属性:
    离散属性具有一组受限制的或受限制的不受限制的值,这些值可能显示为整数。肤色,饮酒者,医疗报告和饮酒量属性每个都有有限数量的值,因此是离散的。
  • 连续属性:
    连续属性具有实数作为属性值。

    例子 –
    身高,体重和温度具有真实值。实际值只能使用有限的数字表示和测量。连续属性通常表示为浮点变量。