📜  数据分析中的属性及其类型

📅  最后修改于: 2021-09-08 15:57:25             🧑  作者: Mango

在本文中,我们将讨论属性及其在数据分析中的各种类型。我们还将在示例的帮助下介绍属性类型,以便更好地理解。那么让我们一一讨论。

属性 :
属性是作为数据实体的属性出现的数据项。机器学习文献倾向于使用术语特征,而统计学家更喜欢术语变量。
例子 –
让我们考虑一个例子,如姓名、地址、电子邮件等是联系信息的属性。

给定属性的感知值称为观察值。属性的多样性由一组可行值——名义值、二进制值、有序值或数字值——所坚持。

属性类型:

  • 名义属性:
    Nominal 的意思是“与名字有关”。名义属性的效用是对象的符号或标题。每个值代表某种类别、代码或状态,因此名义属性也称为类别。

    例子 –
    假设肤色和教育程度是表达人物对象的两个属性。在我们的实现中,肤色的可能值为深色、白色、棕色。教育状态的属性可以包含值 – 本科、研究生、预科。肤色和教育状况都是名义属性。

  • 二进制属性:
    二元属性是一类仅包含两个类的名义属性:0 或 1,其中 0 通常表示该属性不存在,而 1 表示它存在。如果两个条件都为真和假,则二进制属性被称为布尔值。

    例子 –
    给定属性drinker narrate 患者项目,1 指定饮酒者喝酒,而0 指定患者不喝酒。类似地,假设患者接受了具有两个实际结果的医学测试。

  • 序数属性:
    序数属性是具有可行优势的属性,它们之间具有显着的序列或排名,但连续值之间的巨大性未知。

    例子 –
    假设食物数量对应于餐厅提供的菜肴种类。名义属性具有三个可能的值:starters、main course、combo。

    这些值具有对应于不同食物数量的有意义的序列,但是,我们无法从这些值中判断出大多少,例如,中号比大号大多少。

  • 数字属性:
    数字属性是可计算的,即构成整数或实数值的可量化数量。
    数字属性可以有以下两种类型:间隔缩放和比率缩放。

    让我们一一讨论。

    1. 间隔 – 缩放属性:
      间隔 – 缩放属性是在统一大小单位的薄片上计算的。区间标度属性的值具有顺序,可以为正、0 或负。因此,除了提供值的排名之外,这些属性还允许我们比较和量化值之间的差异。

      例子 –
      温度属性是一个区间 – 缩放。我们每个新的一天都有不同的温度值,其中每一天都是一个实体。通过对值进行排序,我们获得了与温度相关的实体排列。另外,我们可以量化数值之间的数值差异,例如20摄氏度的温度比15摄氏度的温度高5度。

    2. 比率 – 缩放属性:
      比率 – 缩放属性是具有迫近或固定零点的数字属性的类别。在包含中,实体是结构化的,我们还可以计算值之间的差异,以及均值、中位数和众数。

      例子 –
      开尔文 (K) 温标具有真正的零点。这是构成物质的微小部分的动能为零的点。

  • 离散属性:
    离散属性具有有限或受限的无限值集,这些值可能显示为整数。皮肤颜色、饮酒者、医疗报告和饮料大小的属性每个都有有限数量的值,因此是离散的。
  • 连续属性:
    连续属性具有实数作为属性值。

    例子 –
    身高、体重和温度具有真实值。实际值只能使用有限数量的数字来表示和测量。连续属性通常表示为浮点变量。