如何在 Linux 上安装 Orange 数据挖掘工具?
Orange 是一个强大的平台,可用于执行数据分析和可视化、查看数据流并提高生产力。它提供了一个干净的开源平台。它是由卢布尔雅那大学在 GPLv3 许可下开发的。
安装步骤
第一步:首先我们在安装Orange Tool之前先安装pip等依赖。
sudo apt install build-essential python3-dev python3-pip
要验证安装,请运行:
pip3 –version
第2步:现在,安装橙色工具。
pip3 install orange3
Note: This command will also install various machine learning libraries and PyQt5 that may cost you additional data.
使用橙色工具
在命令行上运行以下命令:
python3 -m Orange.canvas
橙色小部件
这些是可视化编程环境的数据工作流的构建块。我们根据其功能对以下橙色小部件进行了分类。
数据
这些小部件读取和显示数据。一些常见的例子是:
- 文件:它读取输入数据文件并将数据集发送到其输出通道。
- CSV 文件导入:它读取逗号分隔的文件并将数据集发送到其输出通道。
- 数据集:它从服务器检索选定的数据集并将它们发送到输出。
- 数据表:它在其输入中接收数据集并将其呈现为电子表格。
可视化
这些小部件通过各种图表和条形图可视化给定数据。一些常见的例子是:
- 箱线图:显示属性值的分布。
- 分布:显示离散或连续属性的值分布。
- 散点图:提供二维散点图可视化。
模型
这些小部件将机器学习算法应用于给定的数据集。一些常见的例子是:
- 常数:它 从训练集中预测最频繁的类别或平均值。
- CN2 Rule:它使用 CN2 算法从数据中归纳出规则。
- kNN:根据最近的训练实例进行预测。
- 随机森林:它使用一组决策树进行预测。
评估
这些小部件评估模型小部件产生的结果。一些常见的例子是:
- 测试和评分:它在数据上测试机器学习算法。
- 预测:它显示模型对数据的预测。
- 混淆矩阵:它显示了预测类和实际类之间的比例。
无监督
这些小部件处理无监督数据。一些常见的例子是:
- 距离矩阵:它在距离矩阵中可视化距离度量。
- 距离图:它可视化对象之间的距离。
- k-Means:它将 k-Means 算法应用于数据。