📜  Alteryx 的完整介绍

📅  最后修改于: 2022-05-13 01:56:18.041000             🧑  作者: Mango

Alteryx 的完整介绍

Alteryx 在 Gartner 的 2018 年数据科学和机器学习平台魔力象限中被公认为领导者 Gartner 特别认可 alteryx 是在其愿景上执行能力最高的领导者 alteryx。 Alteryx 易于使用的解决方案满足了从公民数据科学家到训练有素的业务分析师等广泛问题解决者的需求,alteryx 平台为客户提供了一种无代码和代码友好的方法、数百个自动化构建块和能力与企业应用程序和机器人流程自动化或 rpa 集成,以自动化机器学习管道和业务流程。

什么是 Alteryx

Alteryx 是一个端到端的数据分析平台,允许用户在拖放用户界面中准备、混合和分析数据。拖放意味着您可以直接将任何工具或数据集直接拖到您的工作区中。

现在您可能想知道这与您可能已经在使用的程序(例如 excel 和其他几个电子表格程序)有何不同,将数据源添加到 excel 需要手动复制粘贴和重复任务,这对于数据清理也是如此。这种重复性工作的自动化是可能的,但您必须学习一些编程语言编码。在 alteryx 中,您可以通过将工具拖放到工作流程中来添加可重复的流程,然后可以自动化或安排定期运行此工作流程,从而节省大量时间,excel 也仅限于一百万行,所以任何大于必须将其放入单独的文件中,而在 alteryx 中可以使用大量数据,并且它具有 70 多种不同类型的所需数据连接器或工具以及各种 API。

我们来看看平台的基本结构

用户界面——Alteryx

在顶部,您可以看到所有工具所在的工具面板,从这里您可以将工具拖放到工作流画布,这是一个空白空间来创建您的工作流,在左侧,您可以看到配置窗口如果您没有在下面选择任何其他内容,它会显示所选工具、连接或工作流本身的配置 我们有结果窗口 它向我们显示工作流运行时的数据状态,并显示任何消息警告或错误可能会发生,它还为我们提供了指向所创建的输出文件的链接。要运行我们的工作流程,我们可以单击画布右上方的运行按钮或按键盘上的控制加 R (ctrl+R) 或单击选项然后运行工作流程,这将启动数据流您在画布上配置的工具的输入工具,这里要注意的重要一点是,除非我们使用输出数据工具覆盖它,否则运行工作流程不会更改原始文件输入的任何内容,而且工具不会做任何事情您的数据,除非您先配置它们。

每个工具都有不同的配置,如果配置不正确,它会在工具图标上显示一个红色感叹号,这表明我们需要进一步采取行动。在这个窗口中,第一个带有螺丝的图标包含我们讨论过的工具配置,而下一个带有箭头的图标是导航,它向我们显示哪些工具连接到我们拥有的选定工具,我们也可以隐藏或显示它们通过选择或取消选择无线复选框连接选项卡图标向我们显示工具的注释设置,在这里我们可以命名工具并键入每个工具的注释或标题注释也可以根据画布设置显示总是显示或从不显示窗口中的最后一个图标将我们带到 alteryx 的帮助页面,它包含有关所选工具的完整文档。

完成工作流程后,您可以通过导航到“文件”菜单将其保存,然后点击“保存”,您的工作流程将作为点yxmd 文件保存在您指定的文件路径中,该文件保存整个工作流程,包括使用的工具,您还可以导出您的工作流程通过单击选项然后导出工作流程,这会将您的文件保存为 yxzp,这是一个包含您的工作流程 yxmd 以及任何资产(例如您在工作流程中拥有的输入文件)的 alteryx 包,如果您正在与组织中的其他人分享您的工作。现在我们将深入研究这些不同领域的细节,让我们继续讨论 alteryx 支持的不同数据类型

Alteryx 根据其数据类型以不同方式处理值,以下是五种主要数据类型

NOData TypeDescription
1StringThis is plain text such as names places and descriptions
2Alphanumeric Contain symbols next are the numerics they can contain numerical values that can range from negative numbers to positive numbers and also exponential numbers
3Date & TimeContain the date or the time format
4BooleanContain either one for true or zero for false this data type is usually used for flagging the data for example a customer can either be subscribed as a member wherein the value is 1 or if not it’s 0.
5spatial ObjectThis data type contains objects such as blobs, centroids and polygons this can also be an image or sound file the underscore string and the underscore w string are both variable length meaning that they can both adjust the length of the field to accommodate the entire string within the field the underscore w string will accept any character including white format and unicode characters it’s also a great catch-all field type if you are not sure of the format of your incoming data we have several different numeric data types the smallest is byte which can only accommodate small hold numbers up to 255 or 8 bits in size next are the integers in int 16 int 32 or int 64 which all takes full numbers wherein their size is indicated on their names 16 32 64 bits respectively.

我们在引入数据时在alteryx中检查这些数据类型,很多用户使用选择工具检查数据类型和结构,添加选择工具点击准备工具集然后点击选择工具并将其拖到画布上虚线将显示您可以将其附加到附近的输入数据工具,一旦完成后松开工具,它将变成一条直线 alteryx 现在可以通过此配置窗口向您显示连接数据中的可用字段列表这显示了每列的数据类型及其大小。

所有这些只是对 alteryx 的介绍,现在我们可以了解工具方面的内容:

内部/户外工具

它们用于从您的桌面、网站、云等位置访问数据。

数据输入工具

在大多数情况下,这将是您的工作流程开始的地方。我喜欢将您视为您将打开以允许您的数据进入 Alteryx 的门。数据可以是各种格式,例如 xls、csv、jason、xml、tab 等等。

数据输出工具

如果“输入数据”是允许您的数据进入工作区的门,那么“输出数据”是一扇锁着的门,它将结束 Alteryx 进程。再见你的工作旅行!您的数据现在可以使用了。

准备工具

蓝色工具旨在协助数据处理过程进行分析。无需担心 Excel 公式中的 SQL 编码,您只需在工作流程中拖放工具即可。

筛选

基本上,过滤器允许您将数据分成两个流:满足您的语音的记录(真)和不满足您的语音的记录(假)。之后您可以访问这两个广播,但作为一种良好做法,建议以您想要的响应将在“真实”方面的方式构造一个句子。

选择工具

从某种意义上说,它看起来像一个过滤器,一旦它在列中重新运行,而不是一个可能导致正确或错误答案的对话框,您可以在这里选择和编辑您的字段。重命名、调整大小、调整数据大小等很有用。

公式工具

允许您以不同的方式创建或更新字段。例如,我们使用公式来计算文件中的列数,以创建一个总共有两列的新列。

多线公式工具

此工具允许您在一个字段中创建或更新行。今天我们用它来填充美国地区的列中的“空白”值,使地区出现在每一行中。

加入工具

这些是用于集成不同数据源的工具。

联合工具

用于组合两个或多个格式相同(相同列)但数据不同的数据流。结果将是一个文件,其中包含您的所有信息都流在一起。

解析和转换工具

它们有助于将数据重新排列和重塑为分析所需的格式。

转置工具

这会将水平场转换为垂直场。

交叉表工具

这与转置工具相反:它将垂直场转换为水平场。

文本到列工具

将文本从一个地方分成单独的行或列。例如,如果您在逗号分隔的行中有单词,并且想要将它们拆分到一个新列中,这将非常有用。

正则表达式工具

使用此工具,您可以使用常用表达式分析、匹配或修改数据。例如,在分析 Twitter 数据时,我们需要删除标点符号。在这种情况下,我们创建了一个简单的语句,指示 Alteryx 只保留字母“@”和“#”。通过这种方式,我们存储单词、主题标签和用户,并删除诸如停顿、省略号、感叹号和问号之类的想法。

除此之外,还有许多工具可以帮助您进行数据分析和可视化。

学习 alteryx 的最好方法就是开始练习并制定工作流程,这是唯一能帮助您完全理解它的方法。

制定工作流程

现在让我们尝试可视化制作工作流程让我们首先将输入数据添加到我们的画布单击斜线工具类别并将输入工具拖动到画布该工具将引入文件或数据库连接到我们的工作流程以添加文件 单击配置窗口上的箭头这将打开一个数据连接窗口,显示您最近使用的文件 您保存的数据 文件数据源和图库 文件和数据源选项卡列出了所有类型的文件和数据alteryx 支持的连接以添加文件您可以单击选择文件并导航到数据文件夹中的文件或从文件资源管理器中拖放文件,如果您选择 Excel 文件,它将引导您到一个窗口,您可以在其中选择一个工作表或指定您需要的单元格范围,或者您可以只导入工作表名称,因为我们将使用工作表内的数据,我们选择后者单击确定应用,每个选项部分都会有所不同文件类型,除非您指定如何读取文件。

在 excel 文件上,我们首先有记录限制,如果您只想要该数据的样本,则可以添加特定数量的行,该数据的文件格式为表格或查询,在这种情况下,它包含我们的工作表名称搜索子目录仅在从某个路径导入多个文件时使用,输出文件名作为文件将文件名或整个文件路径添加到数据第一行包含数据用于不包含标题和指示行的文件您想从下面的预览框中开始数据导入包含前 100 条记录,对于更宽的文件可以更少 要查看完整的数据,让我们添加浏览工具 一旦我们运行工作流,数据将显示在结果窗口中,在结果窗口中,您有行记录数和数据大小

如果您只想查看选择字段,您可以通过选择窗口左上角的字段来显示或隐藏它,您还可以在单元格查看器上查看单元格的内容并显示它是否有空格,您还可以通过单击保存图标将此数据保存为新文件或通过单击复制按钮将其复制

数据质量

元数据类型显示数据集中每个字段列的类型大小和来源,冒号数据质量栏显示在结果窗口中每列数据的顶部 红色 不正常 该列包含带有前导或尾随空格的值 黄色null 该列不包含任何值 灰色 空该列包含没有值和绿色的字符串OK,该列包含不带前导或尾随空格的值 如果您想在右上角的搜索栏中检查特定值类型的数据并点击在其中一个字段上输入与该值关联的所有行,您还可以对各个列进行排序和过滤,这样做单击字段名称上的三个点,然后单击过滤器或对这些过滤器进行排序,排序更改将除非您将工具应用到画布上,否则这不是您工作流程中的永久步骤,这将使用您使用浏览工具应用的适当配置添加到过滤器或排序工具中也允许您可以查看每列的数据配置文件,这在浏览配置窗口中可用如果您没有从浏览窗口中选择任何字段,它将显示每列出现频率最高的值的表格列表,包括其中的实例数它可用于在浏览窗口中选择特定字段的数据,这将使您更深入地了解该列,该信息将根据该列的数据类型而有所不同。

结论

在我们的示例中,我们有一个数字字段,第一个图表包含该字段的数据质量摘要,显示它的某个百分比是否有空空或尾随空格下一个图表具有条形图分组的字段的值统计信息可用数据的范围,并显示哪个范围具有更多的重复值,因为这是一个数值,它还向我们展示了一些简单的统计值,例如数据的最小值、最大值和平均值最后是一个最高值列表让我们来看看一个字符串字段并查看其配置文件差异我们仍然有相同的数据质量图表,但我们在统计图表上有一点不同,而是利用字符串的长度并显示它具有的最短和最长值,并且具有第一个数值和最后一个数值,它还显示具有最常见值的值图表。

另一种向 alteryx 添加数据的方法是通过文本输入。它允许您在不使用文件或数据库的情况下创建新的数据流,您可以从配置框中手动输入数据。

如果您单击它,每个工具都会为您提供简要说明和附加示例。所有这些信息足以开始使用 alteryx。此外,Alteryx 社区有各种各样已经解决的问题,这些问题非常有益,学习这样的工具肯定会帮助你开始你的数据科学生涯。