📝 Apache Flink教程
18篇技术文档📅  最后修改于: 2020-10-30 10:07:06        🧑  作者: Mango
Apache Flink是Apache Hadoop的开源本机分析数据库。它由Cloudera,MapR,Oracle和Amazon等供应商提供。本教程中提供的示例已使用Cloudera Apache Flink开发。本教程适用于那些想学习Apache Flink的人。 Apache Flink用于使用传统SQL知识以闪电般的速度处理大量数据。先决条件要充分利用本教程,您应该对Hadoop和HDF...
📅  最后修改于: 2020-10-30 10:07:20        🧑  作者: Mango
过去10年中数据的发展是巨大的。这产生了一个术语“大数据”。没有固定大小的数据,您可以将其称为大数据。传统系统(RDBMS)无法处理的任何数据都是大数据。大数据可以采用结构化,半结构化或非结构化格式。最初,数据具有三个维度-体积,速度,多样性。尺寸现在已经超出了三个V。现在,我们添加了其他Vs-准确性,有效性,漏洞,价值,可变性等。大数据导致出现了许多有助于存储和处理数据的工具和框架。有一些流行的...
📅  最后修改于: 2020-10-30 10:07:35        🧑  作者: Mango
在大数据方面,有两种处理类型-批量处理实时处理基于一段时间内收集到的数据进行的处理称为批处理。例如,一家银行经理想要处理过去一个月的数据(随着时间的推移而收集),以了解过去1个月中被取消的支票数量。基于即时数据的即时结果处理称为实时处理。例如,发生欺诈交易(即时结果)后,银行经理立即收到欺诈警报。下表列出了批处理和实时处理之间的区别-Batch ProcessingReal-Time Proces...
📅  最后修改于: 2020-10-30 10:07:51        🧑  作者: Mango
Apache Flink是可以处理流数据的实时处理框架。它是一个开源流处理框架,用于高性能,可伸缩和准确的实时应用程序。它具有真正的流模型,并且不会将输入数据作为批处理或微批处理。Apache Flink由Data Artisans公司创建,现在由Apache Flink社区根据Apache许可进行开发。到目前为止,这个社区有479位贡献者和15500多个提交。Apache Flink上的生态系统...
📅  最后修改于: 2020-10-30 10:08:12        🧑  作者: Mango
Apache Flink在Kappa体系结构上工作。 Kappa体系结构具有单个处理器-流,该流将所有输入视为流,而流引擎则实时处理数据。 kappa体系结构中的批处理数据是流的一种特殊情况。下图显示了Apache Flink体系结构。Kappa体系结构的关键思想是通过单个流处理引擎处理批处理数据和实时数据。大多数大数据框架都在Lambda体系结构上工作,该体系结构具有用于批处理和流数据的单独处理...
📅  最后修改于: 2020-10-30 10:08:23        🧑  作者: Mango
以下是下载和使用Apache Flink的系统要求-推荐的操作系统Microsoft Windows 10Ubuntu 16.04 LTS苹果macOS 10.13 / High Sierra记忆需求内存-至少4 GB,建议8 GB储存空间-30 GB注– Java 8必须在已设置环境变量的情况下可用。...
📅  最后修改于: 2020-10-30 10:08:38        🧑  作者: Mango
在开始安装/安装Apache Flink之前,让我们检查一下我们的系统中是否安装了Java 8。Java-版本现在,我们将下载Apache Flink。现在,解压缩tar文件。转到Flink的主目录。启动Flink群集。打开Mozilla浏览器并转到以下URL,它将打开Flink Web仪表板。http://本地主机:8081这就是Apache Flink仪表板的用户界面的样子。现在,Flink群...
📅  最后修改于: 2020-10-30 10:08:57        🧑  作者: Mango
Flink具有丰富的API集,开发人员可以使用它们对批处理和实时数据进行转换。各种转换包括映射,过滤,排序,联接,分组和聚合。 Apache Flink的这些转换是在分布式数据上执行的。让我们讨论Apache Flink提供的不同API。数据集APIApache Flink中的数据集API用于在一段时间内对数据执行批处理操作。该API可以在Java,Scala和Python。它可以对数据集应用不同...
📅  最后修改于: 2020-10-30 10:09:11        🧑  作者: Mango
表API是具有类似表达式语言的SQL的关系API。此API可以执行批处理和流处理。它可以与Java和Scala数据集以及数据流API一起嵌入。您可以从现有数据集和数据流或从外部数据源创建表。通过此关系API,您可以执行连接,聚合,选择和过滤之类的操作。无论输入是批处理还是流,查询的语义都保持不变。这是一个示例表API程序-...
📅  最后修改于: 2020-10-30 10:09:37        🧑  作者: Mango
在本章中,我们将学习如何创建Flink应用程序。打开Eclipse IDE,单击“新建项目”,然后选择“ Java项目”。输入项目名称,然后单击完成。现在,单击完成,如以下屏幕截图所示。现在,右键单击src并转到New >> Class。输入课程名称,然后单击完成。将以下代码复制并粘贴到编辑器中。在编辑器中会出现很多错误,因为Flink库需要添加到该项目中。右键单击项目>>构建路径>>配置构建路径...
📅  最后修改于: 2020-10-30 10:09:51        🧑  作者: Mango
在本章中,我们将学习如何运行Flink程序。让我们在Flink集群上运行Flink wordcount示例。转到Flink的主目录,然后在终端中运行以下命令。转到Flink仪表板,您将能够看到完成的作业及其详细信息。如果单击“完成的作业”,您将获得作业的详细概述。要检查wordcount程序的输出,请在终端中运行以下命令。...
📅  最后修改于: 2020-10-30 10:10:14        🧑  作者: Mango
在本章中,我们将学习Apache Flink的不同库。复杂事件处理(CEP)FlinkCEP是Apache Flink中的API,可分析连续流数据上的事件模式。这些事件接近实时,具有高吞吐量和低延迟。该API主要用于实时传输的传感器数据,并且处理起来非常复杂。CEP分析输入流的模式并很快给出结果。在事件模式复杂的情况下,它具有提供实时通知和警报的能力。 FlinkCEP可以连接到不同种类的输入源并...
📅  最后修改于: 2020-10-30 10:10:28        🧑  作者: Mango
Apache Flink的机器学习库称为FlinkML。由于过去五年来机器学习的使用呈指数增长,因此Flink社区决定将这种机器学习APO也添加到其生态系统中。在FlinkML中,贡献者和算法的列表正在增加。此API尚未成为二进制分发的一部分。这是使用FlinkML进行线性回归的示例-在flink-1.7.1 / examples / batch /路径中,您会找到KMeans.jar文件。让我们...
📅  最后修改于: 2020-10-30 10:10:50        🧑  作者: Mango
在本章中,我们将了解Apache Flink中的一些测试用例。Apache Flink-Bouygues电信Bouygues Telecom是法国最大的电信组织之一。它拥有11+百万移动用户和2.5+百万固定客户。 Bouygues在巴黎举行的Hadoop小组会议上首次听说了Apache Flink。从那时起,他们一直在将Flink用于多个用例。他们每天通过Apache Flink实时处理数十亿条...
📅  最后修改于: 2020-10-30 10:11:06        🧑  作者: Mango
这是一张综合表,显示了三种最受欢迎的大数据框架之间的比较:Apache Flink,Apache Spark和Apache Hadoop。Apache HadoopApache SparkApache FlinkYear of Origin200520092009Place of OriginMapReduce (Google) Hadoop (Yahoo)University of Califo...