Apache Kafka教程

📅 最后修改于: 2020-12-03 02:53:34 🧑 作者: Mango

Apache Kafka起源于LinkedIn，后来在2011年成为开源Apache项目，然后在2012年成为First-class Apache项目。Kafka用Scala和Java编写。 Apache Kafka是基于发布-订阅的容错消息传递系统。它是快速，可扩展的，并且可以按设计进行分发。本教程将探讨Kafka的原理，安装，操作，然后逐步引导您完成Kafka集群的部署。最后，我们将以实时应用...

Apache Kafka-简介

📅 最后修改于: 2020-12-03 02:54:06 🧑 作者: Mango

在大数据中，使用了大量的数据。关于数据，我们面临两个主要挑战。第一个挑战是如何收集大量数据，第二个挑战是分析收集的数据。为了克服这些挑战，您必须需要一个消息传递系统。Kafka专为分布式高吞吐量系统而设计。 Kafka可以很好地替代传统的消息代理。与其他邮件系统相比，Kafka具有更好的吞吐量，内置的分区，复制和固有的容错能力，使其非常适合大型邮件处理应用程序。什么是邮件系统?消息系统负责将数据从...

Apache Kafka-基础

📅 最后修改于: 2020-12-03 02:54:26 🧑 作者: Mango

在深入探讨Kafka之前，您必须了解主题，经纪人，生产者和消费者等主要术语。下图说明了主要术语，下表详细说明了图的组成部分。在上图中，一个主题被配置为三个分区。分区1具有两个偏移因子0和1。分区2具有四个偏移因子0、1、2和3。分区3具有一个偏移因子0。副本的ID与托管它的服务器的ID相同。假设，如果主题的复制因子设置为3，则Kafka将为每个分区创建3个相同的副本，并将它们放置在群集中以使其可用...

Apache Kafka-集群体系结构

📅 最后修改于: 2020-12-03 02:54:41 🧑 作者: Mango

看一下下图。它显示了Kafka的群集图。下表描述了上图中显示的每个组件。S.NoComponents and Description1BrokerKafka cluster typically consists of multiple brokers to maintain load balance. Kafka brokers are stateless, so they use ZooKeep...

Apache Kafka-工作流程

📅 最后修改于: 2020-12-03 02:55:12 🧑 作者: Mango

到目前为止，我们讨论了Kafka的核心概念。现在让我们来了解一下Kafka的工作流程。Kafka只是主题的集合，分为一个或多个分区。 Kafka分区是消息的线性排序序列，其中每个消息均由其索引(称为偏移)标识。 Kafka群集中的所有数据都是分区的脱节联合。传入消息写入分区的末尾，使用者依次读取消息。通过将消息复制到不同的代理来提供持久性。Kafka以快速，可靠，持久，容错和零停机的方式提供基于发...

Apache Kafka-安装步骤

📅 最后修改于: 2020-12-03 02:55:45 🧑 作者: Mango

以下是在计算机上安装Java的步骤。第1步-验证Java安装希望您现在已经在计算机上安装了Java，因此只需使用以下命令进行验证。如果在计算机上成功安装了Java，则可以看到已安装的Java的版本。步骤1.1-下载JDK如果未下载Java，请通过以下链接下载JDK的最新版本并下载最新版本。http://www.oracle.com/technetwork/java/javase/downloads...

Apache Kafka-基本操作

📅 最后修改于: 2020-12-03 02:56:37 🧑 作者: Mango

首先，让我们开始实现单节点单代理配置，然后将设置迁移到单节点多代理配置。希望您现在已经在计算机上安装了Java，ZooKeeper和Kafka。在转到Kafka Cluster设置之前，首先需要启动ZooKeeper，因为Kafka Cluster使用ZooKeeper。启动ZooKeeper打开一个新终端并输入以下命令-要启动Kafka Broker，请输入以下命令-启动Kafka Broker...

Apache Kafka-简单生产者示例

📅 最后修改于: 2020-12-03 02:58:09 🧑 作者: Mango

让我们创建一个使用Java客户端发布和使用消息的应用程序。 Kafka生产者客户端包含以下API。KafkaProducer API让我们了解本节中最重要的Kafka生产者API集。 KafkaProducer API的核心部分是KafkaProducer类。 KafkaProducer类提供了使用以下方法连接其构造函数中的Kafka代理的选项。KafkaProducer类提供了send方法，以将...

Apache Kafka-消费者组示例

📅 最后修改于: 2020-12-03 02:58:34 🧑 作者: Mango

消费者组是来自Kafka主题的多线程或多计算机消费。消费群体消费者可以使用相同的group.id加入一个组。组的最大并行度是组中的使用者数量←没有分区。Kafka将主题的分区分配给组中的使用者，以便每个分区仅由组中的一个使用者使用。Kafka保证消息只能由该组中的单个消费者读取。消费者可以按照存储在日志中的顺序查看消息。消费者的重新平衡添加更多的进程/线程将导致Kafka重新平衡。如果任何消费者或...

Apache Kafka-与Storm集成

📅 最后修改于: 2020-12-03 02:59:24 🧑 作者: Mango

在本章中，我们将学习如何将Kafka与Apache Storm集成。关于风暴Storm最初由BackType的Nathan Marz及其团队创建。在短时间内，Apache Storm成为分布式实时处理系统的标准，该系统使您可以处理大量数据。 Storm的速度非常快，基准测试表明它每秒可处理每个节点超过一百万个元组。 Apache Storm连续运行，使用来自已配置源(Spouts)的数据，并将数据...

Apache Kafka-与Spark集成

📅 最后修改于: 2020-12-03 03:00:01 🧑 作者: Mango

在本章中，我们将讨论如何将Apache Kafka与Spark Streaming API集成。关于星火Spark Streaming API支持实时数据流的可扩展，高吞吐量，容错流处理。数据可以从许多来源(例如Kafka，Flume，Twitter等)中提取，并可以使用复杂的算法(例如高级功能(例如map，reduce，join和window))进行处理。最后，可以将处理后的数据推送到文件系统，...

实时应用程序(Twitter)

📅 最后修改于: 2020-12-03 03:00:35 🧑 作者: Mango

让我们分析一个实时应用程序，以获取最新的Twitter提要及其标签。之前，我们已经看到了Storm和Spark与Kafka的集成。在这两种情况下，我们都创建了一个Kafka Producer(使用cli)以将消息发送到Kafka生态系统。然后，风暴和火花集成使用Kafka使用者读取消息，并将其分别注入风暴和火花生态系统。因此，实际上我们需要创建一个Kafka生产者，该生产者应-使用“ Twitte...

Apache Kafka-工具

📅 最后修改于: 2020-12-03 03:00:54 🧑 作者: Mango

Kafka工具打包在“ org.apache.kafka.tools。*”下。工具分为系统工具和复制工具。系统工具可以使用运行类脚本从命令行运行系统工具。语法如下-下面提到了一些系统工具-Kafka迁移工具-此工具用于将代理从一个版本迁移到另一个版本。Mirror Maker-此工具用于将一个Kafka群集镜像到另一个。消费者偏移检查器-此工具显示指定主题和消费者组的消费者组，主题，分区，偏移，l...

Apache Kafka-应用程序

📅 最后修改于: 2020-12-03 03:01:11 🧑 作者: Mango

Kafka支持当今许多最佳的工业应用。在本章中，我们将简要介绍Kafka的一些最著名的应用程序。推特Twitter是一种在线社交网络服务，提供了发送和接收用户推文的平台。注册用户可以阅读和发布推文，但未注册用户只能阅读推文。 Twitter使用Storm-Kafka作为其流处理基础结构的一部分。领英LinkedIn上的Apache Kafka用于活动流数据和运营指标。 Kafka mes-sagi...

Apache Kafka-有用的资源

📅 最后修改于: 2020-12-03 03:01:27 🧑 作者: Mango

以下资源包含有关Apache Kafka的其他信息。请使用它们来获得有关此方面的更深入的知识。Apache Kafka上的有用链接Apache Kafka官方网站-Apache Kafka的官方网站Apache Kafka Wiki–Apache Kafka的维基百科参考关于Apache Kafka的有用书籍要在此页面上注册您的网站，请发送电子邮件至...