📝 Apache Kafka教程
49篇技术文档📅  最后修改于: 2020-12-03 02:53:34        🧑  作者: Mango
Apache Kafka起源于LinkedIn,后来在2011年成为开源Apache项目,然后在2012年成为First-class Apache项目。Kafka用Scala和Java编写。 Apache Kafka是基于发布-订阅的容错消息传递系统。它是快速,可扩展的,并且可以按设计进行分发。本教程将探讨Kafka的原理,安装,操作,然后逐步引导您完成Kafka集群的部署。最后,我们将以实时应用...
📅  最后修改于: 2020-12-03 02:54:06        🧑  作者: Mango
在大数据中,使用了大量的数据。关于数据,我们面临两个主要挑战。第一个挑战是如何收集大量数据,第二个挑战是分析收集的数据。为了克服这些挑战,您必须需要一个消息传递系统。Kafka专为分布式高吞吐量系统而设计。 Kafka可以很好地替代传统的消息代理。与其他邮件系统相比,Kafka具有更好的吞吐量,内置的分区,复制和固有的容错能力,使其非常适合大型邮件处理应用程序。什么是邮件系统?消息系统负责将数据从...
📅  最后修改于: 2020-12-03 02:54:26        🧑  作者: Mango
在深入探讨Kafka之前,您必须了解主题,经纪人,生产者和消费者等主要术语。下图说明了主要术语,下表详细说明了图的组成部分。在上图中,一个主题被配置为三个分区。分区1具有两个偏移因子0和1。分区2具有四个偏移因子0、1、2和3。分区3具有一个偏移因子0。副本的ID与托管它的服务器的ID相同。假设,如果主题的复制因子设置为3,则Kafka将为每个分区创建3个相同的副本,并将它们放置在群集中以使其可用...
📅  最后修改于: 2020-12-03 02:54:41        🧑  作者: Mango
看一下下图。它显示了Kafka的群集图。下表描述了上图中显示的每个组件。S.NoComponents and Description1BrokerKafka cluster typically consists of multiple brokers to maintain load balance. Kafka brokers are stateless, so they use ZooKeep...
📅  最后修改于: 2020-12-03 02:55:12        🧑  作者: Mango
到目前为止,我们讨论了Kafka的核心概念。现在让我们来了解一下Kafka的工作流程。Kafka只是主题的集合,分为一个或多个分区。 Kafka分区是消息的线性排序序列,其中每个消息均由其索引(称为偏移)标识。 Kafka群集中的所有数据都是分区的脱节联合。传入消息写入分区的末尾,使用者依次读取消息。通过将消息复制到不同的代理来提供持久性。Kafka以快速,可靠,持久,容错和零停机的方式提供基于发...
📅  最后修改于: 2020-12-03 02:55:45        🧑  作者: Mango
以下是在计算机上安装Java的步骤。第1步-验证Java安装希望您现在已经在计算机上安装了Java,因此只需使用以下命令进行验证。如果在计算机上成功安装了Java,则可以看到已安装的Java的版本。步骤1.1-下载JDK如果未下载Java,请通过以下链接下载JDK的最新版本并下载最新版本。http://www.oracle.com/technetwork/java/javase/downloads...
📅  最后修改于: 2020-12-03 02:56:37        🧑  作者: Mango
首先,让我们开始实现单节点单代理配置,然后将设置迁移到单节点多代理配置。希望您现在已经在计算机上安装了Java,ZooKeeper和Kafka。在转到Kafka Cluster设置之前,首先需要启动ZooKeeper,因为Kafka Cluster使用ZooKeeper。启动ZooKeeper打开一个新终端并输入以下命令-要启动Kafka Broker,请输入以下命令-启动Kafka Broker...
📅  最后修改于: 2020-12-03 02:58:09        🧑  作者: Mango
让我们创建一个使用Java客户端发布和使用消息的应用程序。 Kafka生产者客户端包含以下API。KafkaProducer API让我们了解本节中最重要的Kafka生产者API集。 KafkaProducer API的核心部分是KafkaProducer类。 KafkaProducer类提供了使用以下方法连接其构造函数中的Kafka代理的选项。KafkaProducer类提供了send方法,以将...
📅  最后修改于: 2020-12-03 02:58:34        🧑  作者: Mango
消费者组是来自Kafka主题的多线程或多计算机消费。消费群体消费者可以使用相同的group.id加入一个组。组的最大并行度是组中的使用者数量←没有分区。Kafka将主题的分区分配给组中的使用者,以便每个分区仅由组中的一个使用者使用。Kafka保证消息只能由该组中的单个消费者读取。消费者可以按照存储在日志中的顺序查看消息。消费者的重新平衡添加更多的进程/线程将导致Kafka重新平衡。如果任何消费者或...
📅  最后修改于: 2020-12-03 02:59:24        🧑  作者: Mango
在本章中,我们将学习如何将Kafka与Apache Storm集成。关于风暴Storm最初由BackType的Nathan Marz及其团队创建。在短时间内,Apache Storm成为分布式实时处理系统的标准,该系统使您可以处理大量数据。 Storm的速度非常快,基准测试表明它每秒可处理每个节点超过一百万个元组。 Apache Storm连续运行,使用来自已配置源(Spouts)的数据,并将数据...
📅  最后修改于: 2020-12-03 03:00:01        🧑  作者: Mango
在本章中,我们将讨论如何将Apache Kafka与Spark Streaming API集成。关于星火Spark Streaming API支持实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(例如Kafka,Flume,Twitter等)中提取,并可以使用复杂的算法(例如高级功能(例如map,reduce,join和window))进行处理。最后,可以将处理后的数据推送到文件系统,...
📅  最后修改于: 2020-12-03 03:00:35        🧑  作者: Mango
让我们分析一个实时应用程序,以获取最新的Twitter提要及其标签。之前,我们已经看到了Storm和Spark与Kafka的集成。在这两种情况下,我们都创建了一个Kafka Producer(使用cli)以将消息发送到Kafka生态系统。然后,风暴和火花集成使用Kafka使用者读取消息,并将其分别注入风暴和火花生态系统。因此,实际上我们需要创建一个Kafka生产者,该生产者应-使用“ Twitte...
📅  最后修改于: 2020-12-03 03:00:54        🧑  作者: Mango
Kafka工具打包在“ org.apache.kafka.tools。*”下。工具分为系统工具和复制工具。系统工具可以使用运行类脚本从命令行运行系统工具。语法如下-下面提到了一些系统工具-Kafka迁移工具-此工具用于将代理从一个版本迁移到另一个版本。Mirror Maker-此工具用于将一个Kafka群集镜像到另一个。消费者偏移检查器-此工具显示指定主题和消费者组的消费者组,主题,分区,偏移,l...
📅  最后修改于: 2020-12-03 03:01:11        🧑  作者: Mango
Kafka支持当今许多最佳的工业应用。在本章中,我们将简要介绍Kafka的一些最著名的应用程序。推特Twitter是一种在线社交网络服务,提供了发送和接收用户推文的平台。注册用户可以阅读和发布推文,但未注册用户只能阅读推文。 Twitter使用Storm-Kafka作为其流处理基础结构的一部分。领英LinkedIn上的Apache Kafka用于活动流数据和运营指标。 Kafka mes-sagi...
📅  最后修改于: 2020-12-03 03:01:27        🧑  作者: Mango
以下资源包含有关Apache Kafka的其他信息。请使用它们来获得有关此方面的更深入的知识。Apache Kafka上的有用链接Apache Kafka官方网站-Apache Kafka的官方网站Apache Kafka Wiki–Apache Kafka的维基百科参考关于Apache Kafka的有用书籍要在此页面上注册您的网站,请发送电子邮件至...