Hadoop 是一个用Java编写的开源框架,它使用许多其他分析工具来改进其数据分析操作。本文展示了 Hadoop 可以用来提高其可靠性和处理能力以生成对数据的新洞察的最广泛和最重要的分析工具。 Hadoop 用于某些高级分析,包括机器学习和数据挖掘。
市场上有各种各样的分析工具可以帮助 Hadoop 有效地处理天文规模的数据。让我们一一讨论一些最著名和使用最广泛的工具。以下是用于大数据的 10 大 Hadoop 分析工具。
1. Apache Spark
Apache Spark 是一个开源处理引擎,旨在简化分析操作。它是一个集群计算平台,设计速度快,专为通用用途而设计。 Spark 旨在涵盖各种批处理应用程序、机器学习、流数据处理和交互式查询。
火花的特点:
- 内存处理
- 组件的紧密集成
- 简单又便宜
- 强大的处理引擎让它如此之快
- Spark Streaming 具有用于流处理的高级库
2. 地图缩小
MapReduce 就像是一种基于 YARN 框架的算法或数据结构。 MapReduce 的主要特点是在 Hadoop 集群中并行执行分布式处理,这使得 Hadoop 工作如此之快,因为当我们处理大数据时,串行处理不再有用。
Map-Reduce 的特点:
- 可扩展
- 容错
- 并行处理
- 可调复制
- 负载均衡
3. 阿帕奇Hive
Apache Hive是一个构建在 Hadoop 之上的数据仓库工具,而数据仓库只是将各种来源生成的数据存储在固定位置。 Hive是用于在 Hadoop 上进行数据分析的最佳工具之一。了解 SQL 的人可以轻松使用 Apache Hive。 high 的查询语言称为 HQL 或 HIVEQL。
Hive的特点:
- 查询类似于 SQL 查询。
- Hive有不同的存储类型 HBase、ORC、纯文本等。
- Hive具有用于数据挖掘和其他工作的内置函数。
- Hive对 Hadoop 生态系统中存在的压缩数据进行操作。
4. 阿帕奇黑斑羚
Apache Impala 是为 Hadoop 设计的开源 SQL 引擎。 Impala 以其更快的处理速度克服了 Apache Hive与速度相关的问题。 Apache Impala 使用与 Apache Hive类似的 SQL 语法、ODBC 驱动程序和用户界面。 Apache Impala 可以轻松地与 Hadoop 集成以进行数据分析。
黑斑羚的特点:
- 易于集成
- 可扩展性
- 安全
- 内存数据处理
5. Apache Mahout
Mahout的名字取自印地语单词Mahavat ,意思是骑大象的人。 Apache Mahout 在 Hadoop 之上运行算法,因此命名为 Mahout。 Mahout 主要用于在我们的 Hadoop 上实现各种机器学习算法,如分类、协同过滤、推荐。 Apache Mahout 可以在不与 Hadoop 集成的情况下实现机器算法。
Mahout的特点:
- 用于机器学习应用
- Mahout 具有向量和矩阵库
- 能够快速分析大型数据集
6. 阿帕奇猪
这个 Pig 最初是由雅虎开发的,目的是为了简化编程。 Apache Pig 能够处理大量数据集,因为它在 Hadoop 之上工作。 Apache pig 用于分析更大规模的数据集,将它们表示为数据流。 Apache Pig 还提高了处理海量数据集的抽象级别。 Pig Latin 是开发人员用于处理在 Pig 运行时上运行的 Pig 框架的脚本语言。
猪的特点:
- 易于编程
- 丰富的运算符
- 处理各种数据的能力
- 可扩展性
7.HBase
HBase 只不过是一个非关系型、NoSQL 分布式、面向列的数据库。 HBase 由各种表组成,其中每个表都有多个数据行。这些行将具有多个列族,并且该列族将具有包含键值对的列。 HBase 工作在 HDFS(Hadoop 分布式文件系统)之上。我们使用 HBase 从更大规模的数据集中搜索小规模数据。
HBase 的特点:
- HBase 具有线性和模块化可扩展性
- Java API 可以方便地用于客户端访问
- 用于实时数据查询的块缓存
8. Apache Sqoop
Sqoop 是由 Apache 开发的命令行工具。 Apache Sqoop 的主要目的是将结构化数据,即 RDBMS(关系数据库管理系统)(如 MySQL、SQL Server、Oracle)导入我们的 HDFS(Hadoop 分布式文件系统)。 Sqoop 还可以将数据从我们的 HDFS 导出到 RDBMS。
Sqoop的特点:
- Sqoop 可以将数据导入Hive或 HBase
- 连接到数据库服务器
- 控制并行性
9. 画面
Tableau 是一款数据可视化软件,可用于数据分析和商业智能。它提供了多种交互式可视化来展示数据的洞察力,可以将查询转换为可视化,还可以导入所有范围和大小的数据。 Tableau 提供快速分析和处理,因此可以在交互式仪表板和工作表上生成有用的可视化图表。
表的特点:
- Tableau 支持条形图、直方图、饼图、动态图、子弹图、甘特图等等
- 安全可靠
- 交互式仪表板和工作表
10. 阿帕奇风暴
Apache Storm 是一个免费的开源分布式实时计算系统,使用 Clojure 和Java等编程语言构建。它可以与许多编程语言一起使用。 Apache Storm 用于 Streaming 过程,速度非常快。我们在 Apache Storm 中使用了 Nimbus、Zookeeper 和 Supervisor 等守护进程。 Apache Storm 可用于实时处理、在线机器学习等。雅虎、Spotify、Twitter 等公司都在使用 Apache Storm。
风暴的特点:
- 易于操作
- 每个节点可以在一秒钟内处理数百万个元组
- 可扩展和容错