📜  每个数据科学家都应该知道的顶级 NoSQL 数据库

📅  最后修改于: 2021-10-21 05:25:09             🧑  作者: Mango

术语 NoSQL 数据库是指非关系型数据库。尽管术语“NoSQL”的含义存在混淆,但有人说它代表“非 SQL”,而大多数人说它代表“不仅是 SQL”。但是我们知道,与其他关系数据库相比,NoSQL 数据库是那些以某种格式存储或保留数据的数据库。

每个数据科学家都应该知道的顶级 NoSQL 数据库

有一种误解,认为 NoSQL 数据库不能存储关系数据,但事实并非如此,因此它们可以存储关系数据,但可以以另一种形式存储,然后关系数据库可以。

过去几年,对数据科学家的需求有所增加。随着对数据科学家需求的增加,对NoSQL数据库的需求也随之增加。如果您从事解决方案架构师这一职业,选择合适的数据库绝非易事。您需要对所有类型的 NoSQL 数据库保持友好。以下是 2020 年最流行的 5 个数据库列表。

1. 弹性搜索

这是一个开源的 NoSQL 数据库系统,用Java编写。它由Shay Banon创立,并于 2010 年 2 月 8 日向公众发布。它提供了超文本传输协议接口和免费模式 JSON 文档。根据 Lucene,它是Apache Solr背后最著名的搜索引擎。它基于 Lucene 库。

与其他数据库相比,它更具一致性和可扩展性。它也被称为分析引擎,因为它可以存储、轻松分析和搜索大量数据。它用于搜索各种文档。它支持可扩展搜索,支持多租户,并有助于实时搜索。它是分布式的,表明索引被划分为分片,每个分片有 0 个或多个副本。每个节点都有一个或多个 1个或多个

该数据库主要用于全文检索。目前有超过2500家公司在使用它,包括medium、Stackoverflow和Udemy等。聊天机器人也可以使用这个数据库来构建。

2. MongoDB

它是最常用的文档——部署一个 NoSQL 数据库。它是用C++ Go JavaScriptPython编写的。它于2009年2月11日发布。它在2009年仅以英文发布。其操作系统是Windows Vista,后来改为Linux,现在终于是Solaris。它是一个跨平台的数据库程序。

它将平面文件中的数据保存在自己的二进制存储对象中,并有助于以非常紧凑和高效的方式存储数据,非常适合保存大量数据。它将文档或数据保留在 JSON 对象中。它是一个无模式的数据库,使其与其他传统数据库相比具有灵活性。 schemaless 的主要原因是它有很多不同于其他文档的内容、字段和大小。

它是一个高度可扩展和可用的数据库。由于复制和索引等功能,它可以帮助更快地查询。在 MongoDB 中,文档可以在二级索引和一级索引的帮助下用于索引。它可以帮助使用节点复制数据。它使用主节点和辅助节点复制数据。

本次复制过程主要采用主从架构。如果您正在考虑合并数百个不同的数据源,MongoDB 将是最佳选择,因为它可以统一查看数据。

它还用于保存点击流数据并将其用于消费者行为分析。它被 3500 多家公司使用,包括 eBay、Coinbase、谷歌、优步和诺基亚。

3. 亚马逊动态数据库

该数据库由Amazon Web Services完全拥有和管理。它适用于小型应用程序,但对大型应用程序有一些限制。它每天可以轻松处理十万亿条指令。它是一致的,其响应时间小于一毫秒。它在 AWS 的所有区域复制您的数据,以便您可以从任何您想要的地方在本地快速访问数据。

它因其可扩展性而广受欢迎。它用于构建具有实时更新和离线数据访问的 Web 和移动应用程序。它也被公司广泛用于游戏行业,以构建游戏平台和构建实时记分牌。

如果您的需求是一个可以管理大量简单键值问题的数据库,那么 DynamoDB 是最佳选择。如果您使用 OLTP 工作负载,那么 DynamoDB 也是最佳选择。它被包括 Lyft、Snapchat 和三星在内的 800 多家公司使用。

4. 卡桑德拉

它是一个由Facebook构建并受Google大表启发的开源数据库系统。它是可扩展的并且可以广泛使用。它每秒可以管理 PB 级数据和数千个并发请求。该数据库的最佳用途是在编写任务不仅仅是阅读任务时。 Netflix、Facebook、Spotify、Instagram、Coursera 等 450 多家公司都在使用它。

5.HBase

它是一个开源且高度可扩展的数据库系统。它是用Java编写的,适用于Hadoop分布式文件系统 (HDFS)。如果您要处理的数据超过 PB,则此数据库最适合。它还有助于实时和随机许可或访问数据。它可以轻松存储来自数百万人的消息或数据。它被超过 75 家公司使用,包括 Pinterest、HubSpot 和 Hike。