出于什么原因,我们不能利用带有大量圆圈的数据库进行大规模调查?什么原因需要Hadoop?
对这些询问的回应源于另一种循环驱动模式:寻找时间比汇率更缓慢地改善。寻找是将圆圈的头部移动到圆圈上的特定位置以仔细阅读或撰写信息的方式。它描述了印版任务的惰性,尽管交换率与印版的传输速度相比。
如果信息访问示例被查找淹没,则阅读或组合数据集的大量片段将花费更多时间而不是通过它溢出,这适用于汇率。另一方面,为了刷新数据库中的一小部分记录,传统的 BTree(社交数据库中使用的信息结构,受它可以执行查找的速度限制)的功能令人钦佩。对于刷新数据库的大部分内容, B-Tree 的效率低于 MapReduce ,后者使用 Sort/Merge 来重建数据库。
从多个角度来看,MapReduce 可以被视为对关系数据库管理系统 (RDBMS) 的补充。 MapReduce 非常适合需要以组方式分解整个数据集的问题,特别是对于专门指定的检查。 RDBMS 对于点问题或刷新很有用,其中数据集已被命令传送低空闲恢复和适度适度信息量的更新时间。 MapReduce 适用于信息一次编写并通常读取的应用程序,而社交数据库适用于不断刷新的数据集。
MapReduce | RDBMS | |
---|---|---|
Access | Batch | Interactive and batch |
Updates | Write once, read many times | Read and write many times |
Data size | Petabytes | Gigabytes |
Transactions | None | ACID |
Structure | Schema-on-read | Schema-on-write |
尽管如此,社交数据库和 Hadoop 框架之间的对比是模糊的。社交数据库已经开始加入 Hadoop 的一部分想法,从另一个标题来看,Hadoop 框架,例如, Hive正在逐渐变得智能(远离 MapReduce)并包括列表和交换等亮点,使它们看起来越来越多更像传统的 RDBMS。
Hadoop 和 RDBMS 之间的另一个对比是它们工作的数据集中的结构度量。有组织的信息由具有特征位置的元素组成,例如,符合特定预定义大纲的 XML 记录或数据库表。这是 RDBMS 的域。另一方面,半有组织的信息比较松散,尽管可能有大纲,但经常被忽视,因此它可能像信息结构手册一样被使用:例如,电子表格,其中结构只是细胞的矩阵,尽管细胞本身可能包含任何类型的信息。
非结构化信息没有特定的内部结构:例如,纯内容或图片信息。 Hadoop 在非结构化或半组织化信息上的表现令人钦佩,因为它旨在在准备时间(假定的读取模式)转换信息。这提供了适应性,并与 RDBMS 过多的信息堆积期保持了战略距离,因为在 Hadoop 中它只是一个记录副本。