📜  志愿者和网格计算| Hadoop

📅  最后修改于: 2021-10-27 06:48:35             🧑  作者: Mango

什么是志愿计算?
当人们最初了解 Hadoop 和 MapReduce 时,他们经常问:“它有什么独特之处?
来自SETI@home?” SETI ,即寻找外星智慧,经营着一个名为 SETI@home 的企业,志愿者在其中从他们通常不活动的 PC 上提供 CPU 时间来检查射电望远镜信息,以寻找地球外精明生命的迹象。
SETI@home是众多志愿者组织中最杰出的一个;其他人结合了 Great Internet Mersenne Prime Search(以寻找巨大的质数)和Folding@home (以了解蛋白质崩溃及其如何识别疾病)。
志愿者处理企业的工作方式是将他们试图解决的问题分解成称为工作单元的部分,这些部分被发送到全球各地的 PC 进行剖析。例如,一个SETI@home工作单元大约有 0.35 MB 的射电望远镜信息,在普通家用 PC 上检查需要数小时或数天。在调查结束时,将结果发送回服务器,客户获得另一个工作单元。作为与欺骗作斗争的预防措施,每个工作单元都被发送到三台不同的机器上,并且无论如何都需要两个结果来同意被确认。
尽管 SETI@home 在外部可能类似于 MapReduce(将问题分解为并行处理的空闲部分),但还是有一些值得注意的对比。 SETI@home 问题是非常 CPU 升级的,这使得在世界各地的大量 PC 上运行是合理的,因为在其上运行计算时移动工作单元的机会占主导地位。志愿者提供的是 CPU 周期,而不是数据传输。
MapReduce 旨在在具有高总传输速度互连的独立服务器群中运行的可信专用设备上运行持续数分钟或数小时的作业。另一方面,SETI@home 在互联网上不受信任的机器上运行不断计算,具有深刻的关联速度和无信息区域。

什么是网格计算?
长期以来,高性能计算 (HPC)和框架处理网络利用诸如消息传递接口 (MPI)等应用程序接口 (API)进行大规模信息处理。综合而言,HPC 中的方法是在一组机器上传播工作,这些机器访问一个相互文件系统,由存储区域网络 (SAN)提供便利。这对于进程升级占用的工作非常好,但是,当集线器需要获得更大的信息量(数百 GB,Hadoop 真正开始闪耀的时候)时,它变成了一个问题,因为系统数据传输是瓶颈,过程集线器成为惰性。
Hadoop 尝试与流程中心共同查找信息,因此信息访问速度很快,因为它是本地的。该组件称为信息领域,是 Hadoop 中信息准备的核心,也是其出色执行背后的目的。意识到系统传输速度是服务器群条件下最有价值的资产(通过复制周围的信息来组织连接是非常困难的),Hadoop 非常努力地通过明确展示系统拓扑来调节它。请注意,此操作过程不会阻止 Hadoop 中的高 CPU 检查。 MPI 为软件工程师提供了令人难以置信的控制,但它需要他们明确处理信息流的机制,通过低级 C 计划和构建(例如附件)发现,就像调查的更高金额计算一样。在 Hadoop 中的准备工作量更大:开发人员考虑信息模型(例如 MapReduce 的键值集),而信息流保持可验证。