📜  HDFS

📅  最后修改于: 2020-12-03 01:39:17             🧑  作者: Mango

什么是HDFS

Hadoop带有一个称为HDFS的分布式文件系统。在HDFS中,数据分布在多台计算机上并进行复制,以确保其对故障的持久性和对并行应用程序的高可用性。

由于它使用商品硬件,因此具有成本效益。它涉及块,数据节点和节点名称的概念。

在哪里使用HDFS

  • 超大文件:文件大小应为数百兆,千兆字节或更多。
  • 流数据访问:在读取第一个数据时,读取整个数据集的时间比等待时间更重要。 HDFS建立在一次写入和多次读取模式上。
  • 商品硬件:它适用于低成本硬件。

哪里不使用HDFS

  • 低延迟数据访问:需要很少时间访问第一数据的应用程序不应使用HDFS,因为它对整个数据很重要,而不是时间来获取第一条记录。
  • 大量小文件:名称节点包含内存中文件的元数据,如果文件较小,则名称节点的内存将占用大量内存,这是不可行的。
  • 多次写入:当我们必须多次写入时,不应使用它。

HDFS概念

  • 块:块是它可以读取或写入的最小数据量。HDFS块默认为128 MB,并且是可配置的。文件n HDFS分为块大小的块,它们以独立的单位存储。系统中,如果HDFS中的文件小于块大小,则它不会占据整个块的大小,即,存储在块大小为128 MB的HDFS中的5 MB文件仅占用5MB的空间。只是为了最大程度地降低寻找成本。
  • 名称节点: HDFS以主工作模式工作,其中名称节点充当主节点。名称节点是HDFS的控制器和管理者,因为它知道HDFS中所有文件的状态和元数据。元数据信息是文件许可权,每个块的名称和位置。元数据很小,因此将其存储在名称节点的内存中,从而可以更快地访问数据。此外,HDFS群集可同时由多个客户端访问,因此所有这些信息都由一台计算机处理。它执行诸如打开,关闭,重命名等文件系统操作。
  • 数据节点:它们在被告知时存储和检索块;通过客户端或名称节点。他们定期向名称节点报告,并列出要存储的块列表。作为商品硬件的数据节点还执行名称节点所声明的块创建,删除和复制的工作。

HDFS DataNode和NameNode映像:

HDFS读取图像:

HDFS写入映像:

由于所有元数据都存储在名称节点中,因此非常重要。如果失败,则无法使用文件系统,因为无法知道如何从数据节点中存在的块中重建文件。为了克服这个问题,出现了辅助名称节点的概念。

辅助名称节点:它是一个单独的物理计算机,充当名称节点的帮助者。它执行定期检查点,并与名称节点进行通信并拍摄元数据的快照,这有助于最大程度地减少停机时间和数据丢失。

启动HDFS

HDFS应该首先进行格式化,然后以分布式模式启动。命令在下面给出。

格式化$ hadoop namenode -format

要启动$ start-dfs.sh

HDFS基本文件操作

  • 将数据从本地文件系统放入HDFS
    • 首先在HDFS中创建一个文件夹,可在其中将数据从本地文件系统放入。
    • $ hadoop fs -mkdir /用户/测试

    • 将文件“ data.txt”从保存在本地文件夹/ usr / home / Desktop中的文件复制到HDFS文件夹/ user / test
    • $ hadoop fs -copyFromLocal /usr/home/Desktop/data.txt / user / test

    • 显示HDFS文件夹的内容
    • $ Hadoop fs -ls /用户/测试

  • 将数据从HDFS复制到本地文件系统
    • $ hadoop fs -copyToLocal /user/test/data.txt /usr/bin/data_copy.txt
  • 比较文件,看看两者是否相同
    • $ md5 /usr/bin/data_copy.txt /usr/home/Desktop/data.txt
  • 递归删除

    • hadoop fs -rmr

    例:

    • hadoop fs -rmr /用户/ sonoo /

HDFS其他命令

下面是在命令中使用的

”表示任何文件或目录名称。

…”表示一个或多个文件或目录名称。

“ <文件>”表示任何文件名。

”和“ ”是定向操作中的路径名。

”和“ ”是上述路径,但在本地文件系统上

  • 从localSrc标识的本地文件系统中复制文件或目录到DFS中的dest。

  • copyFromLocal <目标>
  • 相同的投入

  • copyFromLocal <目标>
  • 相同的投入

  • moveFromLocal <目标>
  • 从localSrc标识的本地文件系统中复制文件或目录到HDFS中的dest,然后在成功后删除本地副本。

  • 获取[-crc]
  • 将src标识的HDFS中的文件或目录复制到localDest标识的本地文件系统路径。

  • 在标准输出上显示文件名的内容。

  • moveToLocal
  • 与-get相似,但成功删除HDFS副本。

  • setrep [-R] [-w] rep <路径>
  • 为通过rep路径标识的文件设置目标复制因子。 (随着时间的推移,实际的复制因子将向目标移动)

  • touchz <路径>
  • 在包含当前时间作为时间戳的路径上创建一个文件。如果文件在路径中已经存在,则失败,除非该文件的大小为0。

  • 测试-[ezd] <路径>
  • 如果路径存在,则返回1;否则返回1。长度为零;或为目录,否则为0。

  • stat [格式] <路径>
  • 打印有关路径的信息。格式是一个字符串,它接受以块(%b),文件名(%n),块大小(%o),复制(%r)和修改日期(%y,%Y)为单位的文件大小。