E Blocks:HDFS中的文件数与块数(no blocks)

当我运行$hadoop fsck /user/root/mydatadir -block时,我真的对它给出的输出感到困惑:


Status: HEALTHY
 Total size:    998562090 B
 Total dirs:    1
 Total files:   50 (Files currently being written: 1)
 Total blocks (validated):      36 (avg. block size 27737835 B) (Total open file                                                         blocks (not validated): 1)
 Minimally replicated blocks:   36 (100.0 %)
 Over-replicated blocks:        0 (0.0 %)
 Under-replicated blocks:       36 (100.0 %)
 Mis-replicated blocks:         0 (0.0 %)
 Default replication factor:    2
 Average block replication:     1.0
 Corrupt blocks:                0
 Missing replicas:              72 (200.0 %)
 Number of data-nodes:          1
 Number of racks:               1

它说我已经写了50 文件,但它只使用36 块(我只是忽略当前正在写入的文件)。

从我的理解,每个文件使用至少 1 块,即使它的大小小于 HDFS 块大小(对我来说是 64MB,默认大小)。

1

这些文件不需要每个完整的块。问题是管理它们的开销,以及-如果你有真正的许多的 namenode 利用率:

来自 Hadoop-权威指南:

小文件占用的磁盘空间不会超过存储文件的原始内容所需的空间。例如,块大小为 128 MB 的 1 MB 文件使用 1 MB 的磁盘空间,而不是 128 MB。)Hadoop Archives 或 HAR 文件是一种文件存档工具,可更有效地将文件打包到 HDFS 块中,从而减少 namenode 内存使用,同时仍允许对文件进行透明访问。

但是,一个块只包含一个文件-除非使用专门的输入格式,如 HAR,SequenceFile 或 CombineFileIputFormat。这里有一些更多的信息Small File problem info

本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处

(871)
Ce标准认证:如何在Gitlab中删除功能分支标准 gitlab-ce映像 在 Docker中运行
上一篇
上古卷轴5裹尸布代码:HTML5画布方格图案(checkered patern)
下一篇

相关推荐

  • can db9定义:CAN DB9接口的用途及其应用

    CAN DB9是一种通用的工业总线接口,它采用标准的DB9接口,可以用于连接和控制许多不同类型的设备。它使用9个接口引脚,其中8个用于数据传输,1个用于地线。…

    2023-03-31 11:08:35
    0 20 99
  • Com sun:com.sun包里面是什么

    关于Com sun的问题,在sun java中经常遇到,就像javax包含扩展一样,com.sun包应该包含什么?…

    2022-11-23 08:50:31
    0 43 70
  • Cannon lake:从cannon.js迁移到 cannon-es时出错

    关于Cannon lake的问题,在functioning cannon中经常遇到,当我尝试迁移到 cannon-es 时,我在step()函数中得到一个错误:…

    2022-11-23 08:46:49
    0 79 23
  • Cnp防晒霜:DIY sw-条形码阅读器:CNP字符串到所需的位置

    关于Cnp防晒霜的问题,在teemi barcode scanner troubleshooting中经常遇到,我为我们的志愿组织提供了一个应用程序,用于管理对我们工作地点的访问。条形码阅读器(TEEMI 条形码扫描仪)读取每个志愿者 ID 以注册 IN / OUT 定时。我们目前正在使用一个在独立窗口上运行并希望始终打开的 sw,光标专门位于小输入窗口中。它可以手动或自动工作:…

    2022-11-23 08:41:50
    0 40 20
  • Cdn和负载均衡区别:负载平衡和负载均衡器之间的区别

    关于Cdn和负载均衡区别的问题,在load balancing definition中经常遇到,我需要知道负载平衡器和负载平衡之间的区别。…

    2022-11-23 08:27:46
    0 78 44
  • cv糖醋排骨是弯的吗弯曲的美味

    cv糖醋排骨不是弯的,它是一种制作方法,通常用来制作排骨。代码:…

    2023-04-01 13:03:36
    0 13 31
  • android 视频编码深入理解MediaCodec API

    Android 视频编码是指将原始视频数据经过压缩编码后,生成新的视频数据,以便减少视频文件的体积,提高传输速度,以及更好地在 Android 设备上播放。…

    2023-01-13 10:58:18
    0 13 27
  • cv小敢:如何利用CV小敢提升职业技能?

    cv小敢(Computer Vision Tiny-YOLO)是一种轻量级的物体检测算法,它可以在资源受限的设备上运行,如嵌入式设备、智能手机等。它是基于YOLO(You Only Look Once)算法的一个变体,由Joseph Redmon和Ali Farhadi开发,旨在提高深度学习模型的性能,同时减少模型的大小和计算复杂度。…

    2023-02-09 13:08:59
    0 86 91

发表评论

登录 后才能评论

评论列表(61条)