有关hadoop hdfs多节点备份的问题

[复制链接]
查看11 | 回复3 | 2021-1-27 06:11:03 | 显示全部楼层 |阅读模式
在测试过程中发现,只有当配置dfs.replication冗余备份值大于1的时候文件才会被真正的上传到各个节点上,否则只是在本机拷贝,但是冗余备份设置又会增加上传文件的时间,没有一种折中的方法吗?
难道hdfs上传的时候就没有一种,不需要冗余备份,又可是上传到各个节点的方法吗?还是我没用对啊?
请高人指导解答~~
分 -->
回复

使用道具 举报

千问 | 2021-1-27 06:11:03 | 显示全部楼层
HDFS的冗余不光是为了备份,这种机制还有一个好处---分布式并行读取、分布式并行计算
你想,10个线程读一个文件快,还是读3个文件快?
冗余并不会对性能产生太大影响,我做过测试,在一个10台机器组成的机群中
replication=1和replication=3写性能最多相差5%到10%,前提是你的网络带宽够大,一般千兆就够了
HDFS的冗余机制不需要CLIENT操作。
冗余的过程对外部用户是透明的。
参考这个帖子的第二个问题:HDFS数据块的复制和一致性的维护
回复

使用道具 举报

千问 | 2021-1-27 06:11:03 | 显示全部楼层
学习啦。关注ing
回复

使用道具 举报

千问 | 2021-1-27 06:11:03 | 显示全部楼层
为了可靠性冗余备份是必需的!默认为3个,采用管道的方式。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行