包含"HDFS"标签的文章

  • 跨集群跨版本数据同步工具 Distcp HDFS Hadoop 一篇文章彻底掌握

      大家好,我是明哥,最近有小伙伴问到hadoopdistcp的使用,对其中的一些细节和容易踩的坑不是很清楚,所以今天我们来看下hadoopdistcp的原理,细节和容易踩的坑,1.DistCp概述我们知道大数据集群内部都有节点级别和机架级别的容错机制,存储层对应的就是传统的三副本或纠删码机制,,但对于...

    2024-11-15 819
  • 你学会了吗 HDFS小文件治理总结

      随着大数据时代的到来,数据量不断增长,HDFS也成为了数据存储和处理的重要组成部分,然而,由于HDFS的设计原理和文件存储方式,HDFS系统中存在大量的小文件,这些小文件会导致HDFS的性能下降,增加管理和维护的难度,严重影响数据处理效率和数据质量,因此,HDFS小文件的治理变得越来越重要,...。...

    2024-11-15 811
  • 超燃之路 Hadoop

      1Hadoop简介1.1Hadoop由来数据容量大数据时代数据量超级大,数据具有如下特性,以前的存储手段跟分析方法现在行不通了,Hadoop就是用来解决海量数据的存储跟海量数据的分析计算问题的,创始人DougCutting在创建Hadoop时主要思想源头是Google三辆马车现在说的Hadoop通常...

    2024-11-15 441
  • 的源码 如何阅读百万行 Hadoop

      一、阅读HDFS源码的缘由HDFS是大数据的最基础的设施了,几乎所有的离线存储都在HDFS上,但是在大规模HDFS集群中,下面的问题通常会让我们无比头疼,以上种种问题,都需要我们阅读源码,甚至要修改它的源码才能解决,所以虽然阅读源码非常痛苦,但是这个坎还是得过的,二、如何阅读Hadoop这样的百万行...

    2024-11-15 684
  • NameNode锁细粒度优化在B站的实践

      1.背景随着业务的高速发展,针对HDFS元数据的访问请求量呈指数级上升,在之前的工作中,我们已经通过引入HDFSFederation和Router机制实现NameNode的平行扩容,在一定程度上满足了元数据的扩容需求;也通过引入ObserverNameNode读写分离架构提升单组NameSpace的...

    2024-11-15 263
  • Hadoop 大数据离不开它

      早期的MapReduce即包含计算框架,又包含调度框架,比较臃肿,比如想在当前集群运行另外一种计算任务,就不方便了,所来从MapReduce中将调度框架抽取出来,命名为Yarn,这样不管是MapReduce还是Spark只要符合Yarn接口定义,就能被Yarn调度,MR和Spark专做做分布式运算,...

    2024-11-14 212

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息