Hadoop的MR结构和YARN结构是大数据时代的第一代产品,满足了大家在离线计算上的需求,但是针对实时运算却存在不足,为满足这一需求,后来的大佬研发了spark计算方法,大大的提高了运算效率。
Spark的计算原理
spark的结构为:
节点介绍:
整个互动流程是这样的:
运行流程及特点为:
借用上图我们再来了解一下spark的运算过程:
RDD计算案例
我们用一个案例来分析RDD的计算过程:
DAGScheduler对于RDD图形的划分是有一定规律的:
Executor是最终运行task的苦力,他将Task的执行结果反馈给Driver,会根据大小采用不同的策略:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/xinwenzixun/36498.html