内容框架:
大数据概览如何摆脱技术小白Spark SQL 学习框架EMR Studio 上的大数据最佳实践
一、大数据概览
大数据处理 ETL (Data →>
二、如何摆脱技术小白
什么是技术小白?
只懂表面,不懂本质比如:只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优 Spark Job
摆脱技术小白的药方
懂得运行机制学会配置学会看 Log
懂得运行机制:Spark SQL Architecture
学会配置:如何配置 Spark App
配置 Driver
spark.driver.memory
spark.driver.cores
配置 Executor
spark.executor.memory
spark.executor.cores
spark.files
spark.jars
配置 DAE ….......... 学会看 Log:Spark Log
三、Spark SQL 学习框架
Spark SQL 学习框架( 结合图形/几何)
Spark SQL 执行计划
四、EMR Studio 实践
EMR Studio 特性:
兼容开源组件支持连接多个集群适配多个计算引擎交互式开发 + 作业调度无缝衔接适用多种大数据应用场景计算存储分离
EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。
一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。
自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作
4. 交互式开发 + 作业调度无缝衔接
Notebook + Airflow : 无缝衔接开发环节和生产调度环节
利用交互式开发模式可以快速验证作业的正确性.在 Airflow 里调度 Notebook 作业,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。
5. 适用多种大数据应用场景
大数据处理 ETL交互式数据分析机器学习实时计算
所有数据都保存在 OSS 上,包括:
用户 Notebook 代码
调度作业 Log
即使集群销毁,也可以重建集群轻松恢复数据
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://jmbhsh.com/baihuo725/36483.html