包含"Hudi"标签的文章
-
数据湖在快手的应用实践
一、数据湖在快手的应用历程1.业务面临的问题与挑战快手业务发展迅速,对数据精细化运营的要求越来越高,随之而来,数仓的数据模型持续快速增长,这带来了两个主要问题,其一,计算和存储成本也随之线性增长,在当前降本增效的大背景下,持续的成本增长与团队的目标战略相悖,其二,庞大的数据模型给治理和运维带来了挑战...
-
Hudi 在 Apache B 站构建实时数据湖的实践
本文作者喻兆靖,介绍了为什么B站选择Flink,Hudi的数据湖技术方案,以及针对其做出的优化,主要内容为,1.传统离线数仓痛点2.数据湖技术方案3.Hudi任务稳定性保障4.数据入湖实践5.增量数据湖平台收益6.社区贡献7.未来的发展与思考一、传统离线数仓痛点1.痛点之前B站数仓的入仓流程大致如下...
-
Hudi 1.0 新功能预览
Hudi是一个高效的事务型数据湖仓平台,其核心特色是一个开放性的表格式定义和一套全面的事务数据库核心层,这一核心层不仅支持索引功能,还能高效地处理并发事务,并具备强大的变更数据捕获能力,在数据管道中,Hudi能够从上游数据源如Kafka接收数据,并利用Spark和Flink等执行引擎进行数据导入与处...
-
Hudi 的批流一体存储实践 字节基于
首先来介绍一下相关背景,传统数仓存在实时和离线两条链路,来满足业务对于时效数据的时效性和数据量的不同需求,离线会维护历史的全量视图,实时会维护增量视图,最后在服务层去进行数据的汇总,从而支持后续的在线的serving、OLAP查询以及看板的应用等等,因为处理场景的差异,在实时和离线数仓的具体实现上,...
共1页 4条