包含"数据湖"标签的文章
-
Kyuubi Apache 新特性解读 1.6.0
ApacheKyuubi是网易数帆开源的一款企业级的数据湖探索平台,也是一款分布式和多租户网关,为数据湖查询例如Spark、Flink或者trino等提供SQL查询服务,Kyuubi支持多租户、高可用以及多工作负载等功能特性,可以满足企业内部诸如ETL、BI报表、交互式分析以及批数据处理等多种大数据...
-
数据湖 数据湖仓和数据编织项目建设中应避免的七个关键错误
数据湖、数据湖仓和数据编织等集中式数据架构越来越受欢迎,用于管理海量数据并实现数据驱动的决策,然而,该领域的许多项目面临挑战,甚至无法实现预期成果,事实上,这些失败背后的一个重要原因是架构师主要关注功能需求而忽略了同样重要的非功能性需求,这些非功能性需求,例如可扩展性、性能、安全性和数据质量,对于数...
-
Hudi 在 Apache B 站构建实时数据湖的实践
本文作者喻兆靖,介绍了为什么B站选择Flink,Hudi的数据湖技术方案,以及针对其做出的优化,主要内容为,1.传统离线数仓痛点2.数据湖技术方案3.Hudi任务稳定性保障4.数据入湖实践5.增量数据湖平台收益6.社区贡献7.未来的发展与思考一、传统离线数仓痛点1.痛点之前B站数仓的入仓流程大致如下...
-
Iceberg 数据湖访问 Presto Alluxio 加速
Presto是一个里程碑式的产品,它能够让我们很简单的不需要数据的导入和导出,就可以使用标准的SQL来查询数据湖仓上的数据,早先是数据仓库>,Presto中有一个概念叫做交互式的查询,即在几秒种最多几分钟返回一个结果,现实中很多人用Presto来做秒级查询,即subsecond的查询,...
-
用于大数据分析的大规模可扩展存储 什么是数据湖
译者,李睿审校,孙淑娟2011年,时任商业智能开发商Pentaho公司首席技术官的JamesDixon创造了,数据湖,这一术语,他将数据湖与当时流行的数据集市的典型信息孤岛进行了对比,如果将数据集市视为销售瓶装水的商店,经过清洁和包装处理以便于饮用,,那么数据湖就是处于更自然状态的大片水体,数据湖...
-
什么是数据湖
从我们使用的应用到我们与之互动的企业,数据在塑造我们的体验方面发挥着关键作用,有效地管理这些海量的信息是至关重要的,它为顺利运营铺平了道路,并有助于获得洞察力和做出明智的决策,这就是数据湖的概念,可以把它看作是巨大的原始数据存储库和我们用于特定分析的结构化存储库之间的桥梁,数据湖汇集了这两个世界的精...
-
快手流批一体数据湖构建实践
一、数据湖架构,从离线数仓到湖仓一体的转变数据建设的核心目标一般为,但是,现在常用来作为实现方案的Lambda架构,架构一般如下,这里存在三个比较严重的问题,①离线链路时效性差,若是直接在这个链路上进行提效,则需要的成本比较高,②处理逻辑异构,由于目前将实时数据和离线数据分成了两个链路来处理数据,导...
-
数据湖成功的七个优秀实践
数据湖正在迅速成为组织存储和管理数据的最流行的方式之一,通过将数据存储在中央位置,数据湖使组织能够更轻松地访问、分析数据并从中获得见解,然而,如果没有适当的管理和实施,数据湖很快就会变得难以管理且难以使用,在本文中,我们将讨论一些关键的数据湖最佳实践,以确保数据管理从一开始就得到优化,数据湖成功的最...
-
Iceberg 在小米的应用 数据湖
Iceberg是具有SQL行为的表的开放式标准,此定义由RyanBlue提出,这个定义中包含了两点,第一点,Iceberg有SQL行为,意味着Iceberg是针对于结构化数据的,具有结构化数据的特性,如Schema等,第二点,Iceberg是一个开放性的标准,开放性标准体现在两方面,第一方面体现在设...
-
数据湖核心能力解析
一、数据湖发展趋势分析当下,数据湖已成为企业数据平台架构的重要组成部分,传统的数据平台架构一般由数据湖、流式计算和OLAP引擎查询三个部分组成,这三个平台在以往通常是独立建设的,集群也是独立部署,三者之间数据互相拉通,采用以下方案,湖平台与流式平台的互通,通常采用Lambda架构搭建实时计算平台和离...
-
Kyuubi Hudi 的现代技术栈探索 出行基于 T3
过去的几年里,随着大数据的进一步发展,现代数据栈的生态愈加丰富完善,而数据湖在这期间几乎已成为现代数据栈的必备品,它的出现大大简化了用户管理数据的难度,让用户更加关心于数据本身,而非组件本身,T3出行在数据湖基础上,对现代数据栈进行了一些探索,并初步打造了特征平台,在本文中,我将给大家分享下T3出行...
-
阿里云ADB基于Hudi构建Lakehouse的实践
导读,大家好,我是来自阿里云数据库的李少锋,现在主要专注于ADBHudi&,Spark的研发以及产品化,今天非常高兴能够借这个机会和大家分享下阿里云ADB基于ApacheHudi构建Lakehouse的应用与实践,接下来我将分为3个部分给大家介绍今天的议题,首先我会介绍经过将近一年打磨...
-
从Delta 2.0开始聊聊我们需要怎样的数据湖
盘点行业内近期发生的大事,Delta2.0的开源是最让人津津乐道的,尤其在>,虽然>,过去两年,我们团队在新型数据湖技术的研究、探索和实践上投入了大量精力,虽然我们主要投入的方向是Iceberg,但delta2.0的开源,以及>,由于我们的工作更多将Iceberg...
-
腾讯大数据实时湖仓智能优化实践
一、湖仓架构腾讯大数据的湖仓架构如下图所示,这里分为三个部分,分别是数据湖计算、数据湖管理和数据湖存储,数据湖计算部分,Spark作为ETLBatch任务的主要批处理引擎,Flink作为准实时计算的流处理引擎,StarRocks和Presto作为即席查询的OLAP引擎,数据湖管理层以Iceberg为...
-
基于Lakehouse架构实现湖内建仓实践经验
1、数据湖理解的几个误区现在很多企业都对数据湖存在一些误区,从上图左侧对数据湖的不同定义,红色字体标识,可以看出,数据湖并不像大家想象的那样,误区主要分为以下三种,第一种认为数据湖仅用来进行海量的存储;第二种认为数据湖是用来处理非结构数据的,不处理结构化数据;第三种认为数据湖仅可以用来做贴源层,不能...