百货
-
小红书基于数据湖的流批统一存储实践
一、Lambda架构与实时数仓开发痛点1、小红书的数据平台概览首先来整体介绍一下小红书的数据平台,首先在最底层是一个个Cloud,包括计算、存储等,在这一基础之上,是数据采集层,采集一些原始数据,比如用户行为日志数据、RDBMS关系型数据库的增量日志数据,以及其他一些文件系统等,然后基于源头数据层,...
-
天穹SuperSQL如何应对数据湖场景中的复杂多维分析
首先介绍一下腾讯自研的下一代大数据计算平台SuperSQL的技术架构,SuperSQL是腾讯自研的下一代大数据自适应计算平台,通过开放融合的架构实现了一套代码,高效解决公有云、私有云、内网的任何大数据计算场景的问题,将异构计算引擎、异构存储服务、计算引擎的智能化和自动化、SQL的流批一体、算力感知等...
-
Hudi 在 Apache B 站构建实时数据湖的实践
本文作者喻兆靖,介绍了为什么B站选择Flink,Hudi的数据湖技术方案,以及针对其做出的优化,主要内容为,1.传统离线数仓痛点2.数据湖技术方案3.Hudi任务稳定性保障4.数据入湖实践5.增量数据湖平台收益6.社区贡献7.未来的发展与思考一、传统离线数仓痛点1.痛点之前B站数仓的入仓流程大致如下...
-
什么是数据湖
从我们使用的应用到我们与之互动的企业,数据在塑造我们的体验方面发挥着关键作用,有效地管理这些海量的信息是至关重要的,它为顺利运营铺平了道路,并有助于获得洞察力和做出明智的决策,这就是数据湖的概念,可以把它看作是巨大的原始数据存储库和我们用于特定分析的结构化存储库之间的桥梁,数据湖汇集了这两个世界的精...
-
Lake在BI Delta AI产品中的实践
一、观远数据分析产品简介观远数据成立于2016年,总部位于杭州,主要为企业提供一站式的数据分析与智能决策产品和解决方案,客户包括联合利华、招商银行、安踏、元气森林、小红书、B站等,分布在零售、消费、金融、互联网等各个领域,公司的愿景是——,让业务用起来,让决策更智能,我们发现很多时候数据分析产品并没...
-
快手流批一体数据湖构建实践
一、数据湖架构,从离线数仓到湖仓一体的转变数据建设的核心目标一般为,但是,现在常用来作为实现方案的Lambda架构,架构一般如下,这里存在三个比较严重的问题,①离线链路时效性差,若是直接在这个链路上进行提效,则需要的成本比较高,②处理逻辑异构,由于目前将实时数据和离线数据分成了两个链路来处理数据,导...
-
Iceberg 在小米的应用 数据湖
Iceberg是具有SQL行为的表的开放式标准,此定义由RyanBlue提出,这个定义中包含了两点,第一点,Iceberg有SQL行为,意味着Iceberg是针对于结构化数据的,具有结构化数据的特性,如Schema等,第二点,Iceberg是一个开放性的标准,开放性标准体现在两方面,第一方面体现在设...
-
腾讯大数据实时湖仓智能优化实践
一、湖仓架构腾讯大数据的湖仓架构如下图所示,这里分为三个部分,分别是数据湖计算、数据湖管理和数据湖存储,数据湖计算部分,Spark作为ETLBatch任务的主要批处理引擎,Flink作为准实时计算的流处理引擎,StarRocks和Presto作为即席查询的OLAP引擎,数据湖管理层以Iceberg为...
-
腾讯大数据多引擎统一元数据和权限管理的探索
一、腾讯大数据处理套件TBDS的全称是腾讯大数据处理套件,它是一个基于Hadoop生态以及MPP生态的大数据平台,我们主要有以下的四种应用场景,大数据的批流的处理,云原生的数据湖,湖仓一体,以及国产化的数据中台,下面是我们的一些客户,大家可以看到种类非常多,有金融类的、产业类的,还有传媒以及政府,不...
-
数据治理体系演进简介
网易内部如严选、云音乐、传媒等数据团队对数据内容体系的治理思路都是将治理规范融入到开发过程中,将治理的动作提前,这其实就是,开发治理一体化,;事后依赖数据资产健康评估和治理工具进行数据的治理,建立事前加事后的数据治理体系,随着网易数帆商业化的发展,遇到很多金融及大型国企客户,我们发现互联网的这套数据...
-
从Redis的架构看Redis使用优化方面的几个要点
最近的一些优化和运维项目中都有Redis,看样子不论是互联网架构的应用还是传统架构的应用,都已经意识到了访问频繁,数据结构简单的热数据使用合理的访问方式是十分重要的,既然客户有需求,我们就需要去深入的研究一下怎么把Redis用好,优化好,做一个运维对象的分析其实也是有套路的,并不一定都是需要从十年八...
-
剖析Buddy算法中内存的申请和释放
作者,赵青窕审校,孙淑娟内存的合理利用一直是系统的头等大事,目前系统中,除了采用Buddy和slab管理内存外,还会采用内存水线检测处理,PCP机制,CMA机制等进行内存的优化,在本文中,我们将从Buddy算法中内存的申请和释放,来探索内存的奥秘,基本概念zone,有的地方把zone称为管理区,每个...
-
DDR
存储器子系统的主要功能是在云计算和人工智能,AI,、汽车和移动等广泛应用中尽可能快速可靠地为主机,CPU或GPU,提供必要的数据或指令,片上系统,SoC,设计人员可以选择多种类型的存储器技术,每种技术都具有不同的特性和高级功能,双数据速率,DDR,同步动态随机存取存储器,SDRAM,已成为主系统存储...
-
存储方案和动态分配 EasyC
很明显,我们通过new创建了一个长度为20的float数组,这块数组的内存将会一直停留在内存当中,直到使用delete语句释放,但当该函数运行结束的时候,p,fees这个指针将会消失,如果希望在其他地方能够使用这个数组,需要将地址通过某种方式返回或者传递,...。...
-
对象存储的区别与联系 文件存储 块存储
一、块存储、文件存储、对象存储,三者的本质差别是什么,典型设备,磁盘阵列,硬盘块存储主要是将裸磁盘空间整个映射给主机使用的,就是说例如磁盘阵列里面有5块硬盘,为方便说明,假设每个硬盘1G,,然后可以通过划逻辑盘、做Raid、或者LVM,逻辑卷,等种种方式逻辑划分出N个逻辑的硬盘,假设划分完的逻辑盘也...