包含"大数据"标签的文章
-
数据湖在快手的应用实践
一、数据湖在快手的应用历程1.业务面临的问题与挑战快手业务发展迅速,对数据精细化运营的要求越来越高,随之而来,数仓的数据模型持续快速增长,这带来了两个主要问题,其一,计算和存储成本也随之线性增长,在当前降本增效的大背景下,持续的成本增长与团队的目标战略相悖,其二,庞大的数据模型给治理和运维带来了挑战...
-
用于大数据分析的大规模可扩展存储 什么是数据湖
译者,李睿审校,孙淑娟2011年,时任商业智能开发商Pentaho公司首席技术官的JamesDixon创造了,数据湖,这一术语,他将数据湖与当时流行的数据集市的典型信息孤岛进行了对比,如果将数据集市视为销售瓶装水的商店,经过清洁和包装处理以便于饮用,,那么数据湖就是处于更自然状态的大片水体,数据湖...
-
数据湖成功的七个优秀实践
数据湖正在迅速成为组织存储和管理数据的最流行的方式之一,通过将数据存储在中央位置,数据湖使组织能够更轻松地访问、分析数据并从中获得见解,然而,如果没有适当的管理和实施,数据湖很快就会变得难以管理且难以使用,在本文中,我们将讨论一些关键的数据湖最佳实践,以确保数据管理从一开始就得到优化,数据湖成功的最...
-
腾讯大数据实时湖仓智能优化实践
一、湖仓架构腾讯大数据的湖仓架构如下图所示,这里分为三个部分,分别是数据湖计算、数据湖管理和数据湖存储,数据湖计算部分,Spark作为ETLBatch任务的主要批处理引擎,Flink作为准实时计算的流处理引擎,StarRocks和Presto作为即席查询的OLAP引擎,数据湖管理层以Iceberg为...
-
腾讯大数据多引擎统一元数据和权限管理的探索
一、腾讯大数据处理套件TBDS的全称是腾讯大数据处理套件,它是一个基于Hadoop生态以及MPP生态的大数据平台,我们主要有以下的四种应用场景,大数据的批流的处理,云原生的数据湖,湖仓一体,以及国产化的数据中台,下面是我们的一些客户,大家可以看到种类非常多,有金融类的、产业类的,还有传媒以及政府,不...
-
面试
Spark是一个快速的大数据处理引擎,在实际的生产环境中,应用十分广泛,目前,Spark仍然是大数据开发非常重要的一个工具,所以在面试的过程中,Spark也会是被重点考察的对象,对于初学者而言,面对繁多的Spark相关概念,一时会难以厘清头绪,对于使用Spark开发的同学而言,有时候也会对这些概念感...
-
Spark的爱恨情仇恩怨交织 Hive 和
最近在面试一些应聘大数据岗位的技术小伙伴时,发现不少朋友对业界所谓的hiveonspark和sparkonhive分不太清楚,同时在日常工作中,也因为对这两个技术术语的理解不太一致,影响了进一步的技术交流,所以在这里,明哥想跟大家聊聊hive和spark的爱恨情仇,...。...
-
大数据基础 Spark工作原理及基础概念
一、Spark介绍及生态Spark是UCBerkeleyAMPLab开源的通用分布式并行计算框架,目前已成为Apache软件基金会的顶级开源项目,至于为什么我们要学习Spark,可以总结为下面三点,1.Spark相对于hadoop的优势,1,高性能Spark具有hadoopMR所有的优点,hadoo...
-
Spark 大数据处理最佳实践
内容框架,大数据概览如何摆脱技术小白SparkSQL学习框架EMRStudio上的大数据最佳实践一、大数据概览大数据处理ETL,Data→>,二、如何摆脱技术小白什么是技术小白,只懂表面,不懂本质比如,只懂得参考别人的Spark代码,不懂得Spark的内在机制,不懂得如何调优SparkJ...
-
ACK 产品介绍 on 阿里大数据云原生化实践 Spark EMR
一、云原生化挑战及阿里实践大数据技术发展趋势云原生化面临挑战如何构建以对象存储为底座的HCFS文件系统完全兼容现有的HDFS性能对标HDFS,成本降低如何解决ACK混合异构机型异构机型没有本地盘社区[Spark,25299]讨论,支持Spark动态资源,成为业界共识如何有效支持跨机房、跨专线混合云需...
-
Spark SQL 通过扩展 打造自己的大数据分析引擎
首先我们先来了解一下SparkSQL的整体执行流程,输入的查询先被解析成未关联元数据的逻辑计划,然后根据元数据和解析规则,生成逻辑计划,再经过优化规则,形成优化过的逻辑计划,RBO,,将逻辑计划转换成物理计划在经过代价模型,CBO,,输出真正的物理执行计划,...。...
-
Spark入门详解 大数据开发
众所周知,Spark它是专门为大规模数据处理而设计的快速通用计算引擎,因此Spark它在数据的挖掘等领域便有着非常广泛的应用,而从现阶段来讲的话它也已经形成了一个高速发展并且应用相当广泛的生态系统了,所以,今天这篇文章便要为大家做一个Spark入门基础的简单介绍,满满干货,请不要错过,一.关于Spa...
-
Google迁移到MariaDB MySQL再度失势 继维基百科后
尽管被Oracle捕获后,MySQL上的争议就从未停止,但时至今日,MySQL仍是最具人气的开源数据库,简单、免费、扩展性、相对成熟等一直都是MySQL的吸引所在,然而随着自身脚步的放缓、各个竞争对手的追赶,这些杀手级特性已不在有吸力,甚至沦为弱势,虽然PostgreSQL一直被当作MySQL的直接...
-
大数据必知必会之Kafka
每一条消息被发送到broker之前,会根据分区规则选择存储到哪个具体的分区,如果分区规则设定得合理,所有的消息都可以均匀地分配到不同的分区中,如果一个主题只对应一个文件,那么这个文件所在的机器I,O将会成为这个主题的性能瓶颈,而分区解决了这个问题,在创建主题的时候可以通过指定的参数来设置分区的个数,...
-
智能包装与物联网远远不止提高物流追踪性能
数据是产品连接的重要条件,汽车、机器、智能手机和物联网设备产生了巨量的数据,这些数据被输入到公司与消费者之间无穷无尽的比特和字节流中,来自Accenture和AIPIA,自主和智能包装协会,的最新报告表现出一个新的增长,非常规的数据源,智能连接包装,这些具有数字功能的容器和标签可以向用户提供信息,以...