包含"Hive"标签的文章
-
Iceberg 数据湖访问 Presto Alluxio 加速
Presto是一个里程碑式的产品,它能够让我们很简单的不需要数据的导入和导出,就可以使用标准的SQL来查询数据湖仓上的数据,早先是数据仓库>,Presto中有一个概念叫做交互式的查询,即在几秒种最多几分钟返回一个结果,现实中很多人用Presto来做秒级查询,即subsecond的查询,...
-
的湖仓一体平台构建实践 Iceberg 秒级响应!B站基于
我们使用Iceberg构建湖仓一体平台的初衷是希望解决业务方在使用Hive数仓时的一些痛点,主要包括以下几大方面,1,Hive的查询性能达不到交互式分析的要求,所以经常需要把Hive的数据储存到其它引擎当中,2,上一点造成了出仓链路越来越多,越来越复杂,维护成本高,3,另外,出仓的数据容易形成数据孤...
-
Spark的爱恨情仇恩怨交织 Hive 和
最近在面试一些应聘大数据岗位的技术小伙伴时,发现不少朋友对业界所谓的hiveonspark和sparkonhive分不太清楚,同时在日常工作中,也因为对这两个技术术语的理解不太一致,影响了进一步的技术交流,所以在这里,明哥想跟大家聊聊hive和spark的爱恨情仇,...。...
-
Spark Hive到底是什么 Hadoop 做算法要不要学
大家好,我是梁唐,最近我发现,很多萌新说着想要做算法工程师,但是却对这个岗位的要求以及工作内容一无所知,以为学一个Python,再学一些机器学习、深度学习的模型就可以胜任了,工作就是用Python不停地写模型,显然,这样的想法是有问题的,如果真这么干,即使通过了面试成功入职,也会干得非常痛苦,因为你...
-
在企业级数仓建设的优势 SparkSQL
前言ApacheHive经过多年的发展,目前基本已经成为业界构建超大规模数据仓库的事实标准和数据处理工具,Hive已经不单单是一个技术组件,而是一种设计理念,Hive有JDBC客户端、支持标准JDBC接口访问的HiveServer2服务器、管理元数据服务的HiveMetastore,以及任务以Map...
-
终于有人讲明白了 大数据基础架构Hadoop
一、Hadoop技术概述在大数据时代,针对大数据处理的新技术也在不断地开发和运用中,并逐渐成为数据处理挖掘行业广泛使用的主流技术,Hadoop作为处理大数据的分布式存储和计算框架,已在国内外大、中、小型企业中得到了广泛应用,学习Hadoop技术是从事大数据行业工作必不可少的一步,1.Hadoop的...
-
终于有人讲明白了 ClickHouse与Hive的区别
一、Hive的数据文件和ClickHouse不同,由于Hive本身并不存储数据,而是为HDFS上的文件赋予数据库表、列的语义,保存对应的元数据供查询时使用,因此Hive的数据文件存在多种类型1、textfiletextfile,文本文件,是Hive中默认的数据文件,是一类基于纯文本的数据文件格式,在...
-
HA 数仓 介绍与实战操作 Hive
在数据仓库中,HiveHA,HighAvailability,是指为ApacheHive这个数据仓库查询和分析工具提供高可用性的架构和解决方案,Hive是建立在Hadoop生态系统之上的一种数据仓库解决方案,用于处理大规模数据的查询和分析,为了确保Hive服务的连续性和可用性,特别是在出现硬件故障、...
-
Docker 通过
问题,如果出现以下类似的错误,是因为多次启动,之前的数据还在,但是datanode的IP是已经变了的,宿主机部署就不会有这样的问题,因为宿主机的IP是固定的,,所以需要刷新节点,当然也可清理之前的旧数据,不推荐清理旧数据,推荐使用刷新节点的方式,如果有对外挂载的情况下,像我这里没有对外挂载,是因为之...
-
一文读懂Hive底层数据存储格式
本文讲解Hive的数据存储,是Hive操作数据的基础,选择一个合适的底层数据存储文件格式,即使在不改变当前HiveSQL的情况下,性能也能得到数量级的提升,这种优化方式对学过MySQL等关系型数据库的小伙伴并不陌生,选择不同的数据存储引擎,代表着不同的数据组织方式,对于数据库的表现会有不同的影响,H...