1. 首页 > 百货

从Clickhouse迁移到Doris 数据仓库性能大提升

从一个OLAP数据库迁移到另一个数据库是一项艰巨的工程。即使能找到一些有用的数据工具,您可能仍会犹豫是否对数据架构进行大手术,因为不确定如何运作。

本文分享如何从ClickHouse迁移到Doris的过程,包括为什么需要更改,需要注意什么以及如何比较两个数据库在各自环境中的性能。

这里有一家电子商务SaaS提供商,其数据系统提供实时和离线报告、客户分割和日志分析服务。最初,他们为这些不同的目的使用了不同的OLAP引擎:

这三个组件都有各自的痛点:

由于它们共同工作,这种架构可能太难以导航,因为它需要在开发、监控和维护方面了解所有这些组件。此外,每次用户扩展集群时,他们必须停止当前集群并迁移所有数据库和表,这不仅是一个巨大的任务,而且会对业务造成巨大的干扰。

Apache Doris填补了这些空白。

因此,计划进行迁移。

ClickHouse是旧数据架构中的主要性能瓶颈,也是最初想要进行更改的原因,因此从ClickHouse开始。

表创建语句

这里构建了自己的SQL重写工具,可以将ClickHouse表创建语句转换为Doris表创建语句。该工具可以自动执行以下更改:

查询语句

同样,也有工具可以将ClickHouse查询语句转换为Doris查询语句。这是为了准备ClickHouse和Doris之间的比较测试。转换中的关键考虑因素包括:

Apache Doris提供了广泛的数据写入方法。对于实时链接,采用Stream Load从NSQ和Kafka摄取数据。

对于大型离线数据,测试了不同的方法,以下是结论:

Spark-Doris-Connector是一种更通用的方法。它可以处理大量数据并确保写入稳定性。关键是找到正确的写入速度和并行性。

Spark-Doris-Connector还支持Bitmap。它允许您将Bitmap数据的计算工作负载移动到Spark集群中。

Spark-Doris-Connector和Flink-Doris-Connector都依赖于Stream Load。CSV是推荐的格式选择。用户的数十亿行测试表明,CSV比JSON快40%。

Spark Load方法利用Spark资源进行数据洗牌和排名。计算结果放在HDFS中,然后Doris直接从HDFS读取文件(通过Broker Load)。这种方法非常适合大规模数据摄入。数据越多,摄入速度越快,资源利用率越高。

这里比较了两个组件在SQL和连接查询方案上的性能,并计算了Apache Doris的CPU和内存消耗。

Apache Doris在16个SQL查询中的10个中表现优于ClickHouse,最大的性能差距比例接近30。总体而言,Apache Doris比ClickHouse快2~3倍。

对于连接查询测试,使用了不同大小的主表和维表。

测试包括完全连接查询和过滤连接查询。完全连接查询连接主表和维表的所有行,而过滤连接查询使用过滤器检索特定卖家ID的数据。结果如下:

主表(40亿行):

主表(250亿行):

主表(960亿行):

Doris在所有查询中都表现出相对较快的性能,而ClickHouse无法执行所有查询。

在CPU和内存消耗方面,Apache Doris在所有大小的连接查询中都保持稳定的集群负载。

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/baihuo725/35030.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息