科技
-
Kyuubi Hudi 的现代技术栈探索 出行基于 T3
过去的几年里,随着大数据的进一步发展,现代数据栈的生态愈加丰富完善,而数据湖在这期间几乎已成为现代数据栈的必备品,它的出现大大简化了用户管理数据的难度,让用户更加关心于数据本身,而非组件本身,T3出行在数据湖基础上,对现代数据栈进行了一些探索,并初步打造了特征平台,在本文中,我将给大家分享下T3出行...
-
StarRocks 数据湖查询和迁移实践
1.为什么需要数据湖架构为什么需要数据湖,与其它技术一样,数据湖本身也是由需求而生的,早期都是离线数仓,为了应对现在数据分析中越来越多的实时性场景,以及对ACID、事物性隔离越来越高的要求,数据湖技术应运而生,传统的数据湖三剑客为Iceberg、Hudi和Deltalake,从去年开始,开源的Apa...
-
你是否在自建Ceph 集群中 犯过这五个错误
Ceph是一个开源的分布式对象,块和文件存储,该项目诞生于2003年,是塞奇·韦伊的博士论文的结果,然后在2006年在LGPL2.1许可证发布,Ceph已经与Linux内核KVM集成,并且默认包含在许多GNU,Linux发行版中,当前的工作负载和基础设施需要不同的数据访问方法,对象,块,文件,,Ce...
-
还有和Redis一样好用的NoSQL
实际上为了更好的描述实体之间的关系,我们要是再继续使用Redis的话,是不是感觉实体之间的关系不够那么的明显,虽然也是属于NoSQL的一种,但是相对来说,Redis,表现实体之间的关系就没有那么清晰了,为了更好的描述实体之间的关系,就会使用图形数据库来进行了,那么今天阿粉介绍的,就是一个图形化的数据...
-
分布式存储架构发展及技术分析
从云和互联网的业务场景来看,其存储域主要采用基于服务器部署分布式存储服务的融合方式,它面临如下挑战,1.数据保存周期与服务器更新周期不匹配,大数据、人工智能等新兴业务催生出海量数据,大量数据需按照其生命周期策略,例如8~10年,进行保存,2.性能可靠与资源利用率难以兼得,支撑业务的分布式存储系统大致...
-
图解PostgreSQL进程结构和内存结构
一.建立会话的过程阶段一,客户端发起请求,阶段二,该阶段由主服务postmaster进程负责,阶段三,阶段二通过之后,主服务进程为该客户端单独fork一个客户端工作进程Postgres,SP进程,会话进程,用户一旦验证成功就会fork一个新的进程,分配PGA里面的work,mem,从磁盘读取数据到S...
-
我们一起聊聊运维知识的呈现需要个性化吗
这些年数据库运维工具的领域各种概念层出不穷,每个用户好像都有自己的特殊情况,他们需要的运维工具的功能也千差万别,搞的有时候让我都感到有些弄不明白用户到底需要什么样的产品了,有些运维工具是企业的刚需,是高频使用的功能,比如说数据库的安装部署、自动打补丁升级,批量修改数据库配置等,随着企业私有云的建设,...
-
基础设施和数据两手都要硬 新型IT运维管理
AI大模型时代,数据赋予IT人,新使命,当下IT人在企业中扮演着运营支撑的角色,说到运维管理,相信每人都是一把辛酸泪,每天承担着繁琐、高负荷且又高风险的运维工作,但在业务规划和职业发展时又成为了,透明人,业内有句调侃的话,只花钱的人,不配拥有发言权随着AI大模型应用的普及,数据成为了企业的关键资产和...
-
一键搞定集群升级与测试 Pulsar升级自动化
背景由于我在公司内部负责维护Pulsar,需要时不时的升级Pulsar版本从而和社区保持一致,而每次升级过程都需要做相同的步骤,命令行工具以上的流程步骤最好是全部一键完成,我们只需要人工检测下监控是否正常即可,于是我便写了一个命令行工具,执行流程如下,pulsar,upgrade,cli,hok,a...
-
Elasticsearch 深度巡检 Logstash Kibana 如何对 Filebeat
本文将详细介绍一套深度巡检方案,包括各组件的监控方法、健康状态检查、性能指标监控,以及一些关键的DSL查询示例,帮助大家全面掌握集群状态,及时发现潜在问题,优化EFLK的运行,...。...
-
pod驱逐问题处理 K8S故障处理指南
在K8S集群故障处理过程中,你可能遇到过pod的各种状态,Evicted状态代表你的K8S环境遇到了资源驱逐的问题,本节通过对驱逐问题的解决,参数的调整,问题的处理思路,希望给你解决此类问题提供帮助,pod出现状态为Evicted时,表示出现了驱逐,pod驱逐出现的原因一般为资源不足,内存或磁盘空间...
-
ModSecurity 网络应用防火墙 配置 Nginx 为
OSI,开放系统互联,是最常被网络相关讨论引用的网络流量框架之一,当数据包通过第6层,表示层,移动到第7层,应用层,时,它会进行解密或解码操作,这些操作可能会因异常解码和解释而产生漏洞,而这些漏洞可能被利用来打破标准应用上下文,注入就是这种漏洞的一种类型,而且因为传统的设备无法应对这些威胁,所以其长...
-
TIME 一次TCP
收到连接数过多的告警并不代表一定会产生生产问题,此时要关注负载是否直线上升,连接数一直无法释放,如果出现此情况,则需要及时处理,避免造成生产环境宕机,...。...
-
私有镜像仓库 安装和使用 Harbor
我们如果需要部署一个私有镜像仓库来使用,最简单的就是registry,一行命令就可以运行在Docker中,但功能也比较弱,如果想要私有镜像仓库功能更丰富些,可以使用Harbor,...。...
-
的 Spark 中取出具体某一行 DataFrame 如何从
spark中Bucketizer的作用和我实现的需求差不多,尽管细节不同,,我猜测其中也应该有相似逻辑,有能力和精力了应该去读读源码,看看官方怎么实现的,...。...