大数据计算引擎中的Calcite

1.Calcite介绍

Calcite是一个动态数据库管理框架,具备数据库管理系统的功能
Calcite具备SQL解析、校验、优化、生成、连接查询等功能
Calcite能够为不同平台和数据源提供统一的查询引擎

2.Calcite能力

比如,对于HBase而言,没有SQL查询的能力,但是具备数据管理和数据存储的能力
对于ES而言,它也不具备SQL查询的能力,但是具备数据管理和数据存储的能力

也就是说,对于常见的数据库管理系统,都会具备(上图中灰色部分)数据管理和数据存储的能力,可能不具备SQL查询的能力。
可以通过Calcite为它们赋予SQL查询的能力,Calcite具备(上图中绿色部分)查询语言、查询优化、查询执行的能力。

Calcite在设计之初就确定了只关注和实现上图中绿色部分,而把灰色部分留给了各个外部的存储引擎和计算引擎。

由于数据的多样性,通常灰色部分是比较复杂的,Calcite抛弃了灰色部分,更加专注地实现上层通用的模块。

3.Calcite核心功能

完整的数据库管理系统分为 查询语言、查询优化、查询执行、数据管理、数据存储 5个模块
Calcite专注于实现上层3个通用模块
Calcite功能模块的划分足够合理、独立,使用时不需要完整集成3个模块,可以单独引用某一个模块

4.Calcite集成

上图展示了不同大数据框架对Calcite的引用情况

对Hive而言,Hive的 JDBC Driver 和 SQL Parser and Validator 都是自己实现的,只用到了Calcite的优化模块 Relational Algebra
对Flink而言,FlinkSQL的 JDBC Driver、SQL Parser and Validator、 Relational Algebra 都使用了Calcite进行实现

5.Calcite特性

支持标准SQL语言,可以通过自定义语法兼容多种特殊引擎语法
通过适配器,可以支持连接任何数据源
支持对SQL进行解析,并进行优化
支持物化视图
支持流式查询

6.SQL引擎之旅

提交一条SQL查询后,SQL会经历怎样的处理流程呢?
会经历 解析 -> 校验 -> 优化 -> 执行

Parser:Calcite通过 Java CC 将 SQL 解析成未校验的抽象语法树AST

Validate:检验Parser产生的抽象语法树是否合法,如验证 结构Schema、字段Field、函数是否存在、格式是否正确,验证完成之后生成逻辑执行计划RelNode树

Optimize:优化逻辑执行计划RelNode树,优化主要分为两类:RBO和CBO,优化后将其转换为物理执行计划

Execute:将物理执行计划转换成为特定平台的执行程序

7.Calcite相关组件

Catalog:定义SQL语义相关的元数据和命名空间,其实就是表和字段的一些元数据信息

SQL Parser 解析器:解析SQL,将其转换为抽象语法树AST

SQL Validator 校验器:通过Catalog里面存储的元数据信息,来校验抽象语法树AST,验证抽象语法树所查询的表、字段是不是存在

Query Optimizer 优化器:将抽象语法树转换为逻辑执行计划,并对其进行优化

SQL Generator 生成器:反向将执行计划转换为SQL语句 或 其他执行程序

8.Calcite架构图

Operator Expressions <—> Query Optimizer:接受原始的查询计划,输出优化后的查询计划

Metadata Providers:提供元数据,元数据就是一些Catalog信息。
提供的不是校验SQL需要的库、表、字段、Schema信息,而是是针对优化规则所需要用到的统计信息,比如表里面有多少个分区,表数据有多少个行,表的数据量有多少

Pluggable Rules:优化规则

根据统计信息和优化规则运用关系代数,关系演算这些等价关系,进行执行计划的优化

虚线:Calcite可以扩展的部分,可以与外部系统进行连接

桔色框:可以理解为外部系统,桔色框与蓝色框有虚线的连接,也就是说,桔色框可以扩展三个蓝色框,能够为优化器提供更加准确的元数据信息,更加符合的优化规则,来利用Calcite优化器产生最优的查询计划

以Hive为例,Hive只用了Calcite的优化能力,Hive MetaStore作为元数据的提供方,Hive为Calcite优化器提供了自己外部的元数据,优化规则,以及生成的Operator Expressions

这张架构图从上往下,就可以与SQL的处理流程关联起来:

  1. 用户通过JDBC Client提交一条SQL
  2. Calcite首先对SQL进行解析和验证,将SQL转换为抽象语法树
  3. 将抽象语法树转换为逻辑执行计划,在图中表现为Operator Expressions
  4. 优化器根据生成的逻辑执行计划和外部提供的统计信息、优化规则,对逻辑执行计划进行优化,生成性能比较好的逻辑执行计划
  5. 转换为物理执行计划

从图中可以看出,Calcite最核心的部分就是优化器,优化器需要三部分的输入,分别为优化前的逻辑执行计划、统计信息、优化的匹配规则

Calcite内置了上百种优化规则来对关系表达式进行优化,同时也支持自定义一些优化规则

9. Calcite集成

Calcite的使用非常灵活,可以使用Calcite的全部功能,也可以使用Calcite的部分功能。比如可以只使用Calcite的解析功能,或者只使用Calcite的优化功能,所以对于Calcite的使用一般有这两种场景:

  1. 使用Calcite的全部功能

在这张图中,Calcite作为独立运行的进程,后台通过适配器与外部存储系统进行连接,前台通过JDBC接口,使用SQL语言和用户进行交互

在这个场景中,Calcite作为一个中间件,为一些没有或缺乏SQL查询语言的存储系统,比如HBase,Kafka,ES,Redis等,提供SQL查询语言

Calcite可以在内部将用户提交的查询进行优化,运行在自己的进程里面,在优化的过程中,将用户的查询转换成对应数据存储所需要的查询,下推到对应的数据系统进行查询,查询完成之后再将查询结果返回给用户

  1. 使用Calcite的部分功能

Calcite作为一个嵌入式的组件运行在查询引擎里

可以看到图中,中间是一个数据处理系统,它只应用了Calcite的一个或两个核心功能,查询引擎自己连接后台的数据源,使用自己的集群,用分布式的形式去进行查询,也就是说,查询引擎能够自己获取数据和执行查询,它只需要Calcite来提供查询语言和优化查询的能力,比如Hive、Spark、Flink等等

以Flink为例,Flink有多种算子,可以连接多种异构的数据源,用于数据的获取,Flink自己就是一个计算引擎,能够自己去读取数据,计算数据,Flink有丰富的算子可以将数据进行过滤,放大,缩小,变形等,用于各种各样的计算需求

但是它需要一种对用户友好的,对于流批数据语义统一的查询语言,便于用户来编写查询,所以引入了Calcite,通过Calcite,将SQL转换成执行计划,转换成Flink的作业图,让用户的SQL以最小的代价运行在Flink的集群中

这种场景是Calcite最受欢迎,最擅长的场景。相比于连接数据源,Calcite更擅长的是制造查询语言,解析查询,查询优化

上图就是在第二种集成场景下,Calcite和Data processing System的交互过程:

  1. 用户提交一条SQL,SQL经过Calcite进行处理,生成逻辑执行计划
  2. 对执行计划进行优化,优化就要依赖于计算引擎提供的一些信息,包括新算子替换、优化规则、元数据,通过这三类数据结合Calcite本身的优化能力,产出优化后的逻辑执行计划
  3. 转换为计算引擎支持的查询步骤,对数据进行查询

计算引擎只引用了Calcite对SQL处理的能力

10. SQL解析

SQL解析包含三个过程:词法分析、语法分析、输出抽象语法树
SQL解析是将一个输入的字符串,变换成描述这个字符串的“结构体”,这个结构体是能够准确被计算机识别的

  1. 词法分析
  • 词法分析就是按照定义好的词法,将输入的字符集转换为单词

  • 先对待解析的格式进行初始的定义,比如,abc认定为标识符,'abc’认定为字符串,123认定为数值,select、from认定为关键字

  • 根据规定好的初始定义,将SQL转换成对应的词法:

  1. 语法分析

经过词法解析,得到了一系列的单词,得到单词后,就可以进行语法分析了

也就是说,词法分析的结果作为语法分析的输入,语法分析在词法分析的基础之上,来判断用户输入的单词是不是符合语法的逻辑

语法分析之后得到抽象语法树,抽象语法树是用户输入SQL语句的树形表现形式

树上的每一个节点,都是词法分析的一个单词,树的结构体现了语法

抽象语法树是随语法分析过程构造的,当语法分析正常结束以后,语法分析器就会输出一颗抽象语法树,用户的输入和抽象语法树的结构是一一对应的

自此,用户输入的SQL也就会变成一个结构体,也就是抽象语法树,如下图所示:

  1. 语义分析

接下来,就可以根据生成的抽象语法树来理解SQL想要干什么,语义分析是SQL解析当中最为复杂,最有难度的一步,涉及到SQL的标准、SQL的优化等等。如果想要转换为MapReduce程序,还需要理解MapReduce相关的概念

SQL的语义分析分为两大块:逻辑分析,物理分析

逻辑分析基本上是一个纯代数的分析过程,与底层的分布式环境无关
物理分析是将逻辑分析的结果进行一些变换,与底层的执行环境有密切的关系

SQL执行顺序(面试常见),如图所示,按照标号顺序执行:

  1. 逻辑执行计划

SQL算子是SQL执行时不可拆分的单位

语义分析会根据抽象语法树及元信息构建 RelNode 树,也就是最初版本的逻辑查询计划
(RelNode树就是逻辑查询计划。RelNode树是由一系列RelNode节点组成的树状结构,每个RelNode节点表示一个逻辑操作,如扫描表、投影、过滤等。RelNode树描述了查询的逻辑结构)

一个逻辑查询计划实际上就是由这些查询算子组成的有向无环图。在这个有向无环图中,每一个算子都描述了SQL操作中的不同动作,由算子组成的有向无环图描述了数据流的方向

11.SQL优化

  1. 优化逻辑执行计划

优化方式分类:

RBO:基于规则优化。基于已经制定好的优化规则,对关系表达式进行转换,生成最优的执行计划。是一种经验式的优化方法
CBO:基于代价优化。根据优化规则对关系表达式进行转换,生成多个执行计划,根据统计信息和代价模型计算出每个执行计划的代价,从中挑选代价最小的执行计划作为最终的执行计划

CBO明显优于RBO,因为RBO只认规则,对于数据并不敏感。在实际中,数据的量级会严重影响同样SQL的性能,所以仅仅通过RBO生成的执行计划很有可能不是最优的
而CBO依赖于统计信息和代价模型,统计信息的准确与否,代价模型是否合理,都会影响CBO选择最优的执行计划

新的优化方式:
动态CBO:在执行计划生成的过程当中,根据下一步代价动态优化
随着大数据技术的发展,静态CBO没有办法满足优化的需要了,因为静态的统计信息没有办法提供准确的参考。在执行计划生成的过程当中,动态地进行统计才能得到最优的执行计划

优化规则

无论RBO还是CBO,实际上都是对逻辑执行计划应用一些优化规则。通过优化规则对关系表达式进行等价转换,寻找最优的执行计划

常见的CBO优化规则有:列裁剪、投影消除、最大最小消除、谓词下推等

逻辑算子

从上图可以看到,涉及到三个逻辑算子,分别是Projection、Selection、DataSource

DataSource:数据源,也就是SQL语句中的表
Selection:选择,where后的过滤条件
Projection:投影,指搜索的列
Join:连接,inner join、left join、right join等
Sort:排序,无序的数据通过这个算子处理后,输出有序的数据
Aggregation:聚合,按照某些列进行分组,进行一些聚合操作

物理算子

有逻辑算子,肯定就有物理算子,对应的就是物理执行计划

物理算子和逻辑算子的不同在于,一个逻辑算子可能对应多种物理算子
比如,Join的物理算子有Hash Join、MergeSort Join等。DataSource可以扫描全表,也可以利用索引读取数据。都对应着多个物理算子

数据查询慢,需要加索引,要确保逻辑查询计划所对应的物理查询计划要走我们加的索引,这样才能提高查询速度。
也就是说,DataSource逻辑算子生成物理执行计划的时候,对应的物理算子要走索引才行

12.RBO优化规则

  1. 列裁剪

对于没有用到的列,没有必要读取它们的数据去浪费IO。列裁剪通过只读取需要的数据减少IO操作来达到优化的目的

列裁剪的算法就是自顶向下遍历一遍所有的算子,
某个算子需要用到的列=自己需要的列+父节点需要的列

这样就可以得到整个SQL语句需要的列,读取数据的时候只读取需要的列即可

  1. 投影消除

投影消除是把不必要的Projection给消除掉

Projection算子投影的列跟子节点的输出列一样,那么这个投影操作就可以消除
例:select a,b from t1
如果t1中只有a,b两列,也就是如果DataSource的输出和它上层的Projection算子需要投影的列是一样的,执行TableSCAN之后就没有必要再做一次Projection操作了,上层的Projection是可以被消除掉的

如果Projection的子节点还是Projection,那么可以被消除
例:select a from(select a,b,c from t1)t2
这条语句有两个Projection,分别是最上层的Projection,只含有a一列,它的子节点Projection,含有a,b,c三列
Projection a,b,c就是一个废操作,可以被消除掉

  1. 常量折叠和常量传播

常量折叠:编译优化时,能够计算出结果的表达式替换为常量
例:select * from t1 where a>3+5
3+5可以由常量进行替换,替换成a>8

常量传播:编译优化时,将能够计算出结果的变量替换为常量
常量折叠处理不了变量被多次赋值的情况
例:where a>5 and a<4
我们一眼就能看出来,上述情况不存在,但没有经过优化的SQL会进行全表的扫描,所以需要对它进行处理,对a>5和a<4进行条件常量传播,消除无用的节点,判断是否存在结果

  1. 谓词下推

将外层查询where子句中的谓词移入到所包含的较低层次的查询块,提前进行数据过滤,更好的使用索引

例:

select * 
from t1,t2
where t1.a > 3
and t2.b > 5

假设t1表和t2表都有100条数据,如果不进行谓词下推,就需要把t1表和t2表做笛卡尔积,再根据条件进行过滤。如果进行谓词下推,则是先过滤数据,再做笛卡尔积

尽量把过滤条件下推到子节点上,这样可以避免访问很多的数据,达到优化效果

对于DataSource算子,就直接将过滤条件推给各个DataSource算子。对于Join算子,收集连接的条件,区分出哪些是来自于左节点,哪些是来自右节点,将这些条件分别向左右节点进行下推

谓词下推也是有边界的,不能一直对谓词进行下推,不能推过limit节点。先Selection后limit n 和 先limit n后Selection的结果是不一样的

13.SQL优化执行过程

  1. RBO执行过程

Transformation:遍历关系表达式,满足特定的优化规则进行转换
Build Physical Plan:把优化过的逻辑执行计划转换成物理执行计划

  1. CBO执行过程

Exploration:根据优化规则进行等价转换,生成多个逻辑执行计划
Build Physical Plan:生成多个物理执行计划
Find Best Plan:计算各个物理执行计划的Cost,选出Cost最小的执行计划

  1. 动态CBO

CBO:先生成执行计划,后统计代价
动态CBO:边生成执行计划,边统计代价

14.CBO核心步骤

  1. 采集数据源的基本信息:包括表级别指标和列级别指标

每个节点输出的数据大小、数据条数、数据类型、数据分布,这是表级别指标
列的类型,以及每一列的最大值,最小值,每一列的长度,这是列级别指标

通过采集这些指标来计算每个算子的代价,去评估到底需要耗费多少资源

支持CBO的系统一般都实现了相关信息统计的方法,如Hive Matastore
如orc列式存储格式也存储了统计信息

  1. 定义核心算子的基数推导规则:根据统计信息预估节点代价

推导规则是在当前子节点的统计信息基础之上,来计算父节点相关统计信息,对于不同的算子,推导规则肯定是不一样的。根据表级别的指标和列级别的指标做一个预估,进行代价的计算

  1. 核心算子实际代价计算:从 CPU Cost 和 IO Cost 两方面分析实际代价

根据统计信息和推导规则所预估出的数据的条数,数据的大小,数据的分布等,来计算出各个执行计划执行的成本,执行成本就从CPU和IO两个维度进行体现

  1. 选择最优的执行路径:根据计算代价选择最优的执行路径

实际选择的并不一定是代价最小的执行路径,原因是可执行的执行路径太多了,如果把所有的路径都计算一遍,需要耗费大量的时间,SQL的优化也就没有意义了
CBO就是选择一条相对稳定而且代价较小的执行路径,这样就能在很短的时间内,达到SQL的优化目的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/583547.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt 6 开源版(免费) -- 安装图解

Qt6起&#xff0c;两项重大改变&#xff08;并非指技术&#xff09;&#xff1a; 必须在线安装&#xff0c;不再提供单独的安装包主推收费的商业版 当然的&#xff0c;为了引流、培养市场&#xff0c;提供了一个免费的开源版本。 开源版相对于收费的商业版&#xff0c;主体是…

PostgreSQL 14 向量相似度搜索插件 (pgvector) 安装指南

本文是关于在 PostgreSQL 14 中安装并使用向量相似度搜索插件(pgvector)的详细指南。此插件允许用户在数据库中执行高效的向量运算,特别适用于机器学习模型的向量数据存储与检索场景。 环境需求 已安装PostgreSQL 14或更高版本。安装了Visual Studio 2022,用于编译插件。安装…

微信小程序+esp8266温湿度读取

本文主要使用微信小程序显示ESP8266读取的温湿度并通过微信小程序控制LED灯。小程序界面如下图所示 原理讲解 esp8266 通过mqtt发布消息,微信小程序通过mqtt 订阅消息,小程序订阅后,就可以实时收到esp8266 传输来的消息。 个人可免费注册五个微信小程序账号,在微信小程序官…

渗透之sql注入---实战1

本期的sql注入实战在&#xff1a;BUUCTF在线评测 (buuoj.cn) 该网站上进行。 启动靶机&#xff1a; 1.进来后搜索web1 2.点击【SWPU2019】Web1启动靶机。 3.进来之后在此界面进行注入。 开始注入&#xff1a; 1.找注入点&#xff1a; 我们输入1 后查看广告详情发现报错&a…

利用kimi等大模型进行运维参数解析和调优

在运维时&#xff0c;经常遇到很多参数&#xff0c;有些参数不知道意义&#xff0c;知道意义的也有些不知道合理参考值是多少。利用kimi等大模型来当老司机&#xff0c;轻松解决运维难题。 例如在运维hive参数时&#xff0c;有些不知道作用&#xff0c;提示次如下 你的角色是…

vue根据输入n动态生成n个表单

我的构想&#xff1a;在输入框中输入一个数字n&#xff0c;然后点击一个按钮&#xff0c;弹出一个弹窗&#xff0c;里面有n个表单。 这是按钮的vue代码&#xff1a;数值保存在form.number里面&#xff0c;每次数字改变会触发numberChange //...略 <el-form-item prop"…

POCEXP编写—多线程

POC&EXP编写—多线程 1. 前言2. 多进程&多线程2.1. 多进程2.1.1. 案例 2.2. 多线程2.2.1. 案例&#xff1a; 2.3. POC的案例&#xff08;模板&#xff09; 3. UA头设置3.1. 随机UA头3.1.1. 案例3.1.2. 模板拼接 4. 代理Proxy4.1. 单代理案例4.2. 多代理案例4.2.1. 请求…

【2024最叼教程】Appium自动化环境搭建保姆级教程

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

鸿蒙内核源码分析(线程概念篇) | 是谁在不断的折腾CPU

本篇说清楚任务的问题 在鸿蒙内核线程(thread)就是任务(task)&#xff0c;也可以叫作业.线程是对外的说法&#xff0c;对内就叫任务.跟王二毛一样&#xff0c; 在公司叫你王董&#xff0c;回到家里还有领导&#xff0c;就叫二毛啊.这多亲切.在鸿蒙内核是大量的task&#xff0c…

【Linux系列】 离线安装vnc 可视化桌面

离线安装vnc 可视化桌面 缘下载安装vnc初始化链接 缘 项目需要下载 下载地址&#xff1a; http://mirror.centos.org/centos/7/updates/x86_64/Packages/tigervnc-license-1.8.0-31.el7_9.noarch.rpm http://mirror.centos.org/centos/7/os/x86_64/Packages/libXfont2-2.0.…

Word插件开发

VSTO是Visual Studio Tools for Office的简称&#xff0c;它是Microsoft Visual Studio的一个扩展&#xff0c;用于开发基于Microsoft Office平台的应用程序。VSTO提供了一套API和工具&#xff0c;使开发人员能够利用Visual Studio IDE来开发定制的Office解决方案。 在 Visual…

DiffusionGAN ——最快的小波扩散模型应用研究

介绍 扩散模型最近出现并迅速发展&#xff0c;吸引了许多研究人员的兴趣。这些模型能从随机的噪声输入生成高质量的图像。在图像生成任务中&#xff0c;它们的表现尤其优于最先进的生成模型&#xff08;GANs&#xff09;。扩散模型可以灵活地处理各种条件输入&#xff0c;从而…

knife4j swagger 使用笔记

1.接口访问的端口跟后台设置的不一致&#xff0c;接口请求无反应 处理办法 2.响应参数不显示问题 &#xff08;1&#xff09;返回的参数里面一定要有响应的参数对象&#xff0c;如下&#xff1a; &#xff08;2&#xff09;TableDataInfo 定义成泛型类 TableDataInfo package…

移动应用安全

移动应用安全 移动应用安全主要关注Android、iOS、Windows Phone等平台上移动应用软件安全状态。它涉及应用程序在其设计运行的平台上下文中的安全问题、它们使用的框架以及预期的用户集。所有主流的移动平台都提供大量可选的安全控制&#xff0c;旨在帮助软件开发人员构建安全…

浅析扩散模型与图像生成【应用篇】(十八)——ControlNet

18. Adding Conditional Control to Text-to-Image Diffusion Models 现有的文生图模型如Stable Diffusion通常需要人工输入非常准确的提示词&#xff0c;而且生成的结果还是完全随机不可控制的&#xff0c;只能通过生成多个结果&#xff0c;再从中选取最佳方案。而ControlNet的…

竞争分析:波特五力模型

波特五力模型是分析企业竞争环境的一个分析模型。 根据波特的观点&#xff0c;每家企业都受到“直接竞争对手、顾客、供应商、潜在新进公司和替代性产品”这五个“竞争作用力”的影响。 我们用波特五力模型试着分析下实体书店竞争是否激励。 直接竞争对手&#xff1a;如果直接…

料堆体积测量新方案:激光雷达

激光雷达测量料堆体积是一种高效且精确的方法。激光雷达的工作原理与雷达相似&#xff0c;通过发射激光束探测目标的位置、速度等特征量。在测量料堆体积时&#xff0c;激光雷达系统向料堆发射激光束&#xff0c;然后接收从料堆表面反射回来的信号。通过对这些反射信号的处理和…

Linux网络之DNS域名解析

一、DNS概述 1.1什么是DNS 域名解析协议&#xff0c;将域名转换成IP地址 1.2为什么要用DNS IP地址不便于记忆&#xff0c;DNS使用户可以通过易记的域名快速访问各种网络资源。 192.168.0.0—— ip地址过长而且都是数字&#xff0c;不方便记忆就出现了域名 www.baidu.com—…

记一次线上日志堆栈不打印问题排查(附:高并发系统日志打印方案可收藏)

目录 一.线上的日志堆栈不打印了二.一步一步仔细排查三.最后搞定四.聊一聊线上日志到底应该怎么打印4.1 日志打印的诉求4.2 常见的系统日志上报方案4.2.1 ELK 方案4.2.2 自定义log appender 完成应用日志采集. 4.3 日志常见框架傻傻分不清4.4 日志在高并发系统中需要注意的 tip…

神仙级Python入门教程,手把手教你从0到精通,学不会算我输!

亲爱的朋友们&#xff0c;你是否对编程充满好奇&#xff0c;却觉得它遥不可及&#xff1f; 你是否想学习一门强大的编程语言&#xff0c;却不知从何下手&#xff1f; 那么&#xff0c;这篇“神仙级”Python入门教程就是为你量身打造的&#xff01;不论你是编程小白还是有一定…