Flink SQL 知其所以然：两万字详述 Join 操作-码上建站

当前位置：首页 >系统运维 >Flink SQL 知其所以然：两万字详述 Join 操作

Flink SQL 知其所以然：两万字详述 Join 操作

发布时间：2025-11-05 08:06:55 来源：码上建站作者：域名

Flink Joins

大家好，知其字详作我是所然述老羊，今天我们来学习 Flink SQL 中的两万· Join 操作。

Flink 支持了非常多的知其字详作数据 Join 方式，主要包括以下三种：

细分 Flink SQL 支持的所然述 Join：

云服务器

1、Regular Join

企商汇

下面这个案例为 Inner Join 案例：

show_params STRING

click_params STRING

c_params STRING

sink_table

c_params

show_log_table

输出结果如下：

如果为 Left Join 案例：

show_params STRING

click_params STRING

c_params STRING

sink_table

c_params

show_log_table

输出结果如下：

如果为 Full Join 案例：

show_params STRING

click_params STRING

c_params STRING

sink_table

c_params

show_log_table

输出结果如下：

关于 Regular Join 的b2b信息网注意事项：

详细的 SQL 语义案例可以参考：

flink sql 知其所以然（十二）：流 join 很难嘛？？？（上）。

flink sql 知其所以然（十三）：流 join 很难嘛？？？（下）。

2、Interval Join（时间区间 Join）

可以发现 Inner Interval Join 和其他三种 Outer Interval Join 的区别在于，Outer 在随着时间推移的过程中，如果有数据过期了之后，会根据是否是 Outer 将没有 Join 到的数据也给输出。

下面为 Inner Interval Join：

row_time

c_params STRING

sink_table

c_params

输出结果如下：

如果是 Left Interval Join：

row_time

c_params STRING

sink_table

c_params

输出结果如下：

如果是 Full Interval Join：

row_time

c_params STRING

sink_table

c_params

输出结果如下：

关于 Interval Join 的注意事项：

实时 Interval Join 可以不是等值 join。等值 join 和非等值 join 区别在于，等值 join 数据 shuffle 策略是 Hash，会按照 Join on 中的等值条件作为 id 发往对应的下游；非等值 join 数据 shuffle 策略是 Global，所有数据发往一个并发，然后将满足条件的数据进行关联输出。

关于详细的 SQL 语义可以参考。

flink sql 知其所以然（十三）：流 join 很难嘛？？？（下）。

3、Temporal Join（快照 Join）

ENFORCED

update_time

rownum

以事件时间任务举例：

order_time

ENFORCED

orders

结果如下，可以看到相同的货币汇率会根据具体数据的事件时间不同 Join 到对应时间的汇率：

复制order_id price 货币汇率 order_time

注意：

还是相同的案例，如果是处理时间语义：

currency rate

amount currency

到达的一条数据

rate

到达的一条数据

可以发现处理时间就比较好理解了，因为处理时间语义中是根据左流数据到达的时间决定拿到的汇率值。Flink 就只为 LatestRates 维护了最新的状态数据，不需要关心历史版本的数据。

4、Lookup Join（维表 Join）

来一波输入数据：

曝光用户日志流（show_log）数据（数据存储在 kafka 中）：

user_id

用户画像维表（user_profile）数据（数据存储在 redis 中）：

age sex

男

女

注意：

redis 中的数据结构存储是按照 key，value 去存储的。其中 key 为 user_id，value 为 age，sex 的 json。

具体 SQL：

sex STRING

sink_table

log_id

`timestamp`

user_id

proctime

sex

age

输出数据如下：

user_id age sex

男

女

男

女

注意：

实时的 lookup 维表关联能使用处理时间去做关联。

详细 SQL 语义及案例可见：

flink sql 知其所以然：维表 join 的性能优化之路（上）附源码。

flink sql 知其所以然：改了改源码，实现了个 batch lookup join（附源码）。

其实，Flink 官方并没有提供 redis 的维表 connector 实现。

没错，博主自己实现了一套。关于 redis 维表的 connector 实现，直接参考下面的文章。都是可以从 github 上找到源码拿来用的！

注意：

再说说维表常见的性能问题及优化思路。

所有的维表性能问题都可以总结为：高 qps 下访问维表存储引擎产生的任务背压，数据产出延迟问题。

举个例子：

这就是为什么维表 join 的算子会产生背压，任务产出会延迟。

那么当然，解决方案也是有很多的。抛开 Flink SQL 想一下，如果我们使用 DataStream API，甚至是在做一个后端应用，需要访问外部存储时，常用的优化方案有哪些？这里列举一下：

博主认为上述优化效果中，最好用的是 1 + 3，2 相比 3 还是一条一条发请求，性能会差一些。

既然 DataStream 可以这样做，Flink SQL 必须必的也可以借鉴上面的这些优化方案。具体怎么操作呢？看下文骚操作：

flink sql 知其所以然：改了改源码，实现了个 batch lookup join（附源码）。

5、Array Expansion（数组列转行）

show_param STRING

sink_table

show_param

show_log_table

show_log_table 原始数据：

输出结果如下所示：

6、Table Function（自定义列转行）

自定义输出逻辑

行

执行结果如下：

随便看看