一位神州的正式员工(没错,就是之前文章中出现的实习生):一闪,你今年涨工资了吗?
一闪:mad,一年辛苦到头只涨了500米
神州员工:你去年绩效不是优秀吗,怎么就涨了500米,还没我零头多
一闪:放肆!
(听说是当时招进来开的工资太高....导致涨薪的时候人资不通过....最后只涨了这么点.....)
一闪表示不理解,但是尊重
---------------------回到工作
老师傅:一闪,写Flink SQL的时候遇到个问题,来帮我看看。
-- Flink SQL
CREATE TEMPORARY VIEW temp AS
SELECT
b.corp_name
,a.sale_amount
FROM
(
SELECT
corp_no
,sale_amount -- 销售金额
FROM 销售事实表 a -- Flink的流表
) a
inner join
(
select
corp_no
,corp_name
from 门店_维度表 -- Flink的维表
group by corp_no
,corp_name
) b
on a.corp_no = b.corp_no
;
一闪:我先来分析一下你这段代码,你有一个事实表,里面存了公司编号和销售金额。你需要关联维度表来取到公司名称,不过的维度表原来是门店维度,所以你写了一个子查询,对该表里面的公司进行去重,确保公司关联公司数据不会重复。
老师傅:没错没错,就是这个需求,你来帮我看看代码上有啥问题没有?
一闪:好像没啥问题啊,至少运行不会报错,现在是有啥病症吗?
老师傅:每次任务重启的时候,数据都没问题,但是过了一段时间之后,数据就不准了,估计只能坚挺48小时不到......(我为什么要用坚挺这个词??)
一闪:(作为一名数据开发的资深叼毛,对数据的敏感性突现)48小时不到....并且刚重启时是正常的,理性分析一波,我猜问题应该是出在维度数据上...(但是flink的维表一般是不可能数据过期的啊)
------------去厕所放空一下
!!!!想明白了,问题应该在Flink的过期参数上!table.exec.state.ttl!!这个参数正好是36小时,小于老师傅说的48小时。
------------裤子一提冲出厕所
一闪:默认流数据过期时间36小时,所以你的表数据过期了,导致关联的时候出了问题。既然你说任务刚重启时没有问题,我理解事实表的逻辑没有问题,所以(BGM起)心机之蛙一直摸你肚子,凶手就是你的子查询让维表被系统解析成了流表,36小时后自动失效,导致结果数据出现问题。
老师傅:卧槽牛b,那么大师,我该怎么改呢,要不我把参数改成永不失效?
一闪:(流汗)亲,建议你直接做一张公司的维度表吧,你如果把参数改成永不失效,我相信代码和你都可以跑了。