Flink SQL在京东实时维度建模中的应用.docx

上传人:lao****ou 文档编号:81563 上传时间:2023-02-13 格式:DOCX 页数:14 大小:469.14KB
下载 相关 举报
Flink SQL在京东实时维度建模中的应用.docx_第1页
第1页 / 共14页
Flink SQL在京东实时维度建模中的应用.docx_第2页
第2页 / 共14页
Flink SQL在京东实时维度建模中的应用.docx_第3页
第3页 / 共14页
Flink SQL在京东实时维度建模中的应用.docx_第4页
第4页 / 共14页
Flink SQL在京东实时维度建模中的应用.docx_第5页
第5页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Flink SQL在京东实时维度建模中的应用.docx》由会员分享,可在线阅读,更多相关《Flink SQL在京东实时维度建模中的应用.docx(14页珍藏版)》请在第一文库网上搜索。

1、Flink SQL在京东实时维度建模中的应用01问题在维度建模中有很多技术场景,本文挑选其中两个较难的场景来进行详细阐述。B. name;问题一实时多流全量关联的问题select * from A full join B on Ae name此问题关联SQL比较简单,只有A流和B流两个实时流进行full join,但还可能涉及到其中有一流数据需要关联全量历史数据。问题二实时流全量分组计算的问s(?l(?ct id, H , val, row_number() o (partit ion byname order val)rn A;select name, min(val) from A gro

2、up by k;这个问题是实时流全量分组计算,涉及到分组排序值,或者分组求最小值等操作。针对以上两个问题,似乎使用SQL处理起来比较简单,甚至我们可以直接用Flink SQL去完成。而实际直接使用以上Flink SQL计算存在若干问题。第一个问题是在最初生产数据的时候,可能并没有接入实时数据流。在实际场景中,往往需要在过程中接入实时数据。比如接入binlog之类的数据,其实是从当前时刻到未来这一时间段。例如商品SPU信息,一般需要有历史数据。只有获取历史数据,在订单数据流关联的时候,才能关联上这个订单所对应的历史信息。如果商品信息都是从产生后一段时间才接入数据,即从当前时刻才有的,那就无法获取

3、到历史信息。第二个问题是状态数据,在用Flink SQL进行计算时,需要维护若干状态数据放到内存中,这种操作比较消耗内存。对于商品几年的历史数据,如果将状态数据存放在rocksdb中,经测试性能无法得到保障。基于此,如果直接用Flink SQL肯定无法解决。以下分析怎么去解决此类问题。首先看第一个问,即实时多流全量关联的问题。第一部分就是从最初时刻到当前时刻的时间区间,可以认为是历史状态数据。此处分别是A表和B表的记录。然后我们按照对应的关联键,如分别按name进行关联。通过name字段把它拆成几个部分,右侧是关联出来的结果表。当有一个消息进入,这个消息体可能是一个变更的消息记录。此处略过较为

4、简单的新增或者删除操作,重点分析更新操作。I问题一:实时多流全量关联的问题(2)0, now)(3)Aidnameval100001aaa23100002aaa55100003bbb21100004bbb33100005bbb66100006ccc43(1)(AB1bbb21100003bbbpp3bbb33100004bbbPP4bbb66Bidnameval 1100001aaappi100002aaaPP2100003bbb即3100004bbbpp4100005dddpp510000643BAidAnameAvalBidBnameBvalEES23aaa23100001aaaPP1aa

5、a55100001aaappiiEllaaa23100002aaaPP2100002aaa55100002aaaPP2100003bbb21100003bbbpp3100004bbb33100003bbbpp3bbb66100003bbbPP3bbb21100004bbbPP4bbb33100004bbbPP4100005bbb66100004bbbpp4100006ccc43100005dddpp5A full outer join B* I DataFunSummit京东比如下图中消息mid=l,将A表里边的id=1000001这条记录里面aaa的记录值改成Tbbbo但这个name字段是关

6、联键,所以这就导致它影响了两个分组下的关联键下的记录。最终在A里面,它与B关联上的,之前的这两条记录(name二aaa),在它被修改之后就不存在了,所以我们需要给下游发删除记录。问题一:实时多流全量关联的问题now, +00)(1)(2)(3)A100001aaa23100001aaappi100002aaa55100001aaa ppi100001aaa23100002aaapp2100002aaa55100002aaaPP2100003bbb21100003bbbpp3100004bbb33100003bbbPP3100005bbb66100003bbbpp3100003bbb211000

7、04bbb100004bbb33100004bbbpp4100005bbb66100004-bbbpp4100006ccc43100005dddPP5100001aaappiL41.0g10000X-Md100001aaappizoIII (Pl 1)1*mJ1100002aaapp22.0100003bbbpp32,0100004bbbPP2.0DataFunSummit*|- y-. . Lnow, +oo)(3)I问题一;实时多流全量关联的问题(1)(2)rc100001100001Aval mid哨100001bbb232cur100001aaa23bbbiAHMMbbb21时也Ibb

8、b33urnbbb66bbb100004 bbb8-Iidvalmidsrc E2ZEJK3BIppi1pp3AnameAvalssasBnameBva0 midaaa23aaappiaaa55100001aaappiaaa23100002aaaPP2aaa55100002aaapp2bbb21100003bbbpp3bbb33100003bbbpp3bbb66100003bbbPP3bbb21100004bbbpp4bbb33100004bbbpp4bbb66100004bbbpp4ccc43100005dddpp5.: 一;. aaappi1.01aaa_?_L0bbb23bbbPP31,0bbb*M I2323100004bbbpp4L0100001aaappi2,0aaa23100002aaaPP2zo 二 J 1 ,1 .,心汕XibbbPP3ZObbbZO100001 1 ,.-i:,I100002100003100004bbb33100001 bbb0A1000051bbb 一66100001 bbbp

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服