详解用户画像与实时数仓的架构与实践.docx

上传人:lao****ou 文档编号:87303 上传时间:2023-02-20 格式:DOCX 页数:39 大小:1,002.35KB
下载 相关 举报
详解用户画像与实时数仓的架构与实践.docx_第1页
第1页 / 共39页
详解用户画像与实时数仓的架构与实践.docx_第2页
第2页 / 共39页
详解用户画像与实时数仓的架构与实践.docx_第3页
第3页 / 共39页
详解用户画像与实时数仓的架构与实践.docx_第4页
第4页 / 共39页
详解用户画像与实时数仓的架构与实践.docx_第5页
第5页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《详解用户画像与实时数仓的架构与实践.docx》由会员分享,可在线阅读,更多相关《详解用户画像与实时数仓的架构与实践.docx(39页珍藏版)》请在第一文库网上搜索。

1、详解用户画像与实时数仓的架构与实践用户画像与实时数据分析是互联网企业的数据核心。知乎数据赋能团队以Apache Doris为基础,基于云服务构建高响应、低成本、兼顾稳定性与灵活性的实时数据架构,同时支持实时业务分析、实时算法特征、用户画像三项核心业务流,显著提升对于时效性热点与潜力的感知力度与响应速度,大幅缩减运营、营销等业务场景中的人群定向成本,并对实时算法的准确率及业务核心指标带来明显增益。关键词:数据仓库,Apache Doris ,用户画像,实时数据t程序员更sql着爨!pythoR20-30二.男i需吃代码01前言知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的

2、诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响应的用户行为流,同时在算法特征、指标统计、业务外显等业务场景有愈来愈多的数据实时化的诉求。在2021年8月,知乎平台团队成立数据赋能团队。针对历史实时数据需求无承接方的现象,已有用户画像系统无法满足多样的人群定向的现状,及业务方进一步人群分析的业务诉求,提出基础设施层选用Apache Doris作为实时数据仓库技术选型,业务工具层建设实时数据集成、实时数据调度、实时数据质量中心等系统,应用层建设实时数据应用和用户画像应用的方案。该方案针对性地解决了业务痛点,满足了业

3、务诉求。拆分当前业务主要在实时数据和用户画像两大部分有难点,共包含如下的三个方向目标:1、实时业务数据通过提供实时的业务指标,解决业务对热点、潜力的把控,助力生产、消费,提 升优质创作量及内容消费能力。提供实时的复杂计算的外显指标,加强用户体验,解决业务侧通过后端脚本计算的高维护成本和复杂性,节约成本,提升人效。2、实时算法特征以实时数据为基础,提供多样的实时算法特征,与算法团队共同提升DAU、留存、用户付费等核心指标。用户筛选,做到多维、多类型的定向筛选,并接入营销、广告、运营平台等系统,提高业务效率,降低人员成本。用户分析,做到多角度用户分析,定向用户分析报告0成本,助力业务部门快速把握核

4、心客户市场。本文就知乎平台的数据赋能团队,基于以上三个方向的目标,就这四个问题,来逐一介绍这方面的技术实践经验和心得体会:如何通过实时数据驱动业务发展?如何从0 - 1搭建实时数据中心?如何搭建一套高效快速的用户画像系统来解决历史系统的多种问题?如何快速高效的开发业务功能和保证业务质量?1.1 名词解释名词/缩写 描述UBSUser Behavior System。知乎的实时用户行为系统。包含实时的用户行为流及相关的快查存储。DMPData Management Pl at form o知乎的用户画像系统。包含人群筛选、人群分析等功能。1.2 实时数据与用户画像与各业务的结合有问姮就会有答案内

5、容(获得感)J用户02面临的挑战和痛点针对当前业务目标,主要有以下几个具体要求。1、有价值1)如何通过实效性发现业务价值?搭建热点、潜力等紧随时间的指标和相关的排行榜,直接支持业务发展。2)如何让用户画像的筛选和分析能力最大化?要全面覆盖多维度用户筛选的多种需求。多角度、多方式覆盖用户分析。2、数据实效性1 )推荐页首屏浏览6条内容,如何在第二刷的时候就立即感知到最新的用户行为?通过UBS建设提升实效性(下面介绍)2 )在推荐算法中,非常实时的特征推荐算法效果要比天级别更新特征的算法效果好很多,如何保证10分钟内算法受到特征变更?通过实时数据系统与Apache Doris配合共同建设,提升到1

6、0分钟内更新(下面介绍)3、接口实时性热点运营场景,期望用户画像服务能在秒级别快速筛选出大量人群,用户后续的推送等运营场景,如何解决?通过用户画像系统与Apache Doris配合共同建设,提升人群筛选的速度(下面介绍)4、复杂性1)实时数据几乎没有count, sum需求。几乎都是复杂去重和多数据联合计算的情况。以播放量为例。在启播、暂停、完播、心跳等多个条件下,会同时有多个点,要进行去重。同时基于视频回答、视频的关系和双作者联合创作的关系,需要叠加,同时保证在父子内容异常状态的情况下过滤其中部分播放行为。2)人群分析业务,期望多角度、各维度进行人群关联计算,同时基于全部用户特征针对当前人群

7、和对比人群进行TGI计算,筛选出显著特征,如何解决?通过用户画像系统与Apache Doris配合共同建设,解决复杂的人群分析(下面介绍)3)业务数据中有增/删/改逻辑,如何实时同步?实时数据集成系统与Apache Doris配合共同建设,解决增/删/改逻辑(下面介绍)4)明细数据异常发现滞后,异常发现后,需要针对性修正构建方式,及回溯数据修复,如何解决?通过选择Lambda架构作为数据架构解决(下面介绍)03实践及经睑分享3.1 整体业务架构基于当前的业务,从顶层至底层进行了拆分。主要分为应用层、业务模型层、业务工具层、基础设施层。基于我们当前的业务形态,自上而下应用层:负责当前我们的业务应

8、用,直接为业务提供工具或提供业务的某些模块,与业务共担目标,为业务赋能。业务模型层:支持应用层建设和一定的实时分析能力,同时也作为业务某一个流程的功能模块接入使用,为外部业务和自身应用层建设,与业务共担目标,为业务赋能。业务工具层:支持应用层和业务模型层的开发,提供通用的工具,面向降低应用层和业务模型层的建设成本,提升整体建设的工程效能,保证业务稳定和数据质量准确。基础设施:技术中台提供的基础设施和云服务,提供稳定可用的基础功能,保证上层建筑的稳定性。应用层UBS (用户行为)千user叫知用乳息数据输出模块:点宣接口榜单接口 I MQ接口I RDS接口 J 报表接口 :业务工3层数据输入模块

9、数据集成中心数据采集中心3.2 实时数据的数据架构选型解决当前问题的数据架构,一般有Lambda架构和Kappa架构。针对当前业务特点,计算复杂、偶发的异常问题需要大数据量回溯等特性。当前实时数据的数据架构采用的是Lambda架构。由Doris承载分钟级的批处理,Flink来承载秒级别简单逻辑的流处理。具体如下:3.3 应用层建设经验分享3.3.1 实时数据系统01业务场景实时数据系统主要有两个大方向:实时业务数据和实时算法特征。(1 )实时业务数据。通过提供实时的业务指标,解决业务对热点、潜力的把控,助力生产、消费,提 升优质创作量及内容消费能力。提供实时的复杂计算的外显指标,加强用户体验,

10、解决业务侧通过后端脚本计算的高维护成本和复杂性,节约成本,提升人效。(2 )实时算法特征。以实时数据为基础,提供多样的实时算法特征,与推荐算法团队共同提升DAU、留存、用户付费等核心指标。02面临的困难(1)依赖数据源多,计算规则复杂。以我们的播放量计算为例:行为有多条,需要针对行为进行去重。过滤和加和规则很多,需要依赖多个数据源的不同数据结果进行计算。(2)时间敏感性高以算法特征为例,用户浏览某内容后,针对后续关联的一系列计算后,需要在一定时间内产出计算结果(lOmin未产出后续推荐效果会有波动,26min该特征的效果会降为0)(3)调度过程中协调成本高需要调度系统中,同时能识别kafka流

11、消费的进度和任务完成情况。需要严格拉齐多个依赖的消费进度,当达到统一进度后,集中进行后续任务计算。数据仓库:调度系统03解决方案(1)搭建实时数据基座,建设相应的数据模型,降低建设成本。内容指标用户指标用户阅读全用 用户阅读增品内容全国指标 内容婚呈指标DWB内容阅读数用户小时级指标内容小时级指标DWB内容评论数DWB内容播放数DWB内容赞同畋DWB内容收数DWB内容富欢数DWB内容阅读政数据储存结构化数据埋点数据后端业务表数据后端消息数据(2)针对依赖数据众多、计算规则复杂、质量难以保证等问题。通过建设工具降低解决问题的成本。通过建设实时数据集成和实时数据调度的能力,保障数据接入和数据模型建

12、设的速度,降低接入时间,提升业务接入效率(具体见下方)通过建设实时数据质量中心,保障数据质量,降低发现数据质量问题的时间,提升发现效率,保证业务交付结果(具体见下方)(3 )时间敏感性高,加强监控、与Doris集群共同提升吞吐效率和计算效率:搭建写入延迟、计算延迟等监控,快速发现问题。Doris集群进行参数变更,调整批量写入的数据量、时间和频率等进行优化。当前我们的Load主要有Broker Load和Routine Loade其中时效性要求高的是Routine Loado我们针对性的进行了参数调整。Doris 增加了 Runtime Filter , 通过 BloomFilter 提升 Jo

13、in 性能。Doris集群在0.14版本中加入了 Runtime Filter的过滤,针对Join大量key被过滤的情况有明显提升;该变更针对我们当前的几个业务调度性能,有明显提升。时间从40 + s提升至10s左右;3.3.2 用户画像系统DMP01业务场景用户画像系统主要有两大功能:用户检索和用户分析。(1 )用户检索。重点在于快速完成人群包圈选同时在圈选条件变更过程中,需要快速计算出预计能圈的用户有哪些?(2 )用户分析。重点在于多人群包的各个维度对比分析,通过分析结论找到最明显的用户特征(通过TGI值判断)02面临的困难(1)数据规模大。我们当前是200+个标签 每个标签均有不同的枚举

14、值 总计有300+万的tagotag对用户的打标量级在900+亿条记录。由于标签每日更新导入量级十分大。(2 )筛选响应时间要求高。针对简单的筛选,要求在秒级别出结果,针对复杂的人群筛选,筛选后人群量大的情况,要求在20s内完成人群包生成。(3 )人群包除了 long类型的用户id外,还需要有多种不同的设备id和设备id md5作为筛选结果。(4 )用户分析场景下,针对300+万tag的多人群交叉TGI计算,需要在lOmin内完成。03解决方案(1 ) DMP业务架构人群上传人群绢合人群包下0AW功能交付分析能力建设 数据接入DMP横心标力建设人群推用人群缩放公式人人鬟拆分人群洞察效果陵估用尸画像漏斗分析报表分析图人能力人口分析傕力人麻推3点力标签推冷能力智里编放耗力投放效果分析解力投放间18诊断投放优化健议9rM任务调度任务依2) DMP业务流程:业务方zDMP业务接口xzDMP业务平台调度c

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服