企业级一站式大数据开发平台理论及实践.docx

上传人:lao****ou 文档编号:82452 上传时间:2023-02-15 格式:DOCX 页数:12 大小:886.54KB
下载 相关 举报
企业级一站式大数据开发平台理论及实践.docx_第1页
第1页 / 共12页
企业级一站式大数据开发平台理论及实践.docx_第2页
第2页 / 共12页
企业级一站式大数据开发平台理论及实践.docx_第3页
第3页 / 共12页
企业级一站式大数据开发平台理论及实践.docx_第4页
第4页 / 共12页
企业级一站式大数据开发平台理论及实践.docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《企业级一站式大数据开发平台理论及实践.docx》由会员分享,可在线阅读,更多相关《企业级一站式大数据开发平台理论及实践.docx(12页珍藏版)》请在第一文库网上搜索。

1、企业级一站式大数据开发平台理论及实践导读:本文是个人在从零搭建部门数据及运营平台的过程中的笔记。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。B l G, DATA本文借鉴了众多网络上公开的案例和实践。旨在为大家提供建设一站式的数据平台的思路。一站式大数据平台,应该提供数据抽取、数据清洗、数据存储、数据分析、数据共享一站式全流程数据治理,以及数据安全、运维监控等管理。使用户能够更有效地利用数据构建核心系统,加速业务创新。我们期待的一站式数据平台应该包含:一站式数据治理:提供数据仓库的构建,多样化抽取任务调

2、度配置,实现业务数据/实时数据抽取清洗,并入库到数据仓库。同时,提供数据仓库数据高效的检索,满足数据的多样化查询需求。数据血缘分析:数据血缘分析是保证数据融合(聚合)质量的关键环节,通过血缘分析实现数据融合处理的可追溯。同时,可分析数据的数据价值。智慧数据目录:数据资产目录提供自定义目录编目、标签系统、资产快速检索,同时支持用户搭建全局知识库,沉淀业务理解。数据可视化:产品将图形语法产品化,用户无需掌握编程,简单拖拉拽即可进行可视化分析数据隐私:针对些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护我们用网易易数官网的典型架构图进行说明:数据服务中心API申请API测试离线开发中

3、心离线开发自助分析可视化调度数据服务数仓设计中心数仓设计指标设计模型设计实时开发中心实时计算资源管理版本管理API管理API发布数据治理中心元数据管理数据质量数据资产数据地图运维中心任务运维集群运维关系型数据库储存和计算中心离线计算引擎 实时计算引擎 OLAP引擎机器学习引擎数据库中间件图中从数据采集、存储、开发和业务支持提供了一站式的服务。并且在此之上支持了以下的数据产品:数据产品中心数据大屏 , 有数报告 自助取数 , 经杂式报表 , 有效移动景, 记晨借号数据睁)Jb I砒幅JF面是几个典型的一站式数据平台的实施方案。微众银行一站式大数据平台解决方案微众银行基于海量数据、数据孤岛等痛点,

4、微众银行的业务模式要求大数据平台解决方案必须:支持海量数据一站式的数据存储和用户体验符合金融级别的可靠性、安全性的要求自主可控低成本在明确大数据平台的目标和要求之后,微众银行形成了一个基于大数据生态的套件平台 WeDataSphere ,整体架构图如下:PortaUQ平台门户通过隔离基础的存储计算引擎和应用客户端,统解决了每个客户端和应用都要HeData phereDataQphere Studio 探索开发应s:SchptiVisuatiScheduUMLLabi。QuickML 数揖应用开发致受可祝化工作流费度矶因学习应用开及酮化机器学习开发;安全管控Exchange Transports

5、 QuaUtiQ Mask/0数匿?拴秀hadoop4解沏步鼓电质星校物效揖投融DatamapLinkiQ 计Hadoop Spark Hbase Kafka Prophed华彳金,当bqo” “ . t SlttW批量计算交互式计算流式计算7?翻S审:J rn P 一次甥航刁在方案中,所有的计算和存储引擎进行了统一,上层的应用开发工具,微众银行全部进行了自主研发。首先解决了存储的统一;其次面对众多计算的客户端,在解决计算的统一入口和调度上,银行自研了大数据领域的计算中间件Linkiso面临的问题,包括权限管控,多租户隔离,多引擎支持,以及计算资源的弹性扩缩容。并且,进一步通过Linkis中间

6、件,把不同客户端之间的数据交互和批量依赖打通,真正能够给业务用户一站式的大数据应用的服务,所有的工具都可以连接起来,并且共享用户权限,用户定义的变量,用户定义的函数,大大提高了数据应用的开发效率,和运维效率。整个平台的运维和管理是集成在Managis这个组件中的,在这个组件里面完成了所有底层、工具和自研组件的运维工作,同时,汇总了监控信息,集成了集群的部署和扩缩容,以及自动化的故障处置。微众银行的大数据平台支撑的银行业务场景包括:*:小额咪户交泉明比查询tW 量制:小/发款白名单查询BDPI靖业管偈:资产明阳互为交互6B/SporkSQL年杂Ten sorFI cm/ SpMi Mib离线流式

7、Hiv/Hadoop/SparkSQlStotm/SpartcSt neami rgAi 2.ftELQJAI;现金我况殄泅号。BDAPIftHM/SpdrkSQ.爰杂:rr wflg/Sz k Miiib竺零户服旁:电金转文字AL WKnowicg 程之二斑忠线流式H i ve/H*doop/S pa B6QIStonn/porkSt reaming博港喻:小薮货到实时看精运量优化:实时用户洗计RMV9:实时反败诈iSK运更优化:MQ消廖统计马罚国:实时反欺诈勺微信号:irnporLbigdata在这套方案下,WeDataSphere已经完全支持了生产型的数据类应用,从离线的风控分析,到实时

8、在线的反欺诈,交易查询,运营查询,批量的对账,监管报送而对于数据仓库类的应用,微众银行也是基于同样的方案,支持了经营分析,客户画像,模型训练,尤其兼容了银行风险类业务人员最熟悉的SAS的软件的使用习惯,自研了 QuickML平台,切换了风险用户SAS的使用场景到自研的大数据探索平台上。贝壳一站式大数据开发平台实践贝壳的一站式数据开发平台经历了多次迭代,目前已经形成了集数据管理、集成、调度、质量、对外开放的综合式平台。数据视角卷仓屣DW集市层IDWS/DM平台视角基础设施根入谖STGOUS业务。8.文避行为日外部制料数据可视化分析(奥丁)费努系姣数据管理实现了统一的元数据模型、资产化管理、贯穿整

9、个生命周期。提供了数据录入、导航、搜索和生命周期管理。平台介绍1.数据管理 .I,最近捌览的表二二个人管理校块4权限的我二 负贡/创建的i中访/审批,数据导航I智能搜索,平台架构n二CTckHouse数捌泉入Hive*CK物理表 YKifka,七微信号:irnporL&igcIitag生七周暴管理空间信息展不中间宽产钟H分析团队协作数据集成把未接入的数据能快速的集成到大数据平台。已经支持的数据源类型包括 MySQL/Oracle/SQL Server/TiDB/MongoDB/Kafka 等等。现在可以满足99%以上的一些业务数据接入场景。接入能力以配置的方式自动化实现。平台介绍2.数据集成数

10、据集成最终目标是交付一套有效提升集成效率和覆盖度的工具多元集成支持多种数据类型的集成,满足公司99%以上业务数据接入效率&覆盖度能力提升自动化:新建库/表自动接入(DB )迁移提效:整库/表迁移自助接入速率:T+1时效长效保障变更自动同步&提醒接入任务监控机制保障爰奇艺一站式数据中台建设在数据质量方面,贝壳实现了完善的任务监控、报警功能。并且整个平台向外提供了数据订阅、交换、指标等功能。未来在数据资产化管理,加密脱敏等方面会贝光继续完善。平台介绍5.数据开放,换房动线二手业务交易平台数据开放平台数据服务(大数据API)Witt数据中间层mysql I hbase I CK数据源bigclsit

11、ei爱奇艺数据一站式数据中台是基于以下这些数据工作的一些痛点而诞生的。使用门植高口径不一致数据可靠性低跨业务蜷度大对人员要求较高,相关技能人员的人力影响了数据对业务的支持力度多种数据使用和分析的差异,产出影响业务决策的准确性和效率数据在生产过程中,会因为各种原因导致数据质量差,或君是生产时间延迟缺少统一的数据建设规划和标准,导致多业务数据难以进行融合使用接入成本高投递质量低获取数据难数据资产模糊新业务新场景数据工作需拶艮多人工处理,徒时长.效率低.易出错缺少规范化管理和流程营控,导致土在获得数据相关信息时缺少系统化人口,影响数据对公司极据资产缺少整合和哲理,港以发挥数据爰奇艺一站式数据中台的应

12、用场景,提供不同的接入方式:在爱奇艺数据中台的实施过程中,划分出了三个大方向:生产,也就是我们所说的投递体系数据,也就是统一数仓的体系,是数据的核心大数据平台能力:包括开发、治理、服务整体架构大致如下:服务层平台层传输层accioMySQUOvenus圈线酶式开发数仓平台圈线调度计算层数据层Ping back服务器日志MySQLCouchBase爱奇艺一站式数据中台在五个方面着重进行了建设:开发:数据开发的平台化、可视化,降低开发门槛,提升开发标准化;运维:方便用户管理任务,稳定性和时效性有效监控;质量:提供质量校验,避免质量问题;治理:数据和任务审计,数据血缘监控。面向不同阶段提供不同的接入

13、方式 统一化:业务初期,通用解决方案已经能够满足需求,实现自动化接入; 个性化:业务成长期,有一定的个性化需求,可以使用统一框架,拓展模块能力,满足业务需求; 定制化:业务成熟期,对数据有多方面、深层次、业务化的使用场景,可以采用定制化能力进行实现;数蹇国用数IW助3数据能力2数据能力1数能加数据雒力1数据能力1他冏裂等艺总之,数据科学发展至今,已经由原来的单纯的数据仓库建设、开发平台建设走向了混合一体的架构。像文中开始提到的:一站式大数据平台,应该提供数据抽取、数据清洗、数据存储、数据分析、数据共享一站式全流程数据治理,以及数据安全、运维监控等管理。才能使用户能够更有效地利用数据构建核心系统,加速业务创新。-END -

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服