02大厂学苑大数据 & 人工智能数仓.docx

上传人:lao****ou 文档编号:549927 上传时间:2024-01-22 格式:DOCX 页数:19 大小:330.19KB
下载 相关 举报
02大厂学苑大数据 & 人工智能数仓.docx_第1页
第1页 / 共19页
02大厂学苑大数据 & 人工智能数仓.docx_第2页
第2页 / 共19页
02大厂学苑大数据 & 人工智能数仓.docx_第3页
第3页 / 共19页
02大厂学苑大数据 & 人工智能数仓.docx_第4页
第4页 / 共19页
02大厂学苑大数据 & 人工智能数仓.docx_第5页
第5页 / 共19页
亲,该文档总共19页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《02大厂学苑大数据 & 人工智能数仓.docx》由会员分享,可在线阅读,更多相关《02大厂学苑大数据 & 人工智能数仓.docx(19页珍藏版)》请在第一文库网上搜索。

1、K大厂学髓rr。AcHANGcOM大厂学苑一大数据&人工智能数仓版本:V1.0第1章数据仓库入门1.1 数据仓库概念从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。比如生活中,让你从货架上取货物和让你从仓库中取货物,是不是直观感受不一样,是不是从仓库中取货物会感觉比较麻烦,为什么?就是因为我们一般理解仓库的概念就是大,和多,咱们这里要说的数据仓库也是这个概念,数据量大,数据类型多。但是一个仓库中的东西如果是杂乱无章的话,找起来是不是就会更费劲了,对吗?所以一般的仓库都会有管理员,将不同的货物分门别类的管理起来。咱们这里讲的

2、数据仓库也是同样道理,会将数据根据实际的环境划分不同的层次,保存不同的数据。早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到当下的移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。如何将这些数据收集起来并加以利用,就是我们开发人员需要特别关心的了。从数据仓库“开始到现在的“大数据,中间经历了太多的知识、架构模式的演进与变革,数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库其

3、实是一套体系,他不是一门特定的什么技术,而是整合了很多己有的技术,来更好地组织和管理数据。数据仓库不等同于“海量数据。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据+狂杂类型数据基础上的数据分析、数据存储,数据展示等一系列的技术体系。1.2 数据仓库&数据库数据仓库和数据库从文字上来看,是比较相似的,所以一般不是很好区分,说到他们的区别,我们一般会提到O1TP和O1AP。O1TP:On-1ineTransactionProcessing,联机事务处理,主要是业务数据,需要考虑高并发、考虑事务O1AP:On-1ineAna1ytica1Proc

4、essing,联机分析处理,重点主要是面向分析,会产生大量的查询,一般很少涉及增删改It#ITDAeHANGCOM好了,举个例子,你现在有一个3层的抽屉,旁边有一个屋子,是资料库。那么如果别人现在给你一份文件,你会考虑将这份文件放在哪里呢?此时,就需要考虑不同的场景了,如果这份文件是平时经常用的,或者需要频繁的进行一些修改,参考的,那么一般就会放到手边的抽屉中,如果是一个需要归档的文件或以后会很少打开的文件,那么可以考虑将这份文件放到资料库中,是吗?如果这里的抽屉类比为数据库,将资料库类比为数据仓库,你懂了吗?1.3 数据仓库&数据集市 数据仓库:是一个集成的面向主题的数据集合,设计的目的是支

5、持DSS(决策支持系统)的功能,在数据仓库里,每个数据单元都和特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据。是一个面向主题的(SubjectOriented),集成的(Integrated)相对稳定的(Non-Vo1ati1e)反映历史变化的(TimeVariant)数据集合,用以支持经营管理中的决策制定过程。数据仓库是重建企业数据流和信息流的过程,在这个过程中,构造企业的决策支持环境,以区别原来的业务系统所构建的操作型环境。数据仓库的价值并不是你在仓库中所存储的数据量的多少,而关键在于从仓库中能够获得的信息和分析结果的质量。 数据集市:是一个小型的部门或工作组级别的数据仓库。有

6、两种类型的数据集市一一独立型和从属型。独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据仓库获取数据。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定。独立的建立多个数据集市,企业只会又增加了一些信息孤岛,仍然不能以整个企业的视图分析数据,数据集市为各个部门或工作组所用,各个集市之间又会存在不一致性。当然,独立型数据集市是一种既成事实,为满足特定用户的需求而建立的一种分析型环境,但是,从长远的观点看,是一种权宜之计,必然会被企业级的数据仓库所取代。数据仓库和数据集市之间的区别:数据仓库中数据结构采用的规范化模式(关系数据库设计理论),数据集市的数据结构采用的星型

7、模式(多维数据库设计理论)。数据仓库中数据的粒度比数据集市的细数据仓库数据集市数据来源遗留系统、O1TP系统、外部数协数据仓库范围企业级部门级或I作组级主题企业主题部门或特殊的分析主题数据粒度我细的粒度较粗的粒度数据结构规范化结构(第3范式)星仪模式、雪片模式、或两者混合历史数据人量:的历史数据适度的历史数据优化处理海量数据数据探索便访问和分析快速查询索引高度索引高度索引1.4 数据仓库&数据湖数据仓库(DataWarehouse):是一个面向主题的(SUbjeCtoriented)、集成的(Integrated)、相对稳定的(Non-Vo1atiIe)反映历史变化的(TimeVariant)

8、数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(O1TP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(O1AP)、数据挖掘(DataMining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是

9、像业务支撑系统那样是按照业务功能进行组织的。 所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。 所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据湖(Data1ake):是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象b1ob或文件。数据湖通常是企业所有数据的单一存储,包括

10、源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XM1,JSON),非结构化数据(电子邮件,文档,PDF)和上进制数据(图像,音频,视频)。数据仓库与数据湖差异: 在储存方面上,数据湖中数据为非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。 在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。数据湖的目的就是数据湖非常适合深入分

11、析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。 在架构中数据湖通常,在存储数据之后定义架构。使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。数据湖数据仓库=BASB1Egyf1z/丽金Ka能处理所有类型的数据,如结构化数据,m阖构化S有,主要处理历史的、格构化的数据,而且运些数据必H1q-、j/H,一;挈S均化数据等,数据的类型依赖于数据源系统的原始数须与数据仓底事先定义的横型吻合.据格式.处理结构化数据,将它们或者转化为多维数据,或肝.9aaw47H田工xt八y

12、f&*刑SE者转涣为报表,以施台的高级报表睡脸淅吃普箕鼠类昊=分析后的数据会被存储起来供用户使用。需求.数据仓库通常用于存储和维护长期数据,因此数据数据湖通常包含更多的相关的信息,这些信息有很高概率可以按需访问.会被访问,并且能够为企业花强新的运营需求.第2章数据仓库理论2.1 数仓分层2.1.1 为什么要分层数据仓库为什么要分层?1 .把复杂问题简单化:将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题。2 .减少重复开发:规范数据分层,通过中间层数据,能够减少极大的重复计算,增加次性计算结果的复用性。3 .隔离原始数据:不论是数据的异常还是数据的敏感性,使真实数据和统计数据

13、解耦开。数仓的分层或者建模,其实都是为了更好的去组织、管理、维护数据。说到数仓建模,就得提下经典的2套理论: 范式(关系)建模:InmOn提出的集线器的自上而下(EDW-DM)的数据仓库架构。 维度建模:KimbaII提出的总线式的自下而上(DM-DW)的数据仓库架构。维度建模,般都会提到星型模型、雪花模型,星型模型做O1AP分析很方便2.1.2数据仓库分层ITDACHANGcoMJSWK(AppIicationDataStore).发It吟BSJ!CSKB(DMiWMebouwSummary)葩+fi*154匕fi.8么区将由国层明3第(DauWrouwDeUii).彳用SMEi留团方3.当

14、用厦退化州区*中.W4tHKWXt5rTJM(3WonaAuStor;.阴眠方皿玄*=&澧阚Ia3-一下/QQgtte.mra6ej9fiff.moooss*-x每个企业对数仓的分层没有固定的标准,有的分为四层,有的分为五层。ODS层I原始数据层,存放原始数据,直接加我原始日志、数据,数据保持原貌不做处理。DWD层,对ODS层数据进行清洗(去除主值,胧数据,超过极限范围的数据)、脱被等。保存明细数据,一行信息代表一次业务行为,例如一次下单.以DWD为基地,按天进行轻度汇总.一行信息代表一个主题对象一天的汇息行为,例如一个用户一天下单次数以DWS为基础,刻数据进行累积汇总。一行信息代表一个主题对

15、象的累积行为,例如一个用户从注册那天开始至今一共下了多少次单ADS层,为各种统计报表提供数据2.1.2数仓命名规范2.1.2.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fac1_表名 DWS层命名为dws表名 DWT层命名为dwt_表名 ADS层命名为ads_表名 临时表命名为xxx_tmp 用户行为表,以Iog为后缀。2.1.2.2 表字段类型数量类型为bigim 金额类型为decima1(16,2),表示:16位有效数字,其中小数部分2位 字符串(名字,描述信息等)类型为String 主键外键类型为string 时间戳类型为bigin12.2范式理论2.2.1 定义范式可以理解为设计一张数据表的表结构,符合的标准级别、规范和要求。目前业界范式有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)第五范式(5NF)。优点:采用范式,可以降低数据的冗余性。为什么要降低数据冗余性?(1)十几年前

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服