未来五个大数据发展趋势.docx

上传人:lao****ou 文档编号:86392 上传时间:2023-02-20 格式:DOCX 页数:16 大小:72.52KB
下载 相关 举报
未来五个大数据发展趋势.docx_第1页
第1页 / 共16页
未来五个大数据发展趋势.docx_第2页
第2页 / 共16页
未来五个大数据发展趋势.docx_第3页
第3页 / 共16页
未来五个大数据发展趋势.docx_第4页
第4页 / 共16页
未来五个大数据发展趋势.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《未来五个大数据发展趋势.docx》由会员分享,可在线阅读,更多相关《未来五个大数据发展趋势.docx(16页珍藏版)》请在第一文库网上搜索。

1、未来五个大数据发展趋势2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建立这些数据栈,使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成为构建和实施现代数据栈的一个关键因素。当我们已经进入2022年,我们可以清楚地看到软件工程的最佳实践已经开始注入数据:数据质量监控和可观察性

2、、不同ETL层的专业化、数据探索和数据安全都在2021年蓬勃发展,并将继续下去,因为从早期创业公司到价值数十亿美元的财富500强企业的数据驱动型公司继续将数据存储和处理到数据库、云数据仓库、数据湖和数据湖仓。下面你会发现我们预测的5个数据趋势将在2022年确立或加速。01数据分析师的崛起如果说2020年和2021年是关于数据工程师的崛起(根据Dice的科技工作报告,这是最重要的)。fastest-growing job in tech in 2020),那么在 2022 年,分析工程师将明确进入人们的视线。云数据平台的崛起已经改变了一切。传统的技术结构,如立方体和单体数据仓库,正在让位于更灵活

3、和可扩展的数据模型。此外,转换可以在云平台内对所有数据进行。ETL在很大程度上已经被ELT所取代。控制这种转换逻辑的是谁?分析工程师。这个角色的兴起可以直接归功于云数据平台和数据构建工具(dbt)的兴起。Dbt labs是dbt背后的公司,实际上创造了这个角色。dbt社区在2018年开始有五个用户。截至2021年11月,有7300名用户。分析工程师是自然演化的一个例子,因为数据工程很可能最终成为多个T型工程角色,由开发自助式数据平台而不是开发管道或报告的工程师驱动。分析工程师首先出现在云端原生者和初创公司,如Spotify和Deliveroo,但最近开始在企业公司如捷蓝航空中获得地位。你可以阅

4、读here an art icleDel iveroo工程团队关于分析工程在其组织中的出现和演变的文章。我们看到越来越多的现代数据团队将分析工程师加入他们的团队,因为他们正变得越来越以数据为导向,并建立自我服务的数据管道。根据Linkedln招聘信息的数据,典型的 must - have ski Ils for an analytics engineer 包括 SQL、dbt Python和与现代数据栈相关的工具(如Snowflake、Fivetran、Prefect、Astronomer等)。Job postings on LinkedlnAnalytics EngineerIn婕din j

5、ob posmg data 1 st of Ocember 2021Data EngineerData Scientist截至2021年12月1日的Linkedln职位发布数据根据Linkedln的数据,对数据科学家的需求大约是分析工程师的2. 6到2.7,而且这个差距还在继续缩小。在2022年,我们预计这一差距将进一步缩小,因为对分析工程师的需求继续增长,接近于对数据科学家(曾被称为the sexiest job in tech) o02数据仓库与数据湖的竞争数据界很少有人错过了 2021年底Databricks和Snowflake之间非常公开的对决。这一切开始于Databricks声称其数

6、据湖库技术的TPC-DS基准记录,并说一项研究表明它比Snowflake快2. 5倍。Snowflake表示,Databricks缺乏诚信,并表示该研究有缺陷,并有一个不确定的说法。我们不必回到那么多年前,当时Snowflake和Databricks是新兴的云计算软件创业公司,他们是如此友好,他们的销售团队经常互相传递客户线索。现在这一切都改变了,因为Snowflake指控Databricks采用不正当的营销手段来赢得关注。这关系到未来几百亿美元的潜在收入。Databricks的首席执行官兼联合创始人AliGhodsi在一份声明中指出,Snowflake和Databricks如何在许多客户的数

7、据堆中共存。我们所看到的是,越来越多的人现在觉得他们可以真正使用他们在数据湖中的数据,与我们一起进行数据仓库工作负载。而这些可能是工作负载,否则会去Snowflake的。数据仓库供应商正在逐步从现有的模式转向数据仓库和数据湖模式的融合。同样地,那些在数据湖边开始他们的旅程的供应商现在也在向数据仓库领域扩展。我们可以看到两方面的融合都在发生。因此,正如Databricks使其数据湖看起来更像数据仓库一样,Snowflake 一直在使其数据仓库看起来更像数据湖。简而言之,数据湖仓是一个平台,旨在结合数据仓库和数据湖的优点。根据营销术语,数据湖室结合了数据仓库和数据湖的优点,为数据科学和分析用例提供

8、融合的工作负载。Databricks在其营销资料中利用了这个术语,而Snowflake则更喜欢数据云这个术语。但是,数据湖仓是否意味着数据仓库的终结?数据湖仓是一个新的、开放的数据管理架构,它将数据湖的灵活性、成本效益和规模与数据仓库的数据管理和ACID交易结合起来,使所有数据的商业智能和ML成为可能。那是在2012年,专家们在Strata-Hadoop World声称数据湖将杀死数据仓库(创业公司当时拒绝了 SQL并使用了 Ha了op-SQL在当时有点逊色,其原因在今天看来是荒谬的)。这种死亡从未发生过。在2022年,较新的概念与云计算和融合工作负载的技术创新相搭配,是否会废止数据仓库?时间

9、会证明一切,但这个领域正在升温,我们预计2022年将有更多的公开对决。该领域的其他初创企业,如FireboltDremio和C1 ickhouse最近都进行了大量融资,将估值推至10亿美元以上。The evolution of data storageCttui ftau wwtbftwt* Os 0.2022,3、. Ma ,eou”数据存储和仓库的演变正如阿里-高德西所言这不会是个赢家通吃的市场。我认为Snowflake将非常成功,我认为Databricks将非常成功你还会看到其他的顶级公司出现,我肯定,在未来三到四年内。这只是一个巨大的市场,很多人专注于追求它是有道理的。根据Bill I

10、nmon他一直被认为是数据仓库之父,数据湖库提供了一个类似于数据仓库市场早期的机会。数据湖库可以将数据湖的数据科学重点与数据仓库的分析能力相结合。Data WarehouseData LakeData LakehouseStorageData TypeWorkswell withstructured dataWorks well withsemi-structured andunstructured dataCan handle structured,semi-structured, andunstructured dataPurposeOptimal for dataanalytics an

11、dbusiness intelligence(Bl) use-casesSuitable for machinelearning (ML) andartificial intelligence(Al) workloadsSuitable for both dataanalytics and machinelearning workloadsCostStorage is costly andtime-consumingStorage is cost-effective, fast, andflexibleStorage is cost-effective, fast, andflexibleAC

12、IDComplianceRecords data in anACID-compliantmanner to ensurethe highest levels ofintegrityNon-ACIDcompliance: updatesand deletes arecomplex operationsACID-compliant toensure consistency asmultiple partiesconcurrently read orwrite data数据仓库VS数据湖VS数据湖馆by Striini数据湖仓与数据仓库(与数据湖)仍然是一个正在进行的辩论。数据架构的选择最终自然应取

13、决于团队所处理的数据类型、数据来源以及利益相关者将如何使用这些数据。随着2022年数据仓库与数据湖仓的争论加剧,重要的是要把炒作和营销术语与现实分开。03实时计算和运营分析正如Matt Turek在他的MAD Landscape 2021 analysis,感觉实时性一直是一个技术范式,一直是刚要爆发的。当我们进入2022年时,我们听到的权衡似乎还是在成本和复杂性方面。如果一个公司正在建立一个云数据仓库,并且需要立即产生4-6周的影响,那么总体概念似乎仍然是,这是一个实时流管线与批处理管线相比。或者说,如果公司处于数据旅程的开始阶段,那就是纯粹的矫枉过正。在Validio,我们预计随着实时领域

14、技术的不断成熟和云主机的不断发展,这种观念将在未来几年内发生改变。许多使用案例,如欺诈检测和动态定价,如果不进行实时处理,就很难获得价值。随着云服务提供商不断改进其流媒体工具,以数据为主导的组织正朝着建立大规模流媒体平台的方向发展。这也是Ali Ghodsi所暗示的一个概念。如果你没有一个实时的流处理系统,你必须处理这样的事情,好吧,那么数据每天都会到达。我要把它放在这里。我要把它加到那边去。那么,我如何进行核对?如果有些数据晚了怎么办?我需要连接两个表,但那个表不在这里。所以,也许我会等一下,然后再重新运行一次Ali Ghodsi on al6z在过去的10年里,Apache Kafka一直

15、是一个坚实的流引擎。进入2022年,我们看到公司越来越多地转向云托管的引擎,如亚马逊的Kinesis和谷歌的Pub/Subo僵尸仪表盘是一个非常具体的例子,说明为什么这种流/实时运动正在逐渐发生。在现代数据驱动的公司中,它们似乎成了一个非常真实的东西,AnanathPackkildurai (数据工程周刊的创始人)在以下文章中讨论了这个问题thisTwitter thread.对于许多公司来说,运营分析是开始他们走向实时/近实时分析的一个良好起点。正如Kleiner Perkins的合伙人Bucky Moore在他最近的文章中讨论的那样blogpost:云数据仓库的设计是为了支持商业智能用例,这相当于扫描整个表并汇总结果的大型查询。这是对历史数据分析的理想选择,但对于现在发生了什么? 这类查询正变得越来越流行,以推动

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服