1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx

上传人:lao****ou 文档编号:80848 上传时间:2023-02-12 格式:DOCX 页数:6 大小:51.94KB
下载 相关 举报
1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx_第1页
第1页 / 共6页
1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx_第2页
第2页 / 共6页
1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx_第3页
第3页 / 共6页
1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx_第4页
第4页 / 共6页
1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx》由会员分享,可在线阅读,更多相关《1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx(6页珍藏版)》请在第一文库网上搜索。

1、1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别导读:与建模密切相关的领域包括统计分析、数据挖掘、机器学习和数据分析,它们对应了不同类型的工作岗位,例如风险建模分析师、数据挖掘工程师、数据分析师、数据运营专员、数据工程师等。本文将重点介绍这儿个领域的定义、特征以及相互之间的联系和区别。01机器学习机器学习是一门人工智能科学,研究如何在经验学习中改善具体算法的性能。机器学习的核心是通过算法来学习和提取数据中的隐含规律,随着数据丰富程度和学习次数的增加,学习的目标函数的效果会持续提升。机器学习算法体系包括监督学习、非监督学习、半监督学习、强化学习等,详见图1。最近邻(NN )K

2、近邻(KNN )朴素贝叶斯线性判别分析(LDA 逻辑回归决策一人工神经网络线性叮与广义线性打决策树(CART算法、ID算法)人工神经网络图1机器学习算法体系层次聚类一聚类分析。k均值聚类算法(k-means )DBSCAN算法BIRCH算法定度聚类EM聚类SOM聚类Apriori 算法祚序列模式八FPgrowh算法关联分析。GSP算法序列模式八SPADE算法主成分分析(PCA )因子分析(FA)变量降维。变量*类()多维度分析(MDS )异常检测3甚于密度目前机器学习领域使用最普遍的scikit-learn库将机器学习算法分为聚类、分类、回归和维度削减,此处不展开介绍,感兴趣的读者请参考相关资

3、料。02数据挖掘数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中,人们事先不知道但又有用的信息和知识的过程。数据挖掘的关键词是隐含 事先不知道 有用的。如果一个模型规律是已知的、预定义的且确定的,仅仅是通过数据来校准,则不属于数据挖掘范畴。数据挖掘的对象按信息存储格式可分为:结构化数据,通常以二维表方式存储数据,如关系数据库、面向对象数据库、数据仓库;半结构化数据,以标记语言存储的数据,如XML、JSON、HTML等存储的数据;非结构化数据,如图像、语音、文本等。数据挖掘包括聚类分群、分类识别、回归预测、关联分析、异常检测、时间序列等,而基础数据的处理等数据工程工作和可视化、

4、最优化、预定义模型等则不属于数据挖掘。数据挖掘的范围如图2所示。聚类分群 聚类分群是无监督学习的一种.用于将样本按照特征相似性分成多个组,使得组内相似组间产生差异化分类识别 分类识别是有监督学习的一种.基于已标记样本,通过机僻学习算法,拟合相关性规律.对新样本打上类别标签回归预测 异常检测是指通过异常检测算法发现异常离群值.一般用于发现异常模式关联分析 回归预测是有监督学习的一种.基于已标记连续的屈假通过机器学习算法拟合相关性规律,对未来新样本预测出y值 关联分析是对于非时序或时序的数据.挖掘事件之间的共现规律,提取相关性特征,最典型的应用场景是购物篮分析、链接分析、路径分析等图2数据挖掘的范

5、围03数据分析1、数据分析的定义数据分析是一个相对宽泛的概念,我们分别从狭义和广义的角度进行介绍。(1 )狭义角度:基于数据,按照特定分析思路和框架,提取有价值的信息。狭义的数据分析可以基于建模、基于指标计算,也可以基于数据可视化报表。(2 )广义角度:还包含数据工程和数据处理,例如定义数据模型、数据架构、数据处理,写SQL计算指标等。据分析仅指“分析,不含处理”J也不含”工程,数据分析的核心本质是从数据到信息,从信息到决策的过程。2、数据分析的思维模式数据分析的思维方式有两种,下面分别进行介绍。(1 )自下而上的数据驱动。获得数据后,从数据出发,分析并挖掘有用的信息,用于辅助决策。(2)刍上

6、而下的问题或标驱动。在业务上发现特定问题或制订特定业务目标,需要通过数据挖掘背后原因,支持决策依据,形成行动方案。3、数据分析与数据运营的联系和区别数据分析和数据运营都是通过数据来支撑业务需求的。数据分析相比于数据运营是一个更大范围的概念,倾向于强调分析技术的方法属性,关注分析过程以及分析所带来的价值,例如辅助决策。数据运营关注具体的行动执行和运营过程,更强调业务属性,面向特定业务场景中具体的运营问题,例如用户运营、产品运营、流量运营、内容运营等。4、数据分析与数据工程的联系和区别数据分析更关注分析,虽然很大一部分工作是和数据处理、指标计算相关的。数据工程更关注工程角度,例如数据模型定义、数据

7、库管理、数据体系架构等,更关注数据如何通过管理和逻辑设计提高系统性能,以便提供基础设施的建设和运行保障,满足业务运营和数据分析的需求。04统计分析统计分析属于传统学科,与概率论和数理统计密不可分,通常数据都是带有随机因素的,通过数据揭示事物规律。统计实验设计也属于该范畴。统计分析按照层次可以分为描述性统计,揭示数据分布规律以及数据的统计可视化;诊断分析性统计,包括参数估计、假设检验、回归模型、逻辑回归、相关分析、主成分分析等。统计思维通常基于特定假设(而后还需要进行假设检验),例如样本独立同分布、服从正态分布等。统计分析适合小数据量问题的分析,是统计机器学习的理论基础。05四者之间的联系与区别

8、前面介绍了机器学习、数据挖掘、数据分析、统计分析的定义和特征,下面简单介绍一下四者之间的联系和区别。统计分析为机器学习、数据挖掘、据分析提供了分析的工具.方法和手段。机器学习可以基于统计分析,也可以不基于,例如人工智能的符号主义和连接主义、决策树模型就不是统计类模型(虽然用到了统计计数,但和回归模型有本质区别),神经网络模型也不是统计类模型。机器学习是数据挖掘的工具,数据挖掘是机器学习的应用。机器学习更强调底层技术,数据挖掘更贴合业务;与此类似的概念还有自然语言处理与文本挖掘。数据分析可以基于统计分析,也可以不基于。统计分析只是数据分析的一部分,只要是能够提供基于数据提取信息形成决策的,都属于数据分析,例如基于业务指标报表的分析等。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服