《数据挖掘概念与技术》期末考试名词解释整理.docx

上传人:lao****ou 文档编号:838893 上传时间:2024-06-15 格式:DOCX 页数:5 大小:17.77KB
下载 相关 举报
《数据挖掘概念与技术》期末考试名词解释整理.docx_第1页
第1页 / 共5页
《数据挖掘概念与技术》期末考试名词解释整理.docx_第2页
第2页 / 共5页
《数据挖掘概念与技术》期末考试名词解释整理.docx_第3页
第3页 / 共5页
《数据挖掘概念与技术》期末考试名词解释整理.docx_第4页
第4页 / 共5页
《数据挖掘概念与技术》期末考试名词解释整理.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《《数据挖掘概念与技术》期末考试名词解释整理.docx》由会员分享,可在线阅读,更多相关《《数据挖掘概念与技术》期末考试名词解释整理.docx(5页珍藏版)》请在第一文库网上搜索。

1、数据仓库的概念及特点:数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的,集成的,稳定的,不可更新的,随时间变化的,分层次的,多维的集成数据集合。特点:1主题与面向主题;2数据的集成性;3数据的不可更新性;4数据的时态性。为什么要建立数据仓库:为了使数据能够发挥其最佳效用,更好的为用户服务,才要建立数据仓库。它可以从各信息源提取决策需要的数据,加工后,存储到数据仓库中;并且可以提供用户的查询和决策分析的依据。数据挖掘及其特点:DM是从大量的,不完全的,有噪声的,模糊的,随机的应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。特点:

2、1处理的数据规模十分庞大;2由于用户不能形成精确地查询要求,因此需要靠数据挖掘技术来寻找其可能感兴趣的东西;3DM对数据的迅速变化做出快速响应,以提供决策支持信息;4DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则;5DM既要发现潜在规则还要管理和维护规则,随着新数据的不断加入,规则需要不断更新。数据挖掘的基本过程,数据挖掘有几步?基本过程:1数据准备:本阶段又可进一步细分成数据集成、数据选择和预分析。2挖掘:数据挖掘处理器综合利用前面提到的多种数据挖掘方法分析数据。3表述:与检验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给

3、用户,这是可以利用可视化工具。4评价:如果分析人员对分析结果不满意,可以递归的执行上述三个过程,直到满意为止。步骤:问题定义-发现信息-制定计划-采取行动-检测效果。比较数据仓库基本体系结构的特点:1两层:顶层:前端工具,底层DW服务器;2实时监测数据源发生的变化,便于集成到DW。数据挖掘按任务分为描述和预测式数据挖掘两种。知识发现(数据挖掘)的基本过程:数据选择和预分析-挖掘(最主要内容)-表述-评价。粒度的概念及其意义?粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小。意义:数据仓库开发中面临着的一个单一设计问题就是粒度的确定的合理与否影响存放数据仓

4、库中的数据量大小,影响数据仓库所能回答的查询类型。粒度的合理确定还直接影响其他方面的设计,所以要在数据量的大小和详细程度之间做出权衡。元数据是关于数据的数据,是对数据的结构,内容,键码,索引等的一种描述。是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为技术元数据和商业元数据。什么是联机分析处理,有什么特性?联机分析(O1AP)是共享多维信息的针对特定问题的联机数据。数据仓库的数据模型有哪些?并比较其不同点。数据仓库的数据模型包括:星型数据模型、雪花型数据模型、星群型数据模型。其中星型模型包括一个中央表(事实表)和一系列的附表(维度表),附表环绕中央表,并产生关系,但不关联。雪花

5、型数据模型设计其附表(维度表)被进一步规范化,分割出额外的表,产生的图形像雪花状。这种形式易于维护并节省存储空间。但表之间的关联多,影响系统的性能,其使用没有星型构架广泛。星群型架构的数据模型设计是多个主表(事实表)共享附表(维度表),其是星型的集合。数据建模的主要内容:1必须回答紧迫的问题2必须有正确的事实表3必须有正确的维表按最终用户的业务术语进行描述和表达4必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程5对于事实表,应该有正确的“粒度”6根据需要存储正确长度的公司历史数据7以一种对于公司有意义的方式来集成所有必要的数据8创建必要的总结表9创建必要的索引10能够加载数据仓库数据库

6、并使它以一种适应的方式发挥作用。联机处理01AP:联机分析是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的,能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。体系结构:数据库(MDDB)DBMS(关系DBMS产生多维视图)分析程序(分析程序创建多维视图)用户接口-用户。O1AP处理的特性:快速性,可分析性,多维性,信息性。O1AP按存储方式分为多维联机分析处理(Mo1AP)关系型联机分析处理(Ro1AP)混合型联机分析处理。Mo1AP优势:性能好,响应速度快,专为O1AP所设计,支持高性能的决策计算,

7、复杂的跨维计算,多用户的读写操作,行级的计算。缺点:增加系统复杂度,增加系统培训与维护费用,在操作系统平台中,受文件大小的限制,难以达到Tb级;需要进行预计算,不然可能导致数据爆炸,无法支持维的动态变化,缺乏数据模型和数据访问的标准。Ro1AP优势:没有大小限制,现有的关系数据库的技术可以沿用。可以通过SQ1实现详细数据与概要数据的存储,现有关系型数据库已经对O1AP做了很多优化,包括并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引,SQ1的O1AAP扩展等,大大提高了Ro1AP的速度。缺点:一般对多维数据响应熟读慢,不支持有关预计算的读写操作,SQ1无法完成部分计算,即无法完成

8、多行的计算,无法完成维之间的计算。多维数据一般包括哪些内容,常用多数据分析方法:多维数据结构一般包括超立方结构和多立方结构。常用的多维分析方法有:1切片2切块3旋转、转轴4钻取数据预处理:由于数据极易受噪声数据、空缺数据和不一致数据的影响,需要进行数据挖掘前的预处理。其形式有:数据清理、数据集成、数据变换、数据归约。如何处理缺失值?1忽略元组;2人工填写空缺值;3使用一个全局变量填充空缺值;4使用属性的平均值填充空缺值;5使用与给定元组同一类的所有样本的平均值;6使用最可能的值填充空缺值。数据变换就是将数据进行规范化和聚集。可用分享来去掉噪声数据。最大值最小值规范化不涉及均值,线性。数据归约中

9、,属性子集选择的基本启发式方法包括如下技术:逐步向前选择;逐步向后删除,逐步向前选择和逐步向后删除的结合;判定树归纳。分类怎么做:所谓分类就是为了理解事物特征并作出预测使用历史数据建立一个类模型(即分类器)的过程。首先从数据中选出已经分好类的训练集,然后再该训练集上运用数据挖掘分类的技术,建立分类模型,最后对没有类的数据进行分类。有指导的学习:预先定义好的数据挖掘中的分类,因为用作训练样本的数据具有实际的类别。分类的步骤:模型创建,模型使用。有(无)监督学习指是否存在以下过程:模型根据自变量的输入值得到因变量的一个理论值,将此理论值再与实际值进行比较,便得到了校正误差。(无监督学习没有实际值可

10、以比较)聚类时的原则?聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象间具有较高的相似度,而不同簇中的对象差别较大。根据树的形成过程,层次分解的方向是自底向上还是自顶向下,层次的聚类方法可以进一步分为凝聚的和分裂的层次聚类。数据矩阵(对象与变量结构):他用P个变量(也称度量或属性)来表现n个对象,例如用年龄,身高,体重,性别,民族等属性来表现对象“人、这种数据结构是关系表的形式,或者看成n*p(n个对象乘以P个变量)的矩阵。有指导的学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的指导下进行新数据使用训练数据集中得到的规则进行分类无指导的学习(用于聚类)每个训练样本的类编号是位置的,要学习的类集合或数量也是可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服