《数据清洗技术课程教学大纲.docx》由会员分享,可在线阅读,更多相关《数据清洗技术课程教学大纲.docx(7页珍藏版)》请在第一文库网上搜索。
1、数据清洗技术课程教学大纲一、课程基本信息课程名称数据清洗技术Datac1eaningtechno1ogy课程代码课程性质选修开课院部数学与计算科学学院课程负责人授课学期5学分/学时3/48课内学时4824实验学时实训I24(含上机)24实习0其他0适用专业数据科学与大数据技术授课语言中文对先修的要求具备一定的编程能力,己修Python程序设计,数据采集与网络爬虫等课程对后续的支撑对模式识别与机器学习,深度学习,大数据分析与应用案例等后续课程提供数据清洗技术思政课程设计在数据清洗技术教学过程中,对于数据清洗过程中的主要数据、缺失数据和噪声数据的处理,培养学生抓住主要矛盾的思维方式,能多角度的考虑
2、问题。通过专.业知识的学习,引导学生深刻理解与认识所学软件开发知识对于国家信息产业发展、智慧城市建设、大数据智能信息处理等各方面的重要意义,使学生在学习过程中逐渐树立专业荣誉感;创新创业教育设计在课程教学中,从具体实例中启发和培养学生Python大数据分析、设计和可视化开发的能力,并具有较强的分析问题和解决问题的能力。课程简介课程定位:数据清洗技术是数学与计算科学学院数据科学与大数据技术专业的专业教育选修课程,是计算机基础理论与应用实践相结合的课程,是大数据专业的高核心课程,它担负着系统、全面地理解大数据,提高大数据应用技能的重任,同时为后续课程模式识别与机器学习、深度学习等课程提供干净、有效
3、的数据。主要学习内容:本课程学习内容主要包括了解大数据分析的工作原理和使用方法,学会使用KettIe、Python、DataCIeaner等数据清洗软件进行大数据清洗和存储。针对数据的重复值、错误值、缺失值、异常值、可疑数据选用适当方法进行清理,使学生具备大数据清洗和存储的基本技能,为将来从事大数据相关领域的工作打下坚实的基础。核心学习结果:本课程学习目的是使未来的大数据工程师获得如下能力与素养:1)掌握数据清洗的基本知识,能够用常用的数据清洗工具进行数据清洗的方法;2)具备Python大数据分析、设计和可视化开发的能力,并具有较强的分析问题和解决问题的能力。主要教学方法:本课程采用课堂讲授和
4、上机实训相结合的教学方法,强调软件的操作能力,注重理论联系实际。通过上机实训让学生具备用Kett1e、PythonsDataCIeaner等工具进行数据清洗的能力,为以后进行数据挖掘、数据分析、机器学习等工作做准备。二、课程目标及对毕业要求指标点的支撑序号课程目标支撑毕业要求指标点毕业要求1目标1:掌握数据清洗的基本知识,能够熟练使用常用的数据清洗工具对文本数据,Web数据,和数据库数据进行清洗。2.2掌握计算机科学的基本知识、原理、方法,并会应用到大数据科学等领域。2知识掌握:掌握数学、自然科学、计算机科学、数据科学与大数据技术所需要的专业知识,具有国际视野,了解大数据科学领域的国际形势和发
5、展动态,并能将所学知识用于解释大数据科学领域中的复杂问题。2目标2:能够根据数据清洗的需要设计出合理、有效的数据清洗方案。3.2能够通过数据采集、数据存储、数据预处理、数据分析和数据挖掘、数据的可视化,分析、研究和解决大数据科学领域复杂问题。3.能够应用数学、自然科学和数据科学与大数据技术的基本理论和方法,通过数据采集与存储、数据分析与挖掘、数据可视化等手段,分析研究大数据科学领域的复杂问题,以获得有效结论。(问题分析)三、教学内容及进度安排序号教学内容学生学习课内教学支撑课预期成果学时方式程目标了解数据清洗的基本原数据清洗概述:数据清洗的基理、对象和基本方法。本原理、对象和基本方法。数了解数
6、据清洗的评估内课程思政据质量及数据仓库。数据清洗容以及各种数据集。了1的统计基础以及数据清洗的环解数据清洗中数据质量6目标1境和常用工具的特点以及数据仓库。讲授重点:数据质量及数据仓库;掌握数据清洗的统计知难点:数据质量及数据仓库。识以及数据清洗的环境和工具2文件格式:常见的文件文本格式,Kett1e中文件格式的转换。重点:KettIe中文件格式的转换;难点:KettIe中文件格式的转了解文本文件格式,掌握数据清洗中KettIe的使用方法以及对不同格式的文件转换。4讲授自学上机目标1换。3Web数据抽取:数据抽取原理与Web数据抽取的技术。使用Kett1e实现web数据抽取。重点:使用Kett
7、1e实现web数据抽取;难点:使用Kett1e实现web数据抽取。了解数据抽取原理与Web数据抽取的技术。掌握使用Kett1e实现web数据抽取。4讲授自学上机目标14KettIe数据清洗:Kett1e数据清洗的步骤和基本方法,Kett1e数据清洗的常见方法和基本操作。重点:Kett1e数据清洗工具的使用;难点:Ket1Ie数据清洗工具的使用。会用KettIe进行数据清洗。6讲授自学上机目标1目标25数据迁移:数据迁移原理和过程、数据迁移技术、数据迁移的实现、Kett1e数据迁移的应用。重点:Kett1e数据迁移的应用;难点:KCtt1C数据迁移的应用。了解数据迁移原理和过程、了解数据迁移的技
8、术以及数据迁移的实现、掌握使用KettIe进行数据迁移。4讲授自学上机目标16文本数据处理:文本分词的定义、原理和算法、文本分词的处理方法、文本分词的应用。重点:文本分词的应用:难点:文本分词的应用。掌握使用PyIhon进行文木分词。4讲授自学上机目标1目标27Python数据清洗:介绍PythOn数据清洗库的使用、Python数据清洗中numpy和pandas的使用、PandaS和matp1ot1ib数据清洗。重点:Python进行数据清洗及可视化操作;难点:Python进行数据清洗及可视化操作。掌握使用PythOn进行数据清洗及可视化操作。12讲授自学上机目标1目标28DataCIeane
9、r数据分析与清洗:主要介绍DataCIeaner数据分析与清洗重点:DataCIeaner数据分析与清洗;难点:DataCIeaner数据分析与清洗。掌握用DataCIeaner进行数据分析与清洗。2讲授自学上机目标1目标29综合训练:根据本课程所学的内容进行综合设计:(1)数据清洗(2)数据可视化学会使用Kett1e、Python、Datac1eaner等数据清洗软件进行大数据清洗、数据可视化及存储6上机目标1目标2四、课程考核序号课程目标(支撑毕业要求指标点)考核内容评价依据及成绩比例(%)成绩比例(%)作业论文1目标1:掌握数据清洗的基本知识,能够熟练使用常用的数据清洗工具对文本数据,W
10、eb数据,和数据库数据进行清洗。(支撑毕业要求指标点2.2)知道数据清洗的基本原理、对象和基本方法,数据清洗的流程;知道常见的数据格式,掌握ET1数据清洗的技术路线、ET1工具等知识;会使用Kett1ePython、Datac1eaner等数据清洗工具实现文本文件抽取、网页文本抽取、数据库数据的导入导出等;能够处理数据转换过程中的数据检验、错误处理等,以及进行可视化并存储。2040602目标2:能够根据数据清洗的需要设计出合理、有效的数据清洗方案。(支撑毕业要求指标点3.2)根据数据清洗的需要设计出合理、有效的数据清洗方案,该清洗方案包含根据任务需求选择恰当的数据清洗工具,对文本格式,x1s格
11、式,JSON.XM1、HTM1等文件格式,针对数据审查中发现的错误值、缺失值、异常值、可疑值等,选用适当方法进行“清洗”,把“脏”的数据变为“干净”数据,会对关系型数据库进行清洗和脱敏处理。103040合计3070100注:各类考核评价的具体评分标准见附录:各类考核评分标准表。五、教材及参考资料1 .教材口黄源,何婕等.数据清洗M,北京:清华大学出版社,2023,9787302577478.2 .参考书1刘鹏,张燕,李法平,陈潇潇等.数据清洗M,北京:清华大学出版社,2018,9787302493273.2MeganSqUire,斯夸尔,任政委.干净的数据:数据清洗入门与实践国.人民邮电出版社
12、,2016.六、教学条件需要Core15以上CPU,512M以上内存的电脑,安装有OffiCe2013以上版本的办公软件,安装KettIe、Python/Anaconda3DataC1eaner等数据清洗软件。附录:各类考核评分标准表作业评分标准教学目标要求评分标准权重(%)90-10080-8960-790-59目标1:掌握数据清洗的基本知识,能够熟练使用常用的数据清洗工具对文本数据,Web数据,和数据库数据进行清洗。(支撑毕业要求指标点2.2)能够熟练使用常见的数据清洗工具如:Kett1ePythonDatac1eaner等;并能够对文本数据,Web数据数据库数据等进行数据抽取,熟练数据转
13、换与加载的主要任务。能够比较熟练使用数据清洗工具并能够对文本数据,Web数据,数据库数据等进行数据抽取,能够完成数据转换与加载的主要任务。掌握常用的数据清洗的方法,能对多种格式实际采集到的数据进行清洗;能完成数据数据转换与加载的任务。只掌握极少数数据清洗的方法;对数据抽取、数据转换与加载等方法掌握片面。20目标2:能够根据数据清洗的需要设计出合理、有效的数据清洗方案。(支撑毕业要求指标点3.2)能够熟练使用数据清洗工具对采集到的常见数据格式数据进行规整化处理,使用的数据清洗方法合理、高效。能够较熟练使用数据清洗工具对采集到的常见数据格式进行规整化处理,采用的数据数据清洗方法比较合理、比较高效。
14、能够根据实际需要用选择合适的数据清洗工具对数据进行清洗,采用的数据清洗方法基本合理、比较有效。能够根据实际需要用数据清洗工具对个别数据类型进行清洗,清洗的数据程序不太合理、比较低效。10注:评分标准的分数段划分可以根据课程需要自行设计。论文评分标准教学目标要求评分标准权重(%)90-10080-8960-790-59目标1:掌握数据清洗的基本知识,能够熟练使用常用的数据清洗工具对文本数据,Web数据,和数据库数据进行清洗。(支撑毕业要求指标点2.2)能够熟练掌握常见数据清洗工具,如:Kett1e、PythonDatac1eaner等数据清洗工具中的清洗方法,能够非常熟练的对文本数据、Web数据,数据库数据等进行数据清洗、数据转换、数据加载等。能够比较熟练掌握常见数据清洗工具,如:Kett1e、PythonDatac1eaner等数据清洗工具中的清洗方法,能够比较熟练的对文本数据、Web数据,数据库数据等进行数据清洗、数据转换、数据加载等。对常见数据清洗工具,如:Kett1e%PythonDatac1eaner等可以使用其中的绝大部分对数据进行清洗,能够的对文本数据、Web数据,数据库数据等进行数据清洗、数据转换、数据加载等。只掌