《Python数据分析与可视化 教案 电子 第1章 数据分析概述.docx》由会员分享,可在线阅读,更多相关《Python数据分析与可视化 教案 电子 第1章 数据分析概述.docx(7页珍藏版)》请在第一文库网上搜索。
1、第1页课题1.1认识数据分析课型讲练授课班级大数据授课时数1教学目标1了解数据分析的流程2.了解常见的数据分析应用场景教学重点1.了解数据分析的流程教学难点1.了解常见的数据分析应用场景学情分析学生对于数据分析没有基础,需要通过一些案例进行引导。教学效果作为第一节课,学生对于数据分析有一个直观了解,能够更好为后续的内容服务。教后记在公司的众多运营活动中,每天都会产生大量的数据,这些看似亳无有关的数据,通常具有深层次的紧密关系,这些数据对于公司的运营和发展都有十分重要的作用和意义。随着大数据时代的来临,数据分析已经成为了公司的管理者们极为重视的一项工作内容。一、数据分析背景随着计算机的发展,企业
2、的生产与运营产生的数据量与日俱增,因此需要利用有效的工具帮助企业通过统计分析对数据加以提炼,研究数据的内在规律,提高效率。数据分析作为大数据技术的重要组成部分,已经越来越受到重视。明确数据分析的概念、流程和工具是进行数据分析的第一步。数据分析是指用恰当的方法对收集的数据进行分析,提取有用信息,并对数据加以研究和总结的过程。二、数据分析流程数据分析的流程一般分为6个步骤:明确目的、数据收集、数据预处理、数据分析、数据可视化、报告撰写。1 .明确目的明确目的是指在数据分析之前,挖掘用户数据分析的需求,了解用户数据分析的目的,提供数据分析的方向,这是数据分析的第一步,也是关键的一步,错误的分析方向可
3、能会导致错误的结果。2 .数据收集数据收集是数据分析的基础,是指根据数据分析的第一步数据分析目的收集相关的数据。数据收集主要有两种方式,一种是本地数据,另一种是外部数据。本地数据是指在本地数据库产生的数据,外部网络数据是指存储在互联网中的数据。本地数据可以通过数据库导出Exce1、TXT等格式的数据进行分析,而存储在互联网中的数据分为电商数据和网络调查数据,电商数据可以通过八爪鱼等网络抓取工具提取出来,而网络调查数据通过问卷星等网络调查网站直接导出数据。3 .数据处理数据处理是数据分析过程中的一个重要步骤,尤其是在数据对象包含噪声数据、不完整数据,甚至是不一致数据时,更需要进行数据的处理,以提
4、高数据对象的质量,并最终达到提高数据分析质量的目的。噪声数据是指数据中存在着错误、或无效(超出正常范围)的数据,如百分制的成绩中出现了200分;不完整数据是指想要分析的属性没有值,如成绩表缺乏某些成绩影响平均成绩的计算;而不一致数据则是指数据内涵出现不一致情况,如出现了两个相同的学号。数据处理是指对数据进行清洗、转换、提取、计算等一系列的过程。4 .数据分析数据分析是指通过描述性统计分析、交叉对比、连续数据分组化、图表分析、回归分析、方差分析、因子分析、关联规则分析等多种方法对收集的数据进行处理与分析。如果需要分析企业运行指标的情况,可以使用描述性统计分析:如果需要预测未来一段时间的某个数据时
5、,可以使用回归;如果需要分析不同影响因素对于某个结果的影响时,可以使用相关分析、假设检验、方差分析和因子分析;如果需要分析二元对象(如销售成功或失败)的影响因素时,可以使用决策树;如果需要分析不同商品之间组合销售时,可以使用关联分析。5.数据展示数据可视化是指将数据以图形的方式表示,并利用数据分析工具发现其中的未知信息的处理过程,数据可视化的基本思想是将大量的数据构成数据图像,同时将数据的各个属性以多维数据的形式表示,可以从多个维度观察数据,从而对数据进行更为深入的观察和分析。如果需要分析二维数据关系时,可以使用柱形图和折线图,折线图更能反映变化趋势;如果需要分析总体各个部分占比时,可以使用饼
6、图;如果需要分析多维数据时,可以使用雷达图。三、数据分析应用1 .客户分析客户分析是指根据客户的数据信息进行行为分析,通过界定目标客户,根据客户的需求、性质、经济状况等基本信息,使用统计分析方法预测客户可能会选购的商品,实现精准化营销。客户分析重点是如何应用数据更好的了解客户以及他们的爱好和行为,企业非常喜欢搜集社交方面的数据、浏览器的日志、分析出文本和传感器的数据,为了更加全面的了解客户,比如通过数据分析,电信公司可以更好预测出流失的客户,超市能更加精准的预测哪个产品会大卖,汽车保险行业会了解客户的需求和驾驶水平。2 .营销分析营销分析包括产品分析、价格分析、渠道分析等多种分析。比如产品定价
7、的合理性分析,需要进行数据试验和分析,研究客户对产品定价的敏感度,将客户按照敏感度进行分类,测量不同价格敏感度的客户群对产品价格变化的直接反应和容忍度。通过这些数据试验,为产品定价提供决策参考。3 .设备管理随着越来越多的设备和机器能够与互联网相连,企业能够收集和分析传感器数据流,包括连续用电、温度、湿度和污染物颗粒等无数潜在变量。通过分析可以预测设备故障,安排预防性的维护,以确保项目正常进行。课题1.2认识Python课型讲练授课班级大数据授课时数1教学目标1. 了解Python语言的特点2. 了解PythOr1常用库的名称及作用教学重点1.了解Python语言的特点教学难点1.了解Pyth
8、or1常用库的名称及作用学情分析学生之前一般都是上过Pyhon课,但是不一定学过Python中的一些第三方库,比如Pandas、NUmPy等,但是这些库在数据分析中很重要。教学效果本次课是PythorI的导入课,通过本次课的学习,能够对于PythOn的各种库有一个基本了解。教后记第1页一、Python的发展趋势Python是一种跨平台的计算机程序设计语言,是由GuidovanRossum在八十年代末和九十年代初,在荷兰国家数学和计算机科学研究所设计出来的。自从20世纪90年代初Python语言诞生至今,已被逐渐被广泛应用于系统管理任务处理。自从2004年以后,PythOn的使用率呈线性增长。目
9、前,Python已经成为最受欢迎的程序设计语言之一。PyIhOn2于2000年10月160发布,稳定版本是Python2.7oPython3于2008年12月3日发布,不完全兼容PyIhOn2。二、Python的特点1 .易于学习Python有相对较少的关键字,结构也比较简单,与其他程序语言相比,学习起来更加简单,比如在PythOn变量不需要声明可以直接使用,再比如一些第三方库集成了很多计算功能,大大简化编程的难度。2 .易于阅读Python代码定义清晰,比如语句的组织依赖于缩进而不是用符号标记,如循环结构的“开始/结束”可直接用缩进而不需要使用其他的符号。3 .开发效率高Py1hOn是一种面
10、向对象的解释型计算机程序设计语言,具有丰富和强大的库。高级数据结构可以在一个单独的语言中表达出很复杂的操作,比如调用第三方库中的很多方法,就可以避免写很多循环。4 .可移植性强基于其开放源代码的特性,PythOn已经被移植(也就是使其工作)到许多平台。三、Python的常用库1numpyNUmPy是NUmeriCa1PythOn的简称,是Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy的前身Numeric最早是由JimHugunin与其它协作者共同开发,2005年,TravisO1iphant在Numeric中结合了另一个同性质
11、的程序库Numarray的特色,并加入了其它扩展而开发了NUmPyoNUmPy支持高级大量的维度数组与矩阵运算,底层是C语言实现的,由于针对数组运算提供大量的数学函数库,计算速度比较快,运算效率极好,是机器学习框架的基础类库。5 .SciPySciPy是构建在numpy基础之上的数据计算库,它提供了许多的操作numpy的数组的函数。SCiPy是一款方便、易于使用、专为科学和工程设计的Python工具包,它包括了统计、优化、整合以及线性代数模块、傅里叶变换、信号和图像图例,常微分方差的求解等。Scipy的子模块包括:模块名功能简介scipy.c1uster向量量化scipy.constants数
12、学常量scipy.fftpack快速傅里叶变换ScipyJntegrate积分ScipyJnterpo1ate插值scipy.io数据输入输出scipy.1ina1g线性代数scipy.spatia1空间数据结构和算法scipy.specia1特殊数学函数scipy.stats统计函数3 .pandas表格容器pandas是基于NUmPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。PandaS提供了大量快速便捷地处理数据的函数和方法,使得Python成为强大而高效的数据分析环境的重要因素之一。pandas
13、使用一个二维的数据结构DataFrame来表示表格式的数据,同时使用NaN来表示缺失的数据,而不用像NUmPy需要手工处理缺失的数据,并且PandaS使用轴标签来表示行和列。同时,pandas可以对数据进行导入、清洗、处理、统计和输出,所以PandaS库就是一个数据分析库。4 .matpo1t1ibMatp1ot1ib是Python在绘制2D图形领域中使用最广泛的套件,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。通过Matp1ot1ib,用户可以仅需要几行代码,便可以生成绘图。一般可绘制折线图、散点图、柱状图、饼图、直方图、子图等等。Matp1ot使用Numpy进行数组运算,并
14、调用一系列其他的Python库来实现硬件交互。Inatp1otIib中应用最为广泛的模块是matp1ot1ib.pyp1ot模块,该模块为matp1ot1ib提供的一套和MAT1AB类似的绘图API,以方便快速绘图。将众多绘图对象所构成的复杂结构隐藏在这套AP1内部。我们只需要调用pyp1ot模块所提供的函数就可以实现快速绘图以及设置图表的各种细节。matp1ot1ib.pyp1ot模块对外提供函数式的接口,其内部实际保存了当前图表以及当前子图等信息。5 .SeabornSeaborn是一种基于matp1o11ib的图形可视化PythonIibratyo它提供了一种高度交互式界面,便于用户能够
15、做出各种有吸引力的统计图表。Seaborn其实是在matp1ot1ib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用Seaborn就能做出很具有吸引力的图,而使用matp1ot1ib就能制作具有更多特色的图。应该把Seaborn视为matp1ot1ib的补充,而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与Statsmode1s等统计模式。掌握seaborn能很大程度帮助我们更高效的观察数据与图表,并且更加深入了解它们。Seaborn主要包括如下特点:(1)基于matp1ot1ibaesthetics绘图风格,增加了一些绘图模式(2)增加调色板功能,利用色彩丰富的图像揭示您数据中的模式(3)运用数据子集绘制与比较单变量和双变量分布的功能(4)灵活运用处理时间序列数据(5)利用网格建立复杂图像集6.scikit-1earnSk1eam是Scipy的扩展,建立在Numpy和matp1o1ib库的基础上。利用这几大模块的优势,可以大大地提高机器学习的效率。Seiki1-Iearn简称Sk1earn,支持包括分类,回归,降维和聚类四大机器学习算法。还包括了特征提取,数据处理和模型评估者三大模块。Sk1earn拥有着完善的文档,