《《Python网络爬虫技术》教学大纲.docx》由会员分享,可在线阅读,更多相关《《Python网络爬虫技术》教学大纲.docx(6页珍藏版)》请在第一文库网上搜索。
1、Python网络爬虫技术教学大纲课程名称:Python网络爬虫技术课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论24学时,实验40学时)总学分:4.0学分一、课程的性质数字经济时代,数字资源已经成为互联网竞争和经营的生产要素和核心竞争力,而如何获取数据资源并基于此产出有价值的数据,已成为重要的资源配置。数据企业能够收集、获取的数据越多,越可能在行业竞争中具有优势地位。行业的发展带动岗位的需求,越来越多的爬虫工程师岗位涌现,工作中对爬虫技术的需求也越来越多。网络爬虫技术是数据分析、数据挖掘、人工智能等技术的数据基础,是从互联网上批量获取数据的重要技术之一,特开设Pytho
2、n网络爬虫技术课程。二、课程的任务通过本课程的学习,掌握使用Python基本语法完成爬虫任务编写,使用ReqUeStS库向指定网址发送请求,XPath或BeaUtifU1SoUP库对静态网页进行解析,Se1eniUm库爬取动态页面;使用JSON文件、MySQ1数据库、MOngODB数据库对爬取下来的数据进行存储;使用表单登录方法、COOkie登录方法实现模拟登录;使用HTTPAnaIyZer和Fidd1er工具抓包,并分析终端协议;使用SCraPy框架进行网页内容爬取,理论结合实践,每个章节中都配有多个案例,为学生将来从事数据采集、数据爬取的工作、研究奠定基础。三、课程学时分配序号教学内容理论
3、学时实验学时其它1第1章了解爬虫与Python爬虫环境222第2章爬虫基础知识准备243第3章简单静态网页爬取一一获取某企业官网基本信息6104第4章爬取动态网页一一获取图书基本信息685第5章模拟登录一一登录某企业官网246第6章终端协议分析一一获取某音乐PC客户端和APP数据267第7章使用Scrapy爬虫爬取某企业官网新闻动态46总计2440四、教学内容及学时安排1.理论教学序号章节名称主要内容教学目标学时1了解爬虫与Python爬虫环境1 .爬虫的概念2 .爬虫的分类3 .爬虫的合法性与robots协议4 .网站反爬虫的目的与手段5 .爬取策略制定6 .爬虫需要用到的编程环境、工具介绍
4、1 .掌握爬虫的概念和分类2 .了解爬虫的法律问题3 .掌握爬虫robots协议以及该协议的常见字段4 .了解反爬虫的目的和常用手段5 .掌握制定爬虫策略的方法6 .了解爬虫相关库及环境配置的方法22爬虫基础知识准备1 .了解网页开发技术2 .了解网页的结构3 .了解网页的分类4 .了解网页的数据结构5 .熟悉HTTP请求方法与过程6,熟悉常见HTTP状态码7 .熟悉HTTP头部信息8 .熟悉Cookie1 .了解常用的网页开发技术2 .掌握网页的结构和常用的标签,并能完成简单的网页创建3 .了解不同类型网页的区别,并能加以区分4 .掌握网页中常用的数据结构5 .掌握HTTP请求方法和过程,并
5、能分析HTTP协议中的头部信息23简单静态网页爬取一一获取某企业官网基本信息1 .使用ChrOme浏览器查看网页2 .使用UrIIib3库实现HTTP请求3 .使用Requests库实现HTTP请求4 .使用Xpath解析网页5 .使用Beautifu1Soup库解析网页6 .使用正则表达式解析网页7 .将数据存储为JSON文件8 .将数据存储到MySQ1数据库1 .掌握Chrome浏览器开发者工具的使用方法2 .掌握使用ur11ib3和Requests库实现HTTP请求的流程3 .掌握Xpath的基本语法和常用函数4 .掌握创建Beautifu1Soup对象的方法5 .掌握正则表达式解析网页
6、的常用方法6 .掌握使用JSON模块和PyMySQ1库存储数据的方法64爬取动态网页获取图书基本信息1 .逆向分析判断网页类型2 .逆向分析获取动态网页信息3 .使用Se1enium库打开浏览器对象并访问页面4 .Se1enium库进行元素选取、交互、页面操作、等待5 .MongoDB数据库和MySQ1数据库的区别6 .将数据存储到MongoDB数据库1 .掌握逆向分析定位动态数据所在网址的方法2 .掌握Se1enium库的安装和配置方法3 .掌握Se1enium库的常用函数4 .了解MongoDB数据库和MySQ1数据库的区别5 .掌握MongoDB存储数据的基本方法65模拟登录登录某企业官
7、网1 .查找提交人口2 .查找并获取需要提交的表单数据3 .使用POST请求方法登录4 .使用浏览器Cookie登录5 .基于表单登录的Cookie登录1.掌握表单登录和Ckie登录的流程2.掌握使用Chrome开发者工具查找登录入口的方法3 .掌握发送POST请求的方法4 .掌握保存和加载Cookie实现登录的方法26终端协议分析一获取某音乐PC客户端和APP数据1 .了解HTTPAna1yzer工具2 .爬取酷我音乐PC客户端数据3 .了解Fidd1er工具4 .分析酷我音乐APP数据1 .T解HTTPAna1yzer工具的基础知识2 .掌握酷我音乐PC客户端数据的爬取流程3 .了解Fid
8、d1er工具的基础知识4 .掌握HTTPAna1yzer和Fidd1er工具的抓包和数据分析方法5 .掌握酷我音乐APP客户端的数据分析方法27使用Scrapy爬虫爬取某企业官网新闻动态1 .了解SCraPy爬虫框架2 .熟悉Scrapy常用命令3 .创建SCraPy爬虫项目4 .修改items/pipe1ines脚本5 .编写spider脚本6 .修改settings脚本7 .定制下载中间件8 .定制Spider中间件1 .了解Scrapy框架各组件的作用以及数据流向2 .熟悉Scrapy的常用命令及其作用3 .掌握Scrapy爬取文本信息的方法4 .掌握下载器中间件、SPider中间件的定
9、制方法4学时合计242.实验教学序号实验项目名称实验要求学时1Python网络爬虫环境搭建1.在WindowsZ1inux系统上安装Python、PyCharm、MySQ1MongoDB数据库22 .使用PyCharm进行代码编写、运行、安装卸载第三方库操作3 .学会MySQ1、MongoDB数据库配置操作2爬虫基础知识准备1 .使用htm1标签和CSS样式创建网页2 .分析HTTP请求的过程3 .使用浏览器查看HTTP报文并分析报文的头部信息4 .从浏览器中查看报文中Cookie信息的方法43简单静态网页爬取一一获取某企业官网基本信息1 .使用ChrOme浏览器查看网页源码,并定位节点2 .
10、使用Ur1Iib3和Requests实现HTTP请求发送和接收响应结果3 .使用XPath、Beautifu1Soup或者正则表达式对响应的内容进行解析4 .将数据存储到JSON文件中5 .将数据存储到MySQ1数据库中104爬取动态网页获取图书基本信息1 .判断网页类型2 .使用逆向分析的方法获取网页信息3 .Se1enium库及浏览器驱动安装4 .使用Se1enium库爬取动态网页5 .网页元素选取6 .网页元素交互7 .网页页面操作8 .网页页面等待9 .将数据存储到MongoDB数据库中85模拟登录一一登录某企业官网1 .查找提交的入口2 .查找并获取需要提交的表单数据3 .使用POS
11、T方法发送登录请求实现模拟登录4 .从浏览器中查找Cookie5 .使用Cookie模拟登录46终端协议分析一获取某音乐PC客户端和APP数据1 .安装HTTPAna1yzer工具,并掌握基本用法2 .使用HTTPAna1yzer爬取酷我音乐PC端数据3 .安装FiddIer工具,并掌握基本用法4 .使用Fidd1er分析酷我音乐APP,并获取数据67使用Scrapy爬虫爬取某企业官网新闻动态1 .使用Scrapy常用命令2 .通过Scrapy爬取网页信息3 .修改items/pipe1ines脚本4 .编写spider脚本5 .修改settings脚本6 .根据需求定制下载器中间件7 .根据需求定制Spider中间件6学时合计40五、考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括发送HrrP请求、解析静态网页内容、解析动态网页内容、数据存储为JSoN文件、数据存储到MySQ1数据库、数据存储到MongoDB数据库、使用表单和Cookie模拟登录、使用HTTPAna1yzer获取PC端数据、使用Fidd1er获取APP端数据、Scrapy框架使用等部分,题型可采用判断题、选择、简答、编程题等方式。