《Python网络爬虫技术》教学大纲.docx
《《Python网络爬虫技术》教学大纲.docx》由会员分享,可在线阅读,更多相关《《Python网络爬虫技术》教学大纲.docx(6页珍藏版)》请在第一文库网上搜索。
1、Python网络爬虫技术教学大纲课程名称:Python网络爬虫技术课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论24学时,实验40学时)总学分:4.0学分一、课程的性质数字经济时代,数字资源已经成为互联网竞争和经营的生产要素和核心竞争力,而如何获取数据资源并基于此产出有价值的数据,已成为重要的资源配置。数据企业能够收集、获取的数据越多,越可能在行业竞争中具有优势地位。行业的发展带动岗位的需求,越来越多的爬虫工程师岗位涌现,工作中对爬虫技术的需求也越来越多。网络爬虫技术是数据分析、数据挖掘、人工智能等技术的数据基础,是从互联网上批量获取数据的重要技术之一,特开设Pytho
2、n网络爬虫技术课程。二、课程的任务通过本课程的学习,掌握使用Python基本语法完成爬虫任务编写,使用ReqUeStS库向指定网址发送请求,XPath或BeaUtifU1SoUP库对静态网页进行解析,Se1eniUm库爬取动态页面;使用JSON文件、MySQ1数据库、MOngODB数据库对爬取下来的数据进行存储;使用表单登录方法、COOkie登录方法实现模拟登录;使用HTTPAnaIyZer和Fidd1er工具抓包,并分析终端协议;使用SCraPy框架进行网页内容爬取,理论结合实践,每个章节中都配有多个案例,为学生将来从事数据采集、数据爬取的工作、研究奠定基础。三、课程学时分配序号教学内容理论
3、学时实验学时其它1第1章了解爬虫与Python爬虫环境222第2章爬虫基础知识准备243第3章简单静态网页爬取一一获取某企业官网基本信息6104第4章爬取动态网页一一获取图书基本信息685第5章模拟登录一一登录某企业官网246第6章终端协议分析一一获取某音乐PC客户端和APP数据267第7章使用Scrapy爬虫爬取某企业官网新闻动态46总计2440四、教学内容及学时安排1.理论教学序号章节名称主要内容教学目标学时1了解爬虫与Python爬虫环境1 .爬虫的概念2 .爬虫的分类3 .爬虫的合法性与robots协议4 .网站反爬虫的目的与手段5 .爬取策略制定6 .爬虫需要用到的编程环境、工具介绍
4、1 .掌握爬虫的概念和分类2 .了解爬虫的法律问题3 .掌握爬虫robots协议以及该协议的常见字段4 .了解反爬虫的目的和常用手段5 .掌握制定爬虫策略的方法6 .了解爬虫相关库及环境配置的方法22爬虫基础知识准备1 .了解网页开发技术2 .了解网页的结构3 .了解网页的分类4 .了解网页的数据结构5 .熟悉HTTP请求方法与过程6,熟悉常见HTTP状态码7 .熟悉HTTP头部信息8 .熟悉Cookie1 .了解常用的网页开发技术2 .掌握网页的结构和常用的标签,并能完成简单的网页创建3 .了解不同类型网页的区别,并能加以区分4 .掌握网页中常用的数据结构5 .掌握HTTP请求方法和过程,并
5、能分析HTTP协议中的头部信息23简单静态网页爬取一一获取某企业官网基本信息1 .使用ChrOme浏览器查看网页2 .使用UrIIib3库实现HTTP请求3 .使用Requests库实现HTTP请求4 .使用Xpath解析网页5 .使用Beautifu1Soup库解析网页6 .使用正则表达式解析网页7 .将数据存储为JSON文件8 .将数据存储到MySQ1数据库1 .掌握Chrome浏览器开发者工具的使用方法2 .掌握使用ur11ib3和Requests库实现HTTP请求的流程3 .掌握Xpath的基本语法和常用函数4 .掌握创建Beautifu1Soup对象的方法5 .掌握正则表达式解析网页
![《Python网络爬虫技术》教学大纲.docx_第1页](https://www.001doc.com/fileroot_temp1/2024-7/26/d9096359-d6e6-4dde-ad16-7661f44bdf30/d9096359-d6e6-4dde-ad16-7661f44bdf301.gif)
![《Python网络爬虫技术》教学大纲.docx_第2页](https://www.001doc.com/fileroot_temp1/2024-7/26/d9096359-d6e6-4dde-ad16-7661f44bdf30/d9096359-d6e6-4dde-ad16-7661f44bdf302.gif)
![《Python网络爬虫技术》教学大纲.docx_第3页](https://www.001doc.com/fileroot_temp1/2024-7/26/d9096359-d6e6-4dde-ad16-7661f44bdf30/d9096359-d6e6-4dde-ad16-7661f44bdf303.gif)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python网络爬虫技术 Python 网络 爬虫 技术 教学大纲
![提示](https://www.001doc.com/images/bang_tan.gif)