Python爬虫方向简历应届生.docx

上传人:lao****ou 文档编号:81714 上传时间:2023-02-13 格式:DOCX 页数:2 大小:9.24KB
下载 相关 举报
Python爬虫方向简历应届生.docx_第1页
第1页 / 共2页
Python爬虫方向简历应届生.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《Python爬虫方向简历应届生.docx》由会员分享,可在线阅读,更多相关《Python爬虫方向简历应届生.docx(2页珍藏版)》请在第一文库网上搜索。

1、Xxx电话: 邮箱:住址:北京市海淀区教育背景2013.09-2017.06个人能力毕业院校:南开大学滨海学院学历:本科专业:信息管理与信息系统有充足的编程能力,了解计算机网络、数据结构,Http/Https ;熟练使用MySQL数据库,熟悉Redis , MongoDB等NoSQL数据库;熟练使用XPath、re. json模块进行数据提取;熟练使用Selenium + PhantomJS实现动态HTML抓取;熟练掌握Scrapy框架、了解scrapy-redis分布式组件;掌握常见的爬虫、反爬虫知识及应对措施;熟悉Django框架、熟悉Linux系统;熟悉JavaScript、Ajax、J

2、Query. CSS、HTML等 WEB 前端技术;2016.06-2017.07天津坤禾生物分析网站、网页、链接的特征,对指定的多个网站的网页进行网页抓取、数据提取,负责特殊网页采集任务的分析及采集方案设计。负责特殊网页采集任务的分析及采集方案设计。搭建分布式爬虫环境。2015.09-2016.04在学校跟着老师做项目项目名称:抓取新浪微博数据(利用移动端抓取数据)过程:1 .分析url ,找到正确的首页startjjrl ,2 .引擎从调度器中抽取start_url用于抓取数据;3 .弓I擎把url封装成request传给下载器;4 .下载器把资源下载下来并封装成应答包Response ;

3、5 .解析Response ,把item交给实体管道Pipeline进行下一步处理;6 .若解析了 url则交给调度器等待抓取。项目名称:爬去斗鱼全部房间内容过程:1 .找到 start_url ;导入 selenium 的 webdriver 包;2 .发送get请求,获得响应;3 .利用find_elements_by_xpath来获取数据,并获取下一页这个元素;4 .提取数据及下一页的元素;5 .保存数据,点几下一页进入循环。项目名称:web开发项目模块:1 .用户模块(注册、登陆、密码等)2 .商品模块3 .购物车模块(用户对产品的临时存储)4 .用户订单模块参与项目模块:用户模块(注

4、册,登录,密码等)职责描述:1 .参与了数据库的设计。2 .参与对用户注册、登录及密码等信息进行增、删、改、查处理。注册时对用户名等信息进行唯一性校验,确认不重复后使用uid为用户生成唯一标示,对用户注册时的密码加密后存入数据库。3 .参与了前端页面注册、登录、及修改密码页面的开发。2016.06-2017.05天津坤和生物项目简介:各大农业资讯类网站的爬取使用技术描述:1 .使用scrapy框架;2 .使用XPath ( Ixml ),正则(re )进行页面分析并提取数据;3 .使用MangoDB进行信息存储。模块介绍:1 . spider模块:处理url地址和需要的数据;2 .下载中间件模块:设置代理ip和User-Agent;3 .管道模块:与数据库交互并保存数据。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服