《Python爬虫方向简历应届生.docx》由会员分享,可在线阅读,更多相关《Python爬虫方向简历应届生.docx(2页珍藏版)》请在第一文库网上搜索。
1、Xxx电话: 邮箱:住址:北京市海淀区教育背景2013.09-2017.06个人能力毕业院校:南开大学滨海学院学历:本科专业:信息管理与信息系统有充足的编程能力,了解计算机网络、数据结构,Http/Https ;熟练使用MySQL数据库,熟悉Redis , MongoDB等NoSQL数据库;熟练使用XPath、re. json模块进行数据提取;熟练使用Selenium + PhantomJS实现动态HTML抓取;熟练掌握Scrapy框架、了解scrapy-redis分布式组件;掌握常见的爬虫、反爬虫知识及应对措施;熟悉Django框架、熟悉Linux系统;熟悉JavaScript、Ajax、J
2、Query. CSS、HTML等 WEB 前端技术;2016.06-2017.07天津坤禾生物分析网站、网页、链接的特征,对指定的多个网站的网页进行网页抓取、数据提取,负责特殊网页采集任务的分析及采集方案设计。负责特殊网页采集任务的分析及采集方案设计。搭建分布式爬虫环境。2015.09-2016.04在学校跟着老师做项目项目名称:抓取新浪微博数据(利用移动端抓取数据)过程:1 .分析url ,找到正确的首页startjjrl ,2 .引擎从调度器中抽取start_url用于抓取数据;3 .弓I擎把url封装成request传给下载器;4 .下载器把资源下载下来并封装成应答包Response ;
3、5 .解析Response ,把item交给实体管道Pipeline进行下一步处理;6 .若解析了 url则交给调度器等待抓取。项目名称:爬去斗鱼全部房间内容过程:1 .找到 start_url ;导入 selenium 的 webdriver 包;2 .发送get请求,获得响应;3 .利用find_elements_by_xpath来获取数据,并获取下一页这个元素;4 .提取数据及下一页的元素;5 .保存数据,点几下一页进入循环。项目名称:web开发项目模块:1 .用户模块(注册、登陆、密码等)2 .商品模块3 .购物车模块(用户对产品的临时存储)4 .用户订单模块参与项目模块:用户模块(注
4、册,登录,密码等)职责描述:1 .参与了数据库的设计。2 .参与对用户注册、登录及密码等信息进行增、删、改、查处理。注册时对用户名等信息进行唯一性校验,确认不重复后使用uid为用户生成唯一标示,对用户注册时的密码加密后存入数据库。3 .参与了前端页面注册、登录、及修改密码页面的开发。2016.06-2017.05天津坤和生物项目简介:各大农业资讯类网站的爬取使用技术描述:1 .使用scrapy框架;2 .使用XPath ( Ixml ),正则(re )进行页面分析并提取数据;3 .使用MangoDB进行信息存储。模块介绍:1 . spider模块:处理url地址和需要的数据;2 .下载中间件模块:设置代理ip和User-Agent;3 .管道模块:与数据库交互并保存数据。