《人工智能应用导论(第二版 曾文权)实验手册汇总 24 数据爬取实验手册92 社交网络分析实验手册.docx》由会员分享,可在线阅读,更多相关《人工智能应用导论(第二版 曾文权)实验手册汇总 24 数据爬取实验手册92 社交网络分析实验手册.docx(82页珍藏版)》请在第一文库网上搜索。
1、数据爬取实验手册4.1 项目目标用PythOn爬取百度贴吧图片并保存到本地。4.2 任务一:网络爬取图片步骤一:导入爬虫必要的包实现一个简单的爬虫,爬取百度贴吧图片importrequestsimportre步骤二:定义从UrI获取图片的函数# 根据ur1获取网页htm1内容defgetHtm1Content(ur1):page=requests,get(ur1)returnpage,text# 从htm1中解析出所有jpg图片的ur1# 百度贴吧htm1中jpg图片的ur1格式为:defgetJPGs(htm1):# 解析jpg图片ur1的正则jPgReg=pi1e(rnIU14.4 图2-
2、15保存为jason文件4.5 任务三:数据可视化MatP1Ot1ib是PythOn中最常用、最著名的数据可视化模块,该模块的子模块PyPIot包含大量用于绘制各类图表的函数,例如柱状图(图2T6)和气泡图(图2T7)。任务实施具体步骤如下:步骤一:绘制柱形图importmatp1ot1ib.pyp1otaspitpit.rcParams,font,sans-serif,二,MicrosoftYaHei,pit.reParams,axes,unicodeminus,=Fa1seX=上海,成都,重庆,深圳,北京,长沙,南京,青岛y=60,45,49,36,42,67,40,50pit.bar(x
3、,y,width=0.5,co1or=,r,)pit.show()图2-16柱状图步骤二:绘制柱形图importmatp1ot1ib.pyp1otaspitimportpandasaspdpit.rcParams,font,sans-serif,=,MicrosoftYaHei,pit.rcParams,axes,unicodeminus,-Fa1sedata=PC1read_exce1(产品销售统计.xIsx)n=data,产品名称X=data销售量(件)y=data销售额(元)Z=data毛利率(%)pit.scatter(x,y,s=z*300,co1or=*r,marker=*o,)p
4、it.x1abe1(销售量(件),fontdict=,fami1y*:,MicrosoftYaHei,co1or,:,k,size,:20),1abe1pad=20)pit.y1abe1(销售额(元),fontdict=,fami1y,:,MicrosoftYaHei,co1or,:,k,size*:20,1abe1pad=20)pit.tit1e(销售量、销售额与毛利率关系图,fontdict=,fami1y*:,MicrosoftYaHci,co1or,:k,size:30,IOC=center)fora,b,cinzip(x,y,n):pit.text(x=a,y=b,s=c,ha=ce
5、nter,va=,center,fontsize=15,co1or=*w,)pit.x1im(50,600)p1t.y1im(2900,11000)pit.show()销售量、健售一与毛利率关系图MnOoO雌猿(件)图2-17气泡图项目总结:本项目实现数据采集、数据标注和数据可视化。通过该项目通过requests.Iab1eme和matp1ot1ib来体验实践,读者可以了解数据采集、数据标注和数据可视化的一般流程,掌握其基础原理与基本技能。读者完成项目实训后,可以进一步对代码进行模块化整理,尝试将比较独立的功能封装为函数或类的形式。项目总结报告项目名称姓名学号小组名称(适合小组项目)实施过程记
6、录测试结果总结后期改进思考成员分工(适合小组项目)姓名职责完成情况组长评分考核评价评价标准:1 .执行力:按时完成项目任务。2 .学习力:知识技能的掌握情况。3 .表达力:实施报告详实、条理清晰。4 .创新力:在完成基本任务之外,有创新、有突破者加分。5 .协作力:团队分工合理、协作良好,组员得分在项目组得分基础上根据组长评价上下浮动。房价预测实验手册1.1 项目目标本项目是通过三个任务:房价预测、文字识别、F1ippyBird自动游戏,分别体验与掌握机器学习、深度学习、强化学习算法的应用开发,具体见任务目标。1.2 任务一:房价预测4. 2.1任务目标通过对爬取到的第三方房屋中间商网站的数据
7、进行分析,使用可视化模块工具matp1ot1ib,对房价进行可视化分析与展示,最后分别采用机器学习算法二元线性回归和多元线性回归进行预测、展示、分析、对比。使读者能够:(1)体验一个完整的机器学习算法对房价进行预测应用开发。(2)掌握数据清洗、分析、可视化以及机器学习算法基本用法。5. 2.2任务实现步骤一:PandaS数据导入北京的房价信息表名为bj_house_information.csv,此表通过爬虫爬取的房价数据,包括:朝向,地点,电梯,楼层,小区名称,Id,户型,房屋总价,区域,装修,建筑面积,楼龄信息,如图4T4所示。卜Zb1hOuWJMomwcioacsv记本文件精装161.0
8、,23东北乐直门,有电t2S,万国城MoMAJ0U02O705292室2厅,1300,东城If1I装J27Q2002南,工体,无电梯5十字城东里JOI1O2599410,1室1厅,405,乐城If11装,37.0,1986南,地安R无电梯5利1师同45号院IoIIO2516190.2室1厅.700,东城1R50Q,1985西广劭)育电梯.19金桥国际.101102620368,1室1厅,462.东城If11itS4Q2004西,崇文I1有电悌,18,太华公毒,101102624056,1室。厅51&乐if1164Q20西瓯菜户营,有电怫23.僖施园.101102691675,3型1厅.960.西城其他J46.0.2002tc-*-aM7*)健4iuaru+宙,nucaacswwd5a*tSejESn1Q7vM1H.M1M100KMxmtoth(CR)UTF图4-14房价信息表名北京的房价信息表是CSV格式,CSV是逗号分隔值文件格式,可以用电脑自带的记事本或exce1打开。CSV其文件以纯文本形式存储表格数据(数字和文本)。CSv文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。所有记录都有完全相同的字段序列,通常都是纯文本文件。CSV文件读取以及数据分析一般采用Pa