听课笔记大数据概论_001.docx

上传人:lao****ou 文档编号:495757 上传时间:2023-12-22 格式:DOCX 页数:8 大小:122.65KB
下载 相关 举报
听课笔记大数据概论_001.docx_第1页
第1页 / 共8页
听课笔记大数据概论_001.docx_第2页
第2页 / 共8页
听课笔记大数据概论_001.docx_第3页
第3页 / 共8页
听课笔记大数据概论_001.docx_第4页
第4页 / 共8页
听课笔记大数据概论_001.docx_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《听课笔记大数据概论_001.docx》由会员分享,可在线阅读,更多相关《听课笔记大数据概论_001.docx(8页珍藏版)》请在第一文库网上搜索。

1、大数据与社会科学概论刘涛雄大纲1. 大数据概论2. 大数据的主要技术手段3. 数据分析技术:机器学习概论4. “大数据社会科学”何为大数据?(BigData)特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。但是,也不是简单地以规模论大,而是相对的且杂程度。如果以现在计算机的能力:针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。大数据特性:4VVo1ume:体量巨大Ve1ocity:速度极快Variety:模态多样Veracity:真伪难辨无所不在的数据生成源:1. 全社会(发言、网状结构)、2

2、. 网络用户(浏览行为、搜索行为)、3. 管理者(发票、医院记录、交通检测)、4. 商业机构(手机记录、信用卡记录、保险记录、商场购物记录)5. 健康数据(电子医疗设备记录、医疗检测)、6. 卫星信息系统(物联网)我们都有哪些数据?文本信息中文分词多媒体时间序列(高频数据)空间数据网页数据DataMining:AKDDrrternFvn1uation社会网络大数据与社会科学第一层次:基于数据的知识发现(Know1edgeDiscoverinDatabase,KDD)ProcessDsttaMiningDataWarc1if1j1C1)a(aC,Ieaniii*DatahaDatamining:

3、thecoreofknow1edgediscoveryprocess.有理论假设的好处:可以节省信息量,缩小搜寻范围。当数据获取和处理能力足够强,KDD也能体现其优势。例子:HedonometricsandTwitterF1owObamaSDataCrunchershe1pedhimwin活跃领域:数据挖掘(datamining)政治学、经济学、社会学、心理学、管理学如:priceindex预测(forcasting)和现测(nowcasting)女口:对goog1etrends的利用社会计算(ComPUtatiOna1Socia1Sciences)Cof1iputationabout(of)

4、thepeop1e:如社会情感Computationforthepeop1e:如信任计算、风险计算Computationbythepeop1e:如主体参与、群体智能大数据的主要技术手段关键技术Hadoop:分布式管理平台来自Goog1e的设计思想:一个分布式文件系统和并行执行环境(方便用HDFS和MapReduce)户处理海量数据计算C1oudComputing机器学习计弊机针对特定任务(TaSkS)和效果评价指标(Perfor1naneeMeasurement),基于已有经验(EXPeriences)自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)T:任务P:效果评价E:经验集

5、(训练集)训练和预测最佳预测:BiaS-Varianee平衡2一般来说,模型越复杂,变量越多,BiaS越低,但var(f(x)越大所以对于模型选择,个很重要的准则是降维。大数据对社会科学的机遇与挑战机遇数据来源极大拓展获取信息速度大大加快计算能力极大增强核心:技术、数据+人挑战数据太多维数灾难?数据太乱结构化与非结构化生成机制难掌握(DGP,DataGcneratingProcess)谁是总体?谁在创造数据?总体创造数据的动机和行为机制是什么?官方统计还有存在必要吗?结构化数据与非结构化数据社会科学:因果与相关社会科学的核心:因果解释自然科学与社会科学:可控实验与自然实验困难:反向因果与共因变

6、量统计学:从相关到因果大数据:相关易于因果,相关重于因果?大数据对研究还有意义吗?大数据同样会促进“因果解释”社会科学的研究范式:假设检验(演绎法)大数据:寻找相关(归纳法)信息增加与避免错误因果政策:预测与因果我们姑不娃过于重视“因果”?关键:数据生成机制是否稳定?两类政策问题:“降雨术问题”与“雨伞”问题降雨术:因果(干预问题)雨伞:预测(对策问题)但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。互联网金融简介对中国的贡献征信财富管理P2P大数据要和先进的方法一起使用一、传统金融业务传统方式(支付、个人理财)放在互联网上支付二、互联网和金融的化学反应、支付

7、体系互联网征信P2P贷款众筹网络虚拟支付功能0.5濒率资源分配投融资渠道不畅,超过30%中国人储蓄率在20%以上征信的分类资产(个人企业)是否诚信(个人)中国征信市场的现状人民银行的征信系统有8亿数据(活跃的有25%的3亿)人有征信数据美国有70%的人电商有个人消费数据(大概有3亿)征信与消费的结合租车4W+1H5P5C+1S支付数据一一财务关系消费数据一一消班习惯金融数据一一信用记录社交数据一一个人特征行为数据P2P点对点线上获取信息和资金流程:获取借贷列表和信用审核信贷审核:实地审核线上项目审核系统确定借款利率固定利率按融资期限长短和信用等级确定利率确定担保模式:共同体众筹类型(按回报划分

8、)捐赠众筹(共)产品众筹(共)股权众筹(权益)债权众筹(权益)私的含义:小众大额非公开宣传持有人不能超过200人针对高端人群众包把复杂的任务以自由自愿的形式外包给非特定的大众网络的做法模式利用空闲时间靠大众力量之Rm(A)清除1sO显示出Vector-1位cMatrix二位Arraym*n*q*p一种类型储存1istVectorMatrix二位Array8月25日社会网络分析郑路1概要网络是指物体节点和物体之间的连线所组成的集合。节点:行动者:个人、作为单元互动结构的网络网络研究看成是一切互动形式的研究信息传递网站链接信息交换贸易信用与资金流动友谊信任网络分析的隐含前提比起节点自身的属性,节点

9、之间的关系对行为的影响更甚。买东西的决定受周围人际关系的影响朋友的朋友对你的心里趋向有影响某一节点的行为不仅与直接相联的连带有关,也会受到整个网络结构连结模式的影响。从关注:“个体特征”到关注“关系”现在营销分析关注社交网络,微信的股价姑600亿,2015年赚了18亿美元,小群体分析:社会思潮分析:美国选民的政治空间两极化。网络与政治观点的关系?国际贸易与国际关系城市兴起莫斯科为什么成为首都热丽亚为什么成为政治、经济、文化中心与地理位置有关,陆陆与水陆,水陆更重要新潮事物的扩散传染病的传播黑色节点临床确定人生物性与社会性的传播?被动与主动社会没有时空限制、生物传播很少出现病原体变异,但是社会性

10、会变异八卦谣言。也可以由于某一因素突然变得活跃传播,北京折叠。社会网络与健康一一孤独感Eacebook2、网络概念化与测量距离:连结两个节点的最短路径的长度。连带强度:结构洞:小世界现象:联系在观测的一个月,两个用户至少发生过一次对话。三度影响力原则我们被影响并影响着相距“三度”的人?你朋友的朋友的朋友如何影响你的感受、思考和行为传染:什么可以在连结中传递?(病菌、金钱、暴力、时尚、捐献器官、感受快乐、发胖)是人以群分还是人际影响人们选择与他们类似的人产生社会交往(或交朋友),还是会调适自己的行为,使自己和朋友们更像。人行道实验连带强度:强关系:家庭成员与亲密朋友弱关系:熟人和“泛泛之交”的朋

11、友结构洞:两个网络群体的节点间无直接关系或关系间断的现象,从网络整体来看,晋升、加薪的机会文本数据挖掘与分析一、社会科学中的文本分析文本不是主流文本资料难获取花时间难推广:文革与现在难管理:文本难以管理、储存?难分析:coding文本分析繁荣的条件逐步具备:大规模文本数据采集储存和管理能力增强文本分析方法蓬勃发展:可推广、系统化和廉价化文本资料指数级增长通过文本表达的社会意义更广泛文本分析师收集数据的方法论:研究者采集他人理解世界的信息的途径。人工coding机器coding自然语言过程机器学习(MC统计技术引入文本分析软硬件易得非结构化海量潜在维度:所有语言的各种可能词语和短语等文本中词语之间复杂且微妙的关系词语模糊性和情景敏感性二、获取文本数据三、文本数据分析:基本应用四、文本数据分析:高级应用五、文本分析与因果推论六、文本数据分析举例

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服