1基于大数据的数据分析.docx

上传人:lao****ou 文档编号:396915 上传时间:2023-10-22 格式:DOCX 页数:5 大小:22.06KB
下载 相关 举报
1基于大数据的数据分析.docx_第1页
第1页 / 共5页
1基于大数据的数据分析.docx_第2页
第2页 / 共5页
1基于大数据的数据分析.docx_第3页
第3页 / 共5页
1基于大数据的数据分析.docx_第4页
第4页 / 共5页
1基于大数据的数据分析.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《1基于大数据的数据分析.docx》由会员分享,可在线阅读,更多相关《1基于大数据的数据分析.docx(5页珍藏版)》请在第一文库网上搜索。

1、基于大数据的数据分析作者:戴争干钟业荣来源:科学与信息化2018年第31期摘要在当今世界的发展过程中,计算机信息技术的飞速发展使得数据的应用和扩展变得更加容易。在今天的时代,可以说大数据的时代,无论是数据,存储,分析,在机遇的新时代,处理,挖掘等仍然面临着机遇和挑战。在时代机遇背景下,大数据技术的快速发展对于社会各方面事业以及科学技术的进步具有非常显著的促进作用,因此对于大数据其所存在的价值,以及其在项目数据分析工作当中所发挥的作用,要进行真实有效的研究。因此在文章中,笔者将从数据分析角度着手,对国内外相关研究工作进行分析,对大数据项目数据分析工作进行论述。关键词大数据;项目;数据分析;价值前

2、言近年来,业界和学术界都在进行大数据讨论,大数据时代已经一夜之间到来。大数据为学术界带来了新的思潮。据预测,大数据将成为商业,政府,科研,教育和医疗等行业面临的挑战。在大数据时代,数据分析和数据挖掘工作面临机遇和挑战。结合国内外研究,试图回答大数据是什么以及如何处理大数据。1对大数据的有效认识1.1 大数据的宗旨:经过分析的数据才有价值必须分析大数据,这是由大数据的4V特性(大数据量,多种数据类型,快速处理速度,低密度)决定的。换句话说,数据是高维的,低密度的,并且很难从单个数据中看到法则。因此,有必要分析和优化高维度的维度并细化大量低密度信息的值以便起作用。否则,在大数据的环境中,更容易使“

3、实时”信息沉浸在大量的“死”数据中。大数据的分析应该是“简单,快速,大规模”。1.2 大数据的目标:实现基于数据的决策与资源配置大数据最终需要实现科学决策,基于信息对称的有效资源分配。随着大数据分析技术的发展,数据源可以从离线封闭数据库和数据仓库扩展到打开020(在线到离线)融合数据。可分析数据结构已经从基于数值的结构化数据演变为多媒体数据,例如文本,视频和音频。因此,大数据将逐步改变我们的决策目标以及如何部署社会资源。基于数据的科学决策是一贯追求的目标。然而,信息不对称是常态,因此传统的决策目标是建立相对满意而非最优(由决策科学家Simon建议),资源配置效率是基于计划的市场优势。13大数据

4、的角度:个性化服务+中间索弓1+宏链接目前,大数据的开发,主要是基于数据,为客户提供个性化的营错服务,预测中观行业或区域趋势指数,基于链接的宏观资源配置方案等角度。这不仅反映在阿里小伟的个性化风险控制决策中,高端品牌在线销售品牌和定价动态决策(基于阿里巴巴网络业务活动指数和零售商品价格指数)以及识别集团企业发展战略咨询报告,它也反映在阿里巴巴商业智能指数(预测经济发展趋势)和基于公共气象数据的资源配置优化服务中。互联网金融是大数据开发各个方面的前沿。在金融领域,我们必须实现从金融互联网到互联网金融的快速转变。传统模式下的金融企业开展在线业务,如:网上银行和网上银行不是真正的互联网金融。互联网金

5、融是指通过互联网上的新技术为客户提供搜索或风险控制等增值服务。消除供需结构不对称的P2P贷款,提高增值理财产品的效率。1.4 大数据的关键点:保证数据质量要开发大数据分析,首先要确保数据的质量。错误的输入必然导致错误的输出。没有数据质量.一切都是浮云C数据质量没有保证,是不敢用的。数据质量是一个耗时且费力的基础。确保数据质量需要数据收集和清理的两个原则:相关性和低噪声。首先,大数据不是越“大”越好,但越大的相关数据越多越好。特别是,在数据收集中,有必要尽可能多地收集“相关”数据,而不是尽可能不过滤。其次,当获取数据时,必须确保不存在诱导趋势的干扰因素,同时执行去噪处理。保证数据质量可以建立数据

6、。在建立数据质量数据标签方面取得了进展。利用数据质量数据,决策者可以更安全、科学和有效地使用数据1。2大数据的有效利用2.1 大数据时代,数据分类和清理工作首先,数据清理和清理是数据分析的基础。根据经验,大数据专家普遍认为,这项工作是一项基本工作,既耗时又简单,占数据分析工作量的60%以上,这是数据分析的前提和基础。在此基础上,数据分析需要识别数据,进行深入分析,编写专题报告,确保结果得以实施,最后实施决策和实施。其次,在大数据时代,有必要充分利用IT技术来管理数据质量工作。在大数据时代,手动发现和解决数据质量问题的方法成本高,效率低且不可持续。有必要对数据质量工作进行标准化,系统化和自动化管

7、理,并将节省的人力资源投入到新问题的研究中。2.2 大数据时代,数据分析的特点使用倒金字塔模型来分配,思考,工作,分享”的时间比例。数据分析工作包括三部分:“思考”,分析实际问题,将实际问题转化为数学模型,提出解决方案;“工作”,对解决方案进行编程并产生结果的过程;“分享”,即将分析结果转化为决策并将其付诸实践的过程。在时间分布中,金字塔结构或柱结构的分布形式不是最优结构,倒金字塔结构是合理的。也就是说,思考过程需要很长时间,这可以减少后期的工作量,少走弯路。第二,通过数据分析进行科学决策C许多人都有误解,并认为数据分析是做报告和撰写报告。在大数据时代,数据分析不仅仅是在这里,还需要深入分析才

8、能建立基于数据的决策过程。尊重数据,识别数据,但不识别迷信数据C在尊重数据和尊重事实的前提下,减少主观因素的干扰,快速做出数据决策是一种能力。第三,在大数据时代,数据分析的本质是简单,快速,大规模。数据分析的结果要简洁、易懂;数据分析的时间应该很短,结果应该尽可能自动化,并且应该快速满足客户的需求;数据分析方法可实现大规模扩展。一个好的数据分析师应该有一个全球性的远见,如果有问题,问题可以立即分解成很多问题。即使是一个问题也会被克隆到很多问题中,从而与业务人员建立信任并减少工作量。第四种是将“实时信息与死”消息分开。大数据有大量数据-产生大量“死”数据。错误的数据意味着数据与实际情况不一致。在

9、大数据时代,大量数据是不活跃的主题,即“死数据C因此,有必要从高维和低密度数据中提取“实时信息并发现规律。2.3 大数据时代,数据分析师的培训一是培养核心技术人才,确保长期竞争力。当美国建立国家医疗系统时,它将系统外包给一家加拿大公司,系统在运行的第一天就崩溃了。为此目的,美国政府已经在这个模型上进行了反思。首先,外包公司的设计只符合甲方的直接利益,不考虑甲方的长远利益;其次,项目外包造成了美国技术人员骨干的过错,导致问题发生后问题得到解决;第三次采用这种模式导致美国缺乏核心技术。因此,在采用项目外包模式的同时,有必要掌握其核心技术。在大数据时代,我们在数据分析,信息管理和IT技术方面保持着核

10、心竞争力。需要培养和维护业务的骨干,产品设计,数据分析,数据架构等方面。二是建立专业的大数据分析团队。大数据分析的核心是基于实际业务的数学建模,结果是自动化程序。在实际工作中,有必要正确合理地运用数学建模思想,构建基于数学模型的数据分析,建立定量管理风险的概念。对大数据分析的深刻理解和正确控制,大数据分析方法正处于不断发展的过程中,有必要根据实际问题和实际数据灵活构建模型。3大数据分析方法3.1 神经网络法神经网络方法可以自主地从数据中提取知识,具有较强的迁移性,特别适合于大数据的分析C近年来,世界上各大知名企业和高校,如GoOgIe、微软、百度、StanfordUniversitysUCBe

11、rke1ey等,相继斥重金与人力投入研究基于人工神经网络的大数据分析方法,并不断在语音大数据、图像大数据、文本大数据等大数据应用领域取得了巨大的突破,极大地推动了大数据商业应用与科学研究的变革与发展。这些研究成果也揭示了一个定律,即“大数据+神经网络=巨大的成功”。前馈神经网络(feedforwardneura1networks,FNN)是对大脑神经网络建模的最初尝试,也是一种最简单的神经网络模型。前馈神经网络由多层组成,每一层包含多个神经元。不同层通过神经元之间的前向连接而连接起来,任意一层只接受它前面层的输出为输入。因此,在前馈神经网络中,信息沿着一个单一的方向流动,即从输入层,经过隐层(

12、一般有多个),流向输出层。文献指出只要提供充足的神经元和合适的激活函数,前馈神经网络可以任意精度逼近任意的非线性映射。得益于此,前馈神经网络可以有效提取数据的空间结构特征,如感知机、深度自动编码机、卷积神经网络,这些网络均取得了丰硕的研究成果3。3.2 可视化分析技术可视化分析的基础理论包括支持分析过程的认知理论、信息可视化理论以及人机交互与用户界面理论,支持分析过程的认知理论重点研究从大数据中获取信息并形成知识的过程,信息搜索和获取的行为本质是意义构建行为,Pir。山等的信息觅食理论为这种行为提供了理论基础,Card等建立了意义建构循环模型,在信息觅食的基础上搜索并分析潜在的规律和模式并利用

13、它分析解决问题的过程,形成一定决策,Green等以信息发现活动为核心根据人和计算机各自的优势,对分析推理过程中各自的角色进行建模,提出了支持人机交互可视分析的用户认知模型.信息可视化被Card等认为是从原始数据到可视化形式再到人的感知认知系统的可调节的一系列转换过程,或者理解为编码和解码2个映射过程,重点是能瞬间感知大量信息并在真实的基础上具有丰富的表达能力,人机交互与用户界面理论则包括3个模型:任务建模理论模型:支持并辅助用户认知过程,指导可视分析系统的用户界面设计与实现,追求具有多层次多粒度特征并且多领域相关。交互模型:描述用户与系统为了协作完成任务目标,在互动过程中各自的角色与关系、承担

14、的任务以及相互之间的消息反馈与影响,Keim等对人、机两侧承担的最佳任务范畴进行了划分,同时Pike等根据任务的多层次特点,从高层与低层映射的维度建立了信息可视化与分析的交互模型。用户界面模型:定义界面中的各种组成元素以及对于交互事件的响应方式,是任务模型和交互模型的最终实现,对此,PUerta等定义了完备的用户界面模型,时空数据可视化,时空数据可视化对时间与空间维度以及与之相关的信息对象属性建立可视化表征,并对与时间和空间密切相关的模式及规律进行展示,重点解决时空数据的高维性、实时性等特点,典型方法有将时间事件流与地图进行融合并使用边捆绑方法或密度图技术的流地图F1OWmap,以三维方式直接

15、展现时间、空间及事件的时空立方体(space-Iimecube)。多维数据可视化技术.多维数据可视化技术的目标是探索多维数据项(基于传统关系数据库以及数据仓库的应用中具有多个维度属性的数据变量)的分布规律和模式,并揭示不同维度属性之间的隐含关系.散点图(Scauerp1ot)是最为常用的多维可视化方法,投影(projection)尤其是平行坐标(Parane1COOrdinateS)也被广泛使用4。4结束语在现如今,科学技术快速发展的情况下,多种新型技术对于社会各行业的发展都,能够发挥非常重要的作用C在现今的时代背景下,大数据技术是一项能够对社会更好的发展起到非常显著促进作用,提升社会各行业发

16、展速度以及发展稳定性的高新技术之一,因此为了能够使社会各行业得到更好的发展,需要对大数据技术在社会各行业当中的,实际应用以及项目分析作用进行论述C在本段中所述的,在电力系统中应用大数据,的分析技术,对电力系统项目进行建设分析工作,是一项具有实际应用意义的研究。参考文献1卢建昌,樊围国.大数据时代下数据挖掘技术在电力企业中的应用J广东电力,2014,(09):147-148.2衡星辰,周力.分布式技术在电力大数据高性能处理中的应用J电力信息与通信技术,2013,(09):165-167.3郑海东,易武,孙薇庭.大数据及其在电力工业中的应用J农村电气化,2015,(09):98-99.4李振元,李宝聚,王泽一.大数据技术对我国电网未来发展的影响研究J吉林电力,2014,(2):10-13.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服