《大数据技术下的网络舆情分析系统.docx》由会员分享,可在线阅读,更多相关《大数据技术下的网络舆情分析系统.docx(4页珍藏版)》请在第一文库网上搜索。
1、大数据技术下的网络舆情分析系统随着Web2.0的发展,人们交流更加便利,互联网成为思想文化和社会舆论的重要传播渠道。同时,互联网每天产生的数据也以PB规模增加,大大增加了舆情信息的挖掘难度,预示着网络舆情分析也正式步人了大数据时代。网络舆情是社会舆情在网络空间上的映射,对出现的虚假有害信息不加控制,任其肆意传播,极易引发重大群体性事件,不利于社会稳定。基于此,本文在分析大数据及网络舆情相关概念和特征的基础上,将大数据处理技术应用到网络舆情分析中来,构建了基于大数据的网络舆情分析系统模型,描述了系统各组成模块功能。0前言据中国互联网络信息中心(CNN1C)发布的第34次中国互联网络发展状况统计报
2、告显示:截止2014年6月30日,我国网民规模达6.32亿,互联网普及率为46.9%,博客和微博的使用率分别达到70.3%和43.6%,使用社交网站和网络论坛的网民规模超过3.8亿,70%以上的网民频繁在互联网上发表言论并进行话题讨论,充分表达思想观点和利益诉求。互联网已逐步成为思想文化信息的集散地和社会舆论的放大器。同时,每天以PB规模增长的数据也为相关部门对网络舆情的管理和态势研判带来了很大困难。网络舆情是各种社会群体对自己关心或与自身利益相关的热点事件或事物所表现出来的具有一定影响力并带有倾向性的认知、情绪、态度和意见的总和。具有广泛性、突发性、主观性、多元性四个特征。广泛性是指参与人员
3、类型和地域广泛;突发性指舆情事件一旦发生,就会很快成为引发社会舆论的导火索;主观性体现在舆情信息带有极大的情绪化和非理性因素;多元性表现在信息内容、传播途径和表达方式、意识形态和观点内容三方面。因此,如何在大数据时代从互联网海量信息中及时发现舆论热点和各类事件发展趋势,已成为各级政府部门和研究机构十分关心的问题。本文在分析大数据及网络舆情概念和特点的基础上,构建了基于大数据的网络舆情分析系统模型,并对舆情处理技术进行具体分析。1大数据和网络舆情1.1 大数据概述大数据指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。其
4、特征可用四V来概括:第一,数据量巨大(Vo1Ume);第二,数据类型繁多(Variety);第三,价值密度低(Va1Ue);第四,流通速度快(VeIocity)OHadooP作为大数据处理平台,具有高可靠性、高效性、可伸缩性三大特征。高可靠性体现在:当某一存储节点瘫痪时,仍可以从其他节点的副本中获得数据;高效性体现在:利用HDFS分布式文件系统,提高应用程序数据访问的吞吐量,通过MaPRedUCe并行编程模型实现并行计算,大大提高了处理速度;可伸缩性是指:HadoOP可以构建在许多廉价的计算机集群上,对硬件设施的要求低,可按任务需求增加处理节点。1.2 网络舆情概述网络舆情的处理,可分为信息采
5、集、信息预处理、舆情分析、舆情预警四个步躲完成。其中,信息采集利用网络爬虫技术完成;信息预处理主要包括网页净化、网页内容抽取、中文分词、文本向量化及特征表示、特征抽取;舆情信息分析涉及话题识别和跟踪、文本倾向性分析、热点发现、自动摘要等技术。目前常用的网络舆情分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题监测方法等。国外,IBM公司设计的话题检测系统运用两次聚类策略,在计算两篇新闻报道的相似性后,把新闻报道归人不同的子话题簇中,在一定的延迟时间后,将该新闻报道加人最终话题簇。与此同时,国内市场上也涌现出大量网络舆情监测分析平台和软件,比较知名的有人民网舆情监测平台、方
6、正智思互联网舆情监控系统、TRS网络舆情监控系统、军犬网络舆情监控系统、邦富互联网舆情监控系统等。此外,百度指数、百度舆情等趋势分析服务也越来越多被人们关注和使用。在分析技术方面,话题检测和文本倾向性分析仍是研究热点。2大数据技术下网络舆情分析系统的设计2.1设计原则大数据时代,网络数据对舆情分析系统模型的设计提出了新的挑战,大数据环境下的舆情分析系统要满足以下要求:(1)信息抓取的全面性。随着数据集合规模不断扩大、类型不断增多、网页数量不断增长,对舆情信息抓取的全面性和效率提出了新的要求,要从包含网页、视频、音频、图片等各种类型半结构化或非结构化数据中抓取有用信息,需要采用大数据存储技术和新
7、型网络爬行器。(2)信息处理的时效性。网络舆情在大数据环境中流动和变化速度非常快,传统的舆情分析系统难以去处理,舆情信息自身的状态与价值也会随着时空变化而不断发生演变。同时,由于隐藏在海量数据中的舆情信息并没有在数据量呈指数增长的同时呈现相应比例的增长,从而使获取舆情信息的难度加大。(3)分析结果的准确性。正确的网络舆情分析结果可以帮助政府机关和相关企业及时发现、跟踪、监控网络媒体上人们关注的热点问题和重大新闻,能够为相关部门提供决策支持,可及时了解负面舆情的爆发,快速启动应急处理来化解网络舆论危机,维护社会稳定。2.2结构设计基于以上需求,本文设计的网络舆情分析模型主要由信息采集、信息预处理
8、、舆情分析、舆情报告四个大的模块组成,这四部分构成一个完整的网络舆情分析的生命周期。设计该模型遵循的基本原则是:充分利用大数据平台和技术,最大限度提高舆情处理效率。因此,本文将舆情分析系统构建在Hadoop平台上,应用HDFS分布式文件系统和MapReduce编程模型实现系统中数据的存储和处理。同时,期望该模型能够达到以下目标:实现海量网络舆情数据的自动采集、分析和处理,及时发现舆论热点和各类事件发展趋势。模型的总体处理流程设计如下:(1)信息采集模块位于系统最低层,主要是利用网络爬虫从互联网上抓取网页信息。首先指定UR1采集入口列表并建立UR1白/黑名单,然后爬虫根据指定的UR1入口列表爬取
9、白名单网页并存储到本地,避免无用网页的爬取。图1信息采集模块流程图(2)信息预处理模块位于系统第二层,主要任务是将采集的原始网页转化成格式化文本存入数据库。首先将采集到网页信息进行去重、消除噪声等处理,然后从网页中提取出正文信息,利用中文分词技术将采集到的文本字符串进行切割,转化成单个的词条,这些词条被称为该文本的特征项。最后利用向量空间模型、概率模型等数学模型对特征项文档进行特征抽取形成文本向量集,为后期舆情分析过程中进行排序、比较、计算等操作提供便利。(3)舆情分析模块是网络舆情分析系统的核心模块,主要完成话题识别、话题跟踪、文本倾向性分析、热点发现功能。话题识别即对文本向量集进行机器学习
10、,将关于同一事件的大量文档进行汇总聚类,识别出文档的主要话题。话题跟踪即对每一个后续更新的向量化文本进行相似性计算,判断该文本是否与某一已存话题相关,如果相关则把该文本归类到这一话题中,不相关则算作新话题。文本倾向性分析可通过计算机挖掘网络文本内容蕴含的各种观点、喜好、态度、情感等非内容或非事实信息获取文本语义,帮助相关部门及时发现负面舆情。通过统计话题出处权威度、评论数量、转载次数、发言时间、密集程度等参数可以发现给定时间段内的热门话题,并根据热度排序,方便用户查看。图2舆情分析模块流程图(4)舆情报告模块作为系统的上层输出模块,主要根据舆情分析结果生成分析报告,并将分析报告以短信、邮件等形式反馈给决策者或舆情监督部门,为管理和决策提供支持。3结语本文在分析大数据和网络舆情相关理论和技术的基础上,构建了基于大数据的网络舆情分析系统模型。但是,当前对于舆情信息分析研究还主要集中在对文本舆情的分析上,对图片、音频、视频等多媒体载体所包含的舆情信息挖掘效果并不理想,还有待于进一步研究,以便大数据技术在网络舆情分析中能更有效的被应用。