《企业舆情监控与分析系统建设技术方案书.docx》由会员分享,可在线阅读,更多相关《企业舆情监控与分析系统建设技术方案书.docx(43页珍藏版)》请在第一文库网上搜索。
1、企业舆情监控与分析系统建设技术方案书目录第一章总论41 .项目背景概述42 .项目建设必要性43 .建设目标54 .用户及系统现状65 .存在的问题描述76 .本期功能需求的描述9第二章建设内容和方案131建设方案131.1监控数据源范围新增1312Pa虫功能新增141.2.1 Pa虫引擎性能提升141.2.2 Pa虫任务管理界面151.2.3 升级爬取文本存储数据库161.2.4 新增模拟手机访问爬取16125应对反Pa虫的策略17125.1 应对微信的反Pa虫17125.2 应对微博的反Pa虫171.1 .5.3其他应对反Pa虫的技术181.3 网站改版监测功能新增181.4 关键字自定义
2、功能新增181.5 语义解读和分析功能新增19151关系抽取算法191.5.2知识库构建191.53聚类分析模块191.5.3.1聚类201.53.2关键词聚类201.5.3.3 聚类报告201.5.3.4 聚类规则201.5.3.5 话题挖掘201.53.6舆情聚类分析20154标签分类功能新增21154.1 人工标签标注功能21154.2 语义标签分析功能211.6 舆情处理结果统计功能新增21161统计图表展示221.7 舆情模块新增221.7.1 舆情工单功能221.7.2 工单统计功能231.7.3 工单任务超时告警231.8 舆情专项报告功能新增232技术先进性及技术难点312.1
3、 PA虫性能升级312.1.1 去队列化分布式Pa虫引擎312.1.2 文本信息存储数据库332.2 语义港I技术34221关系抽取算法342.3 内容分析技术362.3.1 词典匹配法362.3.2 词向量训练法362.3.3 知识库构建372.4 舆嗡析技术382.4.1 内钳示签标注382.4.2 信息可视化技术403界面图例41第一章总论1 .项目背景概述随着互联网及智能手机应用的普及,中国的网民数量及活跃热度正逐年上升。近两年社会热点事件背后无不包含网络舆情的大力推动,因此如不及时对一些负面的舆情采取正确的措施分析和应对,会造成难以估计的后果。在新的互联网形势下,面对这样的困扰,需要
4、借助互联网舆情监测工具及时监测、汇集、研判网上舆情,引导舆论方向,化解危机舆论。跟踪事态发展,及时向有关部门通报快速应对处理,变被动为主动,使网络舆情成为领导和相关部门决策的重要依据。利用舆情监测系统平台,配合相应的舆情工作机制,听取广大群众的心声。另外互联网所承载的大数据给企业和投资者提供了巨大的信息宝库,如何在浩如烟海的数据中找出可供企业决策的信息及业务扩展的新热点,需要从宏观数据分析到针对特定行业,领域,产品,采购需求的研究分析,帮助企业了解掌握行业的现状和趋势,对企业的经营决策提供指导性的数据统计和分析,增强企业的竞争能力和业务拓展能力。而舆情正是用户表达诉求最直接,最真实的方式,妥善
5、利用和管理对企业至关重要。2 .项目建设必要性本期舆情系统功能建设将着力在数据抓取、分析、舆情的分析与利用、业务处置流程方面。目前系统检测范围包括新浪微博、微信、知乎、百度贴吧及几个重要网站。对新媒体检测能力还比较有限,网站监测目前仅覆盖若干门户网站,数据量的不足不能保障全面的了解热点舆情发展的动向和传播趋势,因此,本期扩容将囊括更大的监测范围,引入更大数量的监测数据。而现有的Pa虫引擎技术为较早期技术,功能上有不少短板,例如不支持https协议。为此,系统将升级现有的Pa虫引擎,利用最新Pa虫技术,提升系统检测范围和监测数据量。并对Pa虫管理进行优化,增加对微博、网站反Pa虫技术的应对策略。
6、针对现有系统聚类分析弱的问题,要从根本上解决问题必须从问题源头上着手。具体措施包括升级语义识别模块、构建知识库以便语义分析模块能从舆情内容中提炼出聚类分析所需的语义主体和上下层关系。并引入内容标签技术、事件聚类分析算法等技术。利用舆情聚类技术实现关注舆情热点,连续跟踪事态发展,能回溯事件并由系统自动分析完成事件专项报告。本期将升级舆情结果展示模块,利用信息可视化技术及图形优化界面提升管理员业务能力。3 .建设目标针对三期系统上线运行以来遇到的各种情况、行业技术发展的潮流,计划202X年对系统进行四期扩容改造,要求实现以下功能:1、数据源范围:各大知名网站、贴吧、论坛及新媒体信息数据的抓取。百度
7、搜索、微信搜索等元搜索数据的抓取。微博数据的Pa虫抓取能力。2、提供Pa虫功能。能够支持100+线程,1亿+量级页面(具体性能指标以完成数据抓取要求为准13、应对网站改版后的数据完整性要求。针对网站经常结构化改版导致数据缺失的情况,系统提供改版监测功能。如有改版,系统能主动通知管理人员修改Pa虫设置。系统应有能力应对网站改版后的数据完整性要求。4、具备关键字定义功能。关键字的增删改查、爬取优先级设置等。5、具备语义信息的解读与分析能力。在人工对数据标签分类的基础上,系统根据人工分类标签,通过语义分析研判,对舆情信息给出自动分类标签。6、具备舆情信息处理结果统计功能。对舆情信息按正负面、分类、周
8、期等维度进彳亍统计,并按要求输出各类统计图表。7、具备舆情工单派发、处理、上报、统计功能。工单支持多人同时处理,避免工单处理超时;出现高危舆情及时告警;对工单处理情况、超时情况进行统计。8、具备舆情专项报告功能,系统可以将已聚类的事件进行跟踪、回溯、分析、自动生成专项报告。4 .用户及系统现状舆情系统用户目前约30人,忙时为每工作日下午15:00-17:00时。尤其是周一、周五和月末、节前相对较忙,因系统需要生成各种报表、图表,系统响应速度较慢。并且各类报表仍旧需要人工加工处理;原先使用的语义分析算法无法提取舆情信息中的主体关系,聚类分析能力弱,提升难度很高且潜力非常有限。舆情数据源覆盖范围仍
9、十分有限。受限于微博、微信和其他网站的反Pa虫策略,每天爬取的数据严重受限,部分监测地址仍需人工导入系统。业务流程对人工依赖性强,任务超时现象时有发生。5 系统三期建设完成情况:6 .存在的问题描述随着舆情监测三期系统的使用,从操作部门到管理部门,在长时间使用系统后,都对进一步完善系统功能有强烈需求,主要表现为以下几点:舆情监测源覆盖范围有局限性。目前系统主要的信息渠道包含新浪微博、微信公众号、百度贴口呀口部分重点门户网站及论坛的监测。检测范围及检测信息数量有限,不能更完整的实现全网范围的事件检测。新浪微博的数据获取比较依赖洛神接口,但是接口能力非常有限,使得每日数据获得次数和获得量都严重受限
10、,不得不压缩监测关键字范围和频次。目前新浪微博、微信和不少网站都设有反Pa虫机制,例如微博会监测用户账号,对高频爬取的账号进行屏蔽。同样微信会对IP地址进行监测。这些反Pa虫措施严格限制了现有Pa虫的爬取速率,还需要人员定时维护,检查账号是否正常。 Pa虫任务管理不够人性化,不少网站还需手动导入地址,不能自动循环爬取或按管理计划自动爬取。 数据采集能力严重不足,Pa虫工具技术较老旧,性能不能满足当前需求。例如:现有Pa虫基于JavaScript架构,在该架构下无法爬取https页面内的http链接。 爬取的文本信息目前保存在egg数据库中,egg为国内自主开发的开源数据库系统,技术上虽有有一些
11、可取之处,但也暴露出不少问题,如:版本维护较混乱,egg-mysq1封装得不完善,很多情况下需要写原生的sq1才能解决问题。服务器部署上线后,egg的更新没有安全的re1oad方案,导致必须先停止再启动,容易使数据丢失。另外应对大数据量时对服务器资源(CPU使用率和内存占用)消耗很高。 对于网页结构化改版,需要维护人员不断人工监测网页是否有改版,再看是否需要人工调整Pa虫规则,占用大量人力。 语义识别能力需要升级,目前聚类分析能力弱,如对微博的传播范围及影响力不能具体分析。无法实现对各渠道的信息进行分析提炼和汇总,自动汇聚为舆情热点;对于舆情传播数据缺乏持续监控,无法提供舆情扩大化预警;数据统
12、计分析维度还比较单一,无法满足更精确的报告统计要求,等等。 舆情处理流程还需进一步优化,目前系统还需要大量人工介入处置,难以适应大数据量背景下的处置要求。 对舆情信息的提取大量需要人工识别和分类,效率很低,无法处理大数据信息源。对舆情研判的结果仅呈现正/负面及数量这两个维度,无法提炼出更多信息和可供决策者参考的信息。 舆情事件报告必须由人工编写,大量的统出口回溯事件给处置人员带来不小的工作量。 .本期功能需求的描述针对三期运行以来遇到的各种不足以及如今舆情监测工作提升的需要,我们计划在本期主要完成以下功能:1、大幅拓展数据源范围:增加各大知名网站、贴吧、论坛及新媒体信息数据的抓取,内容包括:各
13、大知名网站、贴吧、论坛及新媒体信息数据的抓取。百度搜索、微信搜索等元搜索数据的抓取。微博数据的Pa虫抓取能力。2、升级Pa虫引擎:采用基于Java的去队列化分布式Pa虫引擎,Pa虫能够支持100+线程,1亿+量级页面(具体性能指标以完成数据抓取要求为准升级爬取文本信息存储索引的数据库系统,使之更有利于大数据检索和智能分词模糊匹配的使用场景。优化Pa虫管理界面,增加Pa虫计划列表和优先级管理,支持Pa虫网站导入操作。Pa虫工具增加对模拟手机内嵌浏览器访问的支持,使系统能对仅支持WAP或手机格式浏览的数据进行监测。Pa虫工具增加对反Pa虫技术的应对和维护,目前微博、微信及不少其他网站都设置了反Pa
14、虫策略,导致Pa虫工具效率不高,还需要人员定时维护。本次扩容将通过技术手段应对网站的反Pa虫策略。3、新增应对网站改版后的数据完整性要求。针对网站经常结构化改版导致数据缺失的情况,系统提供改版监测功能。使得Pa虫能主动分析和监测微博微信是否有结构化改版,如有改版,系统能主动通知管理人员修改Pa虫设置。4、新增关键字定义功能。关键字的增删改查、爬取优先级设置等。5、系统具备各类语义信息的解读与分析能力:在人工对数据标签分类的基础上,系统根据人工分类标签,通过语义分析研判,对舆情信息给出自动分类标签。6、新增舆情信息处理结果统计功能。对舆情信息按正负面、分类、周期等维度进彳亍统计,并按要求输出各类
15、统计图表。7、新增舆情工单派发、处理、上报、统计功能。工单支持多人同时处理,避免工单处理超时;出现高危舆情及时告警;对工单处理情况、超时情况进行统计。8、新增舆情专项报告功能,系统可以将已聚类的事件进行跟踪、回溯、分析、自动生成专项报告。三期成果四期新增或升级结果展现模块统计报表新增舆情聚类报告传播路径拓扑图优化统计报表图形化用户处理界面新增舆情专项报告和多维分析后台管理界面媒体统计分析数据处理人工处理流程升级爬取文本存储数据库舆情上报新增关系抽取舆情直询新增舆情知识库竞争情报处理新增内容标签标注功能舆情热点走势新增关键字聚类舆情热点发现新增话题深度挖掘舆情预警情感倾向判断舆情过滤舆情分类站内即时通讯退单批量处理重审批量处理数据采集模块数据接口升级Pa虫引擎微博及回复新增Pa虫计划执行模块网站、论坛新增Pa虫定时和优先级管理知