开源情报可信分析系统的关键模型与技术.docx

资源描述

《开源情报可信分析系统的关键模型与技术.docx》由会员分享，可在线阅读，更多相关《开源情报可信分析系统的关键模型与技术.docx（12页珍藏版）》请在第一文库网上搜索。

1、开源情报可信分析系统的关键模型与技术目录摘要1弓I言11 .开源情报的总体技术框架22 .开源情报分析系统有哪些呢？23 .开源情报收集与分析在行业中的运用44 .开源情报的关键技术54.1. 开源情报采集54.2. 开源情报可信分析74.2.1.基于知识的可信分析方法74.2.2.基于风格语义的可信分析方法84.2.3.基于传播模式的可信分析方法104.2.4.基于情报源的可信分析方法115.结束语11相关文献推荐12摘要搜集和利用开源情报过程中，由于大数据环境下的开源情报存在虚假信息泛滥等问题，因此决策者难以根据搜集的开源情报做出科学论断。为充分挖掘开源情报价值，并对情报的真假进行甄别，需

2、在开源情报分析处理前进行情报可信评估。研究了开源情报可信分析，设计了开源情报可信分析系统的流程与总体框架，总结了开源情报可信分析的关键模型与技术，从而为开源情报可信分析提供参考。引言开源情报(OSINT)指从各种公开信息资源中获取的情报，具有低成本、低风险和高收益等特点。由于开源情报来源广泛，其来源渠道不仅包含权威机构官方媒体发布的新闻报道，还包含社交网络中大量个人或自媒体言论，因此开源情报的质量参差不齐。例如，针对俄乌战争，社交媒体上充斥着各种战况报道，一时无法分清谁是谁非。开源情报的价值依赖于开源情报的质量，因此开源情报的可信度成为开源情报使用的前提。开源情报的可信分析制约着后续的研判与决

3、策，并影响着开源情报价值的有效发挥。在互联网和大数据环境下，开源情报的种类繁多且发布平台各异，可信情报因埋没于虚假数据中而无法直接利用，而人工筛选情报费时费力，有时甚至面临情报过时的风险。因此，急需开发一套开源情报可信分析系统，对开源情报进行快速筛查整理，为事件的发展理出大致脉络进而做出可信判断。1 .开源情报的总体技术框架为了对开源情报进行可信分析，需构建开源情报可信分析系统。开源情报可信分析系统需具备以下功能：1）开源情报获取与识别提取：针对事先定义的主题从多个情报源持续采集最新的开源情报，聚合后存储于数据库；2）开源情报可信分析：从多个角度抽取开源情报可信特征，利用多种方法构建可靠稳定的

4、情报评估模型。开源情报可信分析总体框架如图1所示。2 图1开源情报可信分析总体框架3 .开源情报分析系统有哪些呢?当前，情报信息获取的系统工具有很多，其中较常见且运用的多的有开源情报分析系统、开源网络情报系统、情报大数据平台等，而不同的情报系统其功能上会存在着差异，其系统报价也有所不同。那么，到底开源情报分析系统有哪些呢？目前分析情报软件报价是多少呢？点击下方小卡片填写表单，即可免费领取舆情报告，免费试用舆情系统开源情报分析系统定义是什么？开源情报系统是一种可以合法地从公开渠道搜集分析数据和信息的一种系统工具，主要作用在于助力相关单位收集原始数据，然后进行分析帮助其能够更清楚地了解某些内容，如

5、公众看法，分析相关信息的传播动态变化、预测变化等。一般情况下，开源数据和信息可在许多地方获得，其中大多数可通过Internet访问。点击下方小卡片填写表单，即可免费领取舆情报告，免费试用舆情系统开源情报分析系统有哪些？种类一：信息搜索识别类系统如Hoaxy.OSINT就是一个开源信息搜集和可以用来识别彼此相似的搜索模式的开源搜索工具。种类二：组工具如VerificationJunkie这是一组工具，主要作用在于帮助用户验证和事实检查信息以及评估目击者报告的有效性，可用于数据分析评估。点击下方小卡片填写表单，即可免费领取舆情报告，免费试用舆情系统种类三：大数据舆情监测分析系统如蚁坊软件的鹰眼速读

6、网系统，可实现全网信息自动24小时监测搜集、自动实时挖掘追踪关联信息动态、分析相关情报信息的传播动态变化、网民媒体情感倾向分析、传播声量、来源等等，并自动生成分析报告，供下载导出。分析情报软件报价多少？我们在网上搜索开源情报分析软件报价，可以发现其没有一个公开的明确报价，大多都说软件性能介绍等。其实，这类分析情报软件不同其它的系统软件，其大多数都是依据用户的需求进行报价的，也就是说需求不同其价格自然也有差异的。若想要了解分析情报软件报价多少的话，建议可以去相关的开源情报系统网站去咨询下，或者也可以选择蚁坊软件这类支持免费试用的开源情报分析系统，先试用体验是否符合需求，再考虑后期要不要使用，可以

7、避免无效投入。4 .开源情报收集与分析在行业中的运用开源情报是指通过相关技术手段从公开的网络渠道收集并分析的数据信息。大数据时代，信息量呈爆炸式增长，开源信息的数据来源不仅限于传统的杂志、报纸、广播电视，还包括社交媒体平台、官方网站、各种报告、信息数据库等等。通过开源情报分析我们可以获得大量的信息，对我们生活和工作中都能起到帮助，开源情报工具，具有极其简单的操作，不需要相关规则输入就可以完成采集任务的配置，输入我们的关键词或者我们的目标网址，点选内容就可以完成数据采集。通过我们的开源数据抓取工具，我们可以根据自己需要和想法对我们的开源数据进行抓取和整理，在之前的文章中，我们提到了开源智能的定义

8、、数据源的类型及其在大数据时代的应用。例如我们可以通过开源数据对我们每天的股票数据进行整理，对我们每周餐馆的评论进行收集采集，通过食客的评价，对我们的服务态度、菜品调整和用餐环境等进行提升修改。我们还可以对我们行业的资讯文章进行采集。就拿网站运营来说，通过开源情报工具，我们可以实现网站相关内容的采集，通过输入关键词，我们就可以获得行业或者自媒体大量相关文章，通过批量数据内容整理，我们就可以实现网站内容的自动更新。数据源的增长使得开源数据的研究范围更加广泛，如何找到可靠、高质量的数据源成为开源数据分析中至关重要的一部分。为我们的品牌维护网站或博客可能是一项令人惊讶的劳动密集型任务。许多公司选择使

9、用内容营销服务，而其他公司则决定将其内容营销保留在内部。如果我们正在设计内容策略并希望我们的网站在SERP上面排名很高，那么创建新内容不是我们唯一的考虑因素。我们不能简单地发布新内容并期望旧内容继续“工作”并获得结果是它自己的。虽然有些内容是“常青树”（总是相关且有用），但随着时间的推移，许多内容变得不那么相关（并且对SEO不太有用）。例如，大流行导致十分之九的内容营销人员迅速改变了他们的营销策略。消息传递策略、编辑日历甚至整个网站都发生了变化。为避免我们的内容过时，必须不断对其进行维护。开发网站内容的最有效方法之一是数据采集整理。开源情报数据采集整理是指从站点中删除没有价值的内容的做法。就像

10、我们将树木或树篱修剪成所需的形状和大小一样，数据采集整理会删除任何无关的内容。此内容可能包含过时的建议、与我们当前的品牌形象不兼容，或者根本不再相关。有时可以修剪整个页面，而有时只需要删除某些部分。很少或没有流量的页面通常会被修剪，特别是如果它们的内容超出要求例如，如果它提供的信息价值很少或没有信息价值或己过时。重复内容也经常被删减一一在撰写博客文章时，我们应该始终检查是否存在可以删除和/或更新的同一主题的过去内容。数据采集整理对于在线零售商等非常大的网站来说是必不可少的，并且可以说是一项全职工作。但是，各种规模的网站都需要进行修剪，以确保内容质量高，并为我们的网站增加流量。5 .开源情报的关

11、键技术6 .1.开源情报采集掌握的有效信息量越大，越能接近事实的真相。为构建主题事件完整信息，跟踪事件的发展变化，需从多种公开渠道获取开源情报，为其可信研究提供数据支持。开源情报采集范围应覆盖国内外重要军事新闻网站以及国家官方网站。互联网开源情报采集需使用网络爬虫技术。爬虫按类型分为以下3种：1）批量型爬虫：有明确的抓取范围和目标，爬虫达到目标后即停止；2）增量型爬虫：会持续不断地抓取新网页，并定期更新抓取过的网页；3）垂直型爬虫：选择性抓取与预先定义的主题相关的页面，并在抓取时可对内容进行简单处理。开源情报收集通常聚焦于特定的网站或社交媒体账号，故采用垂直型爬虫技术。垂直型爬虫工作流程如图2

12、所示，在初始化阶段，先将网站、微博公众号和社交账号等的统一资源定位器（UR1）作为种子UR1放入待抓取UR1队列，爬虫开始后，从待抓取UR1队列的队首取出待抓取的UR1,访问UR1并解析出文本、图片和视频存入数据库，再将这些UR1放入已抓取UR1队列，将其中包含的其他UR1放入待抓取UR1队列的队尾，并进入下一个循环直至待抓取UR1队列为空。图2垂直型爬虫工作流程由于需要收集的情报源较多，为了提高开源情报收集效率，需构建一个集群，以分布式方式进行抓取。分布式集群内的不同抓取服务器有对等模式和主从模式2种工作方式。其中，对等模式下的抓取服务器在分工上相同，无主次之分；主从模式下有1台专门的主服务

13、器来维护待抓取UR1队列，负责将待抓取UR1分发到不同的从服务器，监控和平衡从服务器的负载，从服务器负责实际的网页抓取和解析工作。虽然上述2种方式均可提高开源情报收集效率，但对等模式工作方式的可扩展性较差，因此本文采用主从模式工作方式。主从模式工作方式示意图如图3所示。从节点图3主从模式工作方式示意图4.2.开源情报可信分析宏观层面上，情报可信分析方法分为定性和定量2类可信分析方法。定性的可信分析方法对收集的资料进行归纳整理，从而对事物的本质得到一个可解释的理论，其分析方法根据集合形态分为清晰集、模糊集和多值集3种类型。定性分析方法能够处理的样本量较少、可操作性较弱且易受主观因素影响，因此主要

14、用于社科领域研究。定量的可信方法以情报本身和情报传播者相关理论为基础，对自然语言处理、数据挖掘和深度学习等领域的研究成果进行分析，包括基于知识的可信分析方法、基于风格语义的可信分析方法、基于传播模式的可信分析方法以及基于情报源的可信分析方法。4.2.1.基于知识的可信分析方法基于知识的可信分析方法通过验证开源情报中的知识是否与事实一致来检测情报的真假。该方法中的知识通常用由主体、谓词和客体组成的三元组表示，而事实就是被验证为真相的三元组。基于知识的可信分析方法需要事先构造知识库，知识库以知识图谱的形式存储事先验证为真相的事实，主体和客体以节点表示，表征主体和客体之间关系的谓词以边表示。按知识来

15、源划分，知识库分为基于单情报源的知识库和基于多情报源的知识库。基于多情报源的知识库需解决信息冗余和冲突等问题，因此其构建效率较低，但由于该知识库的信息来源广泛且覆盖率高，库中的知识比基于单情报源的知识库更加完全。因此，需构建基于多情报源的知识库。在构建基于多情报源的知识库之后，文献采用匹配法对情报进行验证，先将1条情报抽取成多个由主体、谓词和客体组成的三元组，再将每个三元组与知识库中的三元组进行比较并得到匹配概率，最后聚合该条情报所有三元组的匹配概率，并利用加权或算术平均计算得到该条情报的可信度。可信度数值大小代表可信的程度，1表明完全可信，O表明完全不可信。除了匹配法外，知识的表示也可作为机

16、器学习方法的输入。文献提出了基于知识表示算法和循环神经网络(RNN)的情报可信分析模型，该模型将知识图谱技术应用于情报可信分析，以三元组形式表示情报，先用知识表示算法将图谱中的实体、属性和关系映射到低维向量空间，再使用RNN对多级关联关系进行聚合，最后采用路径可靠性算法对图谱中2个节点间的多条可信路径进行加权计算。4.2.2.基于风格语义的可信分析方法基于风格语义的可信分析方法针对开源情报的内容，利用机器学习或深度学习方法学习情报内容的风格和语义，从而得到可信评估模型。针对1条开源情报，可采用可以量化的机器学习特征来表示。特征既包含文本特征又包含图片视频中的视觉特征。对于文本形式的情报，其特征分为一般特征和潜在特征2类。其中，一般文本

展开阅读全文